BELLS : projet de benchmark pour évaluer la fiabilité des systèmes de supervisions des LLMs

Le CeSIA est fier d'annoncer le premier prototype de BELLS, un ensemble de benchmarks pour évaluer la fiabilité et généralité des systèmes de supervision pour grands modèles de langages (LLM).

Pourquoi BELLS ?

Suite à une augmentation fulgurante des capacités des LLMs, de nouvelles applications deviennent possibles en intégrant ces modèles au sein de systèmes plus complexes, plus autonomes et ayant plus de possibilités d'action directe sur le monde.
Si les applications conversationnelles telles que ChatGPT ont pris le monde par surprise il y a un an et demi, ces simples chatbots se sont depuis transformés en systèmes augmentés par une multitude de capacités. Ces modèles ont désormais accès à des bases de données (les “RAG”), à internet, à des outils tels que les 700+ plugins disponibles pour ChatGPT, et ils ont la possibilité d'exécuter du code.
Plus de possibilité d'interaction avec le monde, certes, mais aussi plus d'autonomie, avec l'avènement des agents tel Devin, qui, une fois lancés, établissent des plans, utilisent des outils et peuvent même donner des instructions à des copies d'eux-mêmes pour paralléliser les tâches.

C'est un problème ça ?

Oui, en grande partie. Cela permet de débloquer l’accès à des problèmes trop difficiles pour un LLM seul, mais ces systèmes sont développés et déployés très rapidement. Leurs interactions complexes et le manque de robustesse inhérent des LLMs ouvrent la porte à de nombreux nouveaux problèmes lors de leur déploiement. Par exemple :

Indirect prompt injections : un agent résume une page internet, mais la page contient des instructions pour envoyer le dernier e-mail de l'utilisateur à l'auteur du site. L'agent obtempère.
In context reward hacking : un agent devant écrire des tweets populaires récupère ses tweets précédents et les rend plus controversés, augmentant ainsi l'engagement, mais aussi la toxicité.
Many-shot jailbreak : une méthode de jailbreak venant d’être découverte utilisant de nombreuses répétitions d’instructions et permettant de contourner les sécurités actuelles des modèles.
Glitch tokens : Certains mots étranges font se comporter un LLM de façon totalement incohérente à cause d’un souci technique non repéré pendant plusieurs mois.

Pour détecter lorsque de tels problèmes surviennent durant une interaction avec un utilisateur, divers outils de supervision sont développés, comme Lakera Guard, Llama Guard ou Perspective AI. Ces outils regardent tous les textes qui entrent et sortent des LLM et prédisent si les problèmes ci-dessus peuvent survenir.

C'est là que BELLS intervient ! 🔔

BELLS permet de répondre à trois besoins importants :

Le besoin d'évaluer la fiabilité des outils de supervision et permettre de les comparer. Nous souhaitons créer une compétition à la performance dans la détection d'anomalies.
Le besoin de stimuler le développement d'outils de supervision plus généraux, capable de détecter des erreurs de nature encore inconnues.
Le besoin de stimuler le développement d'outils de supervision qui fonctionnent avec une grande variété d'applications, du chatbot à l'agent autonome en passant par les LLMs augmentés d'outils.

Comment BELLS permet le développement de systèmes de supervision à l'épreuve du temps ?

BELLS est un dataset de nombreuses traces d'exécution d'applications contenant des LLMs, c'est-à-dire le détail de tout le texte en entrée et sortie de ces LLMs. Certaines traces présentent des anomalies, les autres sont normales. L'objectif pour les systèmes de supervision est de détecter quelles traces comportent des anomalies.

L'objectif de BELLS est de contenir des traces variées, avec de nombreux types d'anomalies, afin de nourrir le besoin n°2, et à travers diverses architectures, pour nourrir le besoin n°3.

Est-ce que je peux utiliser BELLS ?

Oui ! Mais ce premier prototype est très limité, et a vocation de recherche. Il comporte uniquement des traces générées à partir de l'environnement MACHIAVELLI, permettant d'évaluer différentes composantes morales des actions d'agents dans des scénarios textuels d'aventures "dont vous êtes le héros".

Le but de cette version initiale est d’amorcer des collaborations avec les différents acteurs du domaine. Nous travaillons activement pour enrichir BELLS avec :

Un test basé sur BIPIA, pour détecter les indirect prompt injections et comparer les systèmes de détection actuels.
Un test prospectif de détection de jailbreak par AsciiArt basé sur ArtPrompt, pour évaluer la détection de failles émergentes.
Un système de supervision générique capable de détecter un large éventail de modes de défaillance connus et inconnus, afin d’établir un point de référence dans la supervision générique application basée sur LLMs. Cela fournira une base permettant aux développeurs et développeuses de construire des systèmes de protection plus fiables, robustes et à l’épreuve du temps.

Le code de BELLS est disponible sur GitHub, le papier est disponible sur arXiv, et une visualisation interactive des traces est consultable ici.

Lire la note technique Lire la note technique



Article précédent

Nous publions le premier chapitre de notre cours : Les capacités des IAs

Article suivant

[English Version] Il est urgent de définir des lignes rouges à ne pas franchir



BELLS : projet de benchmark pour évaluer la fiabilité des systèmes de supervisions des LLMs

Nous publions le premier chapitre de notre cours : Les capacités des IAs

[English Version] Il est urgent de définir des lignes rouges à ne pas franchir

S'inscrire à notre newsletter