Nous sommes ravis d'annoncer la publication de "La sécurité par la mesure : une revue systématique de la littérature sur les méthodes d'évaluation en sécurité de l'IA" !
Cet article est conçu comme le chapitre 5 d'une collection complète de revues de la littérature et de synthèses formant l'Atlas de la sécurité de l'IA - une référence centrale pour quiconque souhaite comprendre les évaluations et leur place dans le paysage plus large de la sécurité de l'IA.
Alors que les systèmes d'IA de pointe progressent vers des capacités transformatrices, une évaluation fiable de la sécurité devient nécessaire pour un développement responsable et une gouvernance éclairée. Cette revue de la littérature fournit une taxonomie complète des évaluations de la sécurité de l'IA, abordant trois dimensions clés :
Nous clarifions des distinctions importantes entre des concepts souvent confondus comme la tromperie, la manigance et les hallucinations, tout en donnant un aperçu de nombreuses autres capacités critiques pour la sécurité comme l'exploitation de la cybersécurité et la réplication autonome. L'article explique également les propensions préoccupantes comme la recherche de pouvoir, et les évaluations du contrôle qui vérifient si les mesures de sécurité restent efficaces lorsque les systèmes d'IA tentent activement de les contourner.
Nous passons en revue certains principes pratiques de conception d'évaluation, en examinant comment les "affordances" (ressources disponibles pendant les tests), les approches de mise à l'échelle (y compris l'automatisation et les évaluations rédigées par des modèles) et les méthodes d'intégration (par la formation, la sécurité et les audits de gouvernance) peuvent être combinées pour créer des cadres de sécurité robustes.
Nous soulevons également certaines limitations auxquelles les évaluations de sécurité pourraient être confrontées, notamment des choses comme - le "sandbagging" du modèle (sous-performance stratégique lors des tests), le "safetywashing" organisationnel (présenter à tort des améliorations de capacité comme des avancées en matière de sécurité), ou les défis inhérents plus fondamentaux de prouver l'absence plutôt que la présence de capacités.
Nous souhaitons exprimer notre gratitude à Maxime Riché, Martin, Fabien Roger, Jeanne Salle, Camille Berger et Léo Karoubi pour leurs précieux retours, discussions et contributions à ce travail.
La version site web et le pdf sont accessibles ici.