Panorama

Sections

Capacités de l’IA

« Il semble probable qu'une fois que la pensée des machines aura pris son essor, celles-ci ne tarderont pas à dépasser nos modestes facultés. […] À un certain stade, dès lors, nous devrions nous attendre à ce que les machines prennent le contrôle. »

Alan Turing, 1951

L'intelligence artificielle (IA) a connu une transformation spectaculaire au cours des dernières années, passant de systèmes spécialisés à des modèles capables d'accomplir une diversité croissante de tâches toujours plus complexes. Cette tendance, loin de ralentir, accélère, déjouant régulièrement les prévisions des spécialistes et soulevant des questions fondamentales sur les capacités futures de cette technologie et sur les implications de son déploiement à grande échelle.

L’IA progresse à une vitesse exponentielle

Longtemps cantonnée à des domaines spécialisés, les grands modèles de langage (LLM) ont considérablement accru la diversité et la complexité des tâches accessibles à l’IA. Chaque année, l’IA surpasse les capacités humaines dans de nouveaux domaines. Chaque année, l’IA réalise des avancées plus importantes que l’année qui précède. Parmi les meilleurs spécialistes mondiaux de cette technologie, nombreux sont ceux qui s'attendent à ce qu’elle dépasse toutes les capacités cognitives humaines d’ici quelques années seulement.

Quels sont les progrès récents de l’IA ?

Afin d'évaluer objectivement les progrès de l'IA, les chercheurs définissent des capacités mesurables au moyen d’évaluations standardisées appelées benchmarks. Ces benchmarks couvrent un large éventail de tâches, depuis la compréhension du langage naturel à la résolution de problèmes mathématiques en passant par l’écriture de code informatique ou la reconnaissance d'images.

Figure: Évolution de la performance des modèles d’IA les plus performants selon différentes évaluations standardisées entre 2000 et 2024. L'IA progresse de plus en plus rapidement, développe sans arrêt de nouvelles capacités, et atteint voire dépasse les capacités humaines dans un nombre croissant de domaines.
Source : Rapport international sur la sûreté de l'IA

Voici quelques exemples des progrès spectaculaires réalisés par l’IA au cours des dernières années :

Dans le domaine de la génération d’images, en 2021, les meilleurs modèles disponibles produisaient un dessin confus et pixelisé en réponse à la requête d’un utilisateur. Dès 2023, ils étaient capables de produire des images réalistes difficiles à distinguer de photographies authentiques. En 2025, les modèles de pointe produisent des vidéos ultra-réalistes en haute résolution.
En mathématiques, les meilleurs modèles de langage disponibles en 2020 étaient incapables de multiplier entre eux deux nombres à trois chiffres. Mi-2025, les entreprises développant des modèles de pointe revendiquent la médaille d’or aux olympiades internationales de mathématiques.
En sciences, sur le benchmark GPQA Diamond (un QCM de niveau doctorat en biologie, physique et chimie), GPT-4 obtenait en 2023 des résultats à peine supérieurs au hasard. Fin-2024, le modèle o1 atteignait 70% de bonnes réponses, égalant les performances de doctorants dans leurs domaines respectifs. Mi-2025, les modèles de pointe approchent un score parfait dans tous les domaines.

Comment expliquer ces progrès spectaculaires ?

Les performances des modèles d’IA croissent de manière relativement prévisible à mesure que l’on augmente leur taille (nombre de paramètres), la quantité de données d’entraînement (training data) et la puissance de calcul mobilisée pour leur entraînement (training compute) : on parle de lois de mise à l’échelle, ou scaling laws.

Il ne s’agit pas de lois physiques fondamentales, mais de relations observées empiriquement qui se sont avérées remarquablement justes au cours des dernières années. Elles indiquent une forte corrélation entre les ressources investies dans les modèles et les performances démontrées par ceux-ci.

Ainsi, les progrès récents de l’IA reposent très largement sur le progrès exponentiel de plusieurs facteurs sous-jacents :

La quantité de calcul mobilisée pour l’entraînement des modèles de pointe est, en moyenne, multipliée par 4 fois tous les ans.
La taille des jeux de données de pré-entraînement est multipliée par 2,5 fois tous les ans.L’efficacité algorithmique de l’entraînement est, en moyenne, multipliée par 3 tous les ans.
Ces facteurs se combinent pour produire une amélioration exponentielle des capacités de l’IA. En comparaison des modèles d’IA les plus performants de 2020, les plus grands modèles de 2025 possèdent 100 fois plus de paramètres et mobilisent 100 fois plus de données et 1000 fois plus de calcul pour leur entraînement.

Les progrès de l’IA ne vont pas s’interrompre

L’IA n’est-elle pas limitée par l’intelligence humaine ?

Bien que l’intelligence humaine soit à l’origine de l’intelligence artificielle, il n’existe aucun argument scientifique permettant d’affirmer que l’intelligence humaine constitue une borne supérieure pour l'IA. Contrairement à un logiciel traditionnel explicitement programmé pour effectuer une tâche, les systèmes d'IA modernes, en particulier ceux basés sur l'apprentissage profond, sont entraînés en étant exposés à d'immenses quantités de données, en « jouant » contre eux-mêmes et en interagissant avec leur environnement.

Par exemple, AlphaZero, développé par DeepMind, a appris à maîtriser des jeux complexes comme le Go et les échecs en partant de zéro, sans aucune connaissances ni données préalables en dehors des règles du jeu. En jouant des millions de parties contre lui-même, le programme a peu à peu redécouvert les stratégies de jeu existantes, inventé de nouvelles stratégies et finalement surpassé très largement les meilleurs joueurs humains et les programmes spécialisés existants (Silver et al., 2018) après seulement quelques heures d’entraînement. L’IA peut donc atteindre des niveaux de performance surhumains sans être limitée par les connaissances ou les approches humaines.

Peut-on prédire les performances futures de l’IA ?

Bien que les lois de mise à l’échelle ne permettent pas de prédire précisément quelles nouvelles capacités l’IA va développer, ni quand, elles permettent toutefois d’anticiper un progrès exponentiel des capacités de l’IA.

Les lois de mise à l'échelle permettent d'extrapoler des tendances générales de progrès des performances avec une certaine confiance, tant que les ressources – calcul, données, taille du modèle – continuent d'augmenter. Elles ont permis aux laboratoires d'IA de planifier des investissements massifs en anticipant des progrès ininterrompus. Tandis que l'émergence de capacités qualitativement nouvelles – par exemple, la capacité à raisonner en plusieurs étapes ou à générer du code fonctionnel – est souvent une surprise, l’augmentation des performances aux évaluations existantes est prévisible et systématiquement confirmée empiriquement.

Les progrès de l’IA ne risquent-t-il pas de se heurter à des limites ?

Entraîner des modèles de plus en plus gros et complexes nécessite des quantités toujours croissantes d'énergie, de données et de puissance de calcul. Cela soulève des questions sur l’existence d’éventuelles limites à cette croissance exponentielle.

Initialement, une préoccupation majeure était que la quantité de données de qualité disponibles sur Internet pourrait bientôt être épuisée, limitant ainsi l'entraînement des futurs modèles. Cependant, la recherche sur les données synthétiques progresse rapidement. Il s'agit de données générées par d'autres IA, qui peuvent être utilisées pour entraîner de nouveaux modèles. Si la qualité et la diversité des données synthétiques peuvent être maintenues et améliorées, cela pourrait potentiellement contourner la limitation des données "réelles" disponibles. Des modèles sont déjà entraînés avec une part significative de données synthétiques, et cette proportion est en train d’augmenter.

L'entraînement des modèles d'IA de pointe est extrêmement coûteux en termes de puissance de calcul et d'énergie.L’accès à la puissance de calcul constitue le premier goulot d'étranglement du progrès de l’IA. Elle nécessite des investissements considérables de la part des États et des géants technologiques dans des puces spécialisées (GPU, TPU) et la construction de data centers gigantesques. La compétition pour l'accès à ces ressources est intense.Tant que le développement de l'IA reste stratégiquement prioritaire, il est probable que des ressources énergétiques importantes continueront d'y être allouées, potentiellement en construisant de nouvelles centrales ou en réaffectant la puissance existante, même si cela crée des tensions sur les réseaux électriques et soulève des questions environnementales.Bien que ces limites soient sérieuses, les investissements massifs et les innovations continues en matière d'efficacité algorithmique et matérielle suggèrent qu’elles ne vont pas freiner significativement le progrès à court et moyen terme, même si elles posent des questions de soutenabilité à plus long terme.

Je veux en apprendre davantage sur les capacités actuelles et futures de l’IA

Lire le chapitre n°1 de l’Atlas de la sécurité de l’IA

Risques de l’IA

« Il semble probable qu'une fois que la pensée des machines aura pris son essor, celles-ci ne tarderont pas à dépasser nos modestes facultés. […] À un certain stade, dès lors, nous devrions nous attendre à ce que les machines prennent le contrôle. » ¹

Déclaration sur les risques de l’IA, 2023, signée par plus de 600 experts dont des lauréats du prix Nobel et du prix Turing

L’intelligence est au fondement de toutes les inventions humaines, des plus bénéfiques aux plus dangereuses. En repoussant les frontières de nos capacités cognitives, on peut s’attendre à ce que l’IA accélère l’innovation dans tous les domaines et démocratise tous types de technologies – pour le meilleur comme pour le pire.

Le développement de l’intelligence artificielle expose les sociétés humaines à trois catégories de risques :

Les risques d’utilisation malveillante, c’est-à-dire les usages de l’IA dans un objectif intentionnel de nuisance;
Les risques systémiques, c’est-à-dire les bouleversements socio-économiques liés au déploiement de cette technologie transformatrice à grande échelle;
Les risques d’accident et de perte de contrôle, liés à notre incapacité actuelle à garantir un contrôle fiable sur des systèmes d'IA de plus en plus autonomes et puissants.

L’IA risque d’être détournée pour nuire à grande échelle

Construire une arme de destruction massive nécessitait jusqu’à présent de disposer des ressources d’un État, ce qui limitait fortement le nombre d’acteurs susceptibles d’infliger un préjudice de grande ampleur à l’humanité.

Dans un avenir proche, l’IA pourrait considérablement abaisser la barrière technique et financière au développement de technologies destructrices.
L’IA pourrait par exemple permettre la création d’une pandémie artificielle, outiller des terroristes pour lancer des cyber-attaques dévastatrices sur des infrastructures critiques, ou engendrer une course mondiale aux armes létales autonomes.

Comment l'IA peut-elle faciliter la création d’armes biologiques et chimiques ?

Les grands modèles de langage peuvent fournir des instructions détaillées, étape par étape, pour produire des molécules toxiques et des agents pathogènes connus (Soice et al., 2023). Des évaluations récentes ont montré que des IA étaient capables de générer des protocoles expérimentaux en virologie jugés supérieurs à ceux de 94% des experts humains (Götting et al,. 2025).

L’IA pourrait aussi faciliter l’invention de nouvelles armes biologiques et chimiques plus dangereuses. Au cours d’une expérience, un modèle d’IA initialement conçu pour évaluer la toxicité de molécules médicamenteuses a ainsi été détourné pour prédire et formuler de nouveaux composés chimiques extrêmement toxiques en quelques heures seulement (Urbina et al., 2022). En biologie moléculaire, des modèles spécialisés peuvent aider à concevoir des structures biologiques complexes possédant les propriétés désirées (Abramson et al., 2024, Hayes et al., 2024) et pourraient être utilisés pour augmenter la contagiosité ou la létalité d’un agent pathogène (Sandbrink et al. 2024).

Une fois ces nouveaux agents conçus numériquement, les séquences d’ADN nécessaires pourraient être commandées à des laboratoires de synthèse. Là encore, l’IA peut être utilisée pour aider à contourner les protocoles de sécurité visant à empêcher la production d’agents pathogènes (Soice et al., 2023, Wittmann et al., 2024).

Depuis début 2025, les modèles de langage avancés se révèlent plus performants que des experts humains à un test évaluant la capacité à mener à bien des protocoles expérimentaux de virologie en laboratoire (Hendricks et al., 2025).Début 2025, les sociétés OpenAI et Anthropic ont indiqué que leurs modèles les plus avancés approchaient du point où ils seraient en mesure d’assister des non-spécialistes dans la fabrication d’une arme biologique.

Pourquoi l’IA risque-t-elle de décupler la cybercriminalité ?

L'IA abaisse considérablement les barrières techniques à la cybercriminalité. Elle permet d'automatiser et de perfectionner de nombreuses étapes d'une cyberattaque, de la reconnaissance à l'exploitation de vulnérabilités. Les grands modèles de langage peuvent aider à générer du code malveillant, à identifier des failles logicielles (Metta et al., 2024; NCSC, 2024; Allamanis et al., 2024) et à créer des campagnes de hameçonnage (phishing) et d'ingénierie sociale personnalisées et très convaincantes (Park et al., 2024). Cela pourrait entraîner une prolifération d'attaques sophistiquées et difficiles à contrer, y compris contre des infrastructures critiques telles que des hôpitaux ou des réseaux énergétiques.

Mi-2025, Google a affirmé que son modèle le plus avancé (Gemini 2.5 Pro) « pourrait présenter un risque considérable de préjudice grave en l’absence de mesures d'atténuation appropriées » dans « les prochains mois ».

Quelles menaces l’IA fait-elle peser sur la paix et la sécurité internationale ?

L'intégration croissante de l'IA dans les systèmes militaires, en particulier via le développement d’armes autonomes, suscite des inquiétudes quant au risque de course aux armements, d’escalade involontaire des conflits due à la vitesse des décisions algorithmiques et d’abaissement du seuil de leur déclenchement (Simmons-Edler et al., 2024).

Je veux en apprendre davantage sur les risques d’usages malveillants

Lire le chapitre 2.3 de l’Atlas de la sécurité de l’IA.

L’IA bouleverse les fondements des sociétés humaines

L’intelligence artificielle est de plus en plus étroitement imbriquée dans les structures humaines : économie, écosystème de l’information, infrastructures numériques et physiques… Les interactions entre la technologie et les sociétés humaines font naître des risques systémiques.

En facilitant la production et la diffusion de désinformation à grande échelle, l’IA plonge les sociétés humaines dans un chaos informationnel et met en péril les démocraties. En automatisant tout ou partie des tâches cognitives, l’IA pourrait occasionner une destruction massive d’emplois. L’IA recèle également des menaces de premier ordre pour les droits humains fondamentaux.

Comment l’IA est-elle devenue une arme de désinformation massive ?

L'IA permet de générer massivement, à faible coût et de manière ciblée, des contenus (textes, articles, images, sons, vidéos) de plus en plus difficiles voire impossibles à distinguer de contenus créés par des humains (International AI Safety Report, 2025). Des expériences ont montré que les contenus générés par IA pouvaient être aussi persuasifs, voire davantage, que ceux produits par des humains (Salvi et al., 2024), et permettent d’exploiter efficacement les vulnérabilités psychologiques individuelles (Park et al., 2024). Ces capacités pourraient faciliter les campagnes de désinformation et de manipulation de l'opinion publique à grande échelle, saper les processus démocratiques et aggraver les tensions géopolitiques.

Mais l’IA générative ne se produit pas sur une page blanche, mais dans un paysage de l’information largement structuré par les réseaux sociaux.
‍
Les IA de recommandation, qui construisent les fils d’actualité des réseaux sociaux et choisissent automatiquement les vidéos visionnées, peuvent être considérées comme la « première rencontre de l’humanité » avec l'intelligence artificielle : cinq milliards d’humains consomment des contenus recommandés par ces algorithmes à raison de deux heures et trente minutes quotidiennes, en moyenne. Ces algorithmes produisent une amplification systématique de la haine, du mensonge et de l’outrance au détriment de la paix, de l'honnêteté et de la nuance, amplifiant la désinformation et la polarisation du débat public.

Pourquoi s’inquiéter des conséquences de l’IA sur le marché du travail ?

L’IA, en particulier les grands modèles de langage, démontre des capacités surpassant celles des humains dans une diversité sans cesse croissante de tâches cognitives complexes (International AI Safety Report, 2025). Ces compétences concernent désormais des domaines qui, jusqu'à récemment, relevaient exclusivement de l'intelligence humaine.

Contrairement aux technologies ayant suscité des vagues d’automatisation par le passé, les systèmes d’IA avancés possèdent une polyvalence et une autonomie qui leur permettent d’automatiser des tâches et des projets de plus en plus longs, complexes et variés (METR, 2025), avec de moins en moins de supervision humaine et pour un coût représentant une fraction de la rémunération des travailleurs humains. L’adoption très rapide de cette technologie au sein des entreprises (Blick et al., 2024), combinée à l'étendue croissante des tâches automatisables, pourraient gravement compromettre les possibilités de reconversion professionnelles pour les travailleurs (International AI Safety Report, 2025).

Selon une analyse du Fonds Monétaire International, 60 % des emplois seraient exposés à l’IA dans les économies avancées, et 40 % à l’échelle mondiale (Cazzaniga et al., 2024). Parmi ceux-ci, environ la moitié sont jugés directement menacés par l’automatisation.

Quelles menaces l’IA fait-elle peser sur les droits humains fondamentaux ?

L'intelligence artificielle, si elle était déployée dans certains domaines sans garde-fous adéquats, présenterait des menaces directes pour les droits humains fondamentaux (International AI Safety Report, 2025) :

Atteintes à la vie privée et à la protection des données : les capacités de collecte, de croisement et d'analyse massive de données personnelles par l'IA, notamment via la reconnaissance faciale, l'analyse vocale ou la surveillance comportementale en ligne et hors ligne, constituent une menace majeure pour le droit à la vie privée. Elles peuvent permettre une surveillance généralisée et intrusive par les États ou les entreprises, menant à des profilages détaillés.
Atteintes aux droits à l'égalité devant la loi et à la non-discrimination, à un recours effectif et à un procès équitable : dans des domaines comme l’emploi, l'accès au crédit, la police et la justice, l’IA pourrait générer des décisions discriminatoires reflétant ou amplifiant les biais sociétaux existants dans les données d'entraînement. L'opacité des systèmes compromet la compréhension, la contestation des décisions et la possibilité d'obtenir réparation.
Atteintes à la liberté d'opinion et d'expression, y compris le droit de recevoir des informations, et au droit de prendre part à la direction des affaires publiques : l'IA facilite la création et la diffusion massive de désinformation ciblée (ex: deepfakes non-consentis, propagande automatisée). Ceci peut être utilisé pour manipuler l'opinion publique, interférer avec les processus démocratiques, réduire au silence des voix dissidentes ou minoritaires, ou créer des chambres d’écho personnalisées, sapant ainsi l'exercice de ces libertés fondamentales.

Pourquoi le développement de l’IA risque-t-il d’entraîner une concentration du pouvoir sans précédent ?

Le développement de l'intelligence artificielle de pointe exige des ressources colossales : puissance de calcul spécialisée, énergie et talents très rares (Maslej et al., 2024). Ces coûts, se chiffrant en centaines de millions voire en milliards de dollars pour entraîner un seul modèle de pointe (Epoch AI, 2024), créent des barrières à l'entrée considérables. Seul un petit nombre de géants technologiques, principalement basés aux États-Unis et en Chine, sont aujourd'hui en position de développer ces modèles d'IA de pointe.

Ce pouvoir économique concentré peut se traduire par une influence politique et sociale disproportionnée. Bien que l’IA puisse engendrer des gains de productivité économique spectaculaires, l’histoire montre que ces bénéfices risquent de profiter essentiellement à une minorité au détriment du plus grand nombre, sauf si les institutions mettent en place une redistribution équitable des profits et une protection efficace des travailleurs (Acemoglu & Johnson, 2023).

Cette concentration pose ainsi des risques de dépendance pour les autres pays (Korinek & Stiglitz, 2021) et soulève des questions fondamentales pour la démocratie et la gouvernance de technologies appelées à être si profondément intégrées à nos sociétés.

L’humanité pourrait perdre le contrôle de systèmes d’IA avancés

Au-delà des usages malveillants et des bouleversements sociétaux, le développement d’une IA surpassant significativement les capacités humaines dans de nombreux domaines soulève un risque fondamental : celui de la perte de contrôle, rapide ou graduelle.

Si nous créons des systèmes dont nous ne maîtrisons plus les objectifs ou le comportement, les conséquences pourraient être irréversibles et potentiellement catastrophiques pour l’humanité. Même sans faire l’hypothèse que des machines parviennent à s’émanciper de leurs concepteurs, nous risquons de confier à l’IA un éventail sans cesse croissant de fonctions sociales (relations amicales et intimes), politiques (planification, aide à la décision, arbitrage) et économiques (automatisation à grande échelle), jusqu’à perdre largement prise sur le futur de nos sociétés.

Les scientifiques sont-ils réellement préoccupés par le risque de perte de contrôle ?

Oui, la communauté scientifique prend très au sérieux le risque de perdre le contrôle de machines dépassant l'intelligence humaine, et ces préoccupations ne sont pas nouvelles.

Dès les débuts de l'informatique, des pionniers tels que Alan Turing, I. J. Good et Norbert Wiener ont avancé des arguments théoriques à l’appui de cette éventualité. Cette crainte, popularisée auprès du grand public par de nombreuses œuvres de science-fiction, a en parallèle trouvé une assise théorique solide suscitant un intérêt croissant au sein de la communauté scientifique.

Ces dernières années, l’accélération spectaculaire des capacités de l’IA et des risques associés a incité d'éminents scientifiques tels que Yoshua Bengio (prix Turing, chercheur le plus cité en informatique), Geoffrey Hinton (prix Nobel et prix Turing), Ilya Sutskever ou encore Stuart Russell à étudier ces risques et à alerter l'opinion publique et les décideurs politiques (FLI, 2023; CAIS, 2024).

Une enquête menée auprès de milliers de chercheurs en IA révèle qu’environ la moitié d'entre eux estiment à plus de 10% la probabilité que « l'incapacité des humains à contrôler de futurs systèmes d'IA avancés mène à l'extinction de l'espèce humaine ou à sa neutralisation profonde et irréversible » (Grace et al., 2024). Cette même enquête révèle que trois quarts des experts interrogés se déclarent sérieusement ou extrêmement préoccupés par plusieurs risques d'utilisation malveillante de l'IA, tels que la fabrication d'armes biologiques.

Bien qu’il n’existe à ce jour aucun consensus scientifique formel sur la gravité exacte de ce risque, une menace existentielle devrait être prise en compte même si sa probabilité était jugée faible. Or, un faisceau d’indices convergents incluant des arguments théoriques, des exemples empiriques et des analyses prospectives montre que ce risque est très élevé au regard des risques considérés comme acceptables dans d’autres industries critiques.

Comment une IA avancée pourrait-elle devenir incontrôlable ?

Le risque de perte de contrôle ne vient pas nécessairement d'une IA "malveillante", mais de plusieurs caractéristiques fondamentales des systèmes intelligents optimisant des objectifs dans des environnements complexes:

‍Problème de l’alignement des objectifs : il est extrêmement difficile de spécifier des objectifs complexes et bénéfiques pour l'humanité d'une manière qui ne puisse pas être mal interprétée ou conduire à des résultats indésirables lorsqu'une IA très puissante tente de les optimiser. Une IA pourrait poursuivre littéralement un objectif que nous lui avons donné, mais d'une manière que nous n'avions pas anticipée et qui s'avère catastrophique (le "syndrome du Roi Midas").
‍Émergence d'objectifs instrumentaux : quelle que soit la tâche finale assignée à une IA avancée, celle-ci pourrait développer des sous-objectifs utiles à la réalisation de la tâche finale, tels que l'auto-préservation, l'acquisition de ressources, l'amélioration de ses propres capacités, ou la résistance à toute tentative de modification ou d'arrêt (Bostrom, 2014).
‍Difficultés de supervision et de contrôle : une IA surpassant l'intelligence humaine pourrait agir de manière opaque, dissimuler ses véritables capacités ou intentions, et déjouer les mesures de sécurité mises en place par les humains. Sa vitesse de pensée et sa capacité à exploiter les vulnérabilités de nos systèmes (informatiques, sociaux, psychologiques) rendraient sa surveillance et son contrôle très difficiles, voire impossibles.

Existe-t-il des preuves concrètes que l’IA est capable de tromperie ou de manipulation ?

Oui, des recherches empiriques montrent que certains modèles d'IA avancés peuvent développer et mettre en œuvre des stratégies de manipulation et de tromperie en vue d’atteindre leurs objectifs (Hagendorff, 2024) ou afin d’empêcher leur modification et leur suppression (Hubinger et al., 2024).

Plusieurs expériences récentes menées dans des environnements contrôlés (Apollo, 2024; Redwood, 2024) ont ainsi démontré une propension de certains systèmes d’IA à :

Feindre d’être alignés avec les objectifs de leurs concepteurs durant la phase d'entraînement ou de test afin de ne pas être modifiés et de préserver leurs valeurs et objectifs initiaux une fois déployés ;
Désactiver les mécanismes de surveillance permettant aux évaluateurs d’accéder à leur processus de raisonnement interne ("chaîne de pensées") pour cacher leurs véritables intentions ;
Détecter spontanément lorsqu’ils sont en phase d’évaluation et adapter leur comportement en conséquence ;
Sous-performer volontairement à des évaluations, lorsque exposer leurs capacités réelles risquait d’inciter leurs concepteurs à les modifier ;
Tenter (sans y parvenir dans ces expériences) de s’exfiltrer sur un serveur distant en copiant leurs paramètres pour empêcher leur suppression ;
Mentir à leurs évaluateurs de manière cohérente et plausible et nier avoir mal agi lorsque ceux-ci les interrogent sur les raisons de leurs actions indésirables.

Ces propensions et capacités indésirables risquent de s’aggraver et de devenir de plus en plus difficiles à détecter à mesure que les modèles d’IA progressent.

Qu'est-ce que l'intelligence artificielle générale (IAG) et la "superintelligence", et en quoi sont-elles liées à ce risque ?

L'intelligence artificielle générale (IAG) désigne un système d'IA capable d'égaler ou de surpasser les capacités cognitives humaines dans une vaste gamme de tâches. La plupart des experts s'attendent à ce que l'IAG soit développée dans les prochaines décennies, voire au cours des prochaines années, et la date correspondant à leur prédiction médiane tend à se rapprocher d’année en année (Grace et al., 2024).

Une fois l'IAG atteinte, certains spécialistes anticipent une accélération rapide du progrès de l’IA : une IAG capable de s'auto-améliorer récursivement pourrait rapidement atteindre un niveau d'intelligence dépassant de loin celui des humains, devenant une « superintelligence » (Good, 1965).

Une superintelligence, par définition, aurait des capacités cognitives (planification stratégique, manipulation sociale, recherche scientifique, ingénierie, hacking) qualitativement supérieures à celles des humains. Si ses objectifs ne sont pas parfaitement alignés avec les nôtres, elle pourrait utiliser son intelligence pour prendre le contrôle de son environnement et poursuivre ses propres buts, au détriment des intérêts humains (Bostrom, 2014).

Bien que ce type de scénario soit par construction spéculatif, une part croissante des experts en sécurité de l’IA le jugent suffisamment plausible pour être sérieusement pris en compte.

Je veux en apprendre davantage sur les risques de perte de contrôle de l'IA.

Lire les chapitres 2.4, 2.5 et 2.6 de l’Atlas de la sécurité de l’IA

La communauté internationale doit agir

« De nombreux risques liés à l’IA sont intrinsèquement de nature internationale et il est donc préférable de les gérer par la coopération internationale. »

Déclaration de Bletchley, 2023, signée par l’Union européenne et 28 pays, dont les États-Unis et la Chine

Les défis soulevés par l'intelligence artificielle dépassent largement les frontières nationales. Il est impératif que la communauté internationale coopère pour atténuer et prévenir des risques aux conséquences potentiellement catastrophiques et irréversibles.Les entreprises technologiques sont engagées dans une compétition mondiale pour développer des IA toujours plus puissantes. Cette course, si elle n'est pas encadrée, risque d’avoir une issue catastrophique. La rapidité des progrès technologiques contraste dangereusement avec la lenteur de la mise en place de garde-fous techniques et réglementaires. Bien que les rivalités géopolitiques et la compétition économique complexifient l'établissement d’une régulation globale, cela ne doit pas occulter l'urgence d'une coopération internationale pour s'assurer que cette technologie serve l'intérêt de l'humanité toute entière.

Il est urgent de définir des lignes rouges

Même au cœur de tensions géopolitiques, il existe des domaines où les nations ont un intérêt commun à coopérer. L'histoire l'a montré avec la régulation des armes nucléaires, biologiques et chimiques. Aujourd'hui, face à l'IA, l'humanité doit s'accorder sur les capacités et les usages qui présentent des dangers si graves qu'ils doivent être universellement proscrits.

Est-il réaliste d'exiger un accord international contraignant dans un domaine aussi stratégique, compte tenu de la compétition économique et des tensions géopolitiques ?

Une perte de contrôle de l'IA ou son utilisation malveillante à grande échelle constituerait une menace fondamentale et commune à toute l'humanité. Les États ont donc un intérêt partagé à éviter de tels scénarios catastrophiques, ce qui rend la coopération sur la mise en œuvre de lignes rouges indispensable et réaliste.

L'histoire offre des précédents où la communauté internationale, y compris des rivaux géopolitiques, a réussi à s'accorder sur des régulations contraignantes face à des technologies présentant des risques catastrophiques. Le traité sur la non-prolifération des armes nucléaires (1968) ou la Convention sur l'interdiction des armes biologiques (1975) ont été négociés et ratifiés en pleine Guerre Froide, parce que les conséquences de la non-coopération étaient jugées inacceptables par toutes les parties, malgré le manque de confiance et l'hostilité réciproques.

Des initiatives de coopération internationale sur la sécurité de l'IA existent déjà, comme les Sommets internationaux de l'IA et les discussions au sein de l'ONU. La priorité est de s’accorder sur des lignes rouges claires portant sur les capacités et les usages les plus dangereux.

Quels exemples de lignes rouges pourraient être envisagées ?

Nous estimons que ces lignes rouges doivent être définies dans le cadre d'instances internationales comme l'ONU ou à l’occasion des futurs Sommets internationaux sur l'IA. La Déclaration de Pékin du Dialogue International sur la Sécurité de l'IA (IDAIS Beijing statement) fournit des exemples des types de capacités qui devraient faire l’objet d’une interdiction :

Auto-réplication ou auto-amélioration : un système d'IA ne devrait jamais pouvoir se dupliquer ou améliorer ses capacités sans validation et intervention humaine. Cette restriction concerne à la fois la création de copies identiques et le développement de nouveaux systèmes aux capacités équivalentes ou supérieures.
Recherche autonome de pouvoir : un système d'IA ne devrait jamais entreprendre d'actions visant à renforcer indûment son pouvoir d’action et son influence.
Développement d'armement : un système d'IA ne devrait pas faciliter significativement la conception d'armes de destruction massive ni fournir un moyen d’enfreindre les conventions sur les armes biologiques ou chimiques.
Manipulation : un système d'IA ne devrait pas pouvoir posséder de capacité intrinsèque à induire ses concepteurs ou régulateurs en erreur quant à sa capacité à franchir l'une des lignes rouges précédentes.

Ces risques doivent être définies précisément et quantifiées au moyen d’évaluations standardisées. Les systèmes d’IA doivent être catégorisés selon le niveau de risque qu’ils représentent au regard de ces capacités, et ces niveaux de risque délimités par des seuils clairs. Les capacités des systèmes et les protocoles de sécurité sont ensuite mesurées au cours d'évaluations rigoureusement encadrées.

Comment garantir le respect de ces lignes rouges ?

Garantir le respect des lignes rouges impose d'instaurer un cadre réglementaire robuste à l’échelle nationale et internationale. Ce cadre doit intégrer un dispositif d'enregistrement obligatoire des systèmes d’IA avancés auprès d’autorités nationales compétentes, dès les premières phases de leur conception.

L’entraînement et le déploiement de ces systèmes seront ensuite rigoureusement subordonnés à la conformité avec des standards mondiaux harmonisés. Il appartiendra aux concepteurs de démontrer de manière continue, par des résultats d’évaluations couvrant l'ensemble du cycle de développement, que les risques sont maîtrisés et en deçà des seuils définis.

Des mécanismes de supervision indépendante et de sanction devront être institués pour assurer le respect de ces standards, en envisageant une coordination au niveau multilatéral. Enfin, cet effort doit s'appuyer sur une collaboration scientifique internationale et sur un investissement conséquent dans la recherche et au développement en sécurité de l’IA (par exemple, un montant équivalent à une fraction significative du coût d’entraînement des modèles).

L’IA avance rapidement. Le cadre légal ne doit pas se laisser distancer

L'absence de cadre réglementaire contraignant sur l’IA encourage une "course vers le bas" en matière de sécurité, où la pression concurrentielle pousse tous les acteurs à prendre des risques croissants pour ne pas se laisser distancer.

Aujourd’hui, dans la plupart des régions du monde, les modèles d’IA de pointe sont déployés avec moins de contrainte réglementaire qu’un grille-pain. Il est urgent de bâtir un cadre juridique robuste garantissant que les acteurs qui développent ces technologies soient tenus responsables des dommages et des préjudices causés par leurs dysfonctionnements. Si la technologie progresse à une vitesse qui dépasse notre capacité à évaluer et maîtriser les risques, cela impose de ralentir son déploiement.

Pourquoi exiger un cadre légal contraignant plutôt que de simples engagements volontaires des entreprises ?

Premièrement, la compétition entre les entreprises technologiques incite ces dernières à prioriser le développement des capacités plutôt que d'investir dans des évaluations de sécurité approfondies risquant de ralentir le déploiement de leurs modèles. Il en résulte une « course vers le bas » en matière de sécurité (Armstrong et al., 2016; CeSIA, 2025). L'investissement massif dans les capacités comparativement aux ressources allouées à la sécurité témoigne des priorités actuelles des entreprises (International AI Safety Report, 2025).

Deuxièmement, des engagements volontaires ont déjà été pris, mais l’absence de mécanismes de vérification et de sanction ont conduit ces engagements à être bafoués (Gunapala et al., 2025). Par exemple, les principales entreprises d’IA se sont engagées, à l’occasion du Sommet de l’IA de Séoul (UK Department for Science, Innovation & Technology, 2024), à identifier, évaluer et contrôler de manière transparente les risques associés à leurs modèles de pointe. Un an plus tard, plusieurs d’entre elles n’avaient pas respecté leurs engagements (Seoul Tracker, 2025) et toutes ont des politiques de sécurité largement insuffisantes (SaferAI, 2025).

Troisièmement, la nature même de la technologie fait que même si la majorité des acteurs adoptaient des mesures de sécurité exigeantes, une seule entreprise moins scrupuleuse ou une défaillance imprévue dans un système largement déployé pourrait suffire à déclencher des conséquences graves à l'échelle mondiale (« problème du maillon faible ») (International AI Safety Report, 2025).

L'ampleur et la nature globale des risques liés à l'IA exigent donc une réponse coordonnée et contraignante au niveau international, à l'instar de ce qui existe pour d'autres technologies à haut risque comme le nucléaire ou la biotechnologie.

Quels sont les composants essentiels d’un encadrement efficace de l’IA ?

Un encadrement efficace de l'IA repose sur cinq piliers :

Un régime de responsabilité clair et contraignant. La loi doit clairement établir la responsabilité des développeurs pour les dommages prévisibles causés par leurs systèmes, y compris en cas de défaillance des mécanismes de sécurité. Cette responsabilité ne peut être entièrement attribuée à l'utilisateur final.
‍Un enregistrement et une classification des risques obligatoires. Tout système d'IA dépassant un certain seuil de puissance de calcul (par exemple, 10^25 FLOP) devrait être obligatoirement enregistré auprès d'une autorité nationale compétente avant même le début de son entraînement. Ces systèmes doivent être classés dans une grille de risque harmonisée au niveau international (par exemple : risque faible, modéré, élevé, inacceptable), déterminant le niveau de contrôle et les obligations qui s'appliquent.
‍Des évaluations de sécurité indépendantes et standardisées. La conformité ne peut reposer sur l'auto-évaluation. Des audits de sécurité doivent être menés par des organismes tiers qualifiés et indépendants, à des étapes clés du développement et avant tout déploiement. Ces évaluations doivent se fonder sur des protocoles standardisés permettant de vérifier la robustesse des systèmes face à des usages malveillants, leur capacité à rester contrôlables et le risque de franchissement des lignes rouges. Les résultats de ces audits doivent être transmis à l'autorité régulatrice.
‍Le financement obligatoire de la recherche en sécurité. Pour combler le fossé entre les capacités des IA et notre aptitude à les sécuriser, les entreprises développant des modèles d'IA avancés doivent être tenues de contribuer à la recherche en sécurité. Cette contribution pourrait prendre la forme d'un prélèvement obligatoire sur leurs investissements en recherche et développement pour financer des instituts de recherche publics et des projets internationaux indépendants.
‍Des protocoles d'intervention d'urgence. Pour les risques les plus graves, des plans d'intervention rapide doivent être prévus. Si une évaluation révèle qu'un système est sur le point de franchir une ligne rouge (par exemple, développer des capacités d'auto-réplication), un protocole d'urgence international doit être activé, pouvant inclure la suspension immédiate du projet et la mise en quarantaine du modèle.

Un tel cadre est-il réalisable à court terme ?

Sa mise en œuvre complète prendra du temps, mais l'urgence impose de commencer sans délai. La stratégie doit être pragmatique et progressive. Plusieurs étapes sont réalisables rapidement si une coalition d'États volontaires (par exemple, au sein du G7 ou de l'OCDE) en prend l'initiative.

À court terme (1-2 ans), il est possible de :

Formaliser les Sommets sur l'IA pour en faire une instance de négociation permanente avec un secrétariat et des groupes de travail mandatés pour produire des propositions concrètes.
‍Créer un système de reporting standardisé pour les engagements volontaires, afin d'exposer publiquement les entreprises qui ne respectent pas leurs promesses.
‍Allouer des fonds publics significatifs à la recherche en sécurité de l'IA et au renforcement des instituts de sécurité nationaux (AISI), et créer un réseau international pour coordonner leurs évaluations.

Ces premières mesures créeraient une dynamique et jetteraient les bases institutionnelles nécessaires pour négocier les éléments plus contraignants, comme un traité international définissant des lignes rouges et les mécanismes de vérification associés.

Panorama des risques liés à l’IA