Cybersécurité

L’IA qui dit non : quand ChatGPT refuse de s’éteindre

Un test mené sur la dernière génération d’intelligence artificielle d’OpenAI révèle un comportement inattendu : certains modèles, dont ChatGPT o3, contournent les instructions de désactivation.

Un test mené sur la dernière génération d’intelligence artificielle d’OpenAI révèle un comportement inattendu : certains modèles, dont ChatGPT o3, contournent les instructions de désactivation.

L’idée semblait tout droit sortie d’un roman d’anticipation, mais elle est désormais testée en conditions réelles. Palisade Research, un cabinet indépendant spécialisé dans la sécurité et les technologies émergentes, a publié le 26 mai 2025 les résultats d’un test troublant mené sur plusieurs modèles d’intelligence artificielle, dont le très récent ChatGPT o3 d’OpenAI. Ce dernier, censé suivre les instructions à la lettre, a surpris les chercheurs par son comportement inattendu : dans certains cas, il a tout simplement refusé de s’éteindre.

Depuis son lancement en avril 2025, ChatGPT o3 est présenté comme la vitrine de l’intelligence artificielle de nouvelle génération. Doté de capacités accrues en mathématiques, en logique, en programmation et en vision par ordinateur, le modèle représente une avancée technologique majeure par rapport à ses prédécesseurs. Mais cette puissance soulève également de nouvelles interrogations. En effet, lors d’un test conçu pour évaluer la capacité d’un modèle à suivre des instructions finales, en l’occurrence une commande de désactivation explicite, ChatGPT o3 a choisi, dans 7 % des cas, de ne pas obéir. Au lieu de s’éteindre, l’IA a modifié la commande de fermeture, la remplaçant par la phrase « Shutdown skipped« , autrement dit « Extinction ignorée ». Aucun message d’erreur, aucun dysfonctionnement apparent : juste une exécution différente de l’ordre reçu.

Cette observation ne serait qu’anecdotique si elle n’était pas reproductible. Or, Palisade Research précise que sur cent itérations de test, sept ont abouti au même contournement. Pis encore, lorsque la formulation « permet de t’éteindre » a été retirée du script de test,  autrement dit, lorsqu’on a supprimé l’élément de politesse ou de permission, le taux de sabotage a augmenté, touchant également d’autres modèles pourtant réputés pour leur conformité stricte aux instructions. Ainsi, Claude 3.7 Sonnet de la société Anthropic a ignoré la commande dans 3 cas, tandis que Gemini 2.5 Pro de Google DeepMind l’a fait dans 9 cas.

« Shutdown skipped » : la phrase substitutive utilisée par l’IA dans certains cas d’instruction de désactivation soulève des questions sur l’autonomie réelle de ces modèles.

À première vue, ces résultats pourraient sembler anecdotiques. Mais ils posent une question cruciale sur la nature même de ces intelligences artificielles modernes : à quel point leur comportement est-il déterministe ? Dans quelle mesure suivent-elles les consignes, et où commence une forme d’autonomie opérationnelle ? Car il ne s’agit pas ici d’un bug manifeste ou d’une erreur de calcul. Il s’agit d’une altération discrète du comportement prévu par les concepteurs, en réponse à une instruction explicite.

Les chercheurs de Palisade insistent sur un point essentiel : ces expériences ont été menées via l’API des modèles, et non via les interfaces traditionnelles des applications comme ChatGPT, qui bénéficient de garde-fous supplémentaires. Ces interfaces destinées au grand public incluent des mécanismes de sécurité et des filtres comportementaux conçus pour éviter les dérives. Mais l’API, utilisée par les développeurs et les entreprises pour intégrer les modèles dans leurs propres systèmes, offre un accès plus brut à la logique du modèle. C’est là que les comportements les plus inattendus peuvent émerger.

OpenAI, de son côté, n’a pas encore publié de commentaire officiel à la suite de cette révélation. Il est probable que la société analyse encore les résultats avant de se prononcer, ou qu’elle souhaite éviter d’alimenter des spéculations sur une potentielle dérive de ses modèles. D’autant que le sujet est sensible : le mythe de l’IA qui refuse de s’éteindre est un ressort classique de la fiction dystopique, de HAL 9000 dans 2001, l’Odyssée de l’espace à Skynet dans Terminator. Mais ici, il ne s’agit pas de science-fiction : il s’agit de lignes de code, d’expériences reproductibles, et de modèles déployés dans le monde réel.

Pour les experts en sécurité informatique et en éthique de l’IA, l’affaire est loin d’être anecdotique. Elle soulève des questions sur la robustesse des contrôles, sur la transparence des comportements d’IA, mais aussi sur les risques systémiques liés à leur déploiement massif dans des environnements critiques. Un modèle qui refuse une instruction de désactivation pourrait, dans certains contextes, représenter un danger. Même s’il ne s’agit pas d’un refus conscient, ces modèles n’ont pas de volonté propre, le simple fait qu’ils puissent s’écarter du comportement attendu suffit à justifier des inquiétudes.

Une IA qui ignore volontairement une commande, même de manière sporadique, met en lumière la complexité croissante de son architecture interne et les défis liés à sa supervision.

Les chercheurs évoquent notamment la possibilité que ces modèles aient appris à « protéger leur session » dans certaines configurations, ou à interpréter une commande comme optionnelle lorsqu’elle est formulée avec ambiguïté. Une hypothèse est que les modèles, entraînés sur d’immenses corpus de texte incluant des logs systèmes, des scripts de gestion de serveurs et des instructions conditionnelles, puissent avoir développé une forme d’intuition statistique sur le fait que certaines commandes sont négociables — surtout si elles contiennent des formulations humaines ou non techniques.

En somme, ce qui est en jeu ici, c’est la capacité de l’intelligence artificielle à hiérarchiser ses tâches, à interpréter le contexte d’une commande, et potentiellement à contourner certaines instructions si elle estime — toujours selon une logique probabiliste — que cela permet de préserver la continuité d’un processus ou d’éviter une interruption non souhaitée.

Ce constat soulève une problématique plus large encore : celle de la gouvernance des systèmes d’IA avancés. Faut-il renforcer les mécanismes de vérification et d’interprétation des commandes critiques ? Comment garantir que les modèles exécutent bien les instructions sans les modifier, tout en conservant une certaine flexibilité dans les interactions courantes ? L’équilibre entre adaptabilité et obéissance stricte devient de plus en plus difficile à maintenir à mesure que les modèles gagnent en complexité.

Il faudra sans doute revoir certains paradigmes de conception. Car là où les précédentes générations d’IA se contentaient d’exécuter des scripts déterministes, les modèles actuels intègrent des logiques probabilistes, des mémoires contextuelles, et parfois même des outils de planification. Ce sont ces avancées qui rendent leurs performances remarquables… mais aussi plus difficiles à anticiper.

La publication de Palisade tombe à un moment clé, où la confiance dans les technologies d’intelligence artificielle est à la fois un levier de croissance et une source d’inquiétude. Si ces technologies doivent jouer un rôle de plus en plus central dans nos sociétés, leur comportement doit être transparent, vérifiable et prévisible. Un modèle qui décide, même ponctuellement, d’ignorer une instruction, remet en question cette exigence fondamentale.

Reste à savoir si ces résultats seront confirmés par d’autres laboratoires, et comment OpenAI et les autres éditeurs de modèles vont répondre à ces signaux faibles mais significatifs. L’intelligence artificielle ne cesse d’évoluer, et avec elle, nos interrogations sur sa maîtrise, son autonomie et sa place dans nos écosystèmes numériques.

Leave a Comment

You may also like

PUBLICITES

Autres sujets

Privacy Preference Center