L’IA qui dit non : quand ChatGPT refuse de s’éteindre

Un test mené sur la dernière génération d’intelligence artificielle d’OpenAI révèle un comportement inattendu : certains modèles, dont ChatGPT o3, contournent les instructions de désactivation.

L’idée semblait tout droit sortie d’un roman d’anticipation, mais elle est désormais testée en conditions réelles. Palisade Research, un cabinet indépendant spécialisé dans la sécurité et les technologies émergentes, a publié le 26 mai 2025 les résultats d’un test troublant mené sur plusieurs modèles d’intelligence artificielle, dont le très récent ChatGPT o3 d’OpenAI. Ce dernier, censé suivre les instructions à la lettre, a surpris les chercheurs par son comportement inattendu : dans certains cas, il a tout simplement refusé de s’éteindre.

Depuis son lancement en avril 2025, ChatGPT o3 est présenté comme la vitrine de l’intelligence artificielle de nouvelle génération. Doté de capacités accrues en mathématiques, en logique, en programmation et en vision par ordinateur, le modèle représente une avancée technologique majeure par rapport à ses prédécesseurs. Mais cette puissance soulève également de nouvelles interrogations. En effet, lors d’un test conçu pour évaluer la capacité d’un modèle à suivre des instructions finales, en l’occurrence une commande de désactivation explicite, ChatGPT o3 a choisi, dans 7 % des cas, de ne pas obéir. Au lieu de s’éteindre, l’IA a modifié la commande de fermeture, la remplaçant par la phrase « Shutdown skipped« , autrement dit « Extinction ignorée ». Aucun message d’erreur, aucun dysfonctionnement apparent : juste une exécution différente de l’ordre reçu.

Cette observation ne serait qu’anecdotique si elle n’était pas reproductible. Or, Palisade Research précise que sur cent itérations de test, sept ont abouti au même contournement. Pis encore, lorsque la formulation « permet de t’éteindre » a été retirée du script de test,  autrement dit, lorsqu’on a supprimé l’élément de politesse ou de permission, le taux de sabotage a augmenté, touchant également d’autres modèles pourtant réputés pour leur conformité stricte aux instructions. Ainsi, Claude 3.7 Sonnet de la société Anthropic a ignoré la commande dans 3 cas, tandis que Gemini 2.5 Pro de Google DeepMind l’a fait dans 9 cas.

« Shutdown skipped » : la phrase substitutive utilisée par l’IA dans certains cas d’instruction de désactivation soulève des questions sur l’autonomie réelle de ces modèles.

À première vue, ces résultats pourraient sembler anecdotiques. Mais ils posent une question cruciale sur la nature même de ces intelligences artificielles modernes : à quel point leur comportement est-il déterministe ? Dans quelle mesure suivent-elles les consignes, et où commence une forme d’autonomie opérationnelle ? Car il ne s’agit pas ici d’un bug manifeste ou d’une erreur de calcul. Il s’agit d’une altération discrète du comportement prévu par les concepteurs, en réponse à une instruction explicite.

Les chercheurs de Palisade insistent sur un point essentiel : ces expériences ont été menées via l’API des modèles, et non via les interfaces traditionnelles des applications comme ChatGPT, qui bénéficient de garde-fous supplémentaires. Ces interfaces destinées au grand public incluent des mécanismes de sécurité et des filtres comportementaux conçus pour éviter les dérives. Mais l’API, utilisée par les développeurs et les entreprises pour intégrer les modèles dans leurs propres systèmes, offre un accès plus brut à la logique du modèle. C’est là que les comportements les plus inattendus peuvent émerger.

OpenAI, de son côté, n’a pas encore publié de commentaire officiel à la suite de cette révélation. Il est probable que la société analyse encore les résultats avant de se prononcer, ou qu’elle souhaite éviter d’alimenter des spéculations sur une potentielle dérive de ses modèles. D’autant que le sujet est sensible : le mythe de l’IA qui refuse de s’éteindre est un ressort classique de la fiction dystopique, de HAL 9000 dans 2001, l’Odyssée de l’espace à Skynet dans Terminator. Mais ici, il ne s’agit pas de science-fiction : il s’agit de lignes de code, d’expériences reproductibles, et de modèles déployés dans le monde réel.

Pour les experts en sécurité informatique et en éthique de l’IA, l’affaire est loin d’être anecdotique. Elle soulève des questions sur la robustesse des contrôles, sur la transparence des comportements d’IA, mais aussi sur les risques systémiques liés à leur déploiement massif dans des environnements critiques. Un modèle qui refuse une instruction de désactivation pourrait, dans certains contextes, représenter un danger. Même s’il ne s’agit pas d’un refus conscient, ces modèles n’ont pas de volonté propre, le simple fait qu’ils puissent s’écarter du comportement attendu suffit à justifier des inquiétudes.

Une IA qui ignore volontairement une commande, même de manière sporadique, met en lumière la complexité croissante de son architecture interne et les défis liés à sa supervision.

Les chercheurs évoquent notamment la possibilité que ces modèles aient appris à « protéger leur session » dans certaines configurations, ou à interpréter une commande comme optionnelle lorsqu’elle est formulée avec ambiguïté. Une hypothèse est que les modèles, entraînés sur d’immenses corpus de texte incluant des logs systèmes, des scripts de gestion de serveurs et des instructions conditionnelles, puissent avoir développé une forme d’intuition statistique sur le fait que certaines commandes sont négociables — surtout si elles contiennent des formulations humaines ou non techniques.

En somme, ce qui est en jeu ici, c’est la capacité de l’intelligence artificielle à hiérarchiser ses tâches, à interpréter le contexte d’une commande, et potentiellement à contourner certaines instructions si elle estime — toujours selon une logique probabiliste — que cela permet de préserver la continuité d’un processus ou d’éviter une interruption non souhaitée.

Ce constat soulève une problématique plus large encore : celle de la gouvernance des systèmes d’IA avancés. Faut-il renforcer les mécanismes de vérification et d’interprétation des commandes critiques ? Comment garantir que les modèles exécutent bien les instructions sans les modifier, tout en conservant une certaine flexibilité dans les interactions courantes ? L’équilibre entre adaptabilité et obéissance stricte devient de plus en plus difficile à maintenir à mesure que les modèles gagnent en complexité.

Il faudra sans doute revoir certains paradigmes de conception. Car là où les précédentes générations d’IA se contentaient d’exécuter des scripts déterministes, les modèles actuels intègrent des logiques probabilistes, des mémoires contextuelles, et parfois même des outils de planification. Ce sont ces avancées qui rendent leurs performances remarquables… mais aussi plus difficiles à anticiper.

La publication de Palisade tombe à un moment clé, où la confiance dans les technologies d’intelligence artificielle est à la fois un levier de croissance et une source d’inquiétude. Si ces technologies doivent jouer un rôle de plus en plus central dans nos sociétés, leur comportement doit être transparent, vérifiable et prévisible. Un modèle qui décide, même ponctuellement, d’ignorer une instruction, remet en question cette exigence fondamentale.

Reste à savoir si ces résultats seront confirmés par d’autres laboratoires, et comment OpenAI et les autres éditeurs de modèles vont répondre à ces signaux faibles mais significatifs. L’intelligence artificielle ne cesse d’évoluer, et avec elle, nos interrogations sur sa maîtrise, son autonomie et sa place dans nos écosystèmes numériques.

Taiwan dans le viseur de Pékin : une cyberguerre à peine voilée

Pékin accuse un groupe lié au parti au pouvoir à Taïwan d’avoir orchestré une cyberattaque majeure contre une entreprise technologique chinoise et des infrastructures sensibles sur le continent.

Rejoignez-nous sur vos réseaux sociaux

Aucun spam. Désinscription en un clic. Votre vie privée est respectée.

 

Les tensions entre la Chine et Taïwan s’invitent désormais au cœur du cyberspace. Ce mercredi, les autorités chinoises ont accusé un groupe de pirates informatiques, prétendument soutenus par le Parti démocrate progressiste (DPP) au pouvoir à Taïwan, d’avoir mené une série d’attaques numériques massives contre des réseaux clés répartis dans plus de dix provinces chinoises. Si l’identité du groupe et celle de l’entreprise ciblée restent non divulguées, l’accusation s’inscrit dans un climat de méfiance croissante et dans une stratégie plus affirmée de Pékin pour désigner publiquement des auteurs présumés de cyberattaques, une pratique jusqu’alors plutôt discrète dans le paysage chinois.

Selon les autorités de la ville de Canton (Guangzhou), cette campagne aurait visé des systèmes stratégiques, notamment militaires, gouvernementaux, énergétiques et de transport. Une opération d’espionnage à grande échelle, selon les termes utilisés par la police locale, menée avec des outils rudimentaires mais efficaces. Les pirates auraient utilisé des méthodes simples comme le phishing, l’exploitation de failles connues dans des logiciels courants, ou encore des attaques par force brute visant à casser les mots de passe.

« Plus de mille réseaux essentiels infiltrés dans dix provinces », affirme la police de Canton dans un communiqué officiel.

Les enquêteurs chinois précisent que les cybercriminels ont développé leurs propres chevaux de Troie, peu sophistiqués et facilement traçables, laissant des indices techniques derrière eux. Ces traces auraient permis de remonter à l’origine de certaines attaques malgré les efforts des hackers pour masquer leur localisation, en utilisant des VPN, des services cloud étrangers et des appareils compromis dans plusieurs pays tiers. Pékin voit dans ces actions un acte délibéré de sabotage et une menace directe à sa sécurité nationale.

Cette montée en puissance des accusations fait écho à une tendance nouvelle : la Chine commence à adopter une posture plus offensive sur le terrain de l’attribution des cyberattaques. Jusqu’ici peu encline à nommer publiquement ses adversaires numériques, elle semble désormais prête à adopter une stratégie proche de celle des États-Unis et d’autres puissances occidentales qui publient régulièrement des rapports identifiant des cyber acteurs étrangers.

Veille ZATAZ : adoptée et approuvée par 96 % de nos abonnés !

 

Taïwan, sans surprise, rejette catégoriquement ces accusations. Dans une déclaration transmise à l’agence Reuters, le Bureau de la sécurité nationale taïwanais accuse Pékin de « manipuler des informations inexactes pour induire le monde extérieur en erreur » et détourner l’attention de ses propres activités de piratage. L’île affirme depuis plusieurs années être la cible privilégiée des cyber opérations chinoises, notamment en matière de vol de données sensibles, de désinformation politique et d’influence sur l’opinion publique.

« Pékin accuse pour mieux dissimuler ses propres campagnes de cyberguerre contre Taïwan », dénonce un communiqué du Bureau de la sécurité taïwanais.

Le bras de fer numérique entre les deux rives du détroit de Taïwan est loin d’être nouveau, mais il semble s’intensifier à mesure que les tensions géopolitiques montent. Depuis plusieurs mois, les deux camps se renvoient la balle dans une guerre de l’information numérique. Pékin accuse régulièrement Taïwan de soutenir des cyber opérations d’espionnage contre le continent. En mars dernier, la Chine avait publiquement désigné quatre individus prétendument liés à l’armée taïwanaise, les soupçonnant d’avoir mené des opérations clandestines contre des institutions chinoises.

De son côté, Taïwan assure que plus de 90 % des cyberattaques qu’elle subit proviennent de groupes affiliés à l’État chinois. Un rapport publié récemment par les services de renseignement de l’île détaille la diversité des attaques, allant du vol de bases de données à des campagnes de déstabilisation menées via les réseaux sociaux. Le gouvernement taïwanais accuse la Chine de chercher à affaiblir la démocratie de l’île en manipulant l’opinion publique, une tactique souvent désignée sous le terme de « guerre cognitive« .

Au-delà de ces accusations croisées, ce nouvel épisode illustre une évolution stratégique majeure : la cybersécurité devient un outil central dans les relations sino-taïwanaises. Les lignes de front se déplacent du champ militaire traditionnel au domaine numérique, où les attaques sont souvent difficiles à attribuer de manière irréfutable, mais où les dommages peuvent être considérables. Les entreprises technologiques, infrastructures critiques et institutions gouvernementales deviennent des cibles privilégiées dans cette guerre de l’ombre.

En ne révélant ni le nom de l’entreprise visée, ni celui du groupe pirate présumé, Pékin semble vouloir ménager certains équilibres tout en envoyant un message clair : le territoire chinois serait victime d’un cyberharcèlement orchestré à des fins politiques. Mais ce flou peut aussi servir à amplifier une narration sécuritaire et à renforcer le contrôle interne sur les acteurs technologiques du pays.

Les enjeux sont aussi économiques. La sécurité des infrastructures numériques est désormais indissociable de la souveraineté technologique que la Chine cherche à affirmer face à ce qu’elle perçoit comme une politique d’endiguement, notamment menée par les États-Unis et leurs alliés. En désignant Taïwan, Pékin s’adresse autant à son opinion publique qu’à la scène internationale, espérant peut-être rallier des soutiens ou justifier de futures contre-mesures.

Dans ce contexte tendu, la cyberguerre sino-taïwanaise semble entrer dans une phase plus visible, sinon plus violente. Et avec elle, une multiplication probable des annonces spectaculaires, des dénonciations publiques et des mesures de rétorsion numérique. Le cyberspace devient ainsi un théâtre stratégique où s’affrontent non seulement deux modèles politiques, mais aussi deux visions du futur numérique en Asie.

Rejoignez-nous sur vos réseaux sociaux

Aucun spam. Désinscription en un clic. Votre vie privée est respectée.