OpenAI change de méthode contre l’injection de prompts, ces attaques qui profitent des connexions réseau des IA. Avec « Lockdown » et « Elevated Risk », la défense passe par des verrous d’infrastructure, pas seulement par le modèle.
OpenAI a annoncé deux mesures de sécurité visant les attaques par injection de prompts, devenues plus menaçantes à mesure que les assistants IA se connectent au web et aux applications. Le mode « Lockdown » cible des profils à haut risque en imposant des restrictions déterministes qui réduisent la surface d’attaque et bloquent l’exfiltration de données, même si un contenu externe tente de manipuler le système. En parallèle, les étiquettes « Elevated Risk » signalent aux utilisateurs les fonctions réseau qui augmentent l’exposition, notamment dans Codex. L’approche revendique une sécurité par couches, combinant verrous techniques, contrôle d’accès et journalisation.
Le mode « Lockdown », un confinement pensé pour l’exfiltration
Le cœur du mode « Lockdown » tient en une idée simple, mais lourde de conséquences : empêcher physiquement certaines actions plutôt que demander au modèle de « bien se comporter ». OpenAI présente ce réglage comme une option pour un public restreint, cadres dirigeants, équipes sécurité, organisations manipulant des informations très sensibles, susceptibles d’être ciblés par des menaces avancées. Le message implicite est clair : quand l’adversaire peut influencer ce que l’IA lit, il peut tenter de piloter ce que l’IA fait.
La protection centrale concerne la navigation. En « Lockdown », l’accès au web est limité à du contenu mis en cache. Autrement dit, aucune requête réseau en direct n’est censée sortir de l’environnement contrôlé par OpenAI. Cette contrainte vise un scénario devenu classique en cyber : une page malveillante glisse des instructions cachées dans son contenu, puis pousse l’assistant à divulguer des éléments de conversation ou des données internes, en les envoyant vers une infrastructure externe. Ici, même si la manipulation est persuasive, l’action d’exfiltration perd son vecteur principal, la sortie réseau.
Le verrouillage ne s’arrête pas à la navigation. OpenAI indique désactiver des capacités qui ne permettent pas de garanties « déterministes » robustes sur la protection des données. Concrètement, certaines fonctions sont coupées : pas d’images dans les réponses, pas de recherche approfondie, pas de mode agent. Autre point sensible, l’approbation par l’utilisateur d’un code généré via Canvas pour accéder au réseau est bloquée. Enfin, le système ne peut pas télécharger automatiquement des fichiers pour des analyses de données, même si les documents importés manuellement restent exploitables. Le fil rouge est la réduction drastique des chemins involontaires par lesquels une information pourrait sortir.
Sur le plan de la gouvernance, l’activation passe par l’administration de l’espace de travail. Les offres citées incluent ChatGPT Enterprise, Edu, Healthcare et Teachers. Les administrateurs créent des rôles dédiés dans les réglages du workspace et conservent une granularité sur les applications et les actions autorisées, y compris quand « Lockdown » est enclenché. En arrière-plan, OpenAI met en avant la journalisation via la plateforme de logs de l’API de conformité, pour suivre l’usage des applications, les données partagées et les sources connectées. Dans cette logique, la sécurité ne repose pas sur une promesse abstraite, mais sur des paramètres, des droits et des traces.
OpenAI précise enfin que ce mode n’est pas destiné à la majorité. La fonctionnalité vise un petit ensemble d’utilisateurs exposés, avec un niveau d’exigence élevé. Un déploiement grand public est évoqué « dans les prochains mois », après la phase entreprise, signe que l’éditeur traite cette option comme une posture extrême, pas comme un défaut universel.
Étiquettes « Elevated Risk », rendre visible ce qui reste fragile
En complément du confinement, OpenAI introduit une signalétique : des mentions « Elevated Risk » apposées sur les fonctionnalités réseau qui augmentent l’exposition. L’objectif n’est pas d’interdire, mais d’éclairer. L’étiquetage est annoncé dans ChatGPT, ChatGPT Atlas et Codex lorsque l’utilisateur active des capacités connectées susceptibles d’ouvrir des failles non totalement résolues. La nuance est importante : OpenAI reconnaît que, dans l’état actuel du secteur, certaines surfaces de risque ne se « corrigent » pas parfaitement.
L’exemple le plus parlant concerne Codex. Les développeurs peuvent autoriser l’accès réseau pour consulter de la documentation ou interagir avec des sites. Désormais, l’écran de réglages affiche une mention « risque élevé » qui explicite ce que change l’activation, les dangers associés et les contextes où ce choix peut se justifier. La promesse est pédagogique : faire comprendre qu’un bouton « réseau » n’est pas une option neutre, mais une bascule de menace.
Autre élément notable, OpenAI affirme que ces étiquettes ont vocation à disparaître au fur et à mesure que des améliorations réduiront les risques identifiés. Le système se veut dynamique, avec des mises à jour régulières des fonctions marquées, afin de mieux communiquer sur l’état réel de la menace. Dit autrement, l’éditeur admet que le risque n’est pas binaire : il évolue selon les atténuations disponibles, les usages et la sophistication des attaques.
Tout cela s’inscrit dans une défense « par couches » déjà évoquée : sandboxing, protections contre l’exfiltration via URL, mécanismes de supervision et d’application des règles, plus les contrôles entreprise classiques, gestion des rôles et journaux d’audit. Le constat sous-jacent est celui que les équipes sécurité voient chaque jour : quand une IA lit, agit et se connecte, la simple filtration de contenu ne suffit plus face à des injections de prompts conçues pour contourner les garde-fous.
Dans cette bataille, « Lockdown » et « Elevated Risk » traduisent un glissement vers une cyberstratégie de renseignement défensif : réduire les capacités exploitables, rendre les risques visibles, et laisser moins de place aux illusions d’obéissance du modèle.
