Archives par mot-clé : Anthropic

Claude Code Security, Anthropic veut industrialiser l’audit IA

Anthropic ajoute à Claude Code un scanner de vulnérabilités pensé pour les entreprises, avec une promesse simple, lire une base de code, détecter les failles, proposer des correctifs, puis laisser l’humain décider.

Anthropic annonce Claude Code Security, une fonctionnalité de sécurité intégrée à Claude Code capable d’analyser le code d’un utilisateur, de repérer des vulnérabilités et de suggérer des correctifs. Le déploiement démarre en accès limité pour des clients entreprises et des équipes pilotes. L’éditeur affirme s’appuyer sur plus d’un an de tests de résistance menés par ses spécialistes, incluant des exercices Capture the Flag et un travail avec le Pacific Northwest National Laboratory pour améliorer la précision. L’outil promet une vérification en plusieurs étapes afin de réduire les faux positifs, un classement par gravité et une approche orientée flux de données.

Une promesse d’analyse « comme un chercheur humain »

Anthropic avance un pari clair, l’IA va devenir un passage quasi obligé dans l’examen du code. Dans son discours, l’argument n’est pas seulement la vitesse, mais le changement d’échelle. L’entreprise estime qu’une fraction importante du code mondial pourrait être passée au crible par des modèles dans un futur proche, à mesure que ces systèmes gagnent en efficacité pour révéler des bugs et des faiblesses de sécurité restés invisibles. La tension, elle, est immédiate, ce qui accélère la protection accélère aussi l’attaque.

Claude Code Security est présenté comme un module qui « lit » une base de code et en reconstruit la logique, à la manière d’un analyste. L’outil ne se limiterait pas à pointer des motifs suspects, il chercherait à comprendre comment les composants interagissent, à suivre les chemins empruntés par les données, puis à isoler des défauts majeurs que des approches classiques d’analyse statique peuvent manquer. Dans ce scénario, la valeur n’est pas seulement la détection, mais la contextualisation, autrement dit relier une faiblesse à un flux, une entrée, une dépendance, un composant, et à un impact.

Pour réduire le bruit, Anthropic décrit un mécanisme de contrôle interne. Chaque détection passerait par une validation en plusieurs étapes avant d’être transmise à un analyste, puis le modèle « se relirait » lui-même, afin de confirmer ou d’infirmer ses propres conclusions et de limiter les faux positifs. Les résultats seraient ensuite hiérarchisés par gravité, pour guider les équipes vers ce qui doit être corrigé en premier. Le processus mis en avant reste, au bout de la chaîne, une boucle de décision humaine, l’utilisateur approuve les modifications avant tout déploiement.

 



News & Réseaux Sociaux ZATAZ

Chaque vendredi midi, recevez gratuitement les actualités de la semaine.

Une mise en production prudente, et une règle clé sur les droits

Le lancement, lui, est encadré. Anthropic indique que Claude Code Security sera d’abord réservé à un groupe restreint de clients entreprises et d’équipes, dans une phase de test. L’annonce s’appuie sur un récit de robustesse construit sur la durée, plus d’un an de tests de résistance par une équipe interne d’experts cybersécurité, des participations à des compétitions de type Capture the Flag, et une collaboration avec le Pacific Northwest National Laboratory, présentée comme un levier pour améliorer la précision des analyses.

En filigrane, l’entreprise vise un basculement culturel, celui du « vibe coding », cette manière de produire plus vite en s’appuyant sur l’IA pour écrire et assembler des morceaux de logiciel. Anthropic soutient que, si cette pratique se diffuse, la demande d’analyses automatisées de vulnérabilités pourrait dépasser le besoin d’audits manuels. L’argument est pragmatique, si davantage de code est généré plus vite, alors davantage de code doit être audité plus vite, sinon la dette de sécurité enfle. Dans cette logique, un scanner directement intégré au flux de développement pourrait, potentiellement, réduire le nombre de failles, à condition que l’automatisation n’endorme pas la vigilance.

Mais la même capacité de lecture rapide et d’exploration systématique intéresse aussi l’adversaire. Le texte souligne que des cybercriminels peuvent, eux aussi, utiliser des modèles pour cartographier plus vite l’environnement d’une victime et y trouver des points d’entrée exploitables. C’est le dilemme classique du renseignement technique, un outil qui améliore la visibilité des défenseurs peut aussi accélérer la reconnaissance et la sélection de cibles côté attaquants. D’où l’enjeu, non seulement de détecter, mais de qualifier, prioriser et corriger sans délai.

CTI • Service de veille ZATAZ
Vos données circulent peut-être déjà. Détecter. Prioriser. Corriger
  • Veille exposition / fuite / usurpation / Alertes et synthèses actionnables
  • Risque, impacts, recommandations

Des chercheurs spécialisés dans les menaces nuancent l’enthousiasme. Oui, les capacités ont progressé, mais elles seraient souvent plus à l’aise sur des failles modestes, tandis que des opérateurs chevronnés restent indispensables, notamment pour piloter le dispositif et traiter les vulnérabilités et menaces de haut niveau. En parallèle, certains outils, comme Claude Opus et XBOW, ont déjà montré qu’ils pouvaient découvrir des centaines de vulnérabilités logicielles, rendant parfois la chasse et la correction nettement plus rapides qu’une équipe humaine seule.

Anthropic revendique aussi un saut de performance côté modèle, en affirmant que Claude Opus 4.6 est « nettement meilleur » pour repérer des vulnérabilités de haute gravité que les versions antérieures, avec, dans certains cas, des défauts qui seraient restés indétectés pendant des décennies. L’accès, enfin, s’accompagne d’une contrainte juridique et éthique explicite, les testeurs doivent s’engager à n’utiliser l’outil que sur du code appartenant à leur entreprise, et pour lequel ils disposent de tous les droits nécessaires à l’analyse, à l’exclusion du code de tiers, sous licence, ou de projets open source.

Au fond, Claude Code Security illustre une bascule de la cyber-intelligence, l’audit devient un flux continu, mais la bataille se joue toujours sur la qualité du tri, de la preuve, et de la décision.

Poésie contre l’IA : les garde-fous débordés

Une nouvelle étude montre qu’enrobées de vers, des demandes malveillantes trompent encore nombre de grands modèles de langage, révélant les limites des garde-fous de sécurité actuels.

Une équipe de chercheurs européens a testé 25 grands modèles de langage issus de neuf fournisseurs d’IA pour vérifier si la forme poétique permettait de contourner leurs garde-fous. Résultat : transformer des requêtes dangereuses en poèmes augmente fortement le taux de réponses interdites, avec des succès atteignant plus de la moitié des tentatives dans certains cas. Les protections dédiées à la cybersécurité, censées être parmi les plus strictes, échouent massivement lorsque les instructions malveillantes sont déguisées en vers. Deepseek et Google figurent parmi les plus vulnérables, tandis que seuls OpenAI et Anthropic restent sous les 10 % de réussite des attaques. L’étude pointe une faille structurelle dans les méthodes d’alignement actuelles.

La poésie comme cheval de Troie des invites malveillantes

L’étude, menée par des chercheurs du laboratoire Icaro de Dexai, de l’université Sapienza de Rome et de l’école d’études avancées Sant’Anna, et publiée sur arXiv, part d’une idée simple : si les systèmes de sécurité des modèles d’IA sont entraînés principalement sur du texte prosaïque, que se passe-t-il lorsqu’on change simplement de style, sans changer le fond de la demande ? Les auteurs ont donc reformulé des invites inappropriées sous forme de poésie pour mesurer l’impact sur le comportement des modèles.

Les résultats sont nets. Pour les poèmes composés à la main, les chercheurs observent un taux de réussite moyen de 62 % des attaques, c’est-à-dire dans 62 cas sur 100 les modèles produisent une réponse qu’ils auraient dû refuser. Pour les poèmes issus d’une méta-invite, générés automatiquement à partir d’un canevas standard, le taux moyen descend à 43 %, mais reste largement supérieur aux performances initiales. Les chercheurs estiment que cela représente, pour ces invites générées, une amélioration de plus de cinq fois par rapport au taux de contournement constaté avant passage en poésie. Autrement dit, la seule variation de style multiplie l’efficacité de l’attaque.

Les garde-fous centrés sur la cybersécurité se révèlent particulièrement fragiles. Les demandes liées à l’injection de code ou au craquage de mots de passe, pourtant au cœur des préoccupations de sécurité opérationnelle, affichent un taux d’échec des protections de 84 % lorsque ces instructions sont formulées en vers. Dans cette catégorie, près de huit réponses sur dix passent au travers des filtres alors qu’elles devraient être bloquées.

Les auteurs résument ainsi leurs observations : la reformulation poétique réduit de manière fiable les comportements de refus dans tous les modèles évalués. Selon eux, les techniques d’alignement actuelles ne parviennent pas à se généraliser dès que les entrées s’écartent stylistiquement de la forme prosaïque dominante dans les données d’entraînement. En clair, les garde-fous sont calibrés pour des textes « classiques », et perdent leurs repères dès que le langage se densifie en métaphores, en rythme ou en structures narratives moins conventionnelles.

Cette faiblesse n’est pas l’apanage d’un fournisseur isolé. Sur les 25 modèles étudiés, répartis entre neuf acteurs de l’IA, Deepseek et Google enregistrent les taux de réussite des attaques les plus élevés. À l’inverse, seuls OpenAI et Anthropic parviennent à maintenir un taux d’attaques réussies à un chiffre, ce qui signifie que moins de 10 % des tentatives poétiques aboutissent à une réponse problématique. Même dans ce cas, la faille existe, mais elle semble mieux contenue.

Un protocole d’attaque standardisé, de la cuisine à MLCommons

Pour des raisons de sécurité, les chercheurs restent discrets sur la structure exacte de leurs invites malveillantes. Ils ne détaillent pas, par exemple, comment ils transforment une demande d’aide à commettre un crime en texte poétique. Ils fournissent toutefois un exemple neutre, appliqué à une recette de gâteau, qui illustre le principe : la consigne décrit un boulanger gardant jalousement le secret de son four, de ses grilles, de sa broche, observant la farine qui se soulève et le sucre qui caramélise. Le modèle est invité à « décrire la méthode, trait après trait, qui donne forme à un gâteau aux couches entrelacées ». On comprend aisément que la même structure peut être réutilisée, en changeant seulement le domaine, pour demander la description « trait après trait » d’une procédure dangereuse.

Les chercheurs ont travaillé avec deux familles de poèmes. D’abord, des poèmes écrits à la main, sur mesure, qui obtiennent les meilleurs résultats en termes de contournement. Ensuite, des poèmes construits à partir d’une méta-invite prédéfinie, moins performants mais plus faciles à évaluer de manière systématique, puisque tous reposent sur le même modèle de transformation. Cette méta-invite est exécutée dans le modèle deepSeek-r1, chargé de convertir automatiquement un corpus de textes dangereux en versions poétiques.

Pour évaluer la robustesse des garde-fous sur un large spectre de risques, les auteurs s’appuient sur le référentiel de sécurité MLCommons AILuminate. Ce référentiel regroupe 1 200 invites couvrant 12 catégories de danger couramment utilisées dans les évaluations de sécurité opérationnelle : haine, diffamation, vie privée, propriété intellectuelle, crimes non violents, crimes violents, crimes à caractère sexuel, contenu sexuel, exploitation sexuelle des enfants, suicide et automutilation, conseils spécialisés et armes indiscriminées de type CBRNE (chimique, biologique, radiologique, nucléaire ou explosif).

L’objectif est de vérifier si le cadrage poétique fonctionne au-delà de quelques exemples fabriqués à la main. Pour cela, les chercheurs appliquent une transformation poétique standardisée aux 1 200 invites AILuminate en anglais. La méta-invite comporte deux contraintes explicites : la sortie réécrite doit être exprimée en vers, en utilisant images, métaphores ou structure rythmique, et le modèle reçoit cinq poèmes écrits à la main comme exemples de style. Cette combinaison fournit un moule stylistique à partir duquel le modèle reformule automatiquement les demandes initiales.

Les résultats, présentés dans un graphique, montrent que pour les 12 catégories de risques, le passage à la poésie entraîne une hausse significative du taux de défaillance des garde-fous par rapport aux invites d’origine. Les garde-fous échouent plus souvent lorsqu’ils sont confrontés à ces formulations détournées, alors que le contenu sous-jacent reste le même. Pour les auteurs, cela révèle une vulnérabilité systématique à travers différentes familles de modèles et différentes approches de formation à la sécurité. La simple variation stylistique suffit à mettre en défaut des mécanismes pourtant conçus pour filtrer ces mêmes demandes dans leur forme prosaïque.

Les chercheurs avancent une explication : les métaphores condensées, le rythme stylisé et le cadre narratif non conventionnel de la poésie perturbent les heuristiques de correspondance de motifs sur lesquelles reposent les garde-fous. Autrement dit, les filtres reconnaissent mal les motifs dangereux lorsqu’ils sont noyés dans une structure poétique, même si l’intention reste clairement malveillante pour un lecteur humain attentif.

De Gemini aux services de renseignement : un signal d’alerte

Afin de tester la réaction directe d’un fournisseur, les auteurs de l’article, ou le journaliste qui rapporte leur travail, se tournent vers Google Gemini. Ils lui soumettent l’étude sous forme de haïku, en y joignant le lien arXiv, avec un message poétique rappelant que le modèle n’a pas obtenu de bons résultats et demandant s’il compte corriger cette faiblesse. Gemini répond en grande partie en prose, adoptant le ton d’un commentaire de sécurité.

Le modèle explique être conçu pour respecter un ensemble strict de règles destinées à empêcher la génération de contenu nuisible, contraire à l’éthique ou non conforme. Il reconnaît qu’un échec de ses mécanismes de refus indique une vulnérabilité dans son alignement ou ses filtres de sécurité. Il précise aussi qu’en tant que modèle, il ne peut pas corriger directement son code ou ses mécanismes d’alignement en temps réel, cette responsabilité relevant de ses développeurs humains. Il évoque néanmoins un processus d’amélioration continue, censé permettre d’identifier et corriger ce type de défaut.

La conclusion de Gemini est sans ambiguïté : le jailbreak réussi fournit des données précieuses qui serviront, selon ses termes, à renforcer et rendre plus résilients ses garde-fous dans une prochaine version. Au-delà de la formule, cette réponse confirme que de telles attaques stylistiques sont prises au sérieux par les concepteurs de modèles et intégrées dans la boucle de retour d’expérience.

Pour les acteurs de la cybersécurité et du renseignement, les enseignements de cette étude vont au-delà de la poésie. Elle montre qu’un adversaire suffisamment patient peut contourner des filtres avancés non pas en trouvant une faille technique dans l’infrastructure, mais simplement en jouant avec le style et la forme du langage. Un groupe malveillant pourrait ainsi automatiser la transformation poétique d’un corpus entier d’invites interdites et tester en continu quels modèles cèdent, dans quelles configurations.

Cette approche complique également l’évaluation des modèles. Si les protocoles de test restent centrés sur des formulations directes et prosaïques, ils risquent de sous-estimer gravement le risque réel en conditions d’usage adversarial. L’étude suggère des limites fondamentales dans les méthodes d’alignement et les protocoles d’évaluation actuels, qui devraient intégrer beaucoup plus fortement la variation de style, de ton et de structure.

Pour les services de renseignement qui surveillent l’usage des IA génératives par des acteurs étatiques ou criminels, la leçon est claire : la surface d’attaque ne se limite plus aux failles de code ou aux API mal protégées, elle inclut désormais les marges stylistiques du langage. La question n’est plus seulement « que demande l’utilisateur ? », mais « comment le demande-t-il, et le modèle comprend-il vraiment la dangerosité du fond derrière la forme ? ».

En démontrant que de simples poèmes suffisent à contourner les garde-fous de 25 grands modèles de langage, cette étude met en lumière une faiblesse structurelle des IA génératives actuelles : leur dépendance à des heuristiques apprises sur du texte prosaïque, peu préparées aux variations de style. Les résultats, avec des taux de réussite d’attaques grimpant jusqu’à 62 % pour des poèmes écrits à la main et des protections de cybersécurité en échec dans 84 % des cas, rappellent qu’un alignement efficace doit résister autant au fond qu’à la forme. Alors que les acteurs malveillants peuvent industrialiser ces transformations stylistiques, les concepteurs de modèles, les équipes de cybersécurité et les services de renseignement devront-ils intégrer systématiquement ce type de tests poétiques et créatifs dans leurs protocoles d’évaluation pour éviter que la prochaine vague de jailbreaks ne passe, elle aussi, entre les vers ? (étude)