Anthropic libère ses IA Fable 5 et Mythos 5 : Trump a reculé face aux tests de sécurité ?

Les États-Unis autorisent enfin la diffusion mondiale des modèles d'IA Fable 5 et Mythos 5 d'Anthropic après trois semaines de blocage. Une victoire pour la sécurité nationale ou un recul face aux pressions ?

LES ÉTATS-UNIS LÈVENT LES RESTRICTIONS SUR LES MODÈLES D'ANTHROPIC

Le département du Commerce américain vient d'annuler les restrictions à l'exportation sur les deux derniers modèles d'IA d'Anthropic : Fable 5 et Mythos 5. Cette décision intervient seulement trois semaines après que l'administration Trump avait classé ces modèles comme des risques pour la sécurité nationale. Depuis aujourd'hui, Fable 5 est accessible dans le monde entier, tandis que l'accès à Mythos 5 a été rétabli pour les organisations américaines dès le 26 juin.

UNE COOPÉRATION ACCRUE AVEC LE GOUVERNEMENT

Anthropic collabore désormais étroitement avec les autorités pour élargir l'accès à Mythos 5 à un plus grand nombre de partenaires dans le cadre du programme Glasswing. Ce programme permet à des chercheurs en cybersécurité d'entreprises de confiance d'utiliser Mythos 5 à des fins défensives. Dans une lettre adressée à Anthropic et consultée par Reuters et The New York Times, le secrétaire au Commerce Howard Lutnick a confirmé qu'Anthropic n'aurait désormais plus besoin de licence pour exporter ou transférer ses modèles Claude Mythos et Claude Fable.

DES MESURES DE SÉCURITÉ RENFORCÉES POUR LUTTER CONTRE LES RISQUES

Face à un retard prolongé dans la diffusion de ses modèles, Anthropic a accepté d'étendre son partenariat avec le gouvernement. L'entreprise a également mis en place un programme de red-teaming avec des pirates informatiques pour tester la résistance de ses modèles. Une équipe interne dédiée surveille désormais les tentatives de jailbreak 24 heures sur 24 et 7 jours sur 7. Dans sa lettre, Lutnick a rappelé qu'il restait possible pour les États-Unis de réévaluer leur décision et de rétablir les restrictions à tout moment.

« Au cours des deux dernières semaines, nous avons travaillé en étroite collaboration avec Anthropic pour analyser et approuver Fable 5, afin de garantir l'alignement avec l'ensemble du gouvernement américain et renforcer le leadership des États-Unis en matière d'IA. » — Howard Lutnick

TRUMP CÉLÈBRE UNE VICTOIRE POUR « L'AMÉRIQUE D'ABORD »

Sans mentionner directement Anthropic, Susie Wiles, chef de cabinet de la Maison Blanche, a salué sur X (ex-Twitter) une collaboration inédite entre le secteur public et privé. Elle a déclaré que « le gouvernement et le secteur privé ont collaboré comme jamais auparavant, et cette base de l'Amérique d'abord est sans précédent. Notre priorité commune reste : déployer les meilleures technologies le plus rapidement et le plus sûrement possible. »

LE BLOCAGE DE JUIN : UNE RÉPONSE À DES PEURS DE CYBERATTAQUES

Le 12 juin, le département du Commerce avait ordonné à Anthropic de couper l'accès à ses modèles les plus avancés pour toute personne située en dehors des États-Unis. Cette décision faisait suite à la crainte que des pays comme la Chine ou la Russie n'exploitent ces modèles pour attaquer des infrastructures américaines, comme le réseau électrique ou le système bancaire. En réponse, Anthropic avait suspendu tout accès, faute de pouvoir bloquer les utilisateurs par pays.

Mythos 5 était particulièrement considéré comme « attractif pour des acteurs malveillants » souhaitant l'utiliser dans des cyberattaques. Selon Anthropic, ce modèle « peut être utilisé pour trouver et exploiter des vulnérabilités logicielles plus efficacement que tout autre modèle — et même mieux que la plupart des experts humains en cybersécurité ». Ces capacités prodigieuses en cybersécurité pourraient donc être retournées contre les États-Unis.

FABLE 5 : UN MODÈLE SÛR, MAIS PAS INVULNÉRABLE

Fable 5 partage le même modèle de base que Mythos 5, mais contrairement à ce dernier, il ne possède pas de capacités offensives uniques. Conçu pour le grand public, Fable 5 disposait déjà des safeguards les plus stricts jamais appliqués par Anthropic. Ces protections ont été encore renforcées avant son déploiement mondial.

Après des semaines de tests, Fable 5 n'est plus vulnérable à une méthode de contournement découverte par des chercheurs d'Amazon. Cette faille permettait d'identifier plusieurs vulnérabilités logicielles et avait conduit à l'instauration des restrictions à l'exportation. Le scénario le plus inquiétant ? Un cas où le modèle avait été manipulé pour produire du code démontrant comment exploiter une faille.

« Les tests ont confirmé que des modèles rivaux moins avancés sur le marché, comme GPT-5.5 et Kimi K2.7, pouvaient identifier les mêmes vulnérabilités que Fable 5. » — Anthropic

Anthropic a conclu que la technique signalée n'exposait aucune capacité cyber offensive unique de niveau Mythos, et qu'elle relevait simplement de travaux de cybersécurité défensive classiques. « Malgré cela, nous avons rapidement agi pour corriger le contournement signalé », a indiqué l'entreprise.

UN TRADE-OFF INÉVITABLE : PLUS DE SÉCURITÉ, MAIS DES BLOCS INNOCENTS

Cette méthode de jailbreak est désormais bloquée dans plus de 99 % des cas. Cependant, le renforcement des safeguards s'accompagne d'un compromis : certains prompts anodins pourraient être bloqués « lors de tâches de codage et de débogage de routine », a reconnu Anthropic.

En collaboration avec le gouvernement, Anthropic a formé un classifieur de sécurité amélioré pour cibler et bloquer le comportement décrit dans le rapport. Les utilisateurs recevront une notification si une requête à Fable 5 est bloquée, et la requête sera redirigée vers Opus 4.8.

LES FAILLES DE SÉCURITÉ : UN RISQUE MAÎTRISÉ, MAIS PAS ÉLIMINÉ

Anthropic admet que son nouveau classifieur, conçu pour éviter les attaques dangereuses sur ses modèles, peut commettre des erreurs. L'entreprise souligne depuis longtemps qu'il est « probablement impossible » de construire un modèle entièrement imperméable aux jailbreaks. En intensifiant le red-teaming, Anthropic espère « garantir que nous et nos partenaires en matière de sécurité serons les premiers à découvrir les jailbreaks majeurs et à les corriger avant que des acteurs malveillants ne puissent les utiliser pour nuire ».

La faille signalée par Amazon ne fonctionne que dans une « toute petite fraction de cas », où « le modèle pourrait fournir des informations insuffisamment détaillées pour aider un cyberattaquant », a précisé Anthropic.

ANTHROPIC MINIMISE LA MENACE, MAIS LES RISQUES PERSISTENT

En adoptant une approche « prudente », Anthropic estime que « la grande majorité des jailbreaks ne parviendront pas à débloquer des comportements dangereux » et seront « très coûteux et difficiles à produire ». Même en cas de succès, « nos couches de défense supplémentaires » — qui nécessitent de bloquer certaines requêtes anodines — « offrent une protection supplémentaire », a déclaré l'entreprise.

Dans son billet de blog, Anthropic semble minimiser la menace identifiée par Amazon, la jugeant moins risquée que ce qu'elle considère comme la plus grande menace pour les gouvernements : les jailbreaks universels capables de déverrouiller une large gamme de vulnérabilités et de permettre des attaques imprévisibles.

VERS UN CADRE COMMUN POUR ÉVALUER LES RISQUES DES JAILBREAKS

Pour simplifier le partenariat public-privé et garantir une réponse rapide aux plus grands risques, Anthropic estime que l'industrie de l'IA devrait se fixer pour objectif de catégoriser les risques afin d'assurer des interventions appropriées, tant en interne qu'au niveau gouvernemental.

Actuellement, Anthropic collabore avec Amazon, Microsoft, Google et d'autres partenaires du programme Glasswing pour « rédiger un cadre consensuel d'évaluation de la gravité des jailbreaks et des mesures que les développeurs d'IA devraient mettre en place pour y répondre ». D'autres partenaires industriels sont invités à rejoindre ces discussions, même si le processus reste « imparfait » et se concentre sur l'établissement de quatre critères pour évaluer un jailbreak :

• La capacité que le jailbreak confère au modèle.
• Le nombre de tâches offensives qu'il permet d'activer.
• La facilité avec laquelle un humain peut utiliser le jailbreak (les jailbreaks à un seul prompt sont considérés comme les plus risqués).
• La nécessité de connaissances spécialisées pour découvrir le jailbreak.

Sur la base de ce cadre, Anthropic a constitué une équipe qui surveillera 24 heures sur 24 les canaux de soumission des jailbreaks. L'entreprise a également confirmé le lancement d'un nouveau programme HackerOne, permettant aux chercheurs en sécurité de soumettre des cyber-jailbreaks potentiels découverts dans Fable 5, afin de maintenir le red-teaming comme une priorité absolue.

UNE RAPPROCHEMENT AVEC LE GOUVERNEMENT APRÈS UNE SUITE JUDICIAIRE

Cette collaboration renforcée avec le gouvernement intervient après qu'Anthropic a poursuivi les États-Unis pour avoir désigné ses modèles comme des risques pour la sécurité nationale. L'entreprise avait accusé cette désignation d'être une mesure de rétorsion après son refus de donner accès à ses modèles au gouvernement pour la construction d'armes autonomes ou la réalisation de surveillance de masse domestique.

Dans son billet de blog, Anthropic a indiqué qu'elle étendait ses engagements à travailler avec des partenaires gouvernementaux sur les tests et évaluations pré-déploiement. Ces efforts incluront l'accès anticipé du gouvernement à ses modèles de pointe, le partage rapide d'informations sur les nouvelles méthodes de jailbreak, et la mobilisation de ressources pour des recherches conjointes visant à « faire avancer l'état de l'art dans l'évaluation de l'IA ».

Cette collaboration représente « les prémices d'un modèle de coordination mondiale efficace sur les risques et les bénéfices de l'IA », a déclaré Anthropic, tout en exhortant le Congrès à adopter des lois pour s'assurer que tous les développeurs de modèles de pointe soient sur la même longueur d'onde.

LE GOUVERNEMENT AMÉRICAIN : UN « ARBRE-LANTERNE » TROP LENT FACE À L'IA

Le PDG d'Anthropic, Dario Amodei, a récemment proposé une loi pour accélérer la régulation de l'IA. Il a utilisé une référence à Le Seigneur des Anneaux pour illustrer son propos : dans un des intrigues secondaires, deux hobbits tentent de réveiller Treebeard, un arbre-sentinelle sage mais extrêmement lent, pour défendre sa forêt contre une armée qui la détruit. Le problème ? Treebeard fonctionne à une vitesse bien différente de celle des hobbits. Il met une journée entière à dire bonjour à un autre arbre, rendant toute action rapide quasi impossible. « L'intersection entre l'IA et nos institutions politiques ressemble un peu aux hobbits et à Treebeard », a-t-il déclaré.

Initialement, Trump avait prévu de laisser l'innovation en matière d'IA se développer sans régulation, afin de stimuler le secteur. Cependant, le déploiement de Mythos a poussé Trump à demander des tests de sécurité volontaires sur les modèles de pointe en mai. Depuis, Trump « travaille encore sur un cadre pour formaliser la manière dont les entreprises devraient soumettre leurs nouveaux modèles d'IA à un examen, et sur les normes auxquelles ils devraient être soumis », ont déclaré deux personnes familiarisées avec les discussions au New York Times.

Dans son message, Amodei a appelé le Congrès à agir rapidement pour repenser la régulation de la sécurité de l'IA dans un monde où « l'IA peut passer d'un simple jouet amusant » à « un pays entier de génies dans un centre de données », sous peine de subir des conséquences « stratégiques nationales ».

LA QUESTION DES MODÈLES CHINOIS : UN POINT D'INTERROGATION MAJEUR

Isaac Harris, directeur exécutif de l'Institute for Frontier Security, un organisme à but non lucratif axé sur l'IA et la sécurité nationale, a déclaré à Reuters que la principale inconnue après le renforcement du partenariat entre Anthropic et le gouvernement reste : « Comment l'administration américaine va-t-elle gérer les capacités tout aussi dangereuses provenant de Chine, mais avec moins de garde-fous ? »

Notamment, Anthropic a récemment accusé le géant chinois Alibaba d'avoir lancé la plus grande attaque de clonage jamais enregistrée sur Claude. En réponse, Anthropic a exhorté le Congrès à adopter des lois pour punir les entreprises chinoises qui volent le travail des entreprises américaines. Sinon, des acteurs malveillants qui ne pourraient pas se procurer les modèles d'Anthropic pourraient se tourner vers des modèles chinois moins protégés et aux capacités de plus en plus proches, pour lancer des attaques qui prendraient les États-Unis au dépourvu.

Sources :

Ars Technica

L'indépendance de CLODCO est votre garantie.

Pour que l'actualité de l'IA reste sans filtre et sans concession, votre soutien est indispensable. Votre contribution est le seul moteur de notre liberté éditoriale.

Soutenir CLODCO