Anthropic lance deux IA : l'une pour les hackers. l'autre pour vous ?

Anthropic déploie deux versions de son IA : une version restreinte pour le public et une version ultra-puissante réservée à quelques partenaires. La cybersécurité en jeu.

DEUX NOUVEAUX MODÈLES, DEUX STRATÉGIES DIFFÉRENTES

L’entreprise Anthropic a dévoilé mardi deux nouveaux modèles d’intelligence artificielle : Claude Fable 5 et Claude Mythos 5. Ces deux Outils surpassent le Mythos Preview, une version limitée sortie en avril pour un petit groupe de partenaires industriels. Cette première version avait été lancée avec prudence, car Anthropic craignait que ses capacités ne soient détournées pour créer des outils de piratage capables de contourner les défenses des entreprises.

Depuis, l’entreprise a peaufiné sa stratégie. Aujourd’hui, Claude Mythos 5 reste réservé à un cercle restreint de partenaires industriels, dont beaucoup avaient déjà accès à la version Mythos Preview. Anthropic collabore même avec le gouvernement américain pour son déploiement. En parallèle, Claude Fable 5 est mis à disposition du grand public, mais avec des garde-fous stricts dès son lancement.

UNE VERSION POUR LE PUBLIC, MAIS AVEC DES LIMITES CLAIRES

Les deux modèles partagent la même base technique, mais Claude Fable 5 intègre des protections pour éviter les dérives. Dès qu’un utilisateur pose une question liée à la cybersécurité, à la biologie ou à la chimie, le modèle redirige automatiquement la requête vers une ancienne version de l’IA, Claude Opus 4.8. Anthropic craint en effet que ces domaines ne soient utilisés pour développer des attaques ou des outils malveillants.

La même règle s’applique si l’entreprise détecte une tentative de distillation : un processus qui consiste à entraîner un petit modèle d’IA en s’appuyant sur les réponses d’un grand modèle. Dans ce cas, la requête est aussi bloquée et redirigée vers Claude Opus 4.8.

Pour Anthropic, l’objectif est clair : éviter que le modèle ne soit utilisé à des fins malveillantes, même si cela signifie limiter certaines fonctionnalités pour les utilisateurs.

UNE DÉCISION PRUDENTE, MAIS TEMPORAIRE

Dans une interview accordée à WIRED, Diane Penn, responsable de la gestion des produits chez Anthropic, explique que l’entreprise réfléchit depuis des mois à la meilleure façon de gérer les capacités de détection de vulnérabilités logicielles de Mythos. Les tests et les retours des utilisateurs depuis avril ont permis d’affiner cette approche.

« Nous essayons d’améliorer les choses de manière bénéfique, même si nous n’avons pas la solution parfaite pour chaque cas d’usage dès le départ », déclare-t-elle. « Parmi toutes les approches possibles, celle-ci s’est révélée la plus viable et la meilleure. Nous pensons que c’est le meilleur choix pour offrir une valeur maximale aux utilisateurs de Fable 5 ».

Pour l’instant, les protections sont conçues pour être prudentes : certaines requêtes inoffensives pourraient être redirigées vers le modèle moins performant. Anthropic compte affiner ses classifieurs avec le temps, mais cette solution reste la seule sûre pour une sortie large du modèle aujourd’hui.

UNE PROTECTION QUI ÉVOLUERA AVEC LE TEMPS

Anthropic a testé Claude Fable 5 pendant plus de 1 000 heures en simulant des attaques (ce qu’on appelle le red-teaming). Aucune faille universelle n’a été trouvée. Pourtant, l’entreprise reste prudente : les craintes initiales sur la capacité à protéger ces modèles contre les usages malveillants justifient pourquoi Mythos n’avait pas été lancé pour le grand public en avril. Ces inquiétudes persistent encore aujourd’hui.

Anthropic précise que les versions restreintes de Claude Mythos 5 sont déjà accessibles aux partenaires du Project Glasswing, ainsi qu’à certains chercheurs en biologie. Dans un billet de blog publié mardi, l’entreprise indique qu’elle fournit des versions non restreintes à ces petits groupes de clients « jusqu’à ce que notre programme d’accès de confiance soit disponible ». Une annonce qui laisse présager une ouverture progressive à l’avenir.

UNE COURSE CONTRE LA MONTRE POUR LA SÉCURITÉ

La capacité des modèles comme Claude Mythos à concevoir des outils de piratage capables de trouver et d’exploiter des failles dans des logiciels, qu’ils soient récents ou anciens, a poussé les entreprises technologiques et les gouvernements du monde entier à renforcer leurs défenses. Avant sa sortie large, Mythos avait d’abord été distribué à des partenaires industriels via le Project Glasswing. L’idée ? Leur donner une longueur d’avance pour préparer leurs systèmes et évaluer les solutions globales avant une diffusion plus large.

Dans un communiqué publié la semaine dernière, Anthropic a écrit : « Nous travaillons aussi vite que possible pour rendre les capacités de niveau Mythos accessibles au grand public. Pour cela, il nous faudra des protections très robustes pour empêcher l’utilisation malveillante des capacités cybernétiques du modèle. Ces protections, nous ne les avons pas encore développées, et à notre connaissance, aucun autre développeur d’IA ne les a non plus ».

PERFORMANCE ACCRUE, MAIS À UN COÛT PLUS ÉLEVÉ

Claude Fable 5 et Claude Mythos 5 offrent de meilleures performances en ingénierie logicielle et dans les tâches nécessitant une compréhension visuelle. Mais cette amélioration a un prix : les développeurs devront payer 10 dollars par million de tokens en entrée et 50 dollars par million en sortie. C’est deux fois plus cher que les modèles d’Anthropic disponibles publiquement, mais moins cher que la version Mythos Preview.

UNE TENSION ENTRE INNOVATION ET SÉCURITÉ

Le lancement de Claude Fable 5 montre la tension chez Anthropic entre l’envie de diffuser un modèle de classe Mythos pour un usage général et les préoccupations de cybersécurité liées à ces outils. En avril, OpenAI avait aussi lancé en privé un modèle doté de capacités avancées en cybersécurité, tout en constituant un groupe de travail similaire au Project Glasswing.

Les deux entreprises, Anthropic et OpenAI, ont déposé des demandes confidentielles pour une introduction en Bourse et se livrent une course pour impressionner les investisseurs potentiels avant leur passage en société cotée, prévu cette année.

Pour Anthropic, la prudence reste de mise : même avec des protections renforcées, personne ne peut garantir une sécurité absolue face aux usages malveillants.

L’AVENIR DES MODÈLES D’IA : ENTRE PROGRÈS ET RISQUES

Depuis le lancement de Mythos en avril, Anthropic a répété que ses concurrents, qu’ils soient privés ou open source, finiront tôt ou tard par proposer des modèles aussi puissants. La course est lancée, et la question de la sécurité des outils d’IA devient un enjeu majeur pour l’industrie.

Les modèles comme Claude Mythos 5 et Claude Fable 5 représentent un pas de géant en termes de performance, mais leur déploiement doit être encadré pour éviter qu’ils ne deviennent des armes entre les mains de cybercriminels. Anthropic mise sur une approche progressive, en commençant par des versions restreintes avant d’envisager une diffusion plus large. Une chose est sûre : l’équilibre entre innovation et sécurité sera au cœur des débats dans les mois à venir.

Sources :

Wired AI

L'indépendance de CLODCO est votre garantie.

Pour que l'actualité de l'IA reste sans filtre et sans concession, votre soutien est indispensable. Votre contribution est le seul moteur de notre liberté éditoriale.

Soutenir CLODCO