Claude devient chimiste : l'IA qui lit les spectres comme un pro

Anthropic entraîne son modèle à comprendre la chimie comme un humain. Ses résultats sur les spectres NMR pourraient changer la façon dont les chimistes travaillent.

Claude, le modèle d’intelligence artificielle d’Anthropic, apprend à parler le langage des chimistes. Pour cela, il analyse des molécules, des dessins sur tableau blanc, des résultats d’instruments et des publications scientifiques. Chaque représentation encode la même chimie, mais demande une maîtrise différente. Par exemple, un croquis de caféine permet de reconnaître sa ressemblance avec l’adénosine, une molécule du corps qui provoque la somnolence. Pourtant, ce même dessin ne permet pas de distinguer la caféine d’autres molécules presque identiques.

Comprendre avec quelle molécule un chimiste travaille est essentiel. La chimie est partout : dans les aliments, les médicaments, les crèmes, les peintures et les plastiques. Changer quelques liaisons entre les mêmes atomes transforme le glucose en fructose, deux molécules qui suivent des voies métaboliques totalement différentes. Retourner une molécule dans son image miroir peut transformer un sédatif en tératogène, comme ce fut le cas lors du scandale de la thalidomide. Les chimistes doivent donc lire ces signaux correctement, quel que soit le support utilisé.

Passer d’une représentation à une autre prend un temps fou. Le CAS, le plus grand registre de chimie, recense plus de 290 millions de substances et en ajoute environ 15 000 chaque jour. Les Outils d’intelligence artificielle pourraient aider, mais leur adoption reste limitée. Les données nécessaires sont rares, mal formatées et souvent payantes. Pourtant, les avancées récentes en IA changent la donne. Les modèles actuels, comme Claude, sont multimodaux et capables de raisonnement explicite. Ils peuvent lire directement une structure chimique dans un article ou un croquis, analyser les détails expérimentaux d’une publication et montrer leurs étapes de raisonnement. Cela ne résout pas tous les problèmes de données, mais rend certains défis plus accessibles.

L’objectif n’est pas de remplacer les chimistes, mais de les assister dans les tâches répétitives qui complètent leur expertise.

CLAUDE FACE À UN DÉFI DE TAILLE : LIRE UN SPECTRE NMR

Presque toutes les petites molécules — médicaments, pesticides, colorants, parfums, polymères, sous-unités d’ADN ou de protéines, matériaux inorganiques — existent parce qu’un chimiste a déterminé leur structure. Comme ces molécules ne peuvent pas être vues au microscope, les chimistes utilisent l’analyse spectrale. Ils bombardent une molécule avec de la lumière, des ondes radio ou des champs magnétiques. La façon dont la molécule absorbe, émet ou dévie cette énergie donne un motif, ou spectre, qui permet d’élucider sa structure.

La spectroscopie RMN (Résonance Magnétique Nucléaire) est l’une des techniques les plus utilisées par les chimistes. C’est aussi l’une des étapes les plus longues en chimie synthétique. Pour chaque composé, un chimiste doit associer chaque pic du spectre à un atome de la structure proposée, à la main. Anthropic a testé comment Claude se débrouillait face aux logiciels dédiés comme ChemDraw et MestReNova. Trois modèles de Claude (Opus 4.7, Opus 4.6 et Sonnet 4.6) ont été comparés sur 20 composés issus de prépublications chimiques postérieures à la date de coupure des modèles. ChemDraw et MestReNova prédisent un spectre à partir d’une structure dessinée. Claude a aussi été testé dans l’autre sens : partir d’un spectre expérimental pour proposer la structure de la molécule. C’est une tâche plus difficile, et c’est généralement le chimiste qui la réalise.

LA MÉTHODE DE TEST : 20 MOLÉCULES, 4 FAMILLES, 1 OBJECTIF

Pour évaluer les modèles, Anthropic a sélectionné 20 composés dans des prépublications ChemRxiv postérieures à la date de coupure des modèles. Les 20 molécules appartiennent à quatre familles structurales, cinq composés par famille, choisies pour représenter différents défis en RMN. Chaque outil a reçu la structure encodée sous forme de chaîne SMILES — la notation textuelle que les chimistes utilisent pour entrer une molécule dans un logiciel — et a dû prédire où chaque pic d’hydrogène et de carbone apparaîtrait sur un spectre RMN 1D (un axe horizontal mesurant les déplacements chimiques en ppm, parties par million). Comme les échantillons de RMN sont dissous dans un liquide, et que le choix du solvant (chloroforme, DMSO, etc.) déplace légèrement les positions des pics, chaque outil a été informé de prédire le spectre dans le solvant utilisé par les chimistes dans la publication.

Comme un modèle de langage peut donner des réponses différentes à chaque essai, chaque modèle Claude a été interrogé trois fois par composé et les résultats ont été moyennés. ChemDraw et MestReNova, eux, donnent toujours la même réponse et n’ont été lancés qu’une fois. Ensuite, chaque pic prédit a été apparié avec son équivalent expérimental, et l’écart en ppm a été mesuré. Ces écarts se situent dans la fenêtre qu’un chimiste qualifierait de correcte : ±0,20 ppm pour l’hydrogène ou ±1,0 ppm pour le carbone.

LES RÉSULTATS : OPUS 4.7 DOMINE, MAIS DES LIMITES PERSISTENT

Sur l’hydrogène, Opus 4.7 est le plus précis, avec une erreur moyenne de ±0,079 ppm — bien en dessous de la moitié de la fenêtre de tolérance — et la plus grande part de pics à l’intérieur de cette fenêtre. Sur le carbone, Opus 4.7 et MestReNova sont pratiquement à égalité, avec des erreurs moyennes de ±1,37 ppm et ±1,48 ppm. Les autres outils conservent le même ordre de classement pour les deux éléments. Opus 4.6 est logiquement moyen, et Sonnet 4.6 est le plus faible. L’écart entre eux est le plus visible sur un hydrogène notoirement difficile : un proton NH dans la famille des chloropyridazines, dont la position réelle se situe dans une bande étroite entre 6,8 et 7,9 ppm. Opus 4.7 le place légèrement bas, mais de manière cohérente. Opus 4.6 disperse ses prédictions sur plusieurs ppm. Sonnet 4.6 le place entre 10 et 13 ppm, bien loin de sa position réelle.

Si Opus 4.7 obtient des résultats comparables à ChemDraw et MestReNova, l’écart se creuse sur la prédiction de la forme des pics RMN et de l’espacement entre eux. Ces caractéristiques contiennent aussi des informations structurales que le chimiste analyse en plus de la position. Opus 4.7 correspond plus souvent au motif de division expérimental rapporté que les autres outils. Les trois modèles Claude prédisent l’espacement des sous-pics à moins d’un demi-hertz environ 80 % du temps — contre 26 à 35 % pour ChemDraw et MestReNova. Opus 4.7 est aussi le plus constant entre ses trois essais : son erreur moyenne varie moins d’un essai à l’autre que la marge qui le sépare du deuxième meilleur outil.

Opus 4.7, un modèle généraliste sans fine-tuning spécifique à la chimie, rivalise désormais avec ChemDraw et MestReNova sur les prédictions de routine.

DE LA PRÉDICTION À L’ÉLUCIDATION : CLAUDE INVERSE LE PROBLÈME

L’évaluation s’est ensuite tournée vers l’élucidation inverse : pouvait-on déterminer la structure d’une molécule à partir de son spectre ? Opus 4.7 a reçu 15 problèmes d’élucidation et a dû proposer, trois fois chacun, jusqu’à trois structures candidates classées. Chaque composé fournissait la formule moléculaire exacte (issue de la spectrométrie de masse haute résolution) et ses spectres RMN d’hydrogène et de carbone. Les quinze problèmes étaient répartis par difficulté. Les huit cibles les plus simples — molécules à un ou deux cycles — étaient posées avec seulement la formule et les spectres. Les sept cibles plus complexes — cycles fusionnés, spirocycles et similaires — étaient accompagnées d’un indice supplémentaire : la structure du matériau de départ utilisé dans la réaction.

Opus 4.7 a retrouvé toutes les huit structures simples à chaque essai, uniquement à partir des spectres et de la formule. Sur les sept cibles plus difficiles, avec l’indice du matériau de départ, il a proposé la bonne structure à tous les essais pour quatre d’entre elles, et à deux essais sur trois pour les autres.

Les logiciels dédiés à l’élucidation de structure existent depuis des décennies, mais ils nécessitent généralement des spectres RMN 2D (un spectre avec deux axes, dont la sortie est une carte de contours plutôt qu’une ligne de pics), une formation spécialisée et des outils sous licence. Claude y parvient à partir de la même spectrométrie de masse haute résolution et de la même liste de pics 1D qu’un chimiste collerait dans une conversation, sans aucune configuration.

Claude peut proposer une structure moléculaire à partir de données RMN 1D, une tâche habituellement réservée aux chimistes ou aux logiciels spécialisés coûteux.

LIMITES ET PERSPECTIVES : VERS UNE CHIMIE PLUS RAPIDE

Cette évaluation montre qu’un modèle généraliste peut rivaliser avec les logiciels de RMN et même rendre l’élucidation inverse 1D réalisable. Mais il reste des limites notables. Idéalement, il faudrait tester ces performances sur plusieurs centaines de composés couvrant 20 à 30 classes de structures, avec au moins 15 composés par classe pour séparer la variance intra-classe des différences entre outils. Il faudrait aussi évaluer les hétéroaromatiques actifs en NH au-delà des chloropyridazines, tester des solvants non évalués et réaliser des versions des deux tâches basées sur des expériences 2D.

Alors qu’Anthropic améliore les performances de Claude en chimie, l’entreprise se concentre sur les goulots d’étranglement qui ralentissent le plus les chimistes. Certains, comme l’analyse spectrale, sont suffisamment matures pour être évalués. D’autres, comme la planification de la rétrosynthèse, sont encore en cours d’étude. À mesure que la compréhension de ces goulots s’améliore, Anthropic partagera où les modèles actuels excellent et où ils restent en retrait. L’objectif ultime est de permettre aux chimistes de savoir où Claude peut leur faire gagner du temps et où ils doivent encore s’appuyer sur leur propre expertise.

Anthropic étend son programme AI for Science pour soutenir plus explicitement la recherche en chimie. Si vous êtes un chercheur travaillant sur un problème où Claude pourrait aider, en particulier s’il implique le type de raisonnement multimodal décrit, vous pouvez les contacter à [email protected] ou via l’application AI for Science.

Sources :

Anthropic Research

L'indépendance de CLODCO est votre garantie.

Pour que l'actualité de l'IA reste sans filtre et sans concession, votre soutien est indispensable. Votre contribution est le seul moteur de notre liberté éditoriale.

Soutenir CLODCO