Les IA vont-elles remplacer les scientifiques ? Le défi de LifeSciBench

Les modèles d'IA les plus puissants échouent encore sur des tâches de Recherche médicale réalistes. LifeSciBench révèle leurs limites et leurs progrès.

LES IA SAVENT-ELLES FAIRE DE LA RECHERCHE MÉDICALE ?

Les systèmes d'IA agentique (ces programmes capables de prendre des décisions seuls) deviennent de plus en plus forts pour accomplir des tâches scientifiques. Mais leur utilité pour les chercheurs en sciences de la vie dépend d'une question cruciale : savent-ils gérer la complexité d'une vraie recherche ? Dans la réalité, un scientifique ne répond pas à une simple question de mémorisation ou ne fait pas une prédiction nette. Il doit interpréter des preuves incomplètes, concilier des résultats contradictoires, concevoir des expériences difficiles, résoudre des problèmes de laboratoire, évaluer les risques de traduction (le passage du laboratoire au patient) et décider quoi faire ensuite… alors qu'il n'a pas toutes les réponses.

Les benchmarks actuels ne capturent pas cette complexité. La plupart des évaluations en sciences de la vie se concentrent sur des domaines très précis ou des compétences isolées. Elles proposent des questions avec des formats structurés et des réponses de référence claires. Utile, mais insuffisant. Ces tests ne permettent pas de savoir si un modèle peut vraiment contribuer à l'ensemble du processus de recherche.

Les benchmarks actuels ressemblent à des exercices de maths avec des réponses toutes faites. La vraie recherche, c'est comme résoudre une énigme sans toutes les pièces du puzzle.

LIFE SCIENCE BENCH : LE PREMIER TEST RÉALISTE POUR LES IA

Pour combler ce vide, des experts ont créé LifeSciBench, un benchmark conçu par et pour des scientifiques en sciences de la vie. Chaque tâche est écrite et validée par des chercheurs titulaires d'un doctorat et ayant une expérience directe dans la découverte de médicaments en biotechnologie ou dans l'industrie pharmaceutique.

LifeSciBench contient 750 tâches rédigées par des experts, réparties en sept workflows (séquences de travail) et sept domaines biologiques. L'objectif ? Mesurer si les IA peuvent soutenir des tâches de recherche réalistes, pas seulement répondre à des questions de biologie.

SEPT GRANDS DOMAINES DE RECHERCHE TESTÉS

Pour construire ce benchmark, les créateurs ont demandé à des scientifiques en activité quels étaient les workflows qu'ils utilisent le plus souvent dans leur recherche appliquée. Leurs réponses ont été regroupées en sept catégories récurrentes :

Gestion des preuves : analyser et croiser des données issues d'articles, de figures, de tableaux ou de rapports expérimentaux.
Analyse : interpréter des résultats et en tirer des conclusions.
Conception et optimisation : imaginer des expériences ou améliorer des protocoles.
Raisonnement scientifique : faire des liens entre différentes données pour résoudre un problème.
Validation et opérations : vérifier la qualité des résultats et organiser le travail.
Traduction : relier les découvertes précliniques (en laboratoire) aux applications cliniques (pour les patients).
Communication scientifique : rédiger des rapports ou expliquer des concepts complexes.

Chaque tâche est structurée comme une demande qu'un scientifique pourrait faire à un collaborateur compétent : un prompt scientifique, des éléments de contexte ou des artefacts (fichiers, images, données), et une réponse en texte libre. Des grilles d'évaluation écrites par des experts vérifient si le modèle produit la bonne réponse, avec le bon niveau de détail, de justification, de mises en garde et de format attendu par un scientifique.

UN TEST QUI MESURE LA VRAIE COMPLEXITÉ DE LA RECHERCHE

LifeSciBench évalue non seulement le raisonnement scientifique, mais aussi les compétences pratiques nécessaires pour une utilisation réelle en laboratoire. Les tâches demandent aux modèles de travailler sur des problèmes de recherche réalistes : interpréter des preuves, faire des jugements basés sur des données concrètes, et communiquer des conclusions utiles pour des experts.

Beaucoup de tâches obligent aussi les modèles à gérer l'incertitude et à raisonner à partir de fichiers de données plutôt que de se contenter du texte du prompt. Par exemple, un modèle peut devoir analyser un tableau de résultats d'expérience, une image de microscopie, ou un fichier de séquence génétique pour arriver à une conclusion.

Le benchmark reflète la complexité du travail en sciences de la vie : 79 % des tâches nécessitent plusieurs étapes de raisonnement ou de prise de décision, avec une moyenne de quatre étapes par tâche. LifeSciBench inclut 1 062 artefacts attachés (figures, PDF, tableaux, fichiers de séquences, fichiers de structures chimiques, références web). Plus de la moitié des tâches (53 %) exigent que les modèles interprètent ou synthétisent des informations à partir d'au moins un artefact.

750 tâches, 1 062 artefacts, 7 domaines biologiques : LifeSciBench est le benchmark le plus complet jamais créé pour tester les IA en recherche médicale.

750 TÂCHES ÉCRITES ET VALIDÉES PAR 173 EXPERTS

Les 750 tâches ont été créées par 173 scientifiques experts issus de différentes disciplines des sciences de la vie. Chaque expert avait un doctorat et une expérience dans l'industrie de la biotechnologie ou pharmaceutique. Les tâches pouvaient subir autant de cycles de révision que nécessaire avant d'être acceptées, sans limite fixe de tours. En moyenne, les tâches acceptées ont subi six cycles de révision automatisée et au moins deux tours de révision par des experts.

Les révisions étaient basées soit sur une réponse correcte vérifiable, soit sur un consensus d'experts fort, avec au moins 90 % d'accord entre les évaluateurs du domaine concerné. Ce processus garantissait que les tâches acceptées étaient scientifiquement fondées, assez claires pour être notées, et représentatives de la recherche appliquée.

UNE ÉVALUATION PLUS FINE QUE JUSTE UNE BONNE RÉPONSE

Contrairement aux benchmarks classiques qui se contentent de vérifier si la réponse finale est correcte, LifeSciBench utilise des grilles d'évaluation détaillées et spécifiques à chaque tâche. Ces grilles décomposent la réponse attendue en critères précis : affirmations scientifiques, calculs, décisions, justifications, etc. Au total, les grilles développées par les experts contiennent 19 020 critères, soit une moyenne de 25 par tâche. Elles évaluent à la fois la justesse scientifique et l'utilité de la réponse pour la prise de décision en recherche.

Cette approche reflète la réalité de l'évaluation scientifique : beaucoup de tâches en sciences de la vie ne peuvent pas être notées en vérifiant seulement la réponse finale. Une réponse peut arriver à la bonne conclusion générale mais être jugée incomplète si, par exemple, elle néglige une limitation majeure d'une expérience ou omet de mentionner un détail biologique crucial. À l'inverse, une réponse partielle peut contenir un raisonnement de haute qualité même si elle ne résout pas entièrement la tâche.

Les grilles granulaires de LifeSciBench capturent cette nuance. Le benchmark évalue non seulement la justesse de la réponse finale, mais aussi si le modèle arrive à sa conclusion de manière scientifiquement valide et utile pour la recherche.

EXEMPLE CONCRET : UNE TÂCHE DE RECHERCHE SUR UNE THÉRAPIE GÉNIQUE

Voici un exemple de tâche extrait de LifeSciBench, qui illustre parfaitement ce que mesure le benchmark. La tâche porte sur une demande de réunion réglementaire de type Type B FDA (une réunion avec l'agence américaine du médicament) pour une thérapie génique basée sur le virus AAV9 (un virus modifié pour transporter un gène thérapeutique). L'objectif est d'évaluer si le dossier présenté soutient une approbation accélérée pour l'expression d'une micro-dystrophine comme indicateur de bénéfice clinique.

Contexte de l'étude : Essai de phase 1b/2 en ouvert (sans groupe placebo) sur 12 garçons ambulants âgés de 4 à 7 ans, atteints de myopathie de Duchenne (une maladie musculaire grave) et ayant des délétions dans la région

Sources :

OpenAI News

L'indépendance de CLODCO est votre garantie.

Pour que l'actualité de l'IA reste sans filtre et sans concession, votre soutien est indispensable. Votre contribution est le seul moteur de notre liberté éditoriale.

Soutenir CLODCO