Les IA agents promettent de tout faire, mais comment savoir si elles sont vraiment efficaces ? IBM Research a construit un outil pour le découvrir.

UNE NOUVELLE FAÇON DE TESTER LES IA AGENTS

Comment évaluer la qualité d’un agent IA généraliste ? La plupart des tests se contentent de donner un score à un modèle sur une tâche précise. Pourtant, quand on déploie un agent, on ne choisit pas seulement un modèle : on choisit un système complet avec ses Outils, sa façon de planifier, sa mémoire entre les actions et sa capacité à se remettre d’un échec. Changer un seul de ces éléments peut radicalement transformer les résultats, et les coûts.

La performance d’un agent dépend donc de la façon dont il est construit, bien plus que du modèle qu’il utilise.

LE OPEN AGENT LEADERBOARD : L’OUTIL QUI CHANGE LA DONNE

IBM Research lance aujourd’hui le Open Agent Leaderboard, une plateforme ouverte pour comparer des systèmes d’agents complets, et pas seulement leurs modèles. Contrairement aux benchmarks classiques, il affiche à la fois la qualité des résultats et le coût de fonctionnement. Ainsi, on peut voir non seulement ce qui marche, mais aussi ce qui vaut vraiment le coup d’être déployé.

Cette plateforme s’accompagne du framework Exgentic, conçu pour exécuter et reproduire les évaluations, ainsi que d’un article détaillant la méthodologie et les résultats. Tout est accessible dès le premier jour, sans restriction.

Un bon modèle ne suffit pas : l’agent qui l’entoure fait toute la différence.

LA GÉNÉRALITÉ, CE CONCEPT QUI FAIT DÉBAT

Les agents IA deviennent très utiles quand ils sont adaptés à une tâche précise, comme coder dans un dépôt familier ou gérer un service client avec des outils connus. Mais la vraie question est : un même agent peut-il gérer plusieurs tâches différentes, chacune avec ses propres outils, règles et contraintes, sans être personnalisé manuellement pour chacune ?

Un agent généraliste est celui que l’on peut placer dans un nouvel environnement et qui fonctionne immédiatement. C’est cette capacité que mesure le leaderboard : pas seulement si un agent peut faire une tâche, mais s’il reste performant quand les situations se multiplient, et à quel prix.

Un système qui prétend tout faire mais coûte une fortune à faire tourner n’est pas généraliste, peu importe ses performances théoriques.

SIX BENCHMARKS POUR TESTER LA VRAIE GÉNÉRALITÉ

Pour évaluer cette généralité, IBM Research a assemblé six benchmarks couvrant des tâches réalistes et variées : codage, service client, support technique, assistance personnelle et recherche. Chaque benchmark est un test établi, créé et validé par la communauté scientifique.

Ces benchmarks ne sont pas choisis parce qu’un seul d’entre eux capture la généralité. Ils le sont parce qu’ensemble, ils testent des choses très différentes : des modifications réelles de code, des recherches ouvertes, des espaces d’actions larges, des conversations soumises à des règles strictes. C’est cette diversité qui rend l’évaluation pertinente.

Chaque benchmark a été conçu pour tester un type de tâche d’une manière spécifique. Pour les faire travailler ensemble, il a fallu leur donner une structure commune. Les chercheurs ont introduit un protocole unifié qui donne à chaque benchmark la même forme : une tâche (ce qu’il faut faire), un contexte (ce qu’il faut savoir) et un ensemble d’actions autorisées.

Au lieu que chaque agent parle le langage de chaque benchmark, tous parlent le même langage.

Cette standardisation n’est pas simple. Chaque benchmark a ses propres hypothèses, instructions et schémas d’interaction. S’assurer que ces éléments ne rentrent pas en conflit avec le fonctionnement interne des différents agents demande une compréhension approfondie des deux côtés. C’est l’une des raisons pour lesquelles ce travail a pris du temps, et l’une des raisons pour lesquelles les résultats peuvent différer de ceux que l’on voit sur les leaderboards individuels des benchmarks. Mais le jeu en vaut la chandelle : les benchmarks gardent leur conception originale, les agents conservent leurs outils et interfaces natifs, et le protocole leur offre un moyen commun de communiquer.

COMMENT LIRE LES RÉSULTATS DU LEADERBOARD

Chaque ligne du leaderboard représente un système d’agent complet : un agent spécifique associé à un modèle précis, évalué sur les six benchmarks. Pour chaque configuration, on voit le taux de réussite moyen, le coût moyen par tâche, ainsi que des détails par benchmark.

Regardez les trois premières places : elles utilisent toutes le même modèle. Pourtant, leurs scores et leurs coûts diffèrent parce que les systèmes d’agents qui les entourent ne sont pas les mêmes.

Même modèle, agents différents, résultats différents : l’agent compte.

L’écart de coût est tout aussi frappant. La configuration la plus efficace dans le top cinq coûte une fraction du prix de la plus performante. Le tableau complet devient clair quand on trace chaque configuration en fonction de la qualité et du coût :

Quand l’implémentation de l’agent est visible aux côtés du modèle, on peut commencer à démêler ce qui influence les résultats : quelles améliorations viennent du modèle, quelles viennent de la conception de l’agent, et quels composants se généralisent à différents contextes. C’est exactement ce que ce leaderboard est conçu pour montrer.

Une précision sur les résultats : les agents testés ici le sont en tant que systèmes polyvalents, sans ajustement spécifique pour un benchmark, et sans les optimisations de prompts ou d’environnement que les développeurs de modèles appliquent souvent à des benchmarks individuels. Les scores peuvent donc différer. Consultez l’article pour plus de détails.

LES PREMIÈRES LEÇONS QUI SURPRENNENT

Une découverte a surpris les chercheurs : les agents polyvalents sont déjà compétitifs face aux systèmes spécialisés. Dans plusieurs cas, des agents sans ajustement spécifique pour un benchmark ont égalé des systèmes conçus directement pour ces tâches.

Sur la plupart des benchmarks, les agents polyvalents égalent ou surpassent même les meilleurs systèmes spécialisés. Un seul agent peut de plus en plus gérer plusieurs types de travail, et pas seulement l’environnement pour lequel il a été préparé.

Les résultats révèlent aussi quelque chose que les taux de réussite seuls ne montrent pas : les agents diffèrent radicalement dans la façon dont ils échouent. Certains échouent rapidement et à moindre coût. D’autres brûlent des ressources longues et coûteuses avant d’abandonner. Dans leurs expériences, les exécutions échouées coûtent entre 20 % et 54 % plus cher que les réussies. Pour quiconque fait tourner des agents en production, le comportement face à l’échec façonne la facture autant que le succès.

Le constat le plus important concerne ce qui influence les résultats. Le choix du modèle reste le facteur dominant. Mais l’architecture de l’agent commence déjà à faire une différence visible. La sélection d’outils, qui aide l’agent à se concentrer sur les outils pertinents au lieu de tout explorer, a amélioré les performances sur chaque modèle testé et transformé des configurations autrement vouées à l’échec en solutions viables.

Aujourd’hui, le modèle explique la plupart des résultats. Mais l’agent qui l’entoure commence déjà à changer la donne.

La méthodologie complète et l’analyse empirique sont décrites dans leur article sur l’évaluation des agents polyvalents.

TOUT CE QUI EST PUBLIÉ AUJOURD’HUI EST OUVERT

Tout derrière ce leaderboard est accessible. Aujourd’hui, IBM Research publie :

Ce travail a été conçu pour la communauté. Explorez les résultats, soumettez vos propres évaluations et aidez à rendre l’évaluation des agents plus ouverte et plus utile pour tous.

CE QUE LA COMMUNAUTÉ PEUT APPORTER

Les agents polyvalents sont trop importants pour être évalués derrière des portes closes.

Les agents polyvalents sont des systèmes modulaires : planification, mémoire, utilisation d’outils, gestion du contexte, récupération d’erreurs. Les résultats ci-dessus montrent que ces composants font de réels compromis entre coût, fiabilité et performance. Si un composant fait tout le travail, la communauté doit pouvoir le voir.

IBM Research a créé Exgentic pour rendre cette évaluation ouverte pratique : une plateforme ouverte qui orchestrer des sessions de benchmarks multi-environnements et produit des résultats standardisés, des trajectoires et des rapports de coûts. Mais ils ne peuvent pas construire cela seuls.

Les développeurs d’agents peuvent ouvrir leurs systèmes en versionnant leurs changements, en documentant leur contenu et en rendant leurs composants configurables. Les créateurs de benchmarks peuvent aider à élargir la gamme des contextes évalués. Et chacun peut reproduire les résultats, les contester et trouver ce qui a été oublié.

Ce n’est pas encore simple. La plupart des benchmarks n’ont pas été conçus en pensant aux agents polyvalents et nécessitent une adaptation soigneuse. C’est un projet en évolution, et les retours sur ce qui doit être plus facile sont tout aussi bienvenus qu’une contribution aboutie.

Ce qui vient ensuite Depuis son lancement, deux modèles à poids ouverts, DeepSeek V3.2 et Kimi K2.5, ont été ajoutés, portant le leaderboard à cinq modèles répartis sur cinq agents et six benchmarks. Les résultats pour les modèles à poids ouverts racontent une histoire claire : compétitifs sur certaines combinaisons, mais en retard de 18 à 29 points de pourcentage en moyenne face aux modèles propriétaires de pointe. Lisez l’analyse approfondie des modèles à poids ouverts.

Le leaderboard n’est utile que si la communauté l’alimente. IBM Research cherche des contributions sur trois axes : de nouveaux agents (emballez votre agent dans le protocole Exgentic et soumettez les résultats), de nouveaux benchmarks (toute suite de tâches avec un évaluateur programmatique peut être intégrée), et de nouveaux modèles (surtout les modèles à poids ouverts qu’ils n’ont pas encore couverts). Soumettez vos résultats en ouvrant une Pull Request sur le jeu de données des résultats.

UNE CONCLUSION QUI FAIT RÉFLÉCHIR

Les agents polyvalents méritent une évaluation qui reflète ce qui est réellement mesuré : le système complet, et pas seulement le modèle.

Le Open Agent Leaderboard est un point de départ. Les chercheurs croient qu’il peut devenir quelque chose de plus grand : un standard partagé pour que la communauté évalue, compare et améliore les systèmes d’agents ouverts.

Explorez le leaderboard. Lisez l’article. Essayez Exgentic. Et si cette direction vous parle, aidez à le construire.

Les agents polyvalents sont en train de transformer la façon dont le travail est fait. Cherchons et discutons-en ouvertement.

POUR ALLER PLUS LOIN

Évaluation des agents polyvalents — Article de l’atelier ICLR 2026

Prêt pour les agents polyvalents ? Testons cela — Blog ICLR 2026

Position : les systèmes agentiques doivent être polyvalents — Article de l’atelier ICLR 2026

Jeux de données mentionnés dans cet article

Autres articles de cet auteur

Sources :
  • Hugging Face Blog

L'indépendance de CLODCO est votre garantie.

Pour que l'actualité de l'IA reste sans filtre et sans concession, votre soutien est indispensable. Votre contribution est le seul moteur de notre liberté éditoriale.

Soutenir CLODCO