Les modèles d'IA les plus performants peinent à résoudre des problèmes réels dans les entreprises. Un test inédit met en lumière leurs limites face aux tâches IT complexes.
UN NOUVEAU BENCHMARK POUR TESTER L'IA DANS LES ENTREPRISES
Pour la première fois, un benchmark évalue les capacités des modèles d'IA à accomplir des tâches IT critiques dans les entreprises. Baptisé ITBench-AA, ce test est le premier d'une série conçue pour mesurer les performances des modèles frontaliers sur des missions d'ingénierie IT automatisée. L'objectif ? Vérifier si ces intelligences artificielles peuvent remplacer ou assister des experts humains dans des situations réelles.
ITBench-AA se concentre d'abord sur les tâches de Site Reliability Engineering (SRE), c'est-à-dire la gestion des incidents informatiques en temps réel. Concrètement, les modèles doivent analyser des systèmes en direct en lisant des logs, en traçant les dépendances entre services et en identifiant les causes racines des pannes. Une tâche complexe, car les infrastructures modernes ressemblent à un labyrinthe de connexions où un seul problème peut en cacher un autre.
LES MODÈLES FRONTIERS EN ÉCHEC : LES CHIFFRES QUI PARLENT
Les résultats sont sans appel. Sur les 59 tâches de SRE proposées, aucun modèle ne dépasse les 50% de réussite. Le meilleur, Claude Opus 4.7 (avec raisonnement adaptatif et effort maximal), atteint 47%. Il est talonné par GPT-5.5 (xhigh) à 46% et Qwen3.7 Max à 42%.
Pour mettre ces chiffres en perspective, les modèles frontaliers obtiennent généralement de bien meilleurs résultats sur d'autres benchmarks comme Terminal-Bench. Cela suggère que les tâches IT automatisées sont particulièrement difficiles pour l'IA actuelle. Autre surprise : le nombre de tentatives n'améliore pas les performances. GPT-5.5 (xhigh) effectue en moyenne 31 tentatives par tâche pour atteindre 46% de réussite, tandis que Gemini 3.1 Pro Preview en réalise 83 pour seulement 30% de succès.
Parmi les modèles open source, GLM-5.1 (Reasoning) mène la danse avec 40%, suivi de près par Gemini 3.5 Flash (high) à 39%. DeepSeek V4 Pro (Reasoning, Max Effort) complète le podium avec 38%, devant Gemma 4 31B (Reasoning) à 37%.
COMMENT FONCTIONNE LE TEST ? DÉCOMPOSITION D'UNE TÂCHE IT
Chaque tâche de ITBench-AA simule un incident réel dans un système Kubernetes, une technologie utilisée par des milliers d'entreprises pour gérer leurs applications. Le modèle doit analyser une capture instantanée de l'incident, qui contient des alertes, des événements, des traces, des métriques, des logs et la topologie de l'application. Son objectif ? Identifier le minimum d'entités Kubernetes responsables de la panne, parmi des centaines de services interconnectés.
Les pannes simulées couvrent des scénarios classiques en SRE : épuisement des quotas de ressources, échecs de déploiement, saturation des pools de connexion ou partitions réseau. Par exemple, une tâche publique montre un échec côté utilisateur dans le chemin frontal. L'IA doit utiliser des commandes shell pour inspecter les logs hors ligne, analyser les alertes, tracer les dépendances et enfin identifier la cause racine : une politique réseau bloquant le trafic frontal.
Le modèle doit alors soumettre un diagnostic structuré au format JSON, listant les entités responsables. Pour réussir, il doit identifier toutes les causes racines sans erreur. Sinon, il obtient un score de 0. S'il les identifie toutes, son score dépend de la précision de sa réponse : le ratio entre les bonnes réponses et le total de ses propositions.
POURQUOI LES MODÈLES ÉCHOUENT-ILS ? LES PIÈGES DE L'IA DANS LES ENTREPRISES
Plusieurs raisons expliquent ces résultats décevants. D'abord, les modèles ont tendance à trop investiguer. Ils confondent souvent des symptômes ou des mécanismes d'injection de pannes avec les vraies causes racines. Par exemple, une panne peut être déclenchée par une surcharge de trafic, mais l'IA peut croire que le problème vient d'un service en aval, alors que la vraie cause est en amont.
Autre problème : les infrastructures IT modernes sont extrêmement complexes. Un seul incident peut avoir des dizaines de causes possibles, et l'IA doit naviguer dans ce réseau de dépendances comme un explorateur dans une jungle. Les modèles frontaliers, bien qu'impressionnants sur d'autres tâches, peinent à gérer cette granularité et cette imbrication des problèmes.
Enfin, le benchmark révèle que les modèles ne tirent pas profit des trajectoires longues. Faire plus d'étapes ne garantit pas une meilleure réponse. Certains modèles, comme Gemini 3.1 Pro Preview, passent beaucoup de temps à explorer des pistes sans issue, ce qui réduit leur efficacité globale.
QUELLE EST LA SUITE POUR ITBENCH-AA ?
ITBench-AA est développé en partenariat avec IBM, qui apporte son expertise en opérations IT d'entreprise. À terme, ce benchmark s'étendra à d'autres domaines critiques comme les opérations financières (FinOps) et la sécurité informatique (CISO). L'objectif est clair : créer une série de tests qui reflètent la réalité des défis IT auxquels les entreprises font face chaque jour.
Pour les entreprises, ces résultats soulignent un point crucial : l'IA n'est pas encore prête à remplacer entièrement les experts humains dans les tâches IT complexes. Elle peut cependant les assister, à condition d'être correctement encadrée et entraînée sur des scénarios réalistes. Les benchmarks comme ITBench-AA sont donc essentiels pour progresser et identifier les lacunes à combler.
- Hugging Face Blog
L'indépendance de CLODCO est votre garantie.
Pour que l'actualité de l'IA reste sans filtre et sans concession, votre soutien est indispensable. Votre contribution est le seul moteur de notre liberté éditoriale.
Soutenir CLODCO


