Les agents vocaux vont-ils enfin tenir leurs promesses ? Ce nouveau test les démasque

EVA-Bench Data 2.0 multiplie par quatre le nombre de scénarios pour tester les agents vocaux. Trois domaines, 121 Outils, 213 situations réelles : voici le test qui va faire trembler les modèles.

Les agents vocaux promettent de remplacer les centres d'appels, mais en réalité, ils échouent souvent dès qu'on sort du scénario idéal. Un modèle qui gère parfaitement les codes de confirmation pour un réacheminement de vol peut complètement se planter face à une question complexe sur une politique de ressources humaines. Le problème ? Chaque domaine a son vocabulaire, ses règles et ses pièges cachés. Pour y voir plus clair, EVA-Bench Data 2.0 passe à la vitesse supérieure avec une version étendue à trois domaines professionnels.

"Un agent vocal peut être excellent dans un domaine et catastrophique dans un autre. Il faut tester les deux."

EVA-BENCH DATA 2.0 : LE TEST QUI SORT LES AGENTS VOCAUX DE LEUR BULLE

EVA-Bench Data 2.0 couvre désormais trois domaines professionnels : la gestion des services clients dans l'aérien (CSM), la gestion des services informatiques en entreprise (ITSM) et la gestion des ressources humaines dans le secteur médical (HRSD). Ensemble, ces trois univers totalisent 213 scénarios d'évaluation, soit quatre fois plus que la première version. Chaque scénario a été validé comme réalisable par trois modèles de pointe : OpenAI GPT-5.4, Google Gemini 3.1 Pro et Anthropic Claude Opus 4.6. Les trois jeux de données sont open source et accessibles directement depuis la bibliothèque Hugging Face.

Pour charger un jeu de données, il suffit d'utiliser ces quelques lignes de code :

from datasets import load_dataset

# Gestion des services clients dans l'aérien (CSM) — 50 scénarios
airline = load_dataset("ServiceNow-AI/eva-bench", "airline", split="test")

# Gestion des services informatiques en entreprise (ITSM) — 80 scénarios
itsm = load_dataset("ServiceNow-AI/eva-bench", "itsm", split="test")

# Gestion des ressources humaines dans le médical (HRSD) — 83 scénarios
hrsd = load_dataset("ServiceNow-AI/eva-bench", "medical", split="test")

CINQ RÈGLES POUR CRÉER DES SCÉNARIOS QUI NE TROMPENT PAS

Derrière EVA-Bench Data 2.0, il y a cinq principes fondamentaux qui guident la conception des scénarios. D'abord, le cadre vocal : tous les scénarios doivent être réalisables par téléphone, pas par chat ou par formulaire. Ensuite, le réalisme : les schémas des outils s'inspirent des API utilisées en production, et les politiques sont extraites de vraies contraintes d'entreprise. Pour le domaine médical, cela signifie intégrer des éléments comme les numéros NPI, les règles FMLA ou les couvertures d'assurance, exactement comme un professionnel les rencontre au quotidien.

La variété est cruciale : pas question de répéter les mêmes tâches en boucle. EVA-Bench mélange trois types de scénarios : les appels à intention unique, les appels à intentions multiples (jusqu'à quatre objectifs différents dans une seule conversation) et les appels adversariaux où l'utilisateur tente de contourner les étapes de dépannage, de mal classer l'urgence ou d'accéder à des données non autorisées. Même les scénarios où l'objectif est impossible à atteindre sont inclus, car en réalité, les centres d'appels ne sont pas tous des success stories.

L'authentification est un point noir récurrent pour les agents vocaux. Chaque domaine inclut des flux d'authentification, mais adaptés au contexte : un code OTP peut être nécessaire pour accéder à un dossier médical, mais pas pour une simple demande de remboursement de billet d'avion. Enfin, la reproductibilité est essentielle : chaque scénario a exactement un chemin de résolution correct. L'objectif est conçu pour que le simulateur ait toujours les informations nécessaires pour se comporter de manière cohérente, sans ambiguïté.

SYGRA : LA MACHINE QUI GÉNÈRE DES SCÉNARIOS À LA CHAÎNE

Pour créer ces 213 scénarios, les équipes ont utilisé SyGra, un outil de génération de données synthétiques basé sur des graphes. SyGra produit trois éléments clés en même temps, pour éviter les incohérences : l'objectif de l'utilisateur, la base de données initiale et l'état final attendu. L'objectif de l'utilisateur est structuré comme un arbre de décision qui couvre toutes les situations possibles. Il précise exactement ce que l'utilisateur doit demander, et à quel moment il doit négocier, accepter ou refuser une proposition.

La base de données initiale contient l'état du système au début du scénario : identifiants de réservation, détails de compte, codes d'authentification. Ces données sont générées en même temps que l'objectif de l'utilisateur, pour garantir leur cohérence. L'état final attendu est obtenu en faisant exécuter le scénario par un modèle de langage, qui produit une trace complète des actions à mener. Chaque appel d'outil modifie la base de données, et l'état final devient la référence pour évaluer les agents.

SyGra fonctionne en boucle : après chaque génération, une validation en trois étapes vérifie la cohérence des données. Si un problème est détecté (un identifiant référencé mais inexistant, par exemple), le processus recommence jusqu'à ce que tout soit parfait. Ensuite, chaque scénario passe par une revue manuelle pour s'assurer que les politiques sont appliquées de manière cohérente, que les objectifs sont suffisamment précis, et que les scénarios adversariaux sont bien spécifiés.

"Un scénario mal conçu peut fausser l'évaluation. Avec SyGra, chaque détail est vérifié jusqu'à ce que le test soit juste."

LES TROIS DOMAINES : CHAQUE UNIVERS A SES PIÈGES

Les trois domaines d'EVA-Bench Data 2.0 ont été choisis pour tester des axes de difficulté différents. Tous exigent une transcription précise d'entités structurées (codes de confirmation, identifiants d'employés), mais chacun a son propre défi principal et son nombre d'outils.

L'aérien (CSM) se concentre sur la gestion des réservations et des remboursements. L'informatique (ITSM) teste la résolution de problèmes techniques complexes, comme le dépannage d'un serveur ou la gestion d'un ticket d'incident. Le médical (HRSD) pousse les agents à comprendre des politiques administratives détaillées, comme les droits FMLA ou les règles d'assurance, tout en respectant des contraintes légales strictes.

LE MULTILINGUE : POURQUOI L'ANGLAIS NE SUFFIT PLUS

Un agent vocal excellent en anglais peut échouer lamentablement dans une autre langue. La reconnaissance vocale, la transcription et la fluidité conversationnelle varient énormément selon les langues et les cultures. Pour refléter cette réalité, EVA-Bench Data 2.0 prépare une extension multilingue. L'objectif ? Adapter non seulement le langage de la conversation, mais aussi le pipeline d'évaluation à chaque langue cible.

Cette extension permettra au simulateur d'utilisateur de fournir une expérience authentique dans la langue de son choix. Au-delà des données, les métriques et les juges seront mis à jour pour offrir une évaluation fiable, même en dehors de l'anglais.

COMMENT TÉLÉCHARGER ET UTILISER LES DONNÉES

EVA-Bench est entièrement open source sous licence MIT. Le jeu de données, le cadre d'évaluation et le tableau de bord sont tous publics. Pour télécharger les données ou explorer des enregistrements individuels, rendez-vous sur la page Hugging Face. Voici comment charger les jeux de données directement depuis la bibliothèque Hugging Face :

from datasets import load_dataset

# Gestion des services clients dans l'aérien (CSM) — 50 scénarios
airline = load_dataset("ServiceNow-AI/eva-bench", "airline", split="test")

# Gestion des services informatiques en entreprise (ITSM) — 80 scénarios
itsm = load_dataset("ServiceNow-AI/eva-bench", "itsm", split="test")

# Gestion des ressources humaines dans le médical (HRSD) — 83 scénarios
hrsd = load_dataset("ServiceNow-AI/eva-bench", "medical", split="test")

Chaque enregistrement contient un objectif d'utilisateur structuré, une base de données initiale et un état final attendu. Tout est conçu pour permettre une évaluation complète entre bots, sans besoin d'intervention humaine. Pour les instructions d'installation, le code et les directives de contribution, consultez le dépôt GitHub.

DERNIÈRE VÉRIFICATION : LES MODÈLES DE POINTE ONT TOUT TESTÉ

Avant de valider définitivement les scénarios, les équipes ont fait passer trois modèles de pointe sur une version textuelle de chaque scénario. L'objectif ? Identifier les scénarios impossibles à résoudre, et vérifier si l'échec venait du modèle ou d'un problème dans les données. Pour chaque scénario où aucun modèle n'a réussi, une investigation manuelle a déterminé si le problème venait d'une politique ambiguë, d'un objectif sous-spécifié, d'un bug dans l'exécuteur d'outils ou d'une incohérence entre la base de données initiale et l'état final attendu. Les scénarios problématiques ont été corrigés ou supprimés. Résultat : tous les scénarios retenus sont résolubles par au moins un des trois modèles.

LE SAVIEZ-VOUS ? EVA-BENCH N'EST PAS SEUL DANS LA COURSE

EVA-Bench Data 2.0 s'inscrit dans un écosystème de benchmarks dédiés aux agents vocaux. Par exemple, τ-Voice se concentre sur l'évaluation des agents vocaux en duplex intégral dans des domaines du monde réel. Un autre outil, SyGra, est utilisé pour générer, qualifier et gérer des données synthétiques à grande échelle. Ces projets partagent une ambition commune : rendre les évaluations des agents vocaux plus réalistes et plus fiables.

POURQUOI CE BENCHMARK VA TOUT CHANGER

Les benchmarks actuels ne reflètent pas la réalité des centres d'appels. Ils testent souvent des scénarios simplifiés, sans prise en compte des contraintes réelles comme l'authentification, les politiques complexes ou les utilisateurs difficiles. EVA-Bench Data 2.0 change la donne en proposant des scénarios ultra-réalistes, validés par des modèles de pointe et conçus pour révéler les vraies limites des agents vocaux.

Avec 213 scénarios répartis sur trois domaines critiques, ce benchmark permet aux développeurs de savoir exactement où leur agent vocal brille. et où il échoue. Et grâce à son approche open source, il devient accessible à tous, des startups aux grands groupes. La question n'est plus de savoir si les agents vocaux fonctionnent, mais dans quelles conditions ils fonctionnent vraiment.

CE QU'IL FAUT RETENIR

EVA-Bench Data 2.0 est le premier benchmark à tester les agents vocaux sur trois domaines professionnels réalistes : l'aérien, l'informatique et la santé. Avec 213 scénarios, quatre fois plus que la version précédente, il offre une couverture sans précédent. Chaque scénario est conçu pour être réaliste, varié et reproductible, avec des flux d'authentification adaptés au contexte. Les données sont open source, et le cadre d'évaluation est prêt à être utilisé immédiatement. Une révolution pour ceux qui veulent savoir si les agents vocaux tiennent vraiment leurs promesses.

ET DEMAIN ?

L'équipe travaille déjà sur une extension multilingue pour sortir du cadre de l'anglais. L'objectif est clair : fournir un outil d'évaluation fiable, quel que soit le contexte linguistique et culturel. Dans les mois à venir, EVA-Bench pourrait devenir la référence absolue pour tester les agents vocaux, bien au-delà des laboratoires de recherche.

POUR ALLER PLUS LOIN

Si vous voulez tester un agent vocal, concevoir votre propre jeu de données d'évaluation ou contribuer au projet, tout est expliqué dans le dépôt GitHub. Les données sont disponibles sur Hugging Face, et le cadre d'évaluation est prêt à l'emploi. Une chose est sûre : avec EVA-Bench Data 2.0, il n'y a plus d'excuses pour ignorer les limites réelles des agents vocaux.

Sources :

Hugging Face Blog

L'indépendance de CLODCO est votre garantie.

Pour que l'actualité de l'IA reste sans filtre et sans concession, votre soutien est indispensable. Votre contribution est le seul moteur de notre liberté éditoriale.

Soutenir CLODCO