Ces IA vocales échouent avec les clients bilingues : le choc des chiffres

Plus de la moitié de la population mondiale parle au moins deux langues. Pourtant, les assistants vocaux peinent à suivre quand leurs utilisateurs passent d'une langue à l'autre en plein milieu d'une phrase. Voici les résultats d'un test choc.

LE CODE-SWITCHING : UNE RÉALITÉ QUOTIDIENNE POUR DES MILLIARDS DE PERSONNES

Imaginez une conversation où une personne passe soudainement de l'espagnol à l'anglais au milieu d'une phrase, comme si elle changeait de voie sur une autoroute. Ce phénomène s'appelle le code-switching. Il est naturel pour des millions de personnes dans le monde, que ce soit au café, au travail ou dans un centre d'appels.

Pourtant, cette fluidité linguistique pose un énorme défi aux agents vocaux et aux systèmes de reconnaissance automatique de la parole (ASR). Ces Outils, conçus pour traiter une seule langue à la fois, doivent maintenant gérer des phrases qui mélangent allègrement deux langues, parfois même plusieurs.

Les erreurs de transcription ne sont pas anodines : dans un contexte professionnel comme un service client ou un helpdesk informatique, une mauvaise compréhension peut entraîner un ticket mal aiguillé, une question de politique mal interprétée, ou pire, une panne de système.

UNE ÉTUDE POUR TESTER LES LIMITES DES ASR : LE CAS DES CLIENTS BILINGUES

Face à la demande d'un client dont la clientèle mélange allègrement l'anglais et une autre langue, une équipe de chercheurs a décidé de créer son propre benchmark pour évaluer les capacités des modèles ASR. L'objectif ? Comprendre comment ces systèmes gèrent le code-switching dans des situations concrètes.

L'équipe a choisi de se concentrer sur la première étape de tout agent vocal : la transcription. Car une erreur ici se répercute sur toutes les étapes suivantes. Leur étude couvre quatre paires de langues parmi les plus courantes dans leur clientèle : espagnol-anglais, français-anglais, français canadien-anglais, et allemand-anglais.

Dans chaque cas, la langue non anglaise sert de langue matrice : c'est elle qui structure la phrase, tandis que l'anglais est inséré à différents endroits, comme un mot ou une expression qui s'invite dans la conversation.

DES SCÉNARIOS RÉALISTES POUR TESTER LES ASR

Pour rendre l'expérience la plus réaliste possible, les chercheurs ont sélectionné des situations typiques d'un service client ou d'un service informatique : des questions sur les avantages sociaux, la paie, des demandes de réinitialisation de mot de passe, d'accès VPN, ou de dépannage d'appareil.

Chaque phrase testée fait entre 12 et 40 mots. Assez longue pour contenir des opportunités de code-switching, mais assez courte pour rester naturelle à l'oral. Les phrases avec trop de chiffres, d'adresses e-mail ou de noms propres ont été exclues : ces éléments rendent le texte à moitié anglais par nécessité, pas par choix linguistique.

Enfin, chaque phrase devait contenir au moins trois mots de contenu (noms, verbes, adjectifs) qui pouvaient être remplacés par une autre langue. Cela permet de créer des phrases où le code-switching est vraiment significatif.

COMMENT LES CHERCHEURS ONT CRÉÉ LEUR BASE DE DONNÉES

Le processus a commencé par une collecte de données internes : des transcriptions réelles d'interactions en anglais et dans les trois autres langues. Ensuite, pour chaque phrase, un modèle de langage a reçu une instruction simple pour générer une version code-switched. Par exemple : « Imagine une phrase en espagnol qui parle de paie, mais avec un mot en anglais inséré naturellement. »

Une fois la phrase code-switched générée, elle était transformée en audio grâce à un outil de synthèse vocale multilingue. Chaque enregistrement était ensuite relu et validé par un linguiste natif de la langue matrice. Les phrases jugées incorrectes étaient exclues ou regénérées.

Au final, la base de données contient 259 phrases pour l'espagnol-anglais, 298 pour le français-anglais, 188 pour le français canadien-anglais, et 173 pour l'allemand-anglais.

TROIS MÉTRIQUES POUR ÉVALUER LES MODÈLES ASR

Pour mesurer la performance des modèles, trois indicateurs ont été retenus :

WER (Word Error Rate) : le taux d'erreur sur les mots. Plus il est bas, mieux c'est.
SWER (Semantic Word Error Rate) : le taux d'erreur en tenant compte du sens des mots. Ici aussi, plus c'est bas, mieux c'est.
AER (Answer Error Rate) : le taux d'erreur sur la compréhension globale de la phrase. Trois questions de compréhension étaient posées pour chaque phrase.

Ces trois métriques permettent d'évaluer non seulement la précision de la transcription, mais aussi la capacité des modèles à préserver le sens de la phrase pour les étapes suivantes.

LES RÉSULTATS : QUELS MODÈLES TENNENT LA ROUTE ?

Les tests ont porté sur sept systèmes ASR différents, incluant des modèles audio-linguistiques avancés, des ASR de pointe et des solutions open source. Résultat : le coût du code-switching varie énormément selon la paire de langues et le modèle testé.

Les trois modèles qui se distinguent sont ElevenLabs Scribe V2, Gemini 3 Flash et Assembly AI Universal 3-Pro. Ils obtiennent les meilleurs scores sur l'ensemble des métriques pour cette tâche.

LE CODE-SWITCHING COÛTE-T-IL PLUS CHER QUE LA PAROLE MONOLINGUE ?

Pour répondre à cette question, les chercheurs ont comparé les performances des modèles sur trois versions de chaque phrase :

La version code-switched (avec mélange de langues)
La version en langue matrice seule (sans anglais)
La version en anglais seul

Pour chaque phrase, ils ont mesuré la différence de WER entre la version code-switched et la version monolingue. Puis ils ont agrégé ces différences pour l'ensemble du benchmark.

Les résultats montrent que le code-switching ajoute un coût supplémentaire, mais ce coût varie selon les modèles et les paires de langues.

POURQUOI LE CODE-SWITCHING FAIT-IL PLANTER LES ASR ?

Pour comprendre ce qui rend le code-switching si difficile, les chercheurs ont utilisé un modèle en deux parties :

La première partie identifie les facteurs qui rendent une erreur plus probable. La deuxième partie analyse les facteurs qui influencent la taille de l'erreur une fois qu'elle s'est produite.

Les deux parties du modèle incluent les mêmes variables :

Le nombre de changements de langue dans une phrase
L'indice de mélange de code (CMI) : la proportion de mots issus de la langue secondaire par rapport à la langue matrice
La longueur de la phrase (comme variable de contrôle)

Les résultats révèlent que le nombre de changements de langue est le facteur le plus associé à la probabilité d'erreur. Chaque changement de langue ajoute une opportunité d'erreur dans le processus de transcription.

CE QUI AGGRAVE LES ERREURS : LA DENSITÉ DU MÉLANGE

Quand on passe aux erreurs elles-mêmes, un autre facteur entre en jeu : l'indice de mélange de code (CMI). Plus une phrase est dense en mélange de langues, plus les erreurs de transcription sont graves.

Par exemple, dans la paire allemand-anglais, quatre modèles sur sept ont montré une relation significative entre le CMI et le WER. Cela signifie que plus une phrase alterne entre les deux langues de manière serrée, plus les erreurs sont importantes.

OÙ SE CONCENTRENT LES ERREURS DANS UNE PHRASE CODE-SWITCHED ?

Pour identifier les parties de la phrase les plus problématiques, les chercheurs ont utilisé GPT-5 pour étiqueter chaque mot selon sa langue. Ensuite, ils ont attribué chaque erreur de transcription au mot concerné, calculant un WER par langue.

Résultat surprenant : les erreurs se concentrent sur les parties en anglais, et non sur la langue matrice. Pourtant, en contexte monolingue, l'anglais est souvent mieux géré par ces modèles. Plusieurs explications possibles :

Les segments en anglais contiennent peut-être plus de vocabulaire technique ou de noms propres difficiles à transcrire.
Les segments en langue secondaire créent un contexte difficile, quel que soit le modèle : quand un modèle doit s'adapter à une autre langue au milieu d'une phrase, il doit changer de registre phonologique et lexical en temps réel, ce qui augmente le risque d'erreur.

Cette découverte suggère que la difficulté du code-switching ne se limite pas aux points de changement de langue, mais s'étend à l'ensemble des segments en langue secondaire.

LES ERREURS SE CONCENTRENT SUR L'ANGLAIS, MÊME SI C'EST LA LANGUE LA MIEUX MAÎTRISÉE

Les erreurs de transcription se concentrent sur les parties en anglais des phrases code-switched, alors que l'anglais est souvent mieux géré en contexte monolingue.

Cela peut sembler contre-intuitif, mais c'est un fait : les modèles ASR ont plus de mal à transcrire les segments en anglais insérés dans une phrase majoritairement dans une autre langue que les segments monolingues en anglais.

Plusieurs hypothèses sont avancées :

Les mots anglais insérés pourraient contenir des termes techniques ou des entités nommées (noms propres, codes) plus difficiles à reconnaître.
Le passage soudain à une autre langue crée une rupture dans le flux de parole, obligeant le modèle à s'adapter en temps réel à un nouveau registre phonétique et lexical.

LES LIMITES DE L'ÉTUDE : CE QU'IL FAUT GARDER EN TÊTE

Comme toute étude, celle-ci a ses limites. D'abord, les phrases testées sont des extraits courts, alors qu'en situation réelle, les conversations sont plus longues et plus complexes.

Ensuite, les scénarios choisis (questions RH ou demandes IT) ne couvrent pas tous les contextes possibles de code-switching. Par exemple, des conversations plus créatives ou émotionnelles pourraient poser des défis différents.

Enfin, l'étude ne teste que sept modèles ASR, alors que des dizaines d'autres existent sur le marché. Les résultats ne peuvent donc pas être généralisés à tous les systèmes.

LE CODE-SWITCHING : UN TEST POUR LES MODÈLES DE VOIX DE DEMAIN

Le code-switching a toujours été un casse-tête pour les modèles vocaux. Mais les résultats de cette étude montrent que pour les meilleurs modèles ASR, c'est de moins en moins un problème.

Quand une entreprise choisit soigneusement son système ASR, les clients bilingues peuvent parler naturellement, en mélangeant les langues au milieu d'une phrase, sans sacrifier la qualité de la transcription ou la compréhension globale.

LES MEILLEURS MODÈLES S'ADAPTENT, MAIS PAS TOUS

Les trois modèles en tête du classement — ElevenLabs Scribe V2, Gemini 3 Flash et Assembly AI Universal 3-Pro — gèrent le code-switching avec des pénalités étonnamment faibles par rapport à leurs performances en monolingue. Et les métriques sémantiques (SWER et AER) racontent une histoire encore plus encourageante.

Mais attention : tous les modèles ne sont pas égaux. Avant de choisir un ASR pour un usage en production, il est crucial de tester ses performances sur les langues réelles de ses clients. Car les résultats varient énormément selon les modèles et les paires de langues.

Par exemple, le meilleur modèle pour des clients hispanophones-anglais n'est pas forcément le meilleur pour des clients germanophones-anglais.

LE CODE-SWITCHING N'EST PLUS UNE EXCEPTION, MAIS UNE NORME

Cette étude montre que le code-switching n'est plus un cas marginal, mais une réalité pour des millions de personnes. Et les modèles ASR doivent s'adapter, sous peine de laisser de côté une partie importante de la population.

Les entreprises qui investissent dans des systèmes capables de gérer ce phénomène gagnent un avantage concurrentiel : elles peuvent offrir un service client ou un support technique de qualité à une clientèle bilingue, sans barrière linguistique.

QUEL MODÈLE CHOISIR POUR VOTRE ENTREPRISE ?

Si vous gérez un service client ou un helpdesk avec une clientèle bilingue, voici ce qu'il faut retenir :

Testez toujours les modèles ASR sur les langues réelles de vos clients avant de faire un choix.
Privilégiez les modèles qui obtiennent les meilleurs scores sur les métriques sémantiques (SWER et AER), pas seulement sur le WER.
N'oubliez pas que les résultats varient énormément selon les paires de langues. Un modèle performant en espagnol-anglais peut être médiocre en allemand-anglais.

En résumé : le code-switching n'est plus un luxe, mais une nécessité pour les entreprises qui veulent offrir un service inclusif et de qualité.

ET DEMAIN ? VERS DES ASR PLUS INCLUSIFS

Cette étude ouvre la voie à de nouvelles recherches. Comment améliorer la transcription des segments en langue secondaire ? Comment réduire l'impact des changements de langue sur la qualité de la transcription ?

Les pistes sont nombreuses :

Améliorer la robustesse des modèles face aux ruptures linguistiques en temps réel.
Développer des bases de données plus larges et plus variées pour entraîner les ASR.
Explorer de nouvelles architectures capables de gérer plusieurs langues simultanément.

Une chose est sûre : le code-switching ne va pas disparaître. Au contraire, il va se généraliser avec la mondialisation et la diversité croissante des populations. Les ASR de demain devront être à la hauteur de ce défi.

EN RÉSUMÉ : CE QU'IL FAUT RETENIR

Le code-switching est une réalité pour des millions de personnes dans le monde. Pourtant, les assistants vocaux ont longtemps peiné à suivre le rythme.

Cette étude montre que les meilleurs modèles ASR peuvent désormais gérer ce phénomène avec des pénalités minimes, à condition d'être bien choisis et bien testés.

Mais attention : tous les modèles ne sont pas égaux. Les résultats varient énormément selon les langues et les paires de langues. Le choix d'un ASR doit donc être mûrement réfléchi, en fonction des besoins réels de l'entreprise.

En fin de compte, le code-switching n'est plus un casse-tête insoluble, mais une opportunité pour les entreprises qui veulent offrir un service client inclusif et de qualité.

POUR ALLER PLUS LOIN : LES RÉSULTATS COMPLETS

Si vous voulez consulter les résultats détaillés de cette étude, les chercheurs ont mis à disposition leur benchmark et leur base de données via leur outil d'évaluation des modèles vocaux, AU-Harness. Vous y trouverez les performances de sept systèmes ASR, ainsi que des analyses approfondies sur chaque paire de langues.

C'est une ressource précieuse pour quiconque souhaite approfondir le sujet ou tester ses propres modèles.

UNE AVANCÉE MAJEURE POUR L'INCLUSIVITÉ DES TECHNOLOGIES VOCALES

Cette étude marque un tournant dans l'histoire des assistants vocaux. Pour la première fois, des modèles ASR sont capables de gérer le code-switching avec une précision proche de celle du monolinguisme.

C'est une avancée majeure pour l'inclusivité des technologies vocales, qui permet enfin à des millions de personnes bilingues de bénéficier d'un service de qualité, sans barrière linguistique.

Mais le travail est loin d'être terminé. Les défis restent nombreux, et les recherches doivent se poursuivre pour améliorer encore la robustesse des ASR face au code-switching.

LE CODE-SWITCHING : UN DÉFI POUR LES ASR DE DEMAIN

Le code-switching n'est plus une exception, mais une norme. Et les ASR de demain devront être à la hauteur de ce défi.

CE QUE LES ENTREPRISES DOIVENT FAIRE MAINTENANT

Si vous êtes une entreprise avec une clientèle bilingue, voici les étapes à suivre :

Identifiez les paires de langues les plus utilisées par vos clients.
Testez les modèles ASR sur ces paires de langues, en utilisant des phrases réalistes et variées.
Comparez les performances des différents modèles sur les métriques WER, SWER et AER.
Choisissez le modèle qui offre le meilleur équilibre entre précision et robustesse face au code-switching.
Formez vos équipes à l'utilisation de ces nouveaux outils, et ajustez vos processus en conséquence.

En suivant ces étapes, vous pourrez offrir un service client ou un support technique de qualité à une clientèle bilingue, sans sacrifier la précision ou l'efficacité.

LE FUTUR DES ASR : VERS UNE RECONNAISSANCE VOCALE PLUS INCLUSIVE

Cette étude est une première étape vers des ASR plus inclusifs. Mais le chemin est encore long. Les défis à relever sont nombreux :

Améliorer la transcription des segments en langue secondaire.
Réduire l'impact des changements de langue sur la qualité de la transcription.
Développer des bases de données plus larges et plus variées pour entraîner les ASR.
Explorer de nouvelles architectures capables de gérer plusieurs langues simultanément.

Les ASR de demain devront être capables de gérer le code-switching de manière fluide et naturelle, comme le ferait un humain. Et cette étude montre que c'est possible.

CONCLUSION : LE CODE-SWITCHING N'EST PLUS UNE EXCUSE POUR LES ASR

Le code-switching a longtemps été un casse-tête pour les modèles ASR. Mais les résultats de cette étude montrent que les meilleurs modèles peuvent désormais le gérer avec une précision proche de celle du monolinguisme.