Gemini 3.5 Live Translate : la traduction vocale qui sonne enfin naturelle ?

Gemini 3.5 Live Translate révolutionne la traduction vocale en temps réel. Ce modèle d’IA gère plus de 70 langues tout en préservant l’intonation et le rythme des voix originales.

UNE TRADUCTION VOCALE QUI RÉVOLUTIONNE LES ÉCHANGES

Il y a vingt ans, Google lançait l’un de ses premiers projets de traduction automatique. Depuis, plus d’un billion de mots ont été traduits chaque mois pour des milliards d’utilisateurs. Aujourd’hui, la traduction vocale entre dans une nouvelle ère avec Gemini 3.5 Live Translate, un modèle audio capable de traduire des conversations en temps quasi réel.

Ce système ne se contente pas de traduire mot à mot. Il détecte automatiquement plus de 70 langues et génère une voix traduite fluide, naturelle, qui respecte l’intonation, le rythme et la hauteur de la voix originale. Contrairement aux systèmes classiques qui attendent la fin d’une phrase pour traduire, ce modèle produit un flux continu. Il équilibre ainsi la qualité de la traduction avec la réactivité, sans jamais laisser de silence gênant.

UNE SYNCHRONISATION PARFAITE, MÊME DANS LE BRUIT

Gemini 3.5 Live Translate est conçu pour s’adapter à tous les environnements. Que ce soit dans une salle de réunion bruyante, une émission en direct ou une conversation téléphonique, le modèle gère les entrées multilingues sans configuration manuelle. Sa robustesse face au bruit garantit une traduction claire, même dans des conditions difficiles.

Ce modèle permet d’envisager des usages variés : interprétation en direct lors de réunions multilingues, traduction simultanée pour des cours ou des émissions, ou encore communication entre conducteurs et passagers dans des applications comme Grab, où plus de 10 millions d’appels vocaux sont passés chaque mois.

DES Outils POUR LES DÉVELOPPEURS

Grâce à l’API Gemini Live, des plateformes comme Agora, Fishjam, LiveKit ou Pipecat permettent aux développeurs de créer facilement des applications de traduction vocale. Ces outils gèrent toute l’infrastructure technique complexe des flux audio en temps réel. Les développeurs peuvent ainsi se concentrer sur l’expérience utilisateur, sans se soucier des détails techniques.

Un exemple concret ? L’API permet d’activer le doublage et la traduction simultanée en plusieurs langues, comme le montre une démonstration disponible dans le Gemini Cookbook.

Plus de 10 millions d’appels vocaux sont passés chaque mois via Grab, où le modèle est testé pour faciliter la communication entre conducteurs et passagers.

DES PARTENAIRES CONVAINCUS PAR LA QUALITÉ

Plusieurs entreprises, dont CJ ENM et LiveKit, ont testé Gemini 3.5 Live Translate. Leurs retours soulignent la qualité impressionnante des traductions, leur précision et leur faible latence. Dans Google Meet, la traduction vocale utilisera bientôt ce modèle pour améliorer l’expérience des utilisateurs en réunion.

Un déploiement en aperçu privé est déjà lancé pour certains clients Google Workspace. Une version plus large est prévue pour plus tard dans l’année.

DISPONIBLE SUR TRANSLATE, POUR ANDROID ET IOS

Le modèle est désormais accessible dans l’application Google Translate, sur Android et iOS. Pour activer la traduction en direct, il suffit de brancher un casque. La voix traduite reflète alors le ton de l’orateur, dans plus de 70 langues.

Pour les utilisateurs Android, une nouvelle fonctionnalité fait son apparition : le mode écoute. Il permet d’entendre la traduction directement dans le haut-parleur du téléphone, comme lors d’un appel classique. Il suffit de coller le téléphone à l’oreille pour recevoir la traduction en temps réel, sans casque. Idéal pour les situations où l’on veut garder la traduction privée ou quand on n’a pas de casque sous la main.

Avec ce mode, un utilisateur peut par exemple entendre une traduction en anglais d’une visite guidée en espagnol, directement dans son oreille.

UNE TRADUCTION VOCALE IDENTIFIABLE

Tous les audios générés par les modèles de Google sont marqués avec SynthID, un filigrane imperceptible intégré directement dans le flux audio. Ce système permet de détecter les contenus générés par l’IA, afin de lutter contre la désinformation.

Pour en savoir plus sur les mesures de sécurité et de responsabilité mises en place, il est possible de consulter la fiche technique du modèle.

UNE INNOVATION QUI FAIT ÉVOLUER LA TRADUCTION

Gemini 3.5 Live Translate marque un tournant dans la traduction vocale. En combinant fluidité, naturalité et réactivité, il ouvre la voie à des échanges multilingues plus accessibles et plus humains. Que ce soit pour les réunions professionnelles, les voyages ou les interactions quotidiennes, cette technologie pourrait bien devenir un outil indispensable.

Avec son déploiement progressif sur plusieurs plateformes, le modèle promet de transformer la façon dont nous communiquons à l’échelle mondiale.

Sources :

Google DeepMind

L'indépendance de CLODCO est votre garantie.

Pour que l'actualité de l'IA reste sans filtre et sans concession, votre soutien est indispensable. Votre contribution est le seul moteur de notre liberté éditoriale.

Soutenir CLODCO