Gemini Nano sur Pixel : comment l'IA de ton téléphone devient 2 fois plus rapide

Les modèles d'IA intégrés aux smartphones comme Gemini Nano sur Pixel sont enfin assez rapides pour des usages quotidiens. Mais comment Google a-t-il réussi à les rendre deux fois plus performants sans vider la batterie ? La réponse s'appelle le Multi-Token Prediction.

Noah Leroy26 juin 20262 min 0

100%

Google ajoute une astuce technique aux modèles Gemini Nano pour qu'ils tournent deux fois plus vite sur les Pixel 9 et 10, sans sacrifier l'autonomie.

LES MODÈLES D'IA DANS TON POCHET : UNE RÉVOLUTION QUI A SES LIMITES

Imagine un modèle de langage aussi puissant que ceux des serveurs géants… mais qui tient dans la poche de ton jean. C'est exactement ce que permettent les modèles Gemini Nano ou Gemma sur les smartphones. Ces Outils peuvent résumer tes notifications en un clin d'œil ou corriger tes messages avant de les envoyer, sans jamais envoyer tes données sur Internet. Pratique pour la vie privée, mais pas si simple à faire tourner sur un téléphone.

Le problème ? Les smartphones ont des ressources limitées : une batterie qui se vide vite et une mémoire (la RAM) qui ne peut pas stocker des montagnes de données. Pire encore, les modèles d'IA classiques fonctionnent comme un stylo qui écrit mot à mot. Ils produisent un seul token (un morceau de mot ou de phrase) à la fois, puis attendent pour le prochain. Résultat : le téléphone doit faire des allers-retours constants entre son processeur et sa mémoire, ce qui ralentit tout et épuise la batterie.

Sans optimisation, un modèle d'IA sur smartphone ressemble à un coureur qui fait des pas de géant… mais en s'arrêtant à chaque foulée pour vérifier le sol.

LE MULTI-TOKEN PREDICTION : UNE ASTUCE POUR DÉBLOQUER LA PUISSANCE

Pour résoudre ce goulot d'étranglement, les chercheurs de Google ont eu une idée : et si le modèle pouvait prédire plusieurs mots en une seule fois, comme s'il devinait la fin d'une phrase entière d'un coup ? C'est le principe du Multi-Token Prediction (MTP), une technique qui accélère les modèles sans les ralentir.

Jusqu'à présent, pour accélérer un modèle, les développeurs utilisaient une astuce appelée décodage spéculatif. Le principe ? Un petit modèle d'IA (appelé drafter) essaie de deviner les mots suivants, puis le grand modèle vérifie ces prédictions. Mais cette méthode a deux gros défauts : le petit modèle prend de la place en mémoire, et il ne connaît pas le contexte profond du grand modèle. C'est comme si tu demandais à un ami de deviner la fin d'une blague… sans lui avoir raconté le début .

RETOUFFER UN MODÈLE

Sources :

Google Research

L'indépendance de CLODCO est votre garantie.

Pour que l'actualité de l'IA reste sans filtre et sans concession, votre soutien est indispensable. Votre contribution est le seul moteur de notre liberté éditoriale.

Soutenir CLODCO

Gemini Nano sur Pixel : comment l'IA de ton téléphone devient 2 fois plus rapide

LES MODÈLES D'IA DANS TON POCHET : UNE RÉVOLUTION QUI A SES LIMITES

LE MULTI-TOKEN PREDICTION : UNE ASTUCE POUR DÉBLOQUER LA PUISSANCE

RETOUFFER UN MODÈLE

L'indépendance de CLODCO est votre garantie.

À lire dans la même thématique

Lancez un serveur IA en une seule commande : le guide ultime pour les ados

CUGA : comment créer des agents IA en un seul fichier sans tout coder

Strands Robots : comment un seul agent IA contrôle robots, simulations et données

À lire dans la même thématique

Lancez un serveur IA en une seule commande : le guide ultime pour les ados

CUGA : comment créer des agents IA en un seul fichier sans tout coder

Strands Robots : comment un seul agent IA contrôle robots, simulations et données