Google ajoute une astuce technique aux modèles Gemini Nano pour qu'ils tournent deux fois plus vite sur les Pixel 9 et 10, sans sacrifier l'autonomie.
LES MODÈLES D'IA DANS TON POCHET : UNE RÉVOLUTION QUI A SES LIMITES
Imagine un modèle de langage aussi puissant que ceux des serveurs géants… mais qui tient dans la poche de ton jean. C'est exactement ce que permettent les modèles Gemini Nano ou Gemma sur les smartphones. Ces Outils peuvent résumer tes notifications en un clin d'œil ou corriger tes messages avant de les envoyer, sans jamais envoyer tes données sur Internet. Pratique pour la vie privée, mais pas si simple à faire tourner sur un téléphone.
Le problème ? Les smartphones ont des ressources limitées : une batterie qui se vide vite et une mémoire (la RAM) qui ne peut pas stocker des montagnes de données. Pire encore, les modèles d'IA classiques fonctionnent comme un stylo qui écrit mot à mot. Ils produisent un seul token (un morceau de mot ou de phrase) à la fois, puis attendent pour le prochain. Résultat : le téléphone doit faire des allers-retours constants entre son processeur et sa mémoire, ce qui ralentit tout et épuise la batterie.
LE MULTI-TOKEN PREDICTION : UNE ASTUCE POUR DÉBLOQUER LA PUISSANCE
Pour résoudre ce goulot d'étranglement, les chercheurs de Google ont eu une idée : et si le modèle pouvait prédire plusieurs mots en une seule fois, comme s'il devinait la fin d'une phrase entière d'un coup ? C'est le principe du Multi-Token Prediction (MTP), une technique qui accélère les modèles sans les ralentir.
Jusqu'à présent, pour accélérer un modèle, les développeurs utilisaient une astuce appelée décodage spéculatif. Le principe ? Un petit modèle d'IA (appelé drafter) essaie de deviner les mots suivants, puis le grand modèle vérifie ces prédictions. Mais cette méthode a deux gros défauts : le petit modèle prend de la place en mémoire, et il ne connaît pas le contexte profond du grand modèle. C'est comme si tu demandais à un ami de deviner la fin d'une blague… sans lui avoir raconté le début .
RETOUFFER UN MODÈLE
- Google Research
L'indépendance de CLODCO est votre garantie.
Pour que l'actualité de l'IA reste sans filtre et sans concession, votre soutien est indispensable. Votre contribution est le seul moteur de notre liberté éditoriale.
Soutenir CLODCO

