Ces IA qui révolutionnent la vidéo : moins de données, plus de résultats ?

Des chercheurs proposent deux approches révolutionnaires pour transformer les vidéos en données exploitables par l'IA. Résultat : des modèles plus légers et plus performants.

LA TOKENISATION VIDÉO : UNE ÉTAPE CLÉ (ET SOUVENT PROBLÉMATIQUE)

Quand une intelligence artificielle analyse une vidéo, elle doit d’abord la découper en morceaux compréhensibles. C’est le rôle de la tokenisation, qui transforme les pixels bruts en une forme plus simple à traiter. Aujourd’hui, la plupart des systèmes utilisent une grille 3D : ils découpent la vidéo en petits cubes invisibles, comme si on découpait un gâteau en tranches. Chaque cube (ou token) représente une partie de l’image, mais cette méthode a un gros défaut. Elle produit un nombre énorme de tokens, même pour une vidéo courte. Résultat ? Les modèles d’IA doivent apprendre à reconstruire chaque détail, comme si on leur demandait de dessiner une image pixel par pixel. C’est comme si on leur demandait de peindre la Joconde en utilisant des millions de petits points au lieu de quelques grands coups de pinceau.

VIDEOFLEXTOK : UNE APPROCHE EN DEUX TEMPS

Des chercheurs de l’EPFL et d’autres universités viennent de proposer une alternative radicale : VideoFlexTok. Au lieu d’utiliser une grille rigide, cette méthode organise les tokens en deux niveaux. D’abord, des tokens grossiers capturent les informations principales : l’action générale, les mouvements, les personnages. Ensuite, des tokens fins ajoutent les détails comme les expressions faciales ou les textures. Imaginez un croquis rapide suivi d’un travail de finition au pinceau. Cette organisation en coarse-to-fine (du grossier au précis) permet de réduire énormément le nombre de tokens nécessaires. Mieux encore : le système s’adapte automatiquement à la complexité de la vidéo. Une scène simple aura moins de tokens qu’une scène complexe, sans perte de qualité.

Avec VideoFlexTok, un modèle de 1,1 milliard de paramètres produit des vidéos de qualité équivalente à un modèle 5 fois plus gros (5,2 milliards).

Autre avantage : VideoFlexTok permet de générer des vidéos bien plus longues sans exploser les coûts de calcul. Par exemple, une vidéo de 10 secondes (81 images) peut être encodée avec seulement 672 tokens. À titre de comparaison, une méthode classique en aurait besoin de 5 376. C’est comme passer d’un carnet de notes rempli de petits mots à un résumé en quelques phrases.

TRAJTOK : SUIVRE LES OBJETS POUR MIEUX COMPRENDRE

Un autre problème des méthodes classiques est qu’elles génèrent trop de tokens inutiles. Par exemple, si une balle rebondit dans une scène, chaque position de la balle devient un nouveau token. Résultat : des milliers de tokens pour une action simple. TrajTok propose une solution radicalement différente. Au lieu de découper la vidéo en grille fixe, il suit le mouvement des objets (comme une balle, une voiture ou un visage) et ne crée des tokens que pour les trajectoires importantes. C’est comme si on ne dessinait que les contours des objets en mouvement au lieu de tout colorier.

Contrairement aux méthodes précédentes qui dépendaient de systèmes externes lents et complexes, TrajTok fonctionne de manière end-to-end (de bout en bout). Il s’intègre directement dans le modèle d’IA, sans besoin d’outils supplémentaires. Cela le rend à la fois plus rapide et plus adapté à différentes tâches, comme la reconnaissance d’actions ou la Génération de vidéos.

TrajTok élimine jusqu’à 8 fois le nombre de tokens superflus, rendant les modèles bien plus efficaces.

DE L’IMAGE À LA VIDÉO : UNE LOGIQUE SIMILAIRE

Les chercheurs n’ont pas limité leurs travaux aux vidéos. Ils ont aussi exploré la tokenisation des images, un domaine où les méthodes classiques utilisent aussi une grille 2D. Leur approche, appelée 1D tokenization, transforme une image en une simple séquence de tokens, comme une phrase. Cette méthode, testée avec succès, permet d’obtenir une qualité de génération comparable aux approches 2D, mais avec moins de données. C’est comme passer d’une carte routière détaillée à une liste d’instructions simples.

Cette innovation s’inspire de travaux précédents comme TiTok, mais va plus loin en prouvant que la tokenisation 1D peut être tout aussi efficace, voire plus, pour certaines tâches. Les chercheurs soulignent que cette méthode ouvre la porte à des modèles d’IA plus légers et plus rapides, sans sacrifier la qualité.

POURQUOI CES DÉCOUVERTES CHANGENT LA DONNE ?

Les deux méthodes, VideoFlexTok et TrajTok, répondent à un problème majeur de l’intelligence artificielle : le gâchis de ressources. Aujourd’hui, les modèles de génération vidéo consomment des quantités astronomiques de données et de calculs. Par exemple, un modèle classique peut nécessiter des milliers de tokens pour une seule seconde de vidéo. Avec VideoFlexTok ou TrajTok, ce nombre chute drastiquement. Résultat ? Des modèles plus petits, plus rapides, et moins gourmands en énergie.

Ces avancées ne sont pas que théoriques. Les chercheurs ont testé leurs méthodes sur des tâches concrètes : génération de vidéos à partir de texte, reconnaissance d’actions, ou encore compréhension de scènes complexes. Dans tous les cas, les résultats sont encourageants. VideoFlexTok et TrajTok permettent d’obtenir une qualité similaire, voire supérieure, avec bien moins de ressources. C’est comme si on passait d’un supercalculateur à un ordinateur portable sans perdre en performance.

Les modèles utilisant ces méthodes atteignent des scores comparables (gFVD et ViCLIP Score) avec 5 fois moins de paramètres.

QUEL AVENIR POUR LA TOKENISATION VIDÉO ?

Ces travaux ouvrent la voie à plusieurs évolutions majeures. D’abord, ils pourraient rendre l’IA générative vidéo accessible à un plus grand nombre. Moins de données et moins de calculs signifient des coûts réduits, ce qui est crucial pour les startups et les chercheurs. Ensuite, ils pourraient permettre de générer des vidéos bien plus longues sans saturer les serveurs. Imaginez un film entier généré en quelques minutes, ou une simulation médicale ultra-détaillée.

Enfin, ces méthodes pourraient aussi améliorer la compréhension des vidéos par les machines. En se concentrant sur les éléments importants (mouvements, trajectoires), les modèles pourraient mieux interpréter les scènes complexes, comme un match de football ou une intervention chirurgicale. C’est comme si on apprenait à l’IA à regarder une vidéo en se concentrant sur l’essentiel, comme un expert humain.

Les chercheurs restent prudents : ces méthodes sont prometteuses, mais elles doivent encore être testées sur des cas d’usage réels à grande échelle. Cependant, une chose est sûre : VideoFlexTok et TrajTok représentent une avancée majeure dans la manière dont les machines comprennent et génèrent des vidéos.

EN RÉSUMÉ : MOINS DE TOKENS, PLUS DE PERFORMANCES

Les méthodes traditionnelles de tokenisation vidéo gaspillent des ressources en créant des milliers de tokens inutiles. VideoFlexTok et TrajTok changent la donne en organisant les données de manière intelligente. La première méthode utilise une approche coarse-to-fine pour capturer d’abord les grandes lignes avant les détails. La seconde suit les trajectoires des objets pour éviter les redondances. Résultat ? Des modèles plus légers, plus rapides, et tout aussi performants. Ces innovations pourraient bien accélérer l’adoption de l’IA générative vidéo, en la rendant plus accessible et plus efficace.

Sources :

Apple ML Research

L'indépendance de CLODCO est votre garantie.

Pour que l'actualité de l'IA reste sans filtre et sans concession, votre soutien est indispensable. Votre contribution est le seul moteur de notre liberté éditoriale.

Soutenir CLODCO