Google Omni : l'IA qui transforme images, sons et mots en vidéos réalistes

Google Omni, une IA multimodale, génère des vidéos réalistes à partir d'images, sons ou textes. Une révolution pour les créateurs et les utilisateurs.

GOOGLE OMNI : L'INTELLIGENCE ARTIFICIELLE QUI SIMULE LE MONDE RÉEL

Il y a trois ans, Google lançait Gemini, un modèle de langage multimodal entraîné sur du texte, des images, des sons et des vidéos. Son objectif ? Créer une seule intelligence artificielle capable de comprendre et générer du contenu dans tous ces formats. Aujourd’hui, avec Omni, Google franchit une nouvelle étape en permettant de transformer n’importe quel type d’entrée en vidéo de haute qualité.

DES VIDÉOS GÉNÉRÉES À PARTIR D'UNE SIMPLE CONVERSATION

Contrairement aux Outils actuels qui assemblent simplement des éléments, Omni raisonne à partir de plusieurs types de données. Par exemple, si vous lui donnez une image de montagne, un enregistrement de vent et le texte « coucher de soleil », il comprendra la scène et générera une vidéo cohérente. Les résultats respectent les lois de la physique, les cultures, l’histoire et les sciences.

« Omni peut créer n’importe quoi à partir de n’importe quelle entrée. » — Sundar Pichai, PDG de Google

OMNI FLASH : LA PREMIÈRE VERSION DISPONIBLE DÈS AUJOURD’HUI

La première version, Omni Flash, est lancée aujourd’hui. Elle permet de générer des vidéos de 10 secondes directement depuis l’application Gemini, YouTube Shorts ou l’outil Flow. Google a choisi cette durée pour deux raisons : faciliter l’accès au plus grand nombre et anticiper que la plupart des utilisateurs ne voudront pas encore créer des vidéos plus longues. Mais des durées plus importantes sont déjà prévues pour bientôt.

OMNI, BIEN PLUS QU'UN SIMPLE OUTIL DE MONTAGE

Omni ne se contente pas de coller des images ou des sons ensemble. Il comprend ce qu’il génère. Prenons un exemple concret : si vous lui demandez une vidéo explicative en pâte à modeler sur le repliement des protéines, Omni produira une animation en stop-motion avec une voix off expliquant : « Les protéines commencent comme des chaînes d’acides aminés. Elles se replient en motifs comme l’hélice alpha et des sections plates appelées feuillets bêta, formant une structure tridimensionnelle parfaite. »

DES AVATARS NUMÉRIQUES POUR PERSONNALISER SES VIDÉOS

Google intègre aussi la création d’avatars numériques personnalisés. Vous pourrez, par exemple, vous filmer en train de gagner un prix ou de voyager dans l’espace, puis utiliser cet avatar pour créer des vidéos sans avoir à vous filmer à chaque fois. Pour éviter les deepfakes, Google impose une étape d’enregistrement où vous devez prononcer une série de chiffres devant la caméra. Votre avatar est ensuite stocké pour une utilisation future.

OMNI PRO : LA VERSION PROFESSIONNELLE À VENIR

Google prépare une version plus puissante, Omni Pro, destinée aux créateurs professionnels. Elle offrira de meilleures performances pour toutes les tâches d’Omni. La date de sortie n’a pas encore été annoncée, mais Google promet qu’elle arrivera « quand nous estimerons avoir fait un bond significatif par rapport à Flash ».

OMNI POUR LES CRÉATEURS DE CONTENU : UNE RÉVOLUTION EN MARCHE

Les cas d’usage imaginés par Google sont variés. Pour les particuliers, il s’agit de créer des vidéos personnelles, comme un mémo personnalisé ou une animation de vos vacances. Pour les professionnels, Omni pourrait générer des publicités ou des slogans à partir d’une image de produit. « Nous sommes particulièrement fiers des capacités de rendu de texte d’Omni, très utiles pour la publicité », explique Nicole Brichtova, directrice de la gestion des produits chez Google DeepMind.

OMNI FACE À LA CONCURRENCE : LUMMA AI ET SES AMBITIONS

Des startups comme Luma AI développent des outils similaires. Leur modèle « unifié » permet, par exemple, de générer une campagne publicitaire complète à partir d’une brève description et d’une image de produit. Mais Google mise sur son intégration avec ses autres services (Gemini, YouTube, Flow) pour se démarquer.

OMNI ET L'AVENIR DE L'IA : VERS DES MODÈLES QUI SIMULENT LA RÉALITÉ

Avec Omni, Google confirme sa vision : passer de la prédiction de texte à la simulation de la réalité. « Quand nous avons annoncé Gemini, c’était notre premier modèle d’IA nativement multimodal. Nous savions que l’entraîner sur du texte, du code, des sons, des images et des vidéos lui donnerait une compréhension plus profonde du monde », explique Sundar Pichai. Omni représente l’étape suivante dans cette direction.

OMNI FLASH : UN OUTIL CONSOMMATEUR FACILE À UTILISER

Google a conçu Omni Flash avant tout pour les utilisateurs grand public. Les exemples donnés par l’équipe de Google DeepMind illustrent cette approche : créer une vidéo de vous-même en train de gagner un prix, ou supprimer un passant dans une vidéo de vacances. « Ce sont comme des mèmes personnalisés », résume Gabe Barth-Maron, ingénieur de recherche chez DeepMind. « Nous avons vraiment axé le développement sur la simplicité d’utilisation pour les consommateurs. Peu de modèles vidéo ont réussi à franchir ce cap, c’est notre stratégie pour y parvenir. »

LES LIMITES D'OMNI FLASH : DES PROMPTS PRÉCIS POUR DES RÉSULTATS PARFAITS

Attention, Omni Flash n’est pas parfait. Pour obtenir des résultats satisfaisants, les prompts doivent être très précis. Sinon, l’outil risque de trop modifier la vidéo ou d’altérer des éléments que vous souhaitiez conserver. Ce problème, similaire à celui rencontré par les utilisateurs de Nano Banana, une autre IA de Google, montre que la technologie n’est pas encore infaillible.

OMNI POUR LES FILMMAKERS : UN OUTIL DE CRÉATION PUISSANT

Bien que conçu pour le grand public, Omni pourrait aussi intéresser les cinéastes et autres créateurs professionnels. « Nous anticipons que les cinéastes et d’autres types de créateurs utiliseront ce modèle », déclare Nicole Brichtova. Son potentiel pour générer des publicités ou des contenus visuels à partir d’images ou de textes en fait un outil prometteur pour l’industrie.

OMNI ET L'ÉDITION DE PHOTOS : UNE SIMPLE COMMANDE TEXTUELLE

Omni ne se limite pas aux vidéos. Il permet aussi d’éditer des photos avec des commandes textuelles simples, comme le fait déjà Nano Banana. Par exemple, vous pourrez demander : « Supprime l’arbre de cette photo » ou « Ajoute un ciel bleu ». L’objectif est de rendre l’édition d’images aussi intuitive que la génération de vidéos.

OMNI : UN PAS DE PLUS VERS L'INTELLIGENCE ARTIFICIELLE GÉNÉRALE

Avec Omni, Google franchit une étape majeure vers une intelligence artificielle générale (IAG). En combinant la compréhension du langage, la génération d’images, de sons et de vidéos, Omni se rapproche d’une IA capable de simuler le monde réel avec précision. Une avancée qui pourrait transformer de nombreux secteurs, de la publicité à l’éducation en passant par le divertissement.

« L’IA passe de la prédiction de texte à la simulation de la réalité. Omni est l’étape suivante. » — Sundar Pichai

QUEL AVENIR POUR OMNI ?

Google n’a pas révélé tous ses plans pour Omni. Cependant, les pistes évoquées sont ambitieuses : générer des images à partir de sons, ou des sons à partir de vidéos. La technologie est encore jeune, mais son potentiel est immense. Une chose est sûre : Omni pourrait bien changer la façon dont nous créons et consommons du contenu numérique dans les années à venir.

Sources :

TechCrunch AI

L'indépendance de CLODCO est votre garantie.

Pour que l'actualité de l'IA reste sans filtre et sans concession, votre soutien est indispensable. Votre contribution est le seul moteur de notre liberté éditoriale.

Soutenir CLODCO