NVIDIA Cosmos 3 : le premier modèle tout-en-un pour l'IA physique qui raisonne et agit

NVIDIA dévoile Cosmos 3, un modèle omni-model capable de générer des mondes virtuels, comprendre la physique et exécuter des actions. Une révolution pour la robotique et les véhicules autonomes.

UN MODÈLE TOUT-EN-UN POUR L'IA PHYSIQUE

NVIDIA Cosmos 3 débarque aujourd'hui sur Hugging Face et marque un tournant dans les modèles de fondation du monde (WFMs) dédiés à l'IA physique. Ce n'est pas un simple outil de plus, mais un omni-modèle unifié qui intègre trois capacités essentielles en un seul système : la Génération de mondes, le raisonnement physique et la génération d'actions. Plus besoin de jongler entre plusieurs modèles ou pipelines d'inférence. Cosmos 3 fait tout en une seule passe.

Que vous travailliez sur des robots, des véhicules autonomes ou des espaces intelligents, ce modèle fournit les bases pour simuler et comprendre le monde réel. Imaginez un robot qui plie du linge, une voiture autonome qui anticipe les dangers ou un système générant des données d'entraînement pour la sécurité en entrepôt. Cosmos 3 est conçu pour ces cas d'usage précis.

Pour la première fois, un seul modèle peut comprendre les pixels, les mouvements, la causalité, la physique et les actions.

UNE ARCHITECTURE RÉVOLUTIONNAIRE : LE MIXTURE-OF-TRANSFORMERS

La grande nouveauté de Cosmos 3 par rapport aux versions précédentes réside dans son architecture. Contrairement aux modèles séparés comme Cosmos Predict (génération de mondes), Cosmos Transfer (génération contrôlée), Cosmos Reason (compréhension de scènes) ou Cosmos Policy (génération de politiques), Cosmos 3 fusionne tout cela dans un seul modèle. Son cœur repose sur un Mixture-of-Transformers (MoT), une structure qui permet de traiter plusieurs types de données (texte, image, vidéo, audio, actions) simultanément.

Chaque type de donnée est d'abord encodé par un encodeur dédié : un ViT (Vision Transformer) pour la compréhension visuelle, un VAE (Variational Autoencoder) pour la génération visuelle et audio, et des vecteurs spécifiques pour les actions. Tous ces encodages sont ensuite projetés dans un espace de représentation partagé, où le modèle peut les traiter de manière unifiée.

DEUX TAILLES POUR DEUX BESOINS

NVIDIA propose deux versions de Cosmos 3, optimisées pour des scénarios de déploiement différents. La première est conçue pour les environnements où la puissance de calcul est limitée, tandis que la seconde cible les applications nécessitant une grande précision et des performances élevées. Ces deux tailles permettent d'adapter le modèle à différents budgets et besoins techniques.

GÉNÉRER DES VIDÉOS ET DES ACTIONS : COMMENT ÇA MARCHE ?

Cosmos 3 supporte plusieurs modalités d'entrée et de sortie grâce à son architecture unifiée. Pour la génération de vidéos, NVIDIA recommande d'utiliser des prompts détaillés sous forme de paragraphes narratifs. Par exemple, pour simuler une situation de conduite autonome, le prompt peut décrire une scène complexe :

« La vidéo commence par une vue depuis l'intérieur d'un véhicule roulant sur une autoroute à plusieurs voies sous un ciel bleu dégagé. La route est bordée de denses arbres verts des deux côtés, créant un environnement paisible. Plusieurs véhicules, dont un camion blanc en tête, sont visibles devant, roulant à vitesse constante. L'autoroute compte plusieurs voies séparées par des barrières en béton, et la scène est baignée d'une lumière vive, indiquant une journée ensoleillée. Au fur et à mesure que la vidéo avance, une grande quantité de débris apparaît soudainement sur la voie devant. Avec peu de temps pour réagir, le véhicule doit rouler sur les débris et continuer sa route. Une secousse notable se produit lorsque le véhicule passe sur les objets éparpillés. »

Pour la génération d'actions, les prompts doivent être concis et inclure des références spatiales. Par exemple : « Place la casserole à gauche de l'objet violet. » La vidéo est capturée depuis une perspective à la première personne.

UN EXEMPLE CONCRET : DE LA DESCRIPTION À L'IMAGE

Voici comment utiliser Cosmos 3 pour générer une image à partir d'un texte. Prenons l'exemple d'un laboratoire de robotique moderne :

import torch
from diffusers import Cosmos3OmniPipeline

pipe = Cosmos3OmniPipeline.from_pretrained(
    "nvidia/Cosmos3-Nano", torchdtype=torch.bfloat16, devicemap="cuda"
)

prompt = (
    "A medium shot of a modern robotics research laboratory with white walls and a gray floor. "
    "A robotic arm with a metallic finish is mounted on a clean white workbench, its gripper positioned "
    "above a row of small colored objects. A laptop and neatly arranged tools sit beside the robot. "
    "A large monitor on the wall behind displays a software interface. The scene is brightly lit by "
    "overhead fluorescent lights."
)

result = pipe(prompt=prompt, num_frames=1, height=720, width=1280)
result.video[0].save("cosmos3_t2i.jpg", format="JPEG", quality=85)

Ce code charge le modèle Cosmos3-Nano, génère une image à partir du prompt, et sauvegarde le résultat sous le nom cosmos3_t2i.jpg. La résolution de l'image est de 720x1280 pixels, et le format est JPEG avec une qualité de 85 %. Voici le résultat obtenu :

Cosmos 3 Nano transforme une simple description en une image réaliste en quelques secondes.

DES DONNÉES SYNTHÉTIQUES POUR ENTRAÎNER L'IA PHYSIQUE

Pour accompagner le lancement de Cosmos 3, NVIDIA publie plusieurs ensembles de données générées synthétiquement (Synthetic Data Generation, SDG). Ces jeux de données sont conçus pour aider la communauté de l'IA physique à entraîner et évaluer les modèles de fondation du monde. Ils ont été générés par différentes équipes de NVIDIA et sont disponibles sur Hugging Face.

Ces données couvrent divers scénarios : robotique, véhicules autonomes, sécurité en entrepôt, et bien d'autres. Elles permettent aux développeurs de tester et d'affiner leurs modèles sans avoir à collecter des données réelles, souvent coûteuses et complexes à obtenir.

COSMOS FRAMEWORK : UN CADRE TOUT-EN-UN POUR ENTRAÎNER ET DÉPLOYER

NVIDIA propose également le Cosmos Framework, un cadre complet pour entraîner et servir les modèles de fondation du monde comme Cosmos 3. Ce framework inclut des scripts d'inférence et de post-entraînement, ainsi que des compétences d'agent pour le développement.

Bien que Cosmos 3 comprenne et génère des vidéos et des actions pour la robotique, les véhicules autonomes et les espaces intelligents dès sa sortie, certaines applications peuvent nécessiter un post-entraînement sur des jeux de données spécifiques. NVIDIA encourage cette pratique pour adapter le modèle à des robots, environnements ou tâches particuliers. Un guide de post-entraînement est disponible dans le dépôt GitHub.

Le dépôt inclut également des compétences d'agent pour accélérer le développement. Ces compétences aident à valider les exigences, configurer l'environnement avec les dépendances nécessaires, et exécuter les scripts d'inférence et de post-entraînement. Elles servent aussi de point de départ pour comprendre la structure du dépôt, rédiger de bons prompts ou apprendre à utiliser les exemples fournis.

RESOURCES ET DOCUMENTATION

Pour en savoir plus sur les capacités, les performances, le post-entraînement et le déploiement de Cosmos 3 avec les microservices NIM, consultez le blog technique officiel de NVIDIA.

CAS D'USAGE : ROBOTIQUE, CONDUITE AUTONOME ET SÉCURITÉ

Cosmos 3 ouvre la voie à de nombreuses applications concrètes. Voici quelques exemples de ce que le modèle peut générer :

• Pour la robotique : des vidéos de robots effectuant des tâches de pick and place (prendre et placer des objets).

• Pour la conduite autonome : des scénarios de conduite à long terme, incluant des situations rares ou complexes.

• Pour la sécurité en entrepôt : des données d'entraînement synthétiques pour former des systèmes de détection de dangers.

• Pour le raisonnement en chaîne : une démonstration de Cosmos 3 expliquant sa logique dans une application de conduite autonome.

Cosmos 3 peut simuler des milliers d'heures de conduite en quelques minutes, réduisant ainsi le besoin de tests réels coûteux et dangereux.

COMMENT ÉCRIRE UN BON PROMPT ?

La qualité des résultats dépend fortement de la qualité des prompts. Pour la génération de vidéos, NVIDIA recommande d'utiliser des paragraphes narratifs détaillés qui décrivent la scène, les objets, les mouvements et les interactions. Plus le prompt est précis, plus le résultat sera réaliste.

Pour la génération d'actions, les prompts doivent être concis mais inclure des références spatiales claires. Par exemple, « Déplace l'objet rouge à droite de la boîte bleue » est plus efficace que « Fais quelque chose avec les objets ».

Un guide complet sur la rédaction de prompts de qualité est disponible dans le dépôt GitHub de Cosmos 3, avec des modèles de upsampling et des bonnes pratiques.

EXEMPLES DE PROMPTS POUR DIFFÉRENTES MODALITÉS

Voici quelques exemples de prompts adaptés à chaque type de génération :

Texte vers image (single frame) :

« Une vue rapprochée d'un laboratoire de robotique moderne aux murs blancs et au sol gris. Un bras robotique métallique est fixé sur un établi blanc propre, sa pince positionnée au-dessus d'une rangée d'objets colorés. Un ordinateur portable et des outils bien rangés sont posés à côté du robot. Un grand écran mural affiche une interface logicielle. La scène est éclairée par des lumières fluorescentes au plafond. »

Texte vers vidéo :

« La vidéo commence par une vue depuis l'intérieur d'un véhicule roulant sur une autoroute à plusieurs voies sous un ciel bleu dégagé. La route est bordée de denses arbres verts des deux côtés. Plusieurs véhicules, dont un camion blanc en tête, sont visibles devant. L'autoroute compte plusieurs voies séparées par des barrières en béton. Au fur et à mesure que la vidéo avance, une grande quantité de débris apparaît soudainement sur la voie devant. Le véhicule doit rouler sur les débris et continuer sa route. Une secousse se produit lorsque le véhicule passe sur les objets. »

Image vers vidéo :

« Transformez cette image d'un entrepôt en une vidéo montrant un robot détectant un obstacle sur une palette. Le robot doit s'arrêter, analyser la situation, puis contourner l'obstacle en toute sécurité. »

Ces exemples montrent comment décrire des scènes complexes pour obtenir des résultats précis et réalistes.

PERFORMANCES ET OPTIMISATIONS

Cosmos 3 est optimisé pour fonctionner sur des GPU NVIDIA, avec une prise en charge native du type de données torch.bfloat16 pour un équilibre optimal entre précision et vitesse. Le modèle peut être déployé sur des configurations matérielles variées, des stations de travail aux serveurs cloud, en passant par des environnements embarqués.

NVIDIA recommande d'utiliser le device_map pour répartir le modèle sur plusieurs GPU si nécessaire, ce qui permet de gérer des charges de travail plus importantes sans perte de performance.

POST-ENTRAÎNEMENT : ADAPTER COSMOS 3 À VOS BESOINS

Bien que Cosmos 3 soit déjà opérationnel pour de nombreuses tâches, NVIDIA encourage les développeurs à effectuer un post-entraînement sur des jeux de données spécifiques à leur domaine. Cela permet d'améliorer les performances du modèle pour des applications particulières, comme un robot spécifique ou un environnement industriel précis.

Le guide de post-entraînement disponible dans le dépôt Cosmos Framework fournit des instructions détaillées pour adapter le modèle à vos besoins. Il inclut des exemples de scripts, des conseils pour la sélection des données d'entraînement et des bonnes pratiques pour éviter le surapprentissage.

LES COMPÉTENCES D'AGENT : UNE AIDE PRÉCIEUSE POUR LES DÉVELOPPEURS

Le dépôt Cosmos Framework inclut des compétences d'agent prêtes à l'emploi pour accélérer le développement. Ces compétences permettent de :

• Valider les exigences techniques et fonctionnelles avant de commencer un projet.

• Configurer automatiquement l'environnement avec les dépendances nécessaires (Python, PyTorch, CUDA, etc.).

• Exécuter les scripts d'inférence et de post-entraînement sans configuration manuelle.

• Apprendre la structure du dépôt et comprendre comment utiliser les exemples fournis.

• Rédiger des prompts efficaces grâce à des modèles pré-remplis et des conseils.

Ces compétences sont particulièrement utiles pour les développeurs qui découvrent l'écosystème Cosmos ou qui souhaitent gagner du temps sur les tâches répétitives.

DÉPLOIEMENT AVEC LES MICROSERVICES NIM

Pour faciliter le déploiement de Cosmos 3 en production, NVIDIA propose les microservices NIM. Ces services permettent de déployer le modèle de manière scalable et sécurisée, que ce soit dans le cloud ou sur site. Les microservices NIM gèrent automatiquement la répartition des charges, la mise à jour des modèles et la surveillance des performances.

Ils sont particulièrement adaptés aux applications nécessitant une haute disponibilité et une faible latence, comme les systèmes de conduite autonome ou les robots industriels.

UNE COLLABORATION MASSIVE DERRIÈRE COSMOS 3

Le développement de Cosmos 3 est le fruit d'une collaboration exceptionnelle entre de nombreuses équipes et individus au sein de NVIDIA. Plus de 100 personnes ont contribué à ce projet, chacune apportant son expertise dans des domaines variés comme l'apprentissage automatique, la vision par ordinateur, le traitement du langage naturel et la robotique.

Parmi les contributeurs, on trouve des experts en architecture de modèles, en optimisation de performances, en génération de données synthétiques et en déploiement de systèmes d'IA. Cette diversité de compétences a permis de créer un modèle à la fois puissant et polyvalent.

POURQUOI COSMOS 3 EST-IL UNE RÉVOLUTION ?

Avant Cosmos 3, les développeurs devaient utiliser plusieurs modèles distincts pour couvrir l'ensemble des besoins liés à l'IA physique. Par exemple, un modèle pour générer des mondes virtuels, un autre pour comprendre les scènes, un troisième pour générer des politiques d'action, et ainsi de suite. Cette fragmentation rendait les projets complexes, coûteux et difficiles à maintenir.

Avec Cosmos 3, tout est intégré dans un seul modèle. Cela simplifie considérablement le développement, réduit les coûts de calcul et améliore la cohérence des résultats. De plus, l'architecture unifiée permet une meilleure compréhension contextuelle, car le modèle peut analyser simultanément plusieurs types de données (texte, image, vidéo, actions).

Cosmos 3 est le premier modèle à pouvoir raisonner sur le monde physique et générer des actions en temps réel, sans avoir besoin de plusieurs systèmes interconnectés.

LES LIMITES ET DÉFIS À RELEVER

Malgré ses avancées, Cosmos 3 n'est pas exempt de limites. Comme tout modèle de fondation, il nécessite des ressources de calcul importantes pour être entraîné et déployé. Les deux tailles disponibles permettent de répondre à différents besoins, mais les versions les plus puissantes peuvent être gourmandes en GPU.

De plus, la qualité des résultats dépend fortement de la qualité des prompts fournis. Un prompt mal formulé peut conduire à des résultats imprévisibles ou irréalistes. NVIDIA fournit des guides et des exemples pour aider les utilisateurs à rédiger des prompts efficaces, mais cela reste un défi pour les débutants.

Enfin, bien que Cosmos 3 soit conçu pour être polyvalent, il peut ne pas être optimisé pour des tâches très spécifiques ou des environnements extrêmement rares. Dans ces cas, un post-entraînement sur des données ciblées est nécessaire pour obtenir les meilleurs résultats.

COMMENT COMMENCER AVEC COSMOS 3 ?

Pour utiliser Cosmos 3, il suffit de se rendre sur Hugging Face et de télécharger le modèle de votre choix (Cosmos3-Nano ou la version plus puissante). Voici les étapes de base :

1. Installer les dépendances nécessaires : PyTorch, Diffusers et d'autres bibliothèques requises.

2. Charger le pipeline avec la commande Cosmos3OmniPipeline.from_pretrained.

3. Préparer un prompt détaillé et adapté à la modalité souhaitée (texte, image, vidéo).

4. Exécuter le pipeline et générer le résultat (image, vidéo ou action).

5. Sauvegarder ou utiliser le résultat selon vos besoins.

NVIDIA fournit des exemples complets et des tutoriels pour chaque étape, ainsi qu'un guide de dépannage pour résoudre les problèmes courants.

L'AVENIR DE L'IA PHYSIQUE AVEC COSMOS 3

Cosmos 3 représente une étape majeure pour l'IA physique. En unifiant la génération de mondes, le raisonnement et l'action dans un seul modèle, NVIDIA ouvre la voie à des applications plus rapides, plus précises et plus accessibles. Que ce soit pour la robotique, les véhicules autonomes ou les espaces intelligents, ce modèle pourrait devenir un standard pour les développeurs.

À l'avenir, on peut s'attendre à voir des améliorations continues, avec des versions encore plus puissantes et des outils encore plus faciles à utiliser. NVIDIA a déjà annoncé des collaborations avec des partenaires industriels pour intégrer Cosmos 3 dans des produits commerciaux, ce qui pourrait accélérer son adoption à grande échelle.

Pour les développeurs et les entreprises, Cosmos 3 offre une opportunité unique de repousser les limites de l'IA physique et de créer des systèmes plus intelligents et plus autonomes.

Avec Cosmos 3, l'IA physique n'est plus un rêve lointain, mais une réalité à portée de main.

CONCLUSION : UN OUTIL INDISPENSABLE POUR LES DÉVELOPPEURS

NVIDIA Cosmos 3 marque un tournant dans le domaine de l'IA physique. En combinant génération de mondes, raisonnement et action dans un seul modèle, il simplifie considérablement le développement d'applications complexes. Que vous soyez un développeur débutant ou un expert en robotique, Cosmos 3 offre une plateforme puissante pour explorer les possibilités de l'IA générative physique.

Avec des ressources abondantes, une documentation complète et des outils prêts à l'emploi, NVIDIA facilite l'adoption de ce modèle révolutionnaire. Si vous travaillez sur des projets liés à la robotique, aux véhicules autonomes ou aux espaces intelligents, Cosmos 3 pourrait bien être l'outil qu'il vous faut pour passer à la vitesse supérieure.

Sources :

Hugging Face Blog

L'indépendance de CLODCO est votre garantie.

Pour que l'actualité de l'IA reste sans filtre et sans concession, votre soutien est indispensable. Votre contribution est le seul moteur de notre liberté éditoriale.

Soutenir CLODCO