NVIDIA NeMo AutoModel : comment booster de 3,7x l'entraînement des IA sans changer une ligne de code

Une seule ligne de code change, et votre IA s'entraîne 3,7 fois plus vite. Voici comment NVIDIA NeMo AutoModel révolutionne le fine-tuning des modèles d'IA.

LE PROBLÈME : ENTRAÎNER DES IA DE PLUS EN PLUS GÉANTES DEVIENT INGÉRABLE

Les modèles d'IA modernes comme Nemotron 550B ou Qwen3-30B-A3B utilisent des architectures Mixture-of-Experts (MoE). Le principe ? Au lieu d'un seul cerveau géant, ces modèles ont des centaines de petits experts spécialisés. Quand tu poses une question, l'IA active seulement quelques experts pertinents, comme si tu demandais à un groupe de médecins de répondre à une question médicale en choisissant les spécialistes adaptés.

Mais cette technique pose un énorme défi : comment répartir ces experts sur plusieurs cartes graphiques sans tout faire planter ? Les bibliothèques classiques comme Hugging Face Transformers v4 ou v5 gèrent mal cette complexité. Résultat : les modèles MoE deviennent ingérables, surtout quand on veut les entraîner à grande échelle.

« Les modèles MoE nécessitent de router des jetons entre des centaines d'experts, de fusionner des calculs de matrices, de partager les poids entre GPU, et de faire coïncider communication et calcul. Tout ça dépasse les capacités des bibliothèques généralistes. »

LA SOLUTION : NVIDIA NEMO AUTOMODEL, L'ENTRAÎNEMENT 3,7 FOIS PLUS RAPIDE

NVIDIA NeMo AutoModel est une bibliothèque open source qui s'intègre directement à Hugging Face Transformers v5. Son objectif ? Transformer l'entraînement des modèles MoE en quelque chose de simple et ultra-rapide, sans changer une seule ligne de code.

Avec NeMo AutoModel, tu passes de :

from transformers import AutoModelForCausalLM

à :

from nemo_automodel import NeMoAutoModelForCausalLM

Et c'est tout. Le reste du code reste identique. Mais derrière cette simple importation, trois technologies révolutionnaires se mettent en marche : Expert Parallelism, DeepEP et les noyaux TransformerEngine.

COMMENT ÇA MARCHE : TROIS TECHNOLOGIES QUI TRAVAILLENT ENSEMBLE

Imaginons que tu entraînes un modèle MoE sur 8 cartes graphiques. Voici comment NeMo AutoModel optimise chaque étape :

1. L'EXPERT PARALLELISM : PARTAGER LES EXPERTS COMME UN PLAN DE MÉTRO PARTAGE LES VOYAGEURS

Chaque GPU ne stocke qu'une partie des experts. Par exemple, avec 8 GPU et 128 experts, chaque carte graphique ne garde que 16 experts en mémoire. C'est comme si chaque station de métro ne gérait qu'une partie des lignes : ça évite la saturation.

Dans le code, ça se configure avec :

distsetup = createdistributedsetupfrom_config({
    "strategy": "fsdp2",
    "ep_size": 8,
})

Résultat ? Pour Nemotron 3 Nano 30B-A3B, la mémoire par GPU passe de 62,1 GiB à 42,5 GiB (-32 %), libérant de l'espace pour des lots plus grands ou des séquences plus longues.

2. DEEPEP : FUSIONNER COMMUNICATION ET CALCUL COMME UN CHEF CUISINIER QUI COUPE SES LÉGUMES EN PARALLÈLE

Quand l'IA doit envoyer des données entre experts, les méthodes classiques font ça en deux temps : d'abord envoyer les données, puis calculer. DeepEP, lui, fait les deux en même temps. C'est comme si tu préparais tes légumes en les coupant pendant que l'eau chauffe pour les cuire : tu gagnes un temps précieux.

Le code montre comment DeepEP fusionne les opérations d'envoi de données (all-to-all dispatch) en un seul noyau optimisé :

backend = BackendConfig(
    attn="te",           # Attention avec TransformerEngine
    linear="te",         # Couches linéaires avec TransformerEngine
    experts="torch_mm",  # Multiplication de matrices groupées
    dispatcher="deepep", # DeepEP pour l'envoi fusionné
)

3. LES NOYAUX TRANSFORMERENGINE : DES MOTEURS DE FORMULE 1 POUR LES CALCULS

Les noyaux TransformerEngine (TE) sont des implémentations ultra-optimisées des opérations de base des modèles d'IA : attention, couches linéaires, normalisation. Ils sont conçus pour exploiter au maximum les cartes graphiques NVIDIA, comme un moteur de Formule 1 exploite chaque centimètre de la piste.

Ces noyaux accélèrent toutes les couches, pas seulement celles des experts. Résultat : même les modèles non-MoE bénéficient d'un gain de vitesse.

« La combinaison Expert Parallelism + DeepEP + TransformerEngine Engine donne jusqu'à 3,7 fois plus de vitesse d'entraînement et jusqu'à 32 % de mémoire en moins par rapport à Transformers v5. »

DES PERFORMANCES QUI PARLENT : LES CHIFFRES QUI DÉMONTRENT

NVIDIA a testé NeMo AutoModel sur deux types de modèles : un géant de 550 milliards de paramètres (Nemotron 3 Ultra 550B) et des modèles de 30 milliards de paramètres (Qwen3-30B-A3B et Nemotron 3 Nano 30B-A3B). Voici les résultats :

1. QWEN3-30B-A3B : UNE VITESSE MULTIPLIÉE PAR 3,69

Sur un nœud avec 8 GPU H100 80GB, NeMo AutoModel atteint :

3,69 fois plus de TPS/GPU (3 075 → 11 340)
29 % de mémoire en moins (68,2 GiB → 48,1 GiB)
3 fois plus rapide pour le forward+loss (582 ms → 194 ms)
4,26 fois plus rapide pour le backward (758 ms → 178 ms)

Pourquoi Transformers v4 plantait : chaque expert était stocké séparément, ce qui créait des conflits entre les GPU. v5 corrige ce problème, mais NeMo AutoModel va plus loin avec ses optimisations.

2. NEMOTRON 3 NANO 30B-A3B : UNE VITESSE MULTIPLIÉE PAR 3,36

Sur le même Matériel, les gains sont encore plus impressionnants :

3,36 fois plus de TPS/GPU (1 807 → 4 583 → 15 421)
32 % de mémoire en moins (62,1 GiB → 42,5 GiB)
2,6 fois plus rapide pour le forward+loss (283 ms → 109 ms)
3,89 fois plus rapide pour le backward (611 ms → 157 ms)

3. NEMOTRON 3 ULTRA 550B : L'ENTRAÎNEMENT À 128 GPU DEVIENT POSSIBLE

Pour un modèle de 550 milliards de paramètres, NeMo AutoModel est le seul à pouvoir l'entraîner sur 16 nœuds (128 GPU) en full fine-tuning. Transformers v5 ne peut même pas charger le modèle : il manque de mémoire. NeMo AutoModel, grâce à l'Expert Parallelism, partage les experts entre les GPU et rend l'entraînement possible.

« Sans NeMo AutoModel, entraîner Nemotron 3 Ultra 550B sur 128 GPU serait impossible. Avec, c'est réalisable grâce à l'Expert Parallelism qui réduit la mémoire par GPU de 8 fois. »

COMMENT UTILISER NEMO AUTOMODEL EN PRATIQUE ?

Voici comment intégrer NeMo AutoModel dans ton code en trois étapes :

1. INSTALLER LES DÉPENDANCES

Il te faut PyTorch, les bibliothèques NVIDIA NeMo et NeMo AutoModel. Installe-les avec pip :

pip install torch nemo-toolkit[all] nemo-automodel

2. CONFIGURER LA DISTRIBUTION (POUR PLUSIEURS GPU)

Si tu utilises plusieurs GPU, initialise la distribution avec NCCL :

import os
import torch
import torch.distributed as dist
from nemo_automodel import NeMoAutoModelForCausalLM
from nemoautomodel.recipes.distutils import createdistributedsetupfrom_config

dist.initprocessgroup(backend="nccl")
torch.manual_seed(0)
torch.cuda.setdevice(int(os.environ.get("LOCALRANK", 0)))

distsetup = createdistributedsetupfrom_config({
    "strategy": "fsdp2",
    "ep_size": 8,
})

3. CHANGER UNE LIGNE DE CODE POUR CHARGER LE MODÈLE

Remplace l'import classique par celui de NeMo AutoModel :

model = NeMoAutoModelForCausalLM.from_pretrained(
    "nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-BF16",
    dtype=torch.bfloat16,
    distributedsetup=distsetup,
)

Et c'est tout. Le modèle est prêt à s'entraîner avec toutes les optimisations activées.

POURQUOI NEMO AUTOMODEL EST UNE RÉVOLUTION ?

NeMo AutoModel apporte trois avantages majeurs :

1. UNE COMPATIBILITÉ TOTALE AVEC HUGGING FACE

NeMoAutoModelForCausalLM hérite directement de AutoModelForCausalLM. Tous les modèles compatibles avec Hugging Face Transformers le sont aussi avec NeMo AutoModel. Pas besoin de réécrire ton code existant.

2. DES OPTIMISATIONS QUI FONCTIONNENT SUR TOUS LES MODÈLES

NeMo AutoModel optimise même les modèles non-MoE grâce à :

Les noyaux TransformerEngine pour l'attention et les couches linéaires
Le patching des noyaux Liger pour des gains supplémentaires

3. DES CHECKPOINTS COMPATIBLES AVEC TOUS LES OUTILS

Les modèles entraînés avec NeMo AutoModel produisent des checkpoints au format standard Hugging Face. Tu peux les utiliser avec vLLM, SGLang, ou n'importe quel autre outil d'inférence sans conversion.

« Avec NeMo AutoModel, tu passes de "comment faire tourner ce modèle ?" à "comment l'entraîner 3,7 fois plus vite ?" en une seule ligne de code. »

LES MODÈLES SUPPORTÉS : DE QWEN3 À DEEPSEEK V3

NeMo AutoModel prend en charge plus de 20 architectures de modèles MoE, dont :

Qwen3-30B-A3B
NVIDIA Nemotron 3 Nano 30B-A3B
DeepSeek V2/V3
Mixtral
OLMoE

Pour les autres modèles, NeMo AutoModel applique des optimisations génériques comme le patching des noyaux Liger.

COMMENT ÇA SE COMPARE À TRANSFORMERS V5 ?

Transformers v5 a introduit des optimisations majeures pour les modèles MoE, comme :

Le backend grouped_mm qui fusionne les calculs des experts
Le système de chargement dynamique des poids
L'intégration de PyTorch DeviceMesh pour la distribution

Mais NeMo AutoModel va plus loin avec :

Expert Parallelism comme dimension de parallélisme dédiée
DeepEP qui fusionne communication et calcul
Des noyaux TransformerEngine optimisés pour NVIDIA

Résultat : NeMo AutoModel est 3,4 à 3,7 fois plus rapide que v5, avec 29 à 32 % de mémoire en moins.

LE SAVIEZ-VOUS ? TRANSFORMERS V4 PLANTAIT À CAUSE DE CE DÉTAIL

Quand tu utilises Qwen3 avec Transformers v4, l'entraînement peut planter à cause d'un problème de routage des experts. Voici pourquoi :

v4 stocke chaque expert comme un module séparé dans une liste. Quand les GPU reçoivent des données différentes, ils sautent des experts différents, ce qui crée des déséquilibres dans les opérations de communication (AllGather/ReduceScatter). Résultat : un deadlock (blocage) permanent.

v5 corrige ce problème en fusionnant les experts dans des tenseurs 3D, mais NeMo AutoModel apporte une solution encore plus robuste avec Expert Parallelism et DeepEP.

EXPERT PARALLELISM VS DATA PARALLELISM : DEUX STRATÉGIES QUI NE S'EXCLUENT PAS

Transformers v5 utilise le Data Parallelism : chaque GPU a une copie complète du modèle, mais travaille sur une partie des données. L'Expert Parallelism de NeMo AutoModel est différent : chaque GPU ne stocke qu'une partie des experts, mais travaille sur toutes les données.

Sur 8 GPU, v5 utilise dp=8 (data parallelism) et ep=1 (expert parallelism). NeMo AutoModel utilise dp=8 et ep=8 en même temps. Chaque GPU a son propre lot de données et ne stocke que 1/8 des experts. C'est comme si tu avais un orchestre où chaque musicien joue une partition différente et ne connaît qu'une partie des instruments.

DEEPEP : LA MAGIE DE LA COMMUNICATION FUSIONNÉE

DeepEP (Deep Expert Parallelism) est l'innovation clé qui fait gagner jusqu'à 47 % de temps par itération sur des modèles comme DeepSeek V3 671B. Voici comment ça marche :

Au lieu d'envoyer les données aux experts un par un, DeepEP trie les jetons par expert assigné et exécute une seule multiplication de matrices groupée. C'est comme si tu triais tes courses par magasin avant de partir : tu optimises ton trajet et tu gagnes du temps.

Le code montre comment DeepEP fusionne les opérations d'envoi de données :

# Depuis nemo_automodel/components/moe/parallelizer.py
from torch.distributed.tensor import Shard, distribute_tensor

# Chaque GPU ne stocke que 1/ep_size des poids des experts
distributetensor(param, devicemesh, [Shard(0)])

LES MODÈLES HYBRIDES : MAMBA2, LATENTMOE, MTP. NEMO AUTOMODEL LES PREND EN CHARGE

Nemotron 3 Ultra 550B utilise une architecture hybride combinant :

Mamba2 : un modèle de séquence ultra-rapide
LatentMoE : un système d'experts latents
Multi-Token Prediction (MTP) : une technique pour prédire plusieurs tokens à la fois

NeMo AutoModel optimise ces modèles hybrides grâce à son architecture modulaire, qui s'adapte à n'importe quelle combinaison de techniques.

COMMENT SAUVEGARDER ET DÉPLOYER TES MODÈLES ENTRAÎNÉS ?

Une fois ton modèle entraîné avec NeMo AutoModel, tu peux le sauvegarder avec :

model.save_pretrained("mon-modele-entraine")

Le checkpoint est au format standard Hugging Face (safetensors). Tu peux le déployer avec :

vLLM : pour une inférence ultra-rapide
SGLang : pour des requêtes en temps réel
N'importe quel autre outil compatible avec Hugging Face

EN PRATIQUE : QUELLE CONFIGURATION CHOISIR POUR TON CAS ?

Voici les recommandations de NVIDIA selon ton matériel :

1. UN SEUL GPU : UTILISE TRANSFORMERS V5 AVEC LES OPTIMISATIONS DE BASE

Si tu n'as qu'un GPU, NeMo AutoModel n'apporte pas de gain significatif. Reste sur Transformers v5 avec ses optimisations de base.

2. 4 À 8 GPU : ACTIVE L'EXPERT PARALLELISM

Avec 4 à 8 GPU, configure ep_size égal au nombre de GPU. Par exemple, pour 8 GPU :

distsetup = createdistributedsetupfrom_config({
    "strategy": "fsdp2",
    "ep_size": 8,
})

3. 16 GPU ET PLUS : EXPERT PARALLELISM OBLIGATOIRE

Pour des modèles comme Nemotron 3 Ultra 550B, l'Expert Parallelism est indispensable. Sans lui, le modèle ne rentre pas en mémoire. Avec lui, tu peux entraîner des modèles de 550 milliards de paramètres sur 128 GPU.

NEMO AUTOMODEL EST-IL FAIT POUR TOI ?

NeMo AutoModel est idéal si :

Tu utilises des modèles Mixture-of-Experts (Qwen3, Nemotron, DeepSeek, etc.)
Tu veux entraîner des modèles sur plusieurs GPU
Tu cherches à réduire la mémoire utilisée par GPU
Tu veux une solution compatible avec Hugging Face et les outils d'inférence

NeMo AutoModel n'est pas nécessaire si :

Tu utilises des modèles non-MoE simples
Tu n'as qu'un seul GPU
Tu n'as pas besoin d'entraînement distribué

« NeMo AutoModel est la solution idéale pour ceux qui veulent passer à l'échelle sans se prendre la tête. Une seule ligne de code change, et tout devient plus rapide et plus léger. »

LE FUTUR : VERS DES MODÈLES ENCORE PLUS RAPIDES ET LÉGERS

NVIDIA continue d'améliorer NeMo AutoModel avec :

Des noyaux encore plus optimisés pour les GPU NVIDIA
Une meilleure intégration avec les outils d'inférence
Un support étendu à de nouvelles architectures de modèles

L'objectif ? Rendre l'entraînement des modèles d'IA encore plus accessible, rapide et économe en ressources.

EN CONCLUSION : UNE RÉVOLUTION POUR L'ENTRAÎNEMENT DES IA

NVIDIA NeMo AutoModel change la donne pour l'entraînement des modèles d'IA. Grâce à ses trois piliers (Expert Parallelism, DeepEP et TransformerEngine), il permet :

Jusqu'à 3,7 fois plus de vitesse d'entraînement
Jusqu'à 32 % de mémoire en moins par GPU
Une compatibilité totale avec Hugging Face et les outils d'inférence
Un passage à l'échelle simplifié jusqu'à 128 GPU

Le tout, sans changer une seule ligne de code existant. Une révolution qui rend l'entraînement des grands modèles d'IA enfin accessible à tous.

Si tu veux essayer NeMo AutoModel, rendez-vous sur la documentation officielle pour commencer.

Sources :

Hugging Face Blog

L'indépendance de CLODCO est votre garantie.

Pour que l'actualité de l'IA reste sans filtre et sans concession, votre soutien est indispensable. Votre contribution est le seul moteur de notre liberté éditoriale.

Soutenir CLODCO