L'IA à l'échelle : comment AWS muscle ses serveurs pour les modèles géants

Les modèles d'IA grand public demandent une puissance colossale. AWS a repensé ses serveurs pour les faire tourner sans s'effondrer. Explications techniques, mais claires.

Depuis des années, on croyait que pour faire un modèle d'IA plus fort, il fallait simplement augmenter la puissance de calcul pendant son entraînement. C'était vrai… jusqu'à un certain point. Une étude de Kaplan et al. (2020) montrait qu'en multipliant les paramètres du modèle, la taille du jeu de données ou la puissance de calcul, on obtenait des résultats prévisibles, comme une courbe bien lisse. Résultat ? Les entreprises ont investi des milliards dans des serveurs toujours plus puissants et des réseaux capables de les faire travailler ensemble sans perdre de temps.

Mais aujourd'hui, les modèles d'IA ont évolué. NVIDIA a résumé ça avec sa théorie des trois lois d'échelle : après l'entraînement classique, il y a le post-entraînement (comme le fine-tuning supervisé ou l'apprentissage par renforcement) et le calcul au moment de l'utilisation (quand le modèle réfléchit plus longtemps, fait des recherches ou vérifie ses réponses).

Ces trois étapes demandent maintenant des serveurs conçus comme une seule machine : des GPU ultra-rapides, un réseau sans latence et un stockage distribué. Et surtout, un système qui gère tout ça sans s'effondrer.

LA RECETTE AWS POUR DES MODÈLES D'IA À TOUTE ÉPREUVE

AWS a structuré ses serveurs en plusieurs couches, comme un gâteau bien organisé. Chaque couche a un rôle précis, et tout doit communiquer parfaitement. Voici comment ça s'articule :

Au fond, il y a l'infrastructure : des GPU surpuissants, un réseau ultra-rapide et un stockage distribué. Au milieu, on trouve l'orchestration des ressources (qui décide qui fait quoi et quand). En haut, il y a le logiciel (les Outils qui font tourner les modèles) et enfin, l'observabilité (pour surveiller que tout se passe bien).

Cette architecture en couches permet aux modèles d'IA de passer de l'entraînement à l'utilisation sans changer de serveur. Tout est optimisé pour éviter les goulots d'étranglement, ces moments où tout ralentit parce qu'un composant n'arrive pas à suivre.

LES GPU : LE CŒUR BATTANT DES MODÈLES D'IA

Sans GPU, pas de modèle d'IA. AWS propose plusieurs familles d'instances accélérées, chacune avec des GPU NVIDIA de plus en plus puissants :

Famille P5 : avec des H100 ou H200, jusqu'à 8 GPU par machine.
Famille P6 : avec l'architecture Blackwell B200 ou B300, encore plus rapide.

Chaque GPU a des caractéristiques précises :

Puissance de calcul : mesurée en FLOPS (opérations par seconde). Plus c'est élevé, plus le GPU est rapide.
Mémoire HBM : la mémoire ultra-rapide des GPU. Par exemple, un H100 a 80 Go de HBM3.
Bande passante mémoire : la vitesse à laquelle le GPU peut lire/écrire dans sa mémoire. Un H100 atteint 3 To/s.

Voici un tableau comparatif des GPU disponibles sur AWS (valeurs en BF16/FP16 et FP8) :

| GPU          | Puissance (TFLOPS) | Mémoire HBM (Go) | Bande passante (To/s) |
|--------------|---------------------|------------------|-----------------------|
| H100 (P5)    | 989 (BF16)          | 80               | 3.0                   |
| H200 (P5e)   | 1 049 (BF16)        | 141              | 4.8                   |
| B200 (P6)    | 1 573 (BF16)        | 184              | 8.0                   |
| B300 (P6)    | 2 000 (BF16)        | 240              | 10.0                  |

Ces chiffres montrent que les GPU récents sont 5 à 10 fois plus puissants que ceux d'il y a quelques années. Mais attention : la puissance brute ne fait pas tout. Quand les modèles deviennent énormes, c'est souvent la communication entre GPU qui ralentit tout.

LE RÉSEAU : LA ROUTE EXPRESS POUR LES DONNÉES

Quand on a plusieurs GPU, ils doivent pouvoir échanger des données très vite. AWS utilise deux technologies :

NVLink/NVSwitch : le réseau interne à une machine. C'est comme une autoroute à 6 voies entre les GPU, avec une bande passante de 600 Go/s pour un H100.
EFA (Elastic Fabric Adapter) : le réseau externe entre plusieurs machines. C'est comme un pont géant qui relie des villes entières. AWS propose plusieurs versions :

Voici les performances des différentes versions d'EFA :

| Version EFA | Latence réduite | Amélioration collective |
|-------------|-----------------|-------------------------|
| EFAv2       | -               | Base                    |
| EFAv3       | ~35%            | +18% vs EFAv2           |
| EFAv4       | ~50%            | +18% vs EFAv3           |

L'EFA permet aux GPU de communiquer directement entre eux, sans passer par le système d'exploitation. Résultat : moins de temps perdu, plus de modèles entraînés en moins de temps.

LE STOCKAGE : L'ARCHIVE INFINIE POUR LES MODÈLES

Un modèle d'IA, c'est comme une bibliothèque géante : il a besoin de stocker des montagnes de données. AWS utilise trois niveaux de stockage :

NVMe SSD local : pour les données

Sources :

Hugging Face Blog

L'indépendance de CLODCO est votre garantie.

Pour que l'actualité de l'IA reste sans filtre et sans concession, votre soutien est indispensable. Votre contribution est le seul moteur de notre liberté éditoriale.

Soutenir CLODCO