NVIDIA et CUDA : comment un logiciel a transformé un géant du silicium en empire de l'IA

NVIDIA ne vend pas que des puces : elle vend un écosystème logiciel impossible à copier. Et c'est CUDA, son outil de calcul parallèle, qui fait toute la différence.

LE MYTHE DU « MOAT » EN TECHNOLOGIE

Il existe une expression que les financiers adorent et que la Silicon Valley a adoptée : le moat (fossé défensif en français). Popularisée par Warren Buffett, cette métaphore désigne l’avantage concurrentiel d’une entreprise. Dans la tech, on l’utilise souvent pour parler des barrières qui protègent une société des concurrents. Pourtant, malgré les craintes suscitées par les modèles d’IA open source comme DeepSeek, aucun géant de l’IA – OpenAI, Anthropic ou Google – ne dispose d’un moat véritable. Sauf une entreprise : NVIDIA.

CUDA : L’ARME SECRÈTE DE NVIDIA, UN LOGICIEL PAS UNE PUCES

Le PDG de NVIDIA, Jensen Huang, qualifie CUDA de trésor le plus précieux de son entreprise. Et ce trésor n’est pas une puce, mais un logiciel. CUDA, dont le nom complet est Compute Unified Device Architecture, est un outil qui permet d’exploiter la puissance des cartes graphiques pour des calculs autres que le rendu 3D. Si l’acronyme rappelle un produit chimique interdit par la FDA, personne ne prend la peine de le développer : on dit simplement « KOO-duh ».

CUDA n’est pas un langage de programmation, mais une plateforme logicielle qui permet d’exploiter la puissance des GPU pour des calculs complexes.

LE POUVOIR DE LA PARALLÉLISATION : QUAND UNE PUCES DEVIENT UNE ARMÉE

Pour comprendre l’importance de CUDA, prenons un exemple simple : remplir une table de multiplication 9×9. Avec un processeur classique à un seul cœur, chaque calcul est effectué l’un après l’autre. Résultat : 81 opérations successives. Mais une carte graphique (GPU) avec neuf cœurs peut diviser le travail. Chaque cœur s’occupe d’une colonne différente : un de 1×1 à 1×9, un autre de 2×1 à 2×9, etc. Résultat : un gain de vitesse d’un facteur neuf. Les GPU modernes vont encore plus loin : ils évitent les calculs inutiles en exploitant des propriétés mathématiques comme la commutativité (7×9 = 9×7). Ainsi, les 81 opérations peuvent être réduites à 45, divisant presque par deux la charge de travail. Quand un seul entraînement d’un modèle d’IA coûte des millions de dollars, chaque optimisation compte.

DE DOOM À L’IA : L’HISTOIRE D’UNE RÉVOLUTION IMPROBABLE

À l’origine, les GPU de NVIDIA étaient conçus pour rendre les graphismes des jeux vidéo. Au début des années 2000, un étudiant en doctorat de Stanford nommé Ian Buck, passionné de jeux vidéo, a eu une idée : et si l’architecture des GPU pouvait être utilisée pour des calculs scientifiques ? Il a créé un langage de programmation appelé Brook, a été embauché par NVIDIA, et a co-développé CUDA avec John Nickolls. Sans ces pionniers, l’ère de l’IA moderne n’existerait peut-être pas. Comme le résume l’auteur : « Si l’IA devait donner naissance à une classe de travailleurs de bureau permanents ou à des armes autonomes, ce serait parce que quelqu’un, quelque part, en jouant à Doom, a voulu que le scrotum d’un démon bouge à 60 images par seconde. »

CUDA : UNE PLATEFORME LOGICIELLE, PAS UN LANGAGE

CUDA n’est pas un langage de programmation classique comme Python ou C++. C’est une plateforme, un ensemble de bibliothèques logicielles spécialisées pour l’IA. Chaque fonctionnalité de CUDA optimise des opérations mathématiques, économisant des nanosecondes. Additionnées, ces économies permettent aux GPU de NVIDIA de fonctionner à une vitesse inégalée dans l’industrie, comme le disent les experts : « go brrr ».

L’ARCHITECTURE D’UNE PUCES MODERNE : UNE CUISINE PROFESSIONNELLE

Une carte graphique moderne n’est pas qu’une simple carte électronique remplie de puces et de ventilateurs. C’est un système complexe, composé de hiérarchies de cache, d’unités spécialisées appelées cœurs tensoriels et multiprocesseurs streaming. Pour reprendre une métaphore culinaire, ce que vendent les fabricants de puces, c’est comme une cuisine professionnelle. Plus il y a de cœurs, plus il y a de postes de cuisson. Mais même avec 30 postes, la cuisine ne fonctionnera pas plus vite sans un chef compétent pour attribuer les tâches. C’est exactement le rôle de CUDA : organiser le travail des cœurs du GPU.

DES BIBLIOTHÈQUES OPTIMISÉES : DES Outils DE CUISINE PROFESSIONNELLE

Les bibliothèques CUDA optimisées pour une opération mathématique précise sont comme des ustensiles de cuisine conçus pour une seule tâche : un dénoyauteur de cerises ou un économe à crevettes. Ces outils sont parfaits pour les cuisiniers amateurs, mais inutiles si vous devez éplucher 10 000 gousses d’ail. C’est ce qui explique pourquoi DeepSeek, malgré ses ambitions, a dû plonger dans les couches les plus profondes de CUDA pour travailler directement en PTX, un langage assembleur pour GPU NVIDIA. Pour reprendre la métaphore, si la tâche est d’éplucher de l’ail, un GPU non optimisé dirait : « Enlève la peau avec tes ongles. » CUDA, lui, peut dire : « Écraser la gousse avec le plat d’un couteau. » Le PTX, lui, permet de contrôler chaque sous-instruction : « Soulève la lame à 2,35 cm au-dessus de la planche, place-la parallèlement à l’équateur de la gousse, et frappe avec la paume à une force de 36,2 newtons. »

POURQUOI CUDA EST-IL SI DIFFICILE À COPIER ?

Optimiser les performances d’un GPU est un problème complexe. On ne peut pas simplement embaucher un étudiant débutant dans la rue, lui donner un plan de développement et attendre qu’il pirate les noyaux GPU. Écrire à ce niveau est un travail de titan, sauf si vous êtes un programmeur hors pair chez DeepSeek. L’auteur de l’article en a fait l’expérience : une simple multiplication de matrices qui lui prend trois lignes en PyTorch, un framework populaire d’apprentissage automatique, a nécessité plus de 50 lignes en CUDA. Optimiser jusqu’à la dernière goutte de performance s’avère être une tâche admirable, mais fastidieuse. Après avoir trempé le bout de son orteil dans ce « fossé », il peut confirmer : il est profond et infranchissable.

LE VERROUILLAGE : COMMENT CUDA CRÉE UNE FORTERESSE INFORMATIQUE

La domination de CUDA ne repose pas uniquement sur la qualité de son écosystème, mais aussi sur un effet de verrouillage. Les frameworks modernes d’apprentissage automatique sont construits sur CUDA, qui fonctionne exclusivement sur les puces NVIDIA. Même si AMD propose des puces avec plus de cœurs et plus de mémoire, leurs performances restent inférieures. Comparer des puces en se basant sur leurs fiches techniques, c’est comme comparer des voitures de course en comptant le nombre de cylindres. La vraie performance ne s’évalue que sur la piste. Et sur cette piste, NVIDIA est toujours en tête.

UNE ENTREPRISE LOGICIELLE DÉGUISEE EN FABRICANT DE PUCES

L’avantage logiciel de NVIDIA réside dans le fait que, contrairement à la plupart des fabricants de puces, elle emploie plus d’ingénieurs logiciels que d’ingénieurs matériels. Si l’auteur était à la tête d’AMD, il suivrait peut-être cet exemple. Mais qui lui demanderait son avis ?

LES ÉCHECS DES CONCURRENTS : OPENCL, ROCM ET ONEAPI

Chaque année, de nouveaux prétendants tentent de percer le fossé de NVIDIA, mais finissent par s’y noyer. OpenCL, une norme ouverte soutenue par un consortium incluant Apple, AMD et Qualcomm, était censée être l’Android de CUDA, son iOS. Pourtant, elle n’a jamais vraiment décollé. AMD a tenté de riposter avec ROCm, mais son nom est si peu engageant que personne ne sait comment le prononcer : « rock cum » ? ROCm a également été si criblé de bugs et de problèmes de compatibilité que son subreddit ressemble à un groupe de soutien. Intel, quant à lui, a lancé oneAPI dans une dernière tentative désespérée de rester pertinent. Pourtant, en 2026, CUDA règne toujours en maître. Si un challenger existe, c’est Modular, dirigé par Chris Lattner, le légendaire concepteur de langages qui a notamment créé Swift pour Apple et LLVM.

LE SECRET OUVERT : PRESQUE PERSONNE NE SAIT PROGRAMMER POUR LES GPU

Le secret le moins bien gardé de l’industrie est que, tout comme un physicien théoricien ne sait pas changer un pneu, la plupart des chercheurs en IA ne savent même pas écrire une ligne de C++. Il existe très peu d’excellents ingénieurs spécialisés dans les noyaux GPU, et beaucoup d’entre eux travaillent pour NVIDIA. Bien avant que les chercheurs en IA ne se mettent à collectionner des likes sur les réseaux sociaux, ces ingénieurs travaillaient dur sur CUDA sans recevoir de reconnaissance. Même les agents de codage les plus performants peinent encore à travers le code des noyaux GPU.

NVIDIA, L’APPLE DE L’IA : UN ÉCOSYSTÈME PLUTÔT QU’UNE PUCES

À la fin, NVIDIA ressemble plus à Apple qu’à AMD ou Intel. C’est une grande entreprise de matériel parce qu’elle est avant tout une entreprise de logiciel. Le fossé d’Apple face à Android n’a jamais été seulement l’iPhone, mais l’écosystème : iOS, l’App Store et ses développeurs. Certes, vous pouvez plier un Samsung Galaxy en deux, mais voulez-vous vraiment utiliser Samsung Pay ? Pendant ce temps, l’industrie devra vivre avec les prix élevés imposés par NVIDIA.

NVIDIA ne vend pas des puces, elle vend un écosystème logiciel que personne ne peut reproduire. Son avantage concurrentiel est son logiciel, pas son matériel.

UNE PLONGÉE DANS L’INCONNU : L’AUTEUR TENTE DE MAÎTRISER CUDA

Pour mieux comprendre CUDA, l’auteur a décidé de passer une journée à l’apprendre. Résultat : son après-midi a été gâché. Une multiplication simple de matrices qui prend généralement trois lignes en PyTorch a nécessité plus de 50 lignes en CUDA. Optimiser jusqu’au dernier détail s’avère être une tâche admirable, mais extrêmement fastidieuse. Après avoir effleuré le « fossé » de NVIDIA, il peut confirmer : il est profond et infranchissable.

LE DÉFI DE LA PERFORMANCE : POURQUOI LES CHIFFRES NE SUFFISENT PAS

L’auteur avait prévu de comparer deux puces, mais impossible d’obtenir un budget pour acheter un NVIDIA H100 et un AMD MI300X sans se retrouver sur la liste noire de Condé Nast. À la place, il faut se fier aux recherches indépendantes qui montrent qu’AMD, malgré des spécifications théoriques supérieures, est dépassé par NVIDIA en performance réelle. Comparer des puces en se basant uniquement sur leurs fiches techniques, c’est comme comparer des voitures de course en comptant le nombre de cylindres. La vraie performance ne s’évalue que sur la piste.

LES LIMITES DU MATÉRIEL SANS LOGICIEL : ROCM, LE FANTÔME D’AMD

AMD a tenté de riposter avec ROCm, sa réponse à CUDA. Mais son nom, « ROCm » (prononcé « rock cum »), est si peu engageant qu’il donne envie de fuir. ROCm a également été si criblé de bugs et de problèmes de compatibilité que son subreddit ressemble à un groupe de soutien. Même les développeurs les plus motivés abandonnent face à la complexité de ROCm.

INTEL ET ONEAPI : LA DERNIÈRE CARTE D’UNE ENTREPRISE EN DÉCLIN

Intel, souvent considéré comme un fabricant de puces en déclin, a tenté de rester pertinent avec oneAPI. Pourtant, en 2026, CUDA règne toujours en maître. Si un challenger existe, c’est Modular, dirigé par Chris Lattner, le légendaire concepteur de langages qui a notamment créé Swift pour Apple et LLVM.

CONCLUSION : CUDA, LA CLÉ D’UN EMPIRE INCONTOURNABLE

NVIDIA ne doit pas sa domination à ses puces, mais à CUDA, son logiciel révolutionnaire. Alors que les modèles open source tentent de percer, aucun ne parvient à égaler l’écosystème verrouillé de NVIDIA. L’industrie de l’IA devra vivre avec les prix élevés imposés par ce géant, car personne ne peut reproduire ce que CUDA offre : une plateforme logicielle optimisée, un écosystème verrouillé et une expertise inégalée. CUDA n’est pas juste un outil, c’est la fondation sur laquelle repose l’avenir de l’IA.

Sources :

Wired AI

L'indépendance de CLODCO est votre garantie.

Pour que l'actualité de l'IA reste sans filtre et sans concession, votre soutien est indispensable. Votre contribution est le seul moteur de notre liberté éditoriale.

Soutenir CLODCO