L'offensive chinoise en IA : DeepSeek et Seedance redéfinissent la course

Le 10 mars 2016, une machine a battu un maître du jeu de Go avec un coup que personne n'avait envisagé. Ce choc a précipité la Chine dans une course effrénée à l'intelligence artificielle.

LE COUP DE SÉMAPHORE D'ALPHAGO

Le 10 mars 2016, une date qui semble anodine, mais qui allait redéfinir notre rapport à l'intelligence artificielle. Ce jour-là, dans une salle à Séoul, en Corée du Sud, deux adversaires s'affrontaient. Une atmosphère étrangement silencieuse, et pourtant des caméras, des techniciens et des journalistes du monde entier. Le deuxième match d'une série au jeu de Go, un jeu de stratégie né en Chine il y a plus de 2 500 ans, considéré comme le plus ancien jeu de plateau. Bien plus complexe que les échecs, le Go offre un nombre de configurations possibles supérieur au nombre d'atomes dans l'univers observable. Autrement dit, des milliards de milliards de parties potentielles.

D'un côté, Lee Sedol, héros national coréen, 18 titres internationaux, un style créatif et agressif. De l'autre, AlphaGo, un programme développé par la société britannique DeepMind, rachetée par Google. Avant la rencontre, les experts pariaient sur une victoire confortable de l'humain. Après tout, depuis plus de 2 000 ans, l'homme dominait le Go. Mais au bout de quatre heures, AlphaGo a remporté la première manche, à la stupéfaction générale. Seuls Demis Hassabis, fondateur de DeepMind, et Sergey Brin, cofondateur de Google, semblaient s'y attendre.

Le deuxième match, le 10 mars, a été encore plus sidérant. Au milieu de la partie, AlphaGo a posé une pierre d'une manière jugée aberrante par les commentateurs professionnels. Un coup que personne n'aurait joué. Les commentateurs ont même cessé d'expliquer, se demandant si la machine avait commis une erreur. Lee Sedol, abasourdi, quitta la salle un quart d'heure. Ce coup, connu sous le nom de mouvement 37, n'était pas une erreur. Il a ouvert une stratégie totalement inédite, que l'humanité n'avait jamais envisagée en plus de deux millénaires. AlphaGo a gagné la deuxième partie, et l'assemblée a compris qu'une machine pouvait non seulement battre un champion, mais aussi révéler de nouvelles façons de penser le jeu.

Lee Sedol réussit à gagner une manche, la quatrième, grâce à un « coup divin », comme on l'a surnommé. Mais il a perdu la série 4 à 1. Plus que la domination d'AlphaGo, c'est ce mouvement 37, venu d'ailleurs, qui a secoué la Chine. Pour les scientifiques et les décideurs chinois, ce fut un réveil brutal.

LA STRATÉGIE NATIONALE CHINOISE

En Occident, beaucoup ont vu cet événement comme un jalon supplémentaire, un algorithme battant un humain à un jeu de plateau. En Chine, ce fut l'étincelle d'une accélération spectaculaire. L'année suivante, le gouvernement publiait une stratégie nationale déclarant l'IA priorité absolue, avec un objectif explicite : devenir le leader mondial de l'IA d'ici 2030. Moins d'une décennie plus tard, des Outils chinois comme DeepSeek et Seedance font le buzz partout sur internet. Comment la Chine y est-elle parvenue ?

LES COUCHES DE L'IA : LE SOCLE MATÉRIEL

L'IA n'est pas une technologie unique, mais une pile de couches superposées. Pour comprendre la rivalité entre les États-Unis et la Chine, il faut saisir cette pile de bas en haut : matériel, modèles, applications. À la base, la couche matérielle. C'est l'infrastructure physique qui fait tourner les calculs complexes : centres de données géants, systèmes de refroidissement, GPU (processeurs graphiques) et surtout les microprocesseurs, ces puces minuscules gravées dans du silicium. Un microprocesseur, c'est un morceau de silicium abritant des milliards de transistors, de minuscules interrupteurs électriques. Chaque interrupteur bascule entre 0 et 1, et l'enchaînement de ces bascules produit le code informatique. Le silicium est un semi-conducteur : contrairement au cuivre (conducteur parfait) ou au caoutchouc (isolant parfait), il peut bloquer ou laisser passer le courant selon une impulsion électrique. On peut donc commander ces milliards de portes logiques des milliards de fois par seconde. Un microprocesseur de pointe contient des dizaines de milliards de transistors sur une surface de la taille d'un ongle.

Pour l'IA, le composant roi est le GPU. Conçu à l'origine pour le rendu des jeux vidéo, il s'est révélé prodigieusement efficace pour les calculs parallèles massifs qu'exigent les systèmes d'IA. Le GPU le plus évolué actuellement est le Blackwell B200, un monstre de 208 milliards de transistors, constitué de deux puces soudées ensemble. Il coûte entre 30 000 et 40 000 dollars pièce. Et pour entraîner un modèle comme ChatGPT, il en faut des dizaines de milliers, interconnectés dans des centres de données à plusieurs milliards de dollars. La prochaine architecture, baptisée Rubin, est déjà annoncée pour janvier 2026.

La conception de ces puces est dominée par Nvidia, la société la plus valorisée au monde (4,5 billions de dollars en mars 2026). Mais Nvidia ne les fabrique pas. Ses plans sont confiés à une seule entreprise, taïwanaise : TSMC (Taiwan Semiconductor Manufacturing Company). TSMC contrôle près de 70 % du marché mondial de la fabrication de puces, et plus de 90 % pour les puces avancées. Si la Chine revendique Taïwan, elle ne peut simplement forcer TSMC à lui fournir des GPU. Car les usines de TSMC utilisent des logiciels, des brevets et des machines américains. Selon la loi américaine, toute entreprise étrangère employant des technologies américaines ne peut vendre de puces d'IA avancées à la Chine. Si TSMC passait outre, les États-Unis couperaient immédiatement ses approvisionnements vitaux. Construire une usine capable de rivaliser avec TSMC est probablement le processus industriel le plus complexe de l'histoire. Il faut des décennies de savoir-faire, des machines laser à 200 millions de dollars fabriquées aux Pays-Bas, des produits chimiques ultra-purs venus du Japon. Même Samsung, malgré des milliards investis, peine à égaler la fiabilité de TSMC. Elon Musk a d'ailleurs lancé son propre projet d'usine, Terafab, car il ne peut obtenir assez de puces auprès des fournisseurs habituels.

La Chine est parfaitement capable de construire les bâtiments et les systèmes de refroidissement d'un supercalculateur. Mais se procurer le moteur – les GPU de pointe – est une tout autre histoire.

Bloquée à l'achat de GPU de pointe, la Chine s'est tournée vers son plan initial : investir dans des entreprises locales comme Huawei et SMIC pour produire ses propres puces. Mais les restrictions américaines se sont durcies, l'empêchant d'accéder aux machines néerlandaises et japonaises. La plupart des experts occidentaux pensaient les ambitions chinoises à l'arrêt. C'était compter sans l'innovation logicielle.

LE GÉNIE LOGICIEL DE DEEPSEEK

Sur la couche matérielle repose la couche modèle, le cerveau de l'IA. Privés des meilleures puces, les chercheurs chinois ont dû tirer le maximum de GPU plus anciens, stockés avant les embargos. Ils sont devenus obsédés par l'efficacité : comment obtenir de meilleurs résultats avec du matériel moins puissant, comment réduire les calculs superflus.

Tout commence par une avancée de 2017 : le Transformer, un nouveau plan architectural pour l'IA. Avant, les IA traitaient le texte mot à mot, comme un humain lit un livre. Lent, et si la phrase était longue, le contexte était perdu. Le Transformer analyse un bloc de texte entier d'un coup et tisse des liens mathématiques entre tous les concepts. On appelle grand modèle de langage (LLM) un Transformer conçu pour ingurgiter une montagne de texte. Au fond, c'est un jeu de devinette du mot suivant, comme la saisie automatique d'un téléphone. Mais avec le Transformer, le modèle ne perd jamais le fil, et comme il a été entraîné sur la grammaire, la logique, la physique, les mathématiques et tout ce qui existe sur internet, ses prédictions ressemblent à un raisonnement humain.

La quasi-totalité des grands acteurs, dont OpenAI, ont bâti leurs modèles sur ce plan Transformer. Mais entraîner un tel cerveau exige des milliers de GPU dernier cri, inaccessibles pour la Chine. Les ingénieurs de DeepSeek ont donc dû modifier le plan Transformer pour le rendre moins cher et plus efficace. Deux percées majeures.

Premièrement, ils ont poussé à l'extrême une architecture appelée Mixture of Experts (MoE). Un « expert » est un groupe de neurones artificiels spécialisé dans une tâche (reconnaître des équations mathématiques, par exemple). Dans un modèle classique, chaque question allume tout le cerveau, ce qui consomme énormément de puissance. Avec MoE, on divise le modèle en plusieurs experts. DeepSeek a découpé son modèle en 256 experts hyper-spécialisés. Quand une requête arrive, un routeur ultra-efficace active seulement huit de ces mini-experts, laissant le reste du cerveau en veille. Deuxièmement, ils ont ajouté une technologie inédite, le Multi-head Latent Attention (MLA). En langage technique, cela compresse la mémoire à court terme du modèle (le cache clé-valeur) de plus de 90 %. Concrètement, l'IA garde parfaitement le fil de la conversation en utilisant une fraction de la mémoire habituelle. En plus, les ingénieurs de DeepSeek ont plongé au cœur des GPU Nvidia anciens. Plutôt que de s'en tenir au logiciel standard CUDA, ils ont écrit du code assembleur personnalisé via une couche intermédiaire appelée PTX, pour optimiser manuellement la communication entre les puces. C'est un changement de philosophie : là où les entreprises américaines pouvaient se contenter d'acheter plus de matériel, DeepSeek a dû réécrire les règles pour chaque miette de performance.

DeepSeek a ainsi construit un modèle de classe mondiale pour moins de 6 millions de dollars, alors qu'OpenAI dépensait des centaines de millions pour entraîner ses GPT.

Mais l'arme fatale de DeepSeek ne tient pas qu'à l'architecture. Elle tient à la distribution : le modèle a été rendu open source. N'importe quel chercheur, startup ou développeur peut l'examiner, l'exécuter, le perfectionner et bâtir dessus. On connaît donc le détail de son système d'experts et du nombre d'experts créés. À l'inverse des modèles fermés d'OpenAI. DeepSeek a transformé son modèle en plateforme, livrant sa recette secrète. Le progrès ne dépend plus d'une seule entreprise, mais de milliers d'ingénieurs dans le monde.

LA MINE D'OR DES DONNÉES

Un modèle, même parfaitement conçu, reste un cerveau vide sans carburant. Ce carburant, c'est la donnée. Et c'est là que la Chine détient un avantage structurel que les États-Unis ne peuvent concurrencer. Un modèle d'IA n'a aucune compréhension innée du monde. On l'entraîne sur une quantité colossale de textes, livres, articles, conversations. Pendant l'entraînement, il ajuste des milliards de connexions internes jusqu'à prédire avec une cohérence bluffante le mot suivant. Longtemps, l'approche occidentale a consisté à acheter de l'expertise humaine : des équipes d'annotateurs, de mathématiciens, de développeurs pour créer des données d'entraînement parfaitement étiquetées. Une méthode horriblement chère.

DeepSeek a misé sur une autre voie : l'apprentissage par renforcement. Au lieu de montrer sans cesse la bonne réponse écrite par un humain, on laisse le modèle générer des réponses, et un système de score récompense les bonnes, pénalise les mauvaises. Le modèle découvre ainsi les stratégies qui marchent, comme un élève qui résout des problèmes pratiques encore et encore. Moins besoin de tuteurs humains coûteux. À l'extrême, DeepSeek a basculé très tôt dans l'apprentissage par renforcement pur, faute de budget pour des annotateurs experts. Un inconvénient : lors des premiers tests, l'IA est devenue brillante en logique, maths, programmation, mais exécrable pour communiquer. Elle mélangeait anglais et chinois de façon illisible. Un génie qui marmonne. Il a fallu réintroduire une petite dose de données humaines pour lui apprendre à formuler ses réponses clairement. Mais la leçon est là : on peut bâtir un moteur de raisonnement de niveau mondial pour une fraction du coût habituel.

Au-delà du texte, la prochaine frontière est la donnée multimodale : images, audio, vidéo. Un modèle de langage est un cerveau enfermé dans une pièce sombre, qui ne sait que lire. Un modèle multimodal a reçu des yeux et des oreilles : il comprend une photo, une bande-son, le monde physique. Or, les entreprises américaines arrivent au bout des données multimodales de qualité légalement exploitables sur le web ouvert. Elles ont ratissé YouTube, Reddit, X, les sites publics, souvent sans permission. Elon Musk a prévenu : l'industrie manque de données humaines réelles et devra se tourner vers des données synthétiques, générées par l'IA elle-même. Les données réelles récoltées sont souvent compressées, fragmentées, et de plus en plus verrouillées par des procès de droit d'auteur.

En Chine, l'écosystème est radicalement différent. L'économie numérique est dominée par des super-applications comme WeChat ou Douyin (l'équivalent chinois de TikTok). Derrière Douyin, il y a ByteDance. Chaque jour, des centaines de millions de Chinois téléchargent des vidéos ultra-haute définition sur tous les aspects de la vie. ByteDance possède Seedance 2.0, et surtout, détient les fichiers vidéo natifs, non compressés, sur ses propres serveurs. Ces vidéos sont parfaitement classifiées et associées aux métriques d'engagement des utilisateurs. Quand l'IA s'entraîne, elle ne voit pas seulement une personne qui marche. Elle dispose des métadonnées : l'angle de caméra, les conditions d'éclairage, le moment exact où un spectateur a décroché. Une base de données infinie, parfaitement étiquetée, derrière le mur de l'internet chinois.

C'est pourquoi Seedance surpasse des générateurs vidéo comme Sora d'OpenAI. Sora peine encore sur la cohérence physique, la synchronisation audio et les hallucinations visuelles. OpenAI bute sur les limites des données multimodales exploitables.

Le chatbot chinois Doubao, également de ByteDance, a déjà dépassé DeepSeek en nombre d'utilisateurs, car il exploite ce colossal moteur de données pour générer images, vidéos, voix, de manière fluide. Ainsi, quand Seedance crée une vidéo d'une personne traversant une flaque, l'eau éclabousse correctement, le reflet correspond, le son est parfaitement calé. Cette synthèse de mouvement naturel est le fruit direct de la qualité et de la structure des données d'entraînement.

La Chine, avec 1,4 milliard d'habitants et plus de 750 millions d'utilisateurs actifs quotidiens sur Douyin, alimente la machine en permanence. Mais cet avantage a une contrepartie : ces outils pourraient peiner à accéder aux données multimodales hors de Chine. Pour comprendre la culture occidentale, les paysages ou la physique d'une rue new-yorkaise, ils ne pourront pas compter sur Douyin. Ils finiront par se heurter au même mur de la donnée que les Américains.

L'AVENIR DE LA COURSE À L'IA

La course à l'IA est loin d'être terminée. Elle se déplace simplement vers un nouveau champ de bataille. L'avenir, notamment avec l'émergence des agents d'IA et des robots physiques, va exiger une masse de données issues du monde réel, peut-être même au-delà d'internet. Des interviews de terrain, des conversations authentiques avec des gens ordinaires, pourraient devenir une ressource précieuse. Si l'IA du futur doit comprendre l'humain, alors les données les plus fines ne viendront pas du web gratté à la va-vite, mais du contact direct avec les personnes.

Selon des statistiques, seule une fraction du public – environ 23 % – est abonnée aux chaînes ou médias qui produisent ces analyses fouillées. Une situation qui fragilise la diffusion de ces éclairages, car les algorithmes des plateformes enterrent les contenus lorsqu'ils ne sont pas soutenus par une base d'abonnés active. Pour continuer à suivre l'évolution de l'IA et ses implications, il devient essentiel de soutenir ces sources d'information indépendantes.

Sources :

Clodco

L'indépendance de CLODCO est votre garantie.

Pour que l'actualité de l'IA reste sans filtre et sans concession, votre soutien est indispensable. Votre contribution est le seul moteur de notre liberté éditoriale.

Soutenir CLODCO