SubQ : ce nouveau modèle d'IA qui défie les géants sans se ruiner ?

Une startup affirme avoir résolu un problème vieux de dix ans qui freinait les intelligences artificielles. Ses résultats sont-ils crédibles ?

Une entreprise américaine vient de sortir de l’ombre avec une annonce spectaculaire : elle aurait résolu un goulot d’étranglement mathématique qui handicape les grands modèles de langage depuis près de dix ans. Mais derrière cette promesse se cache une question : qui peut vraiment croire cette startup ?

UNE STARTUP DE MIAMI FAIT SURSAUTER LE MONDE DE L'IA

Subquadratic, une jeune pousse basée à Miami, a créé la surprise il y a quelques semaines en annonçant avoir développé SubQ, un nouveau type de modèle de langage. Selon elle, SubQ serait non seulement plus rapide et moins gourmand en énergie que tous les autres modèles du marché, mais il pourrait aussi traiter jusqu’à 12 fois plus de texte en une seule fois. Imaginez un élève qui lirait d’un coup 12 livres au lieu d’un seul pour préparer un exposé : c’est l’équivalent pour une intelligence artificielle.

Le plus impressionnant ? SubQ accomplirait tout cela tout en rivalisant avec les meilleurs modèles de Google DeepMind, OpenAI ou Anthropic sur des tâches complexes comme la programmation. Pourtant, au début, Subquadratic n’avait fourni que quelques résultats auto-publiés pour étayer ses dires. Et surtout, personne ne pouvait tester SubQ lui-même.

« SubQ est soit la plus grande avancée depuis le Transformer… soit le Theranos de l’IA. »

« AI THERANOS » OU RÉVOLUTION ? LES EXPERTS S’INTERROGENT

La réaction des spécialistes ne s’est pas fait attendre. Sur le réseau X, Dan McAteer, un ingénieur en intelligence artificielle, a résumé l’ambiance générale : « SubQ est soit la plus grande avancée depuis le Transformer… soit le Theranos de l’IA. » Le Theranos, c’était cette entreprise qui avait promis des tests sanguins révolutionnaires avant de s’effondrer sous le poids de ses mensonges. L’histoire a laissé des traces.

Un mois après cette annonce fracassante, Subquadratic a décidé de jouer cartes sur table. Elle a publié des résultats supplémentaires, cette fois issus de tests indépendants réalisés par la société Appen, spécialisée dans l’évaluation de modèles d’IA. « Nous nous attendions à un scepticisme sain », reconnaît Alex Whedon, cofondateur et directeur technique de Subquadratic. « Avec le recul, publier ces benchmarks indépendants dès le départ aurait évité beaucoup de doutes. C’est pourquoi nous prenons le temps de vérifier chaque résultat avant de le rendre public. »

APPEN VALIDE LES PERFORMANCES DE SUBQ : LA SURPRISE EST DE TAILLE

Appen a donc passé SubQ au crible. Les résultats sont tombés : ils semblent confirmer une grande partie des affirmations de Subquadratic. « C’était vraiment excitant, ça a validé leur architecture », déclare Jeanine Sinanan-Singh, directrice de la Recherche en IA générative chez Appen. « J’ai pensé : “Wow, ça pourrait tout changer”, parce que les modèles peinent sur la vitesse et l’efficacité. Mais quand on annonce des résultats surprenants soi-même, ce n’est pas toujours crédible. »

SubQ ne remplacera pas tous les modèles du marché du jour au lendemain. Mais pour certaines tâches précises, il pourrait offrir des gains de vitesse colossaux à un coût bien moindre. Subquadratic est convaincue que sa percée pourrait, à long terme, transformer la façon dont les modèles de langage sont conçus. « Nous espérons lancer une nouvelle ère d’efficacité », explique Justin Dangel, cofondateur et PDG de l’entreprise. « Nous ne pensons pas que quelqu’un construira encore des modèles basés sur les transformers dans quelques années. »

POURQUOI LES MODÈLES D'IA SONT-ILS SI LENTS ET SI CHERS ?

Pour comprendre pourquoi l’annonce de Subquadratic est si importante, il faut plonger dans le fonctionnement des modèles de langage actuels. Leur cœur, c’est un type de réseau de neurones appelé Transformer. Ce dernier utilise une technique appelée attention dense.

Prenons un exemple simple : quand un Transformer lit un texte, il commence par attribuer un nombre à chaque mot (ou morceau de mot, appelé token). Ensuite, pour comprendre le sens global du texte, il multiplie chaque nombre par tous les autres nombres du texte. Par exemple, un texte de 10 000 mots déclenche près de 50 millions de multiplications. C’est ce qui rend les modèles d’IA si gourmands en calculs… et en énergie.

« Si vous voulez résumer Gatsby le Magnifique, vous devez regarder le premier mot et le dernier ensemble, puis tous les autres mots deux à deux », illustre Dangel. Le problème, c’est que plus le texte est long, plus le nombre de calculs explose. Chaque mot supplémentaire doit être multiplié par tous les mots précédents. Doublez le nombre de mots, et vous quadruplez le nombre de calculs : c’est ce qu’on appelle une expansion quadratique.

Pour visualiser ça, imaginez un cercle avec des points autour. Chaque point représente un token. Reliez chaque point à tous les autres : avec 5 points, vous avez 10 lignes ; avec 10 points, 45 lignes ; avec 20 points, 190 lignes. Plus il y a de points, plus le réseau devient dense… et lent.

SUBQ REMPLACE L'ATTENTION DENSE PAR L'ATTENTION CREUSE : LA RÉVOLUTION ?

Subquadratic propose une solution radicale : abandonner l’attention dense au profit de ce qu’on appelle l’attention creuse. Au lieu de multiplier chaque nombre par tous les autres, l’attention creuse ne sélectionne que certains nombres à multiplier. L’idée ? Toutes les relations entre les mots ne sont pas importantes.

« L’attention creuse dit que toutes ces relations ne sont pas cruciales, parce que c’est vrai », explique Whedon. « Si vous lisez un livre, vous ne allez pas regarder le premier et le deuxième mot, puis le premier et le troisième… C’est absurde. »

Cette approche n’est pas nouvelle. « Presque tout a été essayé sous le soleil », reconnaît Will Depue, chercheur indépendant en IA qui a travaillé chez OpenAI. « Ce n’est pas impossible, mais c’est comme courir un mile en quatre minutes. » Jusqu’ici, les techniques pour sélectionner les mots à comparer ne permettaient pas d’égaler la précision de l’attention dense.

Subquadratic affirme avoir enfin trouvé la solution. Elle présente SubQ comme le premier modèle d’IA à attention creuse capable de rivaliser avec les meilleurs modèles à attention dense en termes de performance.

« Historiquement, la plupart des mécanismes utilisaient des motifs fixes, comme toujours comparer le premier mot au cinquième », précise Whedon. « C’est très limitant. Le langage est bien plus sophistiqué que ça. Ce qui rend notre mécanisme unique, c’est qu’il sélectionne dynamiquement les mots importants. »

L’entreprise ne révèle pas exactement comment SubQ choisit les mots à analyser, mais cette sélection se fait en temps réel et diffère pour chaque texte. « C’est là que se cache la magie », confie Whedon.

LES RÉSULTATS : SUBQ EST 56 FOIS PLUS RAPIDE, 300 FOIS MOINS CHER

Les tests menés par Appen confirment une partie des promesses de Subquadratic. Dans un test de vitesse pure, où l’on mesure la rapidité théorique d’un modèle, SubQ s’est avéré 56 fois plus rapide que les modèles utilisant FlashAttention, une technique d’attention creuse précédente. Sur LiveCodeBench, un benchmark qui évalue les performances des modèles sur des problèmes de programmation issus de vrais concours, SubQ a obtenu un score de 89,7 %, se plaçant dans la même catégorie que les meilleurs modèles de codage actuels.

« Ce modèle continue d’offrir des performances de pointe en programmation », souligne Sinanan-Singh d’Appen.

Côté coût, les chiffres sont encore plus spectaculaires. Selon Dangel, faire tourner le modèle Opus 4.6 d’Anthropic sur RULER 128, un test conçu par Nvidia pour évaluer la capacité d’un modèle à retrouver des informations dans de grands ensembles de données, coûte 2 600 dollars. Pour SubQ ? « Ça nous a coûté huit dollars », affirme-t-il.

SubQ semble aussi capable de gérer des ensembles de données bien plus volumineux que ses concurrents. Son fenêtre de contexte (l’équivalent de sa mémoire de travail) peut atteindre 12 millions de tokens. La plupart des meilleurs modèles du marché en ont une d’un million. Dans une démonstration, Whedon a demandé à SubQ de raisonner sur des informations contenues dans 400 documents. La réponse est arrivée en quelques secondes. Quand il a soumis la même tâche à Perplexity, un moteur de recherche basé sur l’IA, ce dernier n’a même pas réussi à charger les 400 documents.

Appen a aussi testé la capacité de SubQ à retrouver une information précise noyée dans une montagne de données, un exercice appelé test de l’aiguille dans la botte de foin. Résultat : SubQ a obtenu 98 % de réussite avec des fenêtres de contexte de six et douze millions de tokens. « Une récupération quasi parfaite d’informations en contexte long à des échelles où peu de modèles sont testés », note Appen dans son rapport.

« Ce modèle continue d’offrir des performances de pointe en programmation. »

LES LIMITES : SUBQ N'EST PAS UNE SOLUTION MAGIQUE (ENCORE)

Malgré ces scores impressionnants, les benchmarks ne donnent qu’une vision partielle des capacités réelles d’un modèle. Tester un modèle dans des conditions très spécifiques ne remplace pas son utilisation sur une large gamme de tâches réelles.

Subquadratic positionne SubQ comme un modèle spécialisé dans la programmation et la recherche dans de très grands ensembles de données. Des dizaines de milliers d’utilisateurs potentiels, dont plus de 500 entreprises, se sont déjà inscrits pour un accès anticipé. Mais la file d’attente est longue, et l’entreprise n’a accordé l’accès qu’à très peu de personnes jusqu’ici. Son argument ? Elle est une jeune entreprise avec des ressources limitées et ne peut pas servir trop de clients en même temps.

Le scepticisme persiste, notamment sur un point : Subquadratic a réutilisé les poids (les valeurs apprises lors de l’entraînement qui déterminent le comportement d’un modèle) d’une version du modèle chinois open-source Qwen pour lancer SubQ, au lieu de le former entièrement à partir de zéro. Une pratique courante dans le milieu, mais qui contredit l’affirmation de Subquadratic selon laquelle elle aurait complètement réinventé le fonctionnement des modèles de langage.

« Ils ont peut-être créé quelque chose de réel et utile », estime Depue. « Mais les preuves publiques ne justifient pas encore l’affirmation plus forte selon laquelle ils ont résolu le problème de l’expansion quadratique de l’attention. »

SUBQ, UNE RÉPONSE À L'HÉGÉMONIE D'OPENAI ?

Pour Whedon, cofondateur de Subquadratic, innover était la seule option pour rester dans la course. « Si vous voulez construire un modèle compétitif, il faut avoir de nouvelles idées », déclare-t-il. « Nous sommes plus en difficulté qu’OpenAI. »

SubQ incarne peut-être le début d’une nouvelle ère pour les modèles de langage. Mais sans accès large et sans transparence totale sur ses méthodes, il reste difficile de trancher : Subquadratic a-t-elle vraiment révolutionné l’IA… ou simplement surfé sur la vague du buzz ? Une chose est sûre : si ses résultats sont confirmés par d’autres tests indépendants, l’impact sur le monde de l’intelligence artificielle pourrait être colossal.

« Nous espérons lancer une nouvelle ère d’efficacité. »

Sources :

MIT Tech Review AI

L'indépendance de CLODCO est votre garantie.

Pour que l'actualité de l'IA reste sans filtre et sans concession, votre soutien est indispensable. Votre contribution est le seul moteur de notre liberté éditoriale.

Soutenir CLODCO