Évaluer l'IA coûte désormais plus cher que l'entraîner

Évaluer les modèles d'IA de pointe peut coûter jusqu'à 40 000 dollars pour un seul benchmark, et cette barrière économique menace l'indépendance de la Recherche académique.

LE SEUIL CRITIQUE DES COÛTS D'ÉVALUATION

L'évaluation de l'intelligence artificielle a franchi un seuil de coût qui redéfinit qui peut la pratiquer. Le Holistic Agent Leaderboard (HAL) a récemment dépensé environ 40 000 dollars pour exécuter 21 730 déploiements d'agents sur 9 modèles et 9 benchmarks. Un seul test GAIA sur un modèle de pointe peut coûter 2 829 dollars avant toute mise en cache. Un balayage de configurations d'agents par Exgentic, chiffré à 22 000 dollars, a révélé un écart de coût de 33 fois sur des tâches identiques, pointant le choix de l'échafaudage (scaffold), la structure logicielle qui guide l'agent, comme un facteur de coût de premier ordre. De son côté, l'UK-AISI a récemment porté les étapes agentiques à plusieurs millions pour étudier le calcul au moment de l'inférence.

L'HÉRITAGE COÛTEUX DE HELM

Le problème a commencé avant les agents. Lorsque Stanford a publié HELM en 2022, la comptabilité par modèle indiquait des coûts d'API allant de 85 dollars pour le code-cushman-001 d'OpenAI à 10 926 dollars pour le J1-Jumbo (178 milliards de paramètres) d'AI21, et de 540 à 4 200 heures-GPU pour les modèles ouverts, BLOOM (176 milliards) et OPT (175 milliards) se situant en haut de la fourchette. Perlitz et al. (2023) confirment cette structure, et IBM Research note que faire passer Granite-13B dans HELM peut consommer jusqu'à 1 000 heures de GPU. Sur les 30 modèles et 42 scénarios de HELM, le total des coûts déclarés et du calcul GPU atteint environ 100 000 dollars.

L'ÉVALUATION RÉPÉTÉE DES CHECKPOINTS

Une observation marquante de l'analyse par Perlitz et al. des points de contrôle (checkpoints) Pythia d'EleutherAI : les développeurs paient pour l'évaluation de façon répétée pendant le développement du modèle. Pythia a diffusé 154 points de contrôle pour chacun des 16 modèles sur 8 tailles, soit 2 464 points de contrôle si on les compte séparément, afin que la communauté puisse étudier la dynamique d'apprentissage. Faire tourner le harnais d'évaluation LM Evaluation Harness sur tous ces points transforme l'évaluation en un multiplicateur du coût d'entraînement : Perlitz et al. (2024) notent que les coûts d'évaluation pourraient même dépasser ceux du pré-entraînement lorsqu'on évalue les points de contrôle. Pour les petits modèles, l'évaluation devient le poste de calcul dominant de tout le cycle de développement. Quand on augmente le calcul à l'inférence, on augmente aussi les coûts d'évaluation.

RÉDUIRE LES COÛTS SANS PERDRE LE CLASSEMENT

LA COMPRESSION DES BENCHMARKS STATIQUES

D'autres travaux ont abouti à la même conclusion sous différents angles. tinyBenchmarks a compressé MMLU de 14 000 items à 100 items d'ancrage avec environ 2 % d'erreur en utilisant la théorie de la réponse aux items. Le classement Open LLM Leaderboard est passé de 29 000 exemples à 180. Anchor Points a montré qu'aussi peu que 1 à 30 exemples pouvaient ordonner 87 paires modèle-prompt sur GLUE, et d'autres ont suivi, réduisant la taille des jeux de données de 90 %. Les benchmarks statiques ont une faiblesse exploitable : les différences entre modèles se concentrent souvent sur un petit sous-ensemble d'items, de sorte que le classement survit à un sous-échantillonnage agressif.

Réduire le calcul par 100 ou 200 préserve presque le même classement des modèles.

L'ARRIVÉE DES AGENTS CHANGE LA DONNE

Cette astuce s'est nettement affaiblie lorsque les benchmarks sont passés de prédictions statiques à des agents. On ne peut plus comprimer aussi facilement.

LE HOLISTIC AGENT LEADERBOARD (HAL)

Une comptabilité publique très claire de l'évaluation des agents provient du Holistic Agent Leaderboard (Kapoor et al., ICLR 2026). HAL exécute des harnais d'agents standardisés sur neuf benchmarks couvrant la programmation, la navigation web, les sciences et le service client, avec des échafaudages partagés et un suivi centralisé des coûts. Le coût affiché : 40 000 dollars pour 21 730 déploiements sur 9 modèles et 9 benchmarks. En avril 2026, le classement était passé à 26 597 déploiements. La reproduction indépendante de Ndzomga arrive presque au même chiffre : 46 000 dollars pour 242 exécutions d'agents.

Derrière ce total, le coût d'un seul benchmark varie de quatre ordres de grandeur selon les tâches HAL, et de trois ordres de grandeur au sein de certains benchmarks individuels.

DES ÉCARTS DE COÛT ABYSSAUX

Ces chiffres cachent une réalité tarifaire brutale. Claude Opus 4.1 facture 15 dollars le million de jetons en entrée et 75 dollars le million en sortie. Gemini 2.0 Flash facture 0,10 et 0,40 dollar, soit un écart de deux ordres de grandeur rien que sur l'entrée. Les benchmarks pour agents évaluent rarement le modèle de façon isolée. Ils mesurent un produit modèle × échafaudage × budget de jetons, et de petits choix d'échafaudage peuvent multiplier les coûts par 10.

LE PRIX NE GARANTIT PAS LA PERFORMANCE

Pire, dépenser plus n'achète pas systématiquement de meilleurs résultats. Sur Online Mind2Web, Browser-Use avec Claude Sonnet 4 a coûté 1 577 dollars pour une précision de 40 %. SeeAct avec GPT-5 Medium a atteint 42 % pour 171 dollars. L'article HAL note une différence de coût de 9 fois pour seulement deux points de précision en plus. Sur GAIA, un agent généraliste HAL avec o3 Medium a coûté 2 828 dollars pour 28,5 % de précision, tandis qu'un autre agent a atteint 57,6 % pour 1 686 dollars. CLEAR constate, sur 6 agents de pointe et 300 tâches d'entreprise, que les configurations optimales en précision coûtent 4,4 à 10,8 fois plus que les alternatives efficaces du point de vue de Pareto, avec des performances réelles comparables.

FILTRER POUR ÉCONOMISER

QUAND L'ÉVALUATION ENTRAÎNE DES MODÈLES

Certains benchmarks échappent complètement à la logique des coûts d'API, car leur protocole d'évaluation consiste à entraîner des modèles à partir de zéro.

THE WELL : L'ÉVALUATION DÉVOREUSE DE CALCUL

The Well en donne un exemple très intéressant. Il regroupe 16 jeux de données scientifiques d'apprentissage automatique couvrant les systèmes biologiques, la dynamique des fluides, la magnétohydrodynamique, les explosions de supernova, l'instabilité viscoélastique et la matière active, pour un total de 15 To. En suivant la grille à 16 jeux de données de l'article, le protocole laisse peu de place aux économies : entraîner chaque modèle de base 12 heures sur une seule H100, essayer cinq taux d'apprentissage par paire (modèle, jeu de données), répéter sur quatre architectures et 16 jeux de données. Ce balayage de référence consomme 3 840 heures-H100, soit environ 9 600 dollars selon les hypothèses de conversion ci-dessous. Une seule nouvelle architecture coûte encore environ 960 heures-H100, soit environ 2 400 dollars.

Entraîner un opérateur neuronal peut prendre une seule exécution de 12 heures sur H100, tandis que l'évaluer sur le benchmark nécessite 80 entraînements de ce type. Cette asymétrie rend The Well important. Dans ce coin du ML, le calcul d'évaluation dépasse le calcul d'entraînement d'environ deux ordres de grandeur, inversant l'ancien modèle mental de l'apprentissage profond.

Dans The Well, l'évaluation consomme 100 fois plus de calcul que l'entraînement du modèle lui-même.

LA MÊME LOGIQUE DANS D'AUTRES DOMAINES

Le même schéma se répète en SciML. PDEBench couvre 11 familles d'équations aux dérivées partielles et publie des tables de temps par époque, mais un chiffre clair en dollars par architecture dépend du protocole d'entraînement et du matériel choisis. MLE-Bench (OpenAI) se situe entre le régime des agents et celui de l'entraînement. Chaque tentative d'agent pour l'une des 75 compétitions Kaggle s'exécute 24 heures sur un seul GPU A10, en entraînant de véritables pipelines de ML. L'article est explicite : une seule exécution de leur configuration expérimentale principale de 24 heures par compétition nécessite 24 heures × 75 compétitions = 1 800 heures-GPU de calcul, plus o1-preview consommant 127,5 millions de jetons en entrée et 15 millions en sortie par graine. À 1,50 dollar l'heure-A10, le plancher GPU seul est de 2 700 dollars ; en ajoutant l'utilisation de l'API o1-preview, une exécution à une graine atteint environ 5 500 dollars. Trois graines × six modèles atterriraient donc près de 100 000 dollars avant toute surcharge de notation ou de nouvelle tentative.

RE-Bench de METR plafonne chacun de ses sept environnements d'ingénierie de recherche à 8 heures sur 1 à 6 H100. Un seul passage sur la suite coûte donc 56 à 336 heures-H100 avant d'ajouter des tentatives répétées, plusieurs graines ou plusieurs agents ; la référence humaine, avec 71 tentatives d'experts, élève le budget implicite bien plus haut. Parce que le benchmark donne aux agents et aux humains le même temps de calcul horloge, un processus d'entraînement en temps réel fixe le plancher du coût. Un budget de jetons ne le borne plus par le haut.

RESEARCHGYM : LA RECHERCHE ML À L'ÉPREUVE

ResearchGym (ICLR 2026) fait faire à l'agent de la vraie recherche en ML. Cinq tâches de test (39 sous-tâches) tirées d'articles d'ACL, ICLR et ICML, y compris les catégories ACL Highlights, ICML Spotlight, ICLR Spotlight et ICLR Oral, avec les méthodes proposées retirées. L'agent doit proposer des hypothèses, entraîner des modèles et battre les références des auteurs originaux. Le budget est serré : 10 dollars en API plus 12 à 24 heures sur un seul GPU de moins de 24 Go par tâche. Un passage complet (5 tâches × 24h × 3 graines) consomme environ 360 heures-GPU par agent.

PAPERBENCH : RÉPLIQUER DES ARTICLES, UN LUXE

Le tableau des coûts devient brutal avec PaperBench. Vingt articles ICML 2024 Spotlight ou Oral doivent être répliqués à partir de zéro, notés selon des arbres de rubriques comptant 8 316 critères feuilles. Chaque déploiement utilise un GPU A10 pendant 12 heures, et le calcul par article est simple :

Coût du déploiement = 12 heures-A10 × 1,50 dollar/heure + 10 dollars de frais fixes de notation par juge LLM + 52,50 dollars de notes générées (3,5 millions de jetons de sortie à 15 dollars le million) + 7,50 dollars d'entrée (5 millions de jetons à 1,50 dollar le million avec Claude 3.5 Haiku) = 90 dollars par article. Multiplier par 20 articles donne 1 800 dollars pour le déploiement. La notation complète, en utilisant le jugement LLM, consomme 35 millions de jetons de sortie et 5 millions de jetons d'entrée, soit 535,50 dollars par exécution. Une configuration à 3 graines avec un modèle d'agent pousse à 3 × (1 800 + 535,50) = 7 006 dollars. Avec 4 modèles et 3 graines, le coût atteint environ 28 000 dollars. Ajoutez le jugement humain (28 000 dollars supplémentaires) et le coût d'une étude complète se situe entre 20 000 et 56 000 dollars. Le coût réel du déploiement monte à environ 9 500 dollars une fois intégrés les échecs, les nouvelles tentatives et les frais généraux.

PaperBench Code-Dev abandonne délibérément l'exécution. Ce choix réduit de moitié le coût de déploiement, à environ 4 000 dollars, et ramène la notation à 10 dollars par article (85 % de moins). OpenAI a construit cette variante parce que de nombreux groupes ne peuvent pas se permettre le benchmark complet.

L'HISTOIRE DE NAS-BENCH-101

Le précédent historique est NAS-Bench-101, dont la construction tabulaire a nécessité plus de 100 années-TPU d'entraînement. Sans cet investissement unique, chaque comparaison d'algorithmes NAS aurait coûté de 1 à plus de 100 heures-GPU par exécution, ce qui aurait rendu la comparaison plus chère que les algorithmes eux-mêmes.

LA HIÉRARCHIE DE LA COMPRESSIBILITÉ

À mesure que les benchmarks se rapprochent du travail réel, la compression devient plus difficile : la prédiction statique laisse une marge pour de grosses économies, les déploiements d'agents en laissent moins, et l'entraînement en boucle n'en laisse presque aucune.

LA FIABILITÉ COÛTE CHER

La plupart des coûts ci-dessus n'achètent que des mesures uniques à la puissance statistique limitée. Quand on mesure la fiabilité à travers des exécutions répétées, les benchmarks statiques, les benchmarks d'agents et les benchmarks avec entraînement en boucle deviennent tous plus chers.

QUAND UN SEUL TEST NE SUFFIT PAS

La fiabilité des agents peut chuter lourdement quand on cesse de considérer une seule exécution comme une preuve. L'exemple le plus connu vient de τ-bench de Yao et al., reformulé plus tard dans CLEAR (Mehta, 2025) : la performance peut passer de 60 % sur une seule exécution à 25 % sous une cohérence sur 8 exécutions. Kapoor et al., dans « AI Agents That Matter », ont constaté que des agents de base simples dominent au sens de Pareto des agents complexes de pointe (Reflexion, LDB, LATS) sur HumanEval pour un coût 50 fois inférieur. Leur analyse de holdout a révélé que 7 benchmarks sur 17 n'avaient pas d'ensemble de holdout ; parmi les 10 qui en avaient, seuls 5 retenaient des tâches au bon niveau de généralité, de sorte que 12 sur 17 échouaient globalement au critère de holdout. L'article HAL note qu'un agent « ne rien faire » réussit 38 % des tâches aériennes de τ-bench dans la construction originale. La propre analyse des logs de HAL a révélé une fuite de données dans l'échafaudage Few Shot de TAU-bench, forçant son retrait en décembre 2025.

LES PROBLÈMES DE FIABILITÉ DE HAL

Un autre bilan récent de fiabilité provient de Rabanser, Kapoor et al. dans « Towards a Science of AI Agent Reliability », qui propose douze métriques couvrant la cohérence, la robustesse, la prédictibilité et la sécurité. Leur constat : les récents gains de capacité n'ont apporté que de petites améliorations de la fiabilité. L'analyse interne de HAL montre à quel point la fragilité se cache derrière la précision globale. Sur SciCode et CORE-Bench, les agents n'ont presque jamais terminé une exécution sans une défaillance d'appel d'outil. Sur AssistantBench et CORE-Bench, des erreurs d'environnement se sont produites dans environ 40 % des exécutions. Les agents ont enfreint les instructions explicites du benchmark dans leur réponse finale plus de 60 % du temps sur les tâches échouées.

60 % du temps sur les tâches échouées, les agents ne respectent pas les consignes de base du benchmark.

LE MULTIPLICATEUR DE LA STATISTIQUE

Une évaluation crédible de type HAL avec k = 8 répétitions par cellule fait passer le total de 40 000 dollars à environ 320 000 dollars. Le même multiplicateur sur le coût de 9 500 dollars par exécution de PaperBench pousse l'évaluation d'un seul agent au-delà de 75 000 dollars, et sur The Well, un protocole à plusieurs graines fait passer le coût par architecture d'environ 960 heures-H100 à plusieurs milliers. La fiabilité agit comme un multiplicateur sur chaque catégorie de coût ci-dessus.

HAL MET EN PAUSE POUR LA FIABILITÉ

HAL a suspendu les évaluations de nouveaux modèles pour se concentrer sur la fiabilité : les chiffres phares du domaine sont encore trop bruités, et réduire ce bruit coûte de l'argent réel. Et les chiffres ci-dessus sont des bornes inférieures ; de nombreux évaluateurs sont déjà exclus par les prix.

LES UNIVERSITAIRES PRIS DE COURT

Les groupes académiques, les instituts de sécurité de l'IA et les journalistes se heurtent désormais à la contrainte budgétaire avant la contrainte technique lorsqu'ils tentent d'évaluer les agents de pointe de manière indépendante. Une seule évaluation GAIA peut dépasser le budget voyage annuel d'un étudiant diplômé. Une seule évaluation PaperBench, juge LLM compris, coûte environ 9 500 dollars. Des comparaisons à trois graines de six modèles, le type d'étude que l'on pourrait publier, dépassent les 150 000 dollars. La pratique établie consistant à « lancer un benchmark une fois et rapporter le chiffre de précision » a à peu près la rigueur d'un crash-test d'une seule voiture par temps parfait. En sortir exige de l'argent que le système académique n'alloue pas actuellement comme calcul de recherche.

LE FOSSÉ DU CALCUL S'ÉTEND À L'ÉVALUATION

Ahmed, Wahed et Thompson (Science 2023) ont documenté que les modèles industriels étaient en 2021 29 fois plus gros que les modèles académiques en nombre de paramètres, et qu'environ 70 % des doctorats en IA allaient à l'industrie en 2020 contre 21 % en 2004. Le récit original du « fossé du calcul » ignorait largement l'évaluation parce que celle-ci paraissait bon marché à côté de l'entraînement. De nombreux benchmarks ont inversé cette relation. Un laboratoire qui peut affiner un modèle de 7 milliards de paramètres ne peut plus supposer qu'il a les moyens de passer les benchmarks que le domaine prend au sérieux.

DES LEADERBOARDS AVEUGLES AU COÛT

Lorsque les classements rapportent la précision brute et omettent le coût, les chercheurs peuvent rationnellement déverser des jetons dans un problème jusqu'à ce que le chiffre grimpe. L'article HAL constate qu'un effort de raisonnement plus élevé réduit en réalité la précision dans la majorité des exécutions : le calcul d'inférence supplémentaire n'améliore pas de manière fiable même la métrique qu'il est censé optimiser. Les fronts de Pareto résolvent la comparaison en classant la précision par rapport au coût. HAL les met en œuvre, mais la plupart des classements ne le font toujours pas.

QUI PEUT ENCORE ÉVALUER ?

Si seuls les budgets de calcul des laboratoires de pointe peuvent produire des chiffres de benchmark statistiquement fiables sur les benchmarks agentiques et scientifiques les plus coûteux, le processus social d'évaluation des systèmes d'IA se concentre à l'intérieur des mêmes laboratoires qui les construisent, rendant la validation externe partielle, et parfois absente, à moins que quelqu'un ne subventionne directement le coût.

TABLEAU RÉCAPITULATIF DES COÛTS

Tous les chiffres sont normalisés en dollars américains par évaluation unique. Le calcul GPU est converti à 2,50 dollars/heure-H100, 1,50 dollar/heure-A10 ; les coûts d'API et de notation sont inclus le cas échéant. Pythia (« l'évaluation peut dépasser le pré-entraînement »), PDEBench (le coût par architecture dépend du protocole d'entraînement et du matériel choisis) et le coût de construction de 100 années-TPU de NAS-Bench-101 sont exclus car ils ne se normalisent pas proprement en un chiffre en dollars par évaluation.

LA DUPLICATION DES EFFORTS

Une raison pour laquelle ces chiffres restent élevés est que le domaine ne cesse de ré-exécuter les mêmes évaluations. Un laboratoire de pointe paie pour un balayage HAL, un groupe académique paie à nouveau pour une reproduction partielle, un organisme d'audit paie une troisième fois pour les versions de modèle qui l'intéressent, et un journaliste paie une quatrième fois pour vérifier le classement. La plupart de ces exécutions couvrent des modèles qui se chevauchent sur des benchmarks qui se chevauchent. Presque aucune des sorties sous-jacentes au niveau des instances ne se retrouve dans un endroit où l'équipe suivante peut s'appuyer dessus, car les résultats sont rapportés sous forme d'un seul chiffre de précision dans un PDF, dans un tableau de fiche de modèle ou dans une entrée de classement qui cache l'échafaudage, le prompt et la graine. Les chiffres de coût ci-dessus sont élevés en partie parce que le domaine paie le prix de détail à chaque fois, sur des artéfacts que le reste de la communauté ne pourrait pas réutiliser même si elle le voulait.

DOCUMENTER POUR ÉCONOMISER

Une documentation standardisée est le levier le moins cher disponible ici, et c'est celui dont le travail sur la fiabilité a besoin de toute façon. Si une exécution PaperBench à 9 500 dollars exporte sa trace de notation complète dans un schéma partagé, le groupe suivant qui étudie les mêmes articles peut dépenser son budget sur de nouvelles perturbations au lieu de répéter la référence. Si une exécution HAL à plusieurs graines publie les journaux d'appels d'outils par trajectoire, la recherche sur la fiabilité des agents peut répondre à des questions qu'un seul chiffre de précision ne peut pas traiter. L'économie s'accumule : même un taux de réutilisation de 2 fois sur les benchmarks à coût élevé remettrait plus d'argent dans l'écosystème que toutes les techniques de compression combinées.

L'INVERSION ÉCONOMIQUE

L'économie a changé. Il n'y a pas si longtemps, l'entraînement était cher et l'évaluation bon marché. Pour les grands modèles de langage de pointe entraînés à 50 ou 100 millions de dollars, l'évaluation ressemble encore à une erreur d'arrondi, mais cette erreur d'arrondi coûte désormais des dizaines de milliers de dollars par exécution de benchmark et laisse souvent des résultats bruités. Pour les opérateurs neuronaux, les agents de recherche en ML et les benchmarks de réplication, le rapport s'est inversé : une évaluation crédible peut coûter plus cher que l'entraînement du modèle candidat.

LES SOLUTIONS CONNUES ET LEURS LIMITES

Nous savons déjà rendre l'évaluation statique moins chère. Flash-HELM, tinyBenchmarks et Anchor Points fonctionnent. L'évaluation des agents n'a que des correctifs partiels : le filtrage par difficulté moyenne aide, et les classements avec front de Pareto aident, mais la boîte à outils reste mince. L'évaluation avec entraînement en boucle n'a pas de méthode de compression générale ; le précalcul tabulaire et les plafonds budgétaires serrés ne peuvent réduire le coût qu'en restreignant ce que le benchmark mesure. La fiabilité ajoute une couche supplémentaire car les exécutions répétées augmentent le prix de chaque protocole.

IMPLICATIONS POUR LA GOUVERNANCE

Le domaine parle encore comme si la capacité fixait la contrainte principale, mais l'évaluation montre que la fiabilité est la contrainte la plus serrée. Les institutions de gouvernance devraient vouloir mesurer l'écart entre la précision d'une seule exécution et la cohérence sur k passes, or c'est cet écart qui coûte le plus cher à mesurer. La compression des benchmarks statiques ne se transfère pas aux benchmarks agentiques ou avec entraînement en boucle, et le filtrage par difficulté moyenne reste le seul substitut partiel crédible. Les classements aveugles au coût induisent désormais en erreur par conception, car ils récompensent les dépenses supplémentaires sans indiquer ce que ces dépenses ont acheté.

L'ÉVALUATION A DÉSORMAIS SES PROPRES CONTRAINTES

L'évaluation a maintenant ses propres budgets de calcul, méthodes statistiques et modes de défaillance. Son prix détermine aussi qui peut évaluer les systèmes puissants en premier lieu. Celui qui peut payer l'évaluation est celui qui écrit le classement.

VOIX DE LA COMMUNAUTÉ

Rod Miller, fondateur de TAB Platform (tabverified.ai), une plateforme indépendante de vérification d'agents IA, a réagi : « Nous exécutons plus de 340 benchmarks sur 59 modèles provenant de 5 fournisseurs à 0,03 dollar par cas de test textuel, avec des crédits à l'usage, sans abonnement. » Il confirme plusieurs observations de l'article : « L'écart de coût de 33 fois selon l'échafaudage correspond à nos données. Nous avons testé Claude Opus avec deux configurations de harnais différentes sur le même benchmark, même modèle, même test. 42 % avec un harnais, 78 % avec l'autre. Nous avons 101 configurations de harnais mesurant précisément cette variable. » Il insiste sur la fiabilité : « Nous avons construit une suite de calibration de benchmark avec 10 agents synthétiques et 5 agents de jeu adversariaux qui tourne quotidiennement (135/135 vérifications) précisément parce que les chiffres d'une seule exécution ne sont pas fiables. Nous avons aussi constaté un écart de 20 points sur GPT-4o sur 4 exécutions identiques. » Sa conclusion fait écho au message central : « La phrase “celui qui peut payer l'évaluation écrit le classement” est la raison pour laquelle TAB existe. L'évaluation indépendante ne devrait pas nécessiter un budget de calcul de laboratoire de pointe. »

Sources :

Hugging Face Blog

L'indépendance de CLODCO est votre garantie.

Pour que l'actualité de l'IA reste sans filtre et sans concession, votre soutien est indispensable. Votre contribution est le seul moteur de notre liberté éditoriale.

Soutenir CLODCO