TabFM, le modèle d'IA de Google, prédit les résultats des tableaux sans aucun entraînement. Une révolution pour les data scientists.

UNE NOUVELLE ÈRE POUR LES TABLEAUX DE DONNÉES

Depuis le lancement de TimesFM, l'intelligence artificielle a bouleversé les prévisions de séries temporelles. Aujourd'hui, Google frappe un grand coup avec TabFM, un modèle de base conçu spécialement pour les données tabulaires.

Les tableaux de données sont le socle des entreprises : ventes, clients, fraudes financières. Des millions d'applications de classification et de régression en dépendent. Pourtant, jusqu'à présent, ces tâches reposaient sur des algorithmes comme XGBoost, AdaBoost ou les forêts aléatoires, qui demandent des heures de réglages manuels.

LE PROBLÈME DES MODÈLES TRADITIONNELS

Pour utiliser un modèle comme XGBoost, il faut d'abord entraîner le modèle sur un jeu de données, puis ajuster des dizaines de paramètres. Ensuite, il faut créer des caractéristiques spécifiques au domaine pour que le modèle comprenne vraiment les données. Ce processus prend des semaines, voire des mois, pour chaque nouveau jeu de données.

Imaginez devoir réapprendre à conduire une voiture chaque fois que vous changez de route : c'est exactement ce que font les data scientists aujourd'hui avec les tableaux de données.

COMMENT FONCTIONNE TABFM ?

TabFM utilise une approche radicalement différente : le apprentissage en contexte (ou ICL). Au lieu d'entraîner le modèle sur un jeu de données spécifique, TabFM prend en entrée l'intégralité du tableau — historique et nouvelles lignes — comme un seul prompt.

Concrètement, vous donnez au modèle des exemples de données avec leurs résultats, et il comprend directement les relations entre les colonnes et les lignes. Pas besoin de réglages, pas besoin d'entraînement : juste une prédiction en une seule passe.

POURQUOI LES TABLEAUX SONT DIFFICILES POUR LES IA ?

Les modèles de langage comme les LLM sont conçus pour traiter des phrases, des suites de mots dans un ordre précis. Mais un tableau ? C'est une grille à deux dimensions, sans ordre fixe : échanger deux lignes ou deux colonnes ne change rien à la signification des données.

Pour résoudre ce problème, TabFM combine les forces de plusieurs architectures comme TabPFN et TabICL en un modèle hybride. Trois mécanismes clés entrent en jeu :

TabFM transforme chaque tableau en une carte mentale que l'IA comprend instantanément.

UN ENTRAÎNEMENT SUR DES MILLIERS DE TABLEAUX SYNTHÉTIQUES

Pour entraîner un modèle de base, il faut des milliards de données variées. Problème : les vrais tableaux industriels sont souvent propriétaires ou contiennent des informations sensibles. Impossible de les utiliser librement.

La solution ? Des tableaux synthétiques générés artificiellement. TabFM a été entraîné sur des centaines de millions de tableaux créés à partir de modèles causaux (SCM). Ces modèles simulent des fonctions aléatoires pour reproduire la diversité des tableaux réels.

Résultat : TabFM comprend les relations complexes entre les données, même sur des tableaux qu'il n'a jamais vus auparavant.

TABFM EST-IL VRAIMENT PLUS PERFORMANT ?

Pour le vérifier, les chercheurs ont testé TabFM sur TabArena, un benchmark vivant qui compare les modèles via des scores Elo (comme aux échecs).

Les tests ont porté sur 38 jeux de données de classification et 13 de régression, avec des tailles allant de 700 à 150 000 échantillons.

Les résultats sont impressionnants : TabFM surpasse systématiquement les algorithmes traditionnels comme XGBoost ou Random Forest, même après des heures de réglages manuels.

Sur les 10 meilleurs modèles testés, TabFM se classe systématiquement en tête, avec des scores Elo supérieurs.

COMMENT UTILISER TABFM ?

Google rend TabFM accessible via Hugging Face et GitHub. Il suffit de télécharger le modèle et de l'utiliser pour faire des prédictions en une seule passe.

Mais ce n'est pas tout : TabFM sera bientôt intégré directement dans Google BigQuery. Les utilisateurs pourront exécuter des prédictions avancées avec une simple commande SQL : AI.PREDICT.

Plus besoin d'être un expert en machine learning : une seule ligne de code suffit pour obtenir des résultats précis.

QU'EST-CE QU'UN MODÈLE DE BASE ?

Un modèle de base (ou foundation model) est une IA entraînée sur des quantités massives de données. Il peut ensuite être adapté à différentes tâches sans réapprentissage complet.

Exemple : un modèle comme GPT-4 a été entraîné sur des milliards de pages web. Il peut ensuite répondre à des questions, rédiger des textes ou même coder, sans avoir besoin d'être réentraîné pour chaque tâche.

QU'EST-CE QUE L'APPRENTISSAGE EN CONTEXTE ?

L'apprentissage en contexte (ou in-context learning) permet à une IA de comprendre une nouvelle tâche en lisant des exemples directement dans le prompt.

Par exemple, si vous donnez à TabFM un tableau avec des colonnes comme « âge », « revenu » et « achat », et que vous lui montrez des exemples de clients ayant ou non acheté un produit, il comprendra la relation entre ces colonnes et pourra prédire pour de nouveaux clients.

POURQUOI LES TABLEAUX SYNTHÉTIQUES ?

Les vrais tableaux de données sont souvent protégés par des lois ou des contrats. Impossible de les utiliser pour entraîner un modèle public.

Les tableaux synthétiques, eux, sont créés artificiellement. Ils reproduisent les caractéristiques des vrais tableaux (distributions, relations entre colonnes) sans contenir d'informations sensibles.

C'est comme apprendre à conduire sur un simulateur : on reproduit les conditions réelles sans les risques.

TABFM VA-T-IL TUER LES ALGORITHMES TRADITIONNELS ?

Pas exactement. TabFM est conçu pour les tâches de classification et de régression sur des tableaux. Il ne remplacera pas les algorithmes spécialisés pour d'autres types de données.

Cependant, il offre une solution ultra-rapide pour les cas où les modèles traditionnels demandent trop de temps et d'expertise. Pour les data scientists, c'est un gain de temps colossal.

LES LIMITES DE TABFM

TabFM repose sur des tableaux synthétiques pour son entraînement. Si ces tableaux ne reproduisent pas parfaitement la réalité, le modèle pourrait avoir des biais.

De plus, il est actuellement optimisé pour les tableaux de taille moyenne. Les très grands tableaux (plusieurs millions de lignes) pourraient nécessiter des adaptations.

ET DEMAIN ?

Google envisage d'étendre TabFM à d'autres types de données et de l'intégrer dans d'autres Outils comme TensorFlow ou Vertex AI.

Avec TabFM, l'IA devient enfin accessible à tous, même sans expertise en machine learning. Une révolution pour les entreprises qui veulent des prédictions rapides et précises.

Demain, prédire les résultats d'un tableau sera aussi simple que de lancer une requête SQL.

EN RÉSUMÉ

TabFM est un modèle de base conçu pour les données tabulaires. Il utilise l'apprentissage en contexte pour faire des prédictions en une seule passe, sans entraînement ni réglages.

Entraîné sur des centaines de millions de tableaux synthétiques, il surpasse les algorithmes traditionnels comme XGBoost ou Random Forest.

Intégré à Google BigQuery, il sera bientôt accessible à tous via une simple commande SQL.

Une avancée majeure pour les data scientists et les entreprises qui veulent des prédictions rapides et précises.

Sources :
  • Google Research

L'indépendance de CLODCO est votre garantie.

Pour que l'actualité de l'IA reste sans filtre et sans concession, votre soutien est indispensable. Votre contribution est le seul moteur de notre liberté éditoriale.

Soutenir CLODCO