EMO est un nouveau modèle à mélange d'experts dont la spécialisation par domaine émerge spontanément. Il suffit d'un sous-ensemble de 12,5 % de ses experts pour des performances quasi complètes.

LE DÉFI DES MODÈLES MONOLITHIQUES

Aujourd'hui, les grands modèles de langage sont entraînés comme des blocs uniques, coûteux à déployer quand on n'a besoin que d'une fraction de leurs capacités. Même les modèles à mélange d'experts (MoE) actuels sollicitent souvent l'ensemble de leurs experts, car ces derniers se spécialisent sur des motifs superficiels comme les prépositions plutôt que sur des domaines de connaissance.

La solution réside dans une organisation modulaire où les experts se regroupent par domaines sémantiques, utilisables sélectivement. Des approches antérieures comme BTX ou FlexOlmo tentaient d'imposer des domaines prédéfinis, mais elles nécessitent d'étiqueter tout le corpus et figent la structure.

EMO : LA MODULARITÉ COMME OBJECTIF

EMO est un MoE de 14 milliards de paramètres (1 milliard actif, 128 experts) entraîné sur 1 000 milliards de tokens. Il permet de sélectionner un petit sous-ensemble d'experts, typiquement 12,5 %, tout en conservant des performances quasi identiques au modèle complet.

EMO est le premier MoE entraîné avec la modularité comme objectif central : pour un domaine donné, l'utilisateur choisit librement le nombre d'experts et garde des performances élevées.

Pour y parvenir, EMO exploite une observation simple : les tokens d'un même document partagent le même domaine. Lors de l'entraînement, tous les tokens d'un document sont contraints à choisir leurs experts parmi un pool partagé, poussant le routeur à former des groupes d'experts cohérents.

Par exemple, sur un MoE à 10 experts, chaque document utilise un sous-ensemble de 4 experts déterminé par le routeur lui-même. Différents documents peuvent utiliser différents pools, laissant la spécialisation émerger naturellement.

CONSIDÉRATIONS TECHNIQUES

ÉQUILIBRAGE DE CHARGE

Les MoE standards utilisent un équilibrage de charge local pour éviter la concentration sur quelques experts. Cette approche locale entre en conflit avec la contrainte documentaire d'EMO. La solution : appliquer l'équilibrage de charge globalement sur un grand nombre de documents. À grande échelle, les objectifs deviennent complémentaires : chaque document reste cohérent, et l'ensemble des documents couvre tous les experts.

TAILLE DU POOL DE DOCUMENTS

La taille du pool contrôle la force de la modularité. Plutôt que de fixer une taille, EMO l'échantillonne aléatoirement pendant l'entraînement. Cela évite le surajustement et permet de supporter différentes tailles de sous-ensembles à l'inférence.

RÉSULTATS DES BENCHMARKS

Sur les tests généralistes, EMO égale un MoE standard quand tous les experts sont actifs. Quand on ne garde que 25 % des experts, la perte de performance n'est que d'environ 1 %. Même avec 12,5 % des experts, la baisse globale se limite à 3 %, alors qu'un MoE classique s'effondre parfois au niveau aléatoire.

Autre point fort : un seul exemple avec quelques démonstrations en contexte suffit à identifier les experts pertinents. EMO est aussi compatible avec des méthodes d'élagage comme Easy-EP.

Comparaison sur 130 milliards de tokens : les sous-ensembles d'experts d'EMO repoussent la frontière de Pareto du compromis mémoire-précision, surpassant les MoE standard et les modèles à budget fixe.

SUR QUOI SE SPÉCIALISENT LES SOUS-ENSEMBLES D'EXPERTS ?

L'analyse des activations du routeur révèle des clusters thématiques clairs : Santé, Médecine & Bien-être, Reportage d'Actualités, Politique & Élections américaines, Cinéma & Musique. Un MoE standard, lui, regroupe des motifs syntaxiques comme les prépositions ou les articles définis.

Sur un article de santé, EMO route presque tous les tokens vers le cluster Santé. Le MoE standard les envoie vers Possessifs & Articles définis, sans lien avec le sens. Ainsi, les modules d'EMO capturent de véritables compétences, exploitables même partiellement.

CE QUE NOUS PUBLIONS

L'équipe met à disposition le modèle EMO complet, un modèle standard de référence et le code d'entraînement. Ces ressources visent à accélérer la recherche sur la modularité émergente et à construire des modèles de langage modulaires, plus faciles à déployer, adapter et inspecter.

Sources :
  • Hugging Face Blog

L'indépendance de CLODCO est votre garantie.

Pour que l'actualité de l'IA reste sans filtre et sans concession, votre soutien est indispensable. Votre contribution est le seul moteur de notre liberté éditoriale.

Soutenir CLODCO