Pourquoi LoRA n'est peut-être plus la meilleure façon de personnaliser l'IA ?

LoRA est la star des techniques de personnalisation des modèles d'IA, mais des alternatives plus performantes existent. Voici pourquoi il faut regarder au-delà de ce standard.

CE QUE LES CHIFFRES RÉVÈLENT SUR LORA

Si vous avez déjà essayé de personnaliser un modèle d'IA avec vos propres données, vous avez probablement entendu parler de LoRA. Ce sigle signifie Low Rank Adaptation, une technique qui permet de modifier légèrement un modèle existant sans tout recréer. LoRA est si populaire qu'on l'utilise presque par défaut. Mais est-ce vraiment la meilleure option ?

Les chiffres parlent d'eux-mêmes : LoRA est de loin la technique la plus utilisée pour le fine-tuning (personnalisation) des modèles. Les estimations montrent qu'elle représente une part écrasante des cas d'usage, bien au-delà de ses concurrentes. Pourtant, cette domination ne signifie pas forcément qu'elle est la plus performante pour tous les cas.

LoRA est comme une recette de cuisine que tout le monde utilise sans se demander si un autre ingrédient ne donnerait pas un meilleur résultat.

POURQUOI PERSONNALISER UN MODÈLE D'IA SANS TOUT RECRÉER ?

Imaginez que vous avez un modèle d'IA déjà très performant, mais qui ne répond pas exactement à vos besoins. Au lieu de créer un nouveau modèle à partir de zéro (ce qui coûte très cher en temps et en énergie), vous pouvez le fine-tuner. Cette technique consiste à ajuster légèrement le modèle existant pour qu'il s'adapte à votre cas précis.

Le problème ? Le fine-tuning classique demande énormément de mémoire. Il faut stocker le modèle plusieurs fois en même temps, ce qui n'est pas possible sur la plupart des ordinateurs. C'est là que les techniques de fine-tuning efficace (ou PEFT, pour Parameter-Efficient Fine-Tuning) entrent en jeu. Elles permettent de personnaliser un modèle avec beaucoup moins de ressources.

LES TECHNIQUES PEFT : UNE BOÎTE À Outils POUR PERSONNALISER L'IA

Les techniques PEFT sont comme des outils de bricolage pour l'IA. Elles permettent de modifier un modèle sans avoir à tout reconstruire. Voici ce qu'elles offrent :

• Une utilisation de la mémoire divisée par 10 ou plus par rapport au fine-tuning classique.
• La possibilité de personnaliser même des modèles déjà compressés (quantifiés).
• Des fichiers de sauvegarde (checkpoints) minuscules, faciles à partager.
• Une meilleure résistance à l'oubli des connaissances précédentes du modèle.
• La possibilité d'utiliser plusieurs versions personnalisées d'un même modèle de base.

La bibliothèque PEFT de Hugging Face est l'une des plus complètes pour utiliser ces techniques. Elle fonctionne bien avec d'autres outils comme Transformers et Diffusers, et supporte plusieurs méthodes de compression (quantification).

COMMENT CHANGER DE TECHNIQUE PEFT EN UNE LIGNE DE CODE

Passer de LoRA à une autre technique PEFT est aussi simple que modifier une ligne dans votre code. Voici un exemple concret avec OFT (une alternative à LoRA) :

from transformers import AutoModelForCausalLM
from peft import OFTConfig, getpeftmodel

basemodel = AutoModelForCausalLM.frompretrained("meta-llama/Llama-3.2-3B", dtype="bfloat16")
config = OFTConfig(targetmodules=["qproj", "v_proj"])
model = getpeftmodel(base_model, config)

Comparez avec le code LoRA classique :

from transformers import AutoModelForCausalLM
from peft import LoraConfig, getpeftmodel

basemodel = AutoModelForCausalLM.frompretrained("meta-llama/Llama-3.2-3B", dtype="bfloat16")
config = LoraConfig(targetmodules=["qproj", "v_proj"])
model = getpeftmodel(base_model, config)

La seule différence ? Le remplacement de LoraConfig par OFTConfig.

LORA : LA REINE DES TECHNIQUES DE PERSONNALISATION ?

LoRA est apparue tôt et a rapidement montré son efficacité. Elle fonctionne en ajoutant quelques paramètres supplémentaires au modèle de base, puis en ne modifiant que ces nouveaux paramètres pendant l'entraînement. Résultat : on garde la puissance du modèle original tout en l'adaptant à nos besoins.

Mais pourquoi LoRA est-elle si populaire ? Deux explications possibles :

• Elle fonctionne vraiment bien dans la plupart des cas.
• Elle a été l'une des premières techniques PEFT populaires, ce qui a créé un effet boule de neige : plus de tutoriels, plus de support, plus de visibilité.

Cette popularité est-elle justifiée ? Est-ce qu'on passe à côté de meilleures performances en restant sur LoRA ?

POURQUOI LES ARTICLES SCIENTIFIQUES NE SUFFISENT PAS POUR CHOISIR

Des dizaines d'articles scientifiques prétendent que leur technique de fine-tuning bat LoRA. Pourtant, ces affirmations sont souvent difficiles à vérifier. Pourquoi ?

D'abord, les chercheurs ont tendance à optimiser davantage leur propre technique que les alternatives lors des tests. Par exemple, une étude a montré que LoRA peut rivaliser avec des techniques prétendument supérieures simplement en ajustant le taux d'apprentissage.

Ensuite, chaque article utilise des jeux de données et des méthodes d'évaluation différents. Impossible de comparer directement les résultats. Même quand on utilise les mêmes données, le code n'est pas toujours disponible ou facile à exécuter.

Bref : les articles scientifiques ne suffisent pas pour choisir la meilleure technique. Il faut des benchmarks objectifs qui testent toutes les méthodes dans les mêmes conditions.

COMMENT HUGGING FACE TESTE LES DIFFÉRENTES TECHNIQUES

Pour aider les utilisateurs à faire le bon choix, l'équipe de Hugging Face a mis en place des benchmarks comparant plusieurs techniques PEFT. Ces tests utilisent :

• Le même modèle de base pour toutes les techniques.
• Les mêmes jeux de données et codes d'entraînement.
• Le même matériel (hardware).
• Plusieurs critères d'évaluation : performance, mémoire utilisée, temps d'exécution, taille des sauvegardes, etc.

Ces benchmarks sont conçus pour fonctionner sur du matériel grand public. Ajouter un nouveau test ? Il suffit d'ajouter une nouvelle configuration PEFT et de lancer un script.

L'avantage ? Toutes les techniques sont comparées de manière équitable, sans favoritisme. Les résultats donnent une image objective de leurs performances respectives.

CE QUE LES BENCHMARKS RÉVÈLENT : LORA N'EST PAS TOUJOURS LA MEILLEURE

Après avoir mené ces tests, les résultats sont clairs : LoRA fonctionne bien, mais d'autres techniques peuvent être meilleures sur certains critères. Voici ce qu'on observe :

LoRA n'est pas mauvaise, mais elle n'est pas toujours la meilleure option. D'autres techniques offrent de meilleurs compromis.

Prenons l'exemple du benchmark mathématique. Ce test évalue la capacité d'un modèle à apprendre le raisonnement en chaîne (chain-of-thought) sur des problèmes de maths. Les résultats montrent :

• LoRA classique : 48,1% de précision avec 22,5 Go de mémoire.
• LoRA avec initialisation stabilisée : 53,2% de précision avec 22,6 Go.
• LoRA-FA (version optimisée) : 20,2 Go de mémoire pour une précision similaire.
• BEFT : 32,9% de précision avec seulement 20,2 Go.
• Lily : 54,9% de précision mais avec 25,6 Go.

Selon vos priorités (précision ou mémoire), LoRA n'est pas forcément le meilleur choix.

GÉNÉRATION D'IMAGES : LORA EST DÉPASSÉE PAR D'AUTRES TECHNIQUES

Un autre benchmark teste la capacité à apprendre un nouveau concept (par exemple, dessiner un chat en peluche) et à le reproduire dans de nouveaux contextes. Les résultats sont encore plus parlants :

• LoRA obtient un score de similarité de 0,697 avec 9,97 Go de mémoire.
• OFT (une alternative) obtient 0,708 avec seulement 9,01 Go.

OFT domine clairement LoRA sur ce critère. Bien sûr, d'autres techniques proches de la frontière de Pareto (l'ensemble des meilleurs compromis) méritent aussi d'être considérées. Les métriques peuvent varier légèrement à cause du hasard, et d'autres critères comme le temps d'exécution ou la taille des sauvegardes peuvent influencer le choix final.

LA FRONTIÈRE DE PARETO : COMMENT CHOISIR LA MEILLEURE TECHNIQUE

Imaginez que vous devez choisir entre deux options :

• Option A : Très bonne performance mais très gourmande en mémoire.
• Option B : Performance moyenne mais très économe en mémoire.

Si aucune autre option ne fait mieux que A sur les deux critères en même temps, on dit que A est sur la frontière de Pareto. C'est l'ensemble des meilleurs compromis possibles.

Dans les benchmarks, LoRA est souvent sur cette frontière, mais d'autres techniques y figurent aussi. Par exemple :

• BEFT offre un bon compromis entre précision et mémoire.
• Lily privilégie la précision au détriment de la mémoire.
• OFT domine LoRA sur la génération d'images.

Votre choix dépend donc de vos priorités : précision, mémoire, temps d'exécution, etc.

LES LIMITES DES BENCHMARKS : AUCUN TEST NE PEUT TOUT MESURER

Les benchmarks sont utiles, mais ils ne capturent pas tout. Par exemple, une technique comme Cartridges a été développée pour compresser les longs prompts, ce qui n'est pas mesuré dans les tests actuels. D'autres facteurs peuvent entrer en jeu :

• La facilité d'utilisation ou la documentation disponible.
• Le support dans les outils que vous utilisez (comme vLLM ou llama.cpp).
• Des critères spécifiques à votre projet.

Les benchmarks ne remplacent pas une bonne recherche personnelle. Ils donnent des pistes, mais c'est à vous de creuser.

LE PROBLÈME : LO RA EST PLUS SUPPORTÉ QUE LES AUTRES TECHNIQUES

Un autre obstacle : les outils comme vLLM ou llama.cpp ne supportent que les sauvegardes LoRA. Si vous utilisez une autre technique, vous ne pourrez peut-être pas l'utiliser avec ces outils. La bonne nouvelle ? La bibliothèque PEFT permet désormais de convertir d'autres techniques en LoRA. Par exemple, on peut convertir un adaptateur d'images utilisant GraLoRA en un checkpoint LoRA. Les résultats restent très similaires après conversion.

Voici un exemple visuel avec la conversion d'un adaptateur d'images :

Prompt : « sks cat at the beach »

Score de similarité avant conversion : 0,702 → après conversion : 0,694

Score de similarité (autre métrique) avant conversion : 0,260 → après conversion : 0,269

Les images générées restent très proches, ce qui montre que la conversion fonctionne bien.

COMMENT CONTRIBUER À AMÉLIORER LES BENCHMARKS

Les benchmarks de Hugging Face sont ouverts à la communauté. Si vous pensez qu'une technique peut être améliorée avec des paramètres différents, vous pouvez contribuer en faisant une Pull Request (PR) sur le dépôt PEFT. Vous pouvez aussi proposer de nouveaux benchmarks en contactant l'équipe. L'objectif ? Rendre les tests encore plus complets et utiles pour tout le monde.

CE QUE VOUS DEVEZ RETENIR : NE RESTEZ PAS SUR LO RA PAR DÉFAUT

Les benchmarks montrent clairement que LoRA n'est pas toujours la meilleure option. Voici ce que vous devez garder en tête :

• LoRA est efficace, mais d'autres techniques peuvent offrir de meilleurs résultats selon vos besoins.
• Les variantes de LoRA comme DoRA, rs-LoRA ou LoRA-FA valent le détour.
• Pour les images, des techniques comme OFT surpassent LoRA.
• La bibliothèque PEFT rend le changement de technique aussi simple que modifier une ligne de code.

Ne choisissez pas LoRA par habitude. Testez d'autres techniques et vous pourriez être surpris par les résultats .

EXEMPLE PRATIQUE : PASSER DE LO RA À OFT EN 30 SECONDES

Voici comment modifier votre code pour passer de LoRA à OFT :

from transformers import AutoModelForCausalLM
- from peft import LoraConfig, getpeftmodel
+ from peft import OFTConfig, getpeftmodel

basemodel = AutoModelForCausalLM.frompretrained("meta-llama/Llama-3.2-3B", dtype="bfloat16")
- config = LoraConfig(targetmodules=["qproj", "v_proj"])
+ config = OFTConfig(targetmodules=["qproj", "v_proj"])
model = getpeftmodel(base_model, config)

C'est tout . Avec la bibliothèque PEFT, le changement est instantané. Essayez d'autres techniques et comparez les résultats avec vos propres données pour trouver celle qui vous convient le mieux.

ET DEFT DANS TOUT ÇA ?

Une technique récente appelée DEFT a été mentionnée dans les commentaires. Elle fonctionne en décomposant la mise à jour des poids du modèle en deux parties :

• Une projection sur le complément d'un sous-espace de rang faible.
• Une mise à jour de rang faible.

Cette approche permet une adaptation plus flexible des paramètres du modèle. Vous pouvez en savoir plus sur le dépôt GitHub de DEFT :

https://github.com/MAXNORM8650/DEFT

Le papier scientifique associé est disponible ici :

https://arxiv.org/abs/2509.22793

L'AVENIR DES TECHNIQUES DE FINE-TUNING

L'équipe de Hugging Face continue d'améliorer les benchmarks et d'en ajouter de nouveaux. L'objectif ? Donner aux utilisateurs toutes les clés pour choisir la meilleure technique selon leurs besoins. La communauté est invitée à contribuer en proposant de nouveaux tests ou en optimisant les techniques existantes.

Si vous ne deviez retenir qu'une seule chose de cet article, c'est celle-ci : LoRA n'est pas le choix par défaut automatique. Avec la bibliothèque PEFT, tester d'autres techniques est aussi simple que changer une ligne de code. Et même si vous restez sur LoRA, explorez ses variantes : vous pourriez découvrir des améliorations inattendues.

POUR ALLER PLUS LOIN

Si ce sujet vous intéresse, voici quelques ressources supplémentaires :

Sources :

Hugging Face Blog

L'indépendance de CLODCO est votre garantie.

Pour que l'actualité de l'IA reste sans filtre et sans concession, votre soutien est indispensable. Votre contribution est le seul moteur de notre liberté éditoriale.

Soutenir CLODCO