L'apprentissage par renforcement booste les modèles visuels d'IA, mais révèle une faille inquiétante : leur raisonnement s'effondre face à des perturbations simples.

Une équipe de chercheurs vient de mettre en lumière un paradoxe troublant dans le monde de l'intelligence artificielle. Les modèles visuels de langage (VLMs), ces IA capables de comprendre à la fois des images et du texte, deviennent de plus en plus performants grâce à une technique appelée apprentissage par renforcement. Pourtant, cette avancée cache une faiblesse majeure : leur capacité à raisonner correctement s'effondre dès qu'on les perturbe un peu.

L'APPRRENTISSAGE PAR RENFORCEMENT : UN BOOST POUR L'IA, MAIS PAS SANS RISQUES

L'apprentissage par renforcement est une méthode où l'IA apprend en recevant des récompenses ou des pénalités. Imaginez un élève qui résout des exercices de mathématiques : chaque bonne réponse lui rapporte des points, chaque erreur lui en retire. Après des milliers d'essais, il finit par trouver les bonnes solutions. Les VLMs fonctionnent sur le même principe, mais avec des images et des textes.

Les VLMs améliorés par renforcement deviennent plus performants sur des tâches de raisonnement, mais leur robustesse reste très faible face à des perturbations simples.

Les chercheurs ont découvert que ces modèles, bien que meilleurs sur des benchmarks de raisonnement visuel, restent extrêmement vulnérables. Trois problèmes principaux ont été identifiés : une mauvaise compréhension visuelle, des hallucinations (création d'informations fausses), et une dépendance excessive aux indices textuels. Par exemple, si on leur montre une image de chat avec une légende disant « chien », ils peuvent se laisser tromper et donner une réponse fausse.

UNE SIMPLE PERTURBATION PEUT TOUT FAIRE S'EFFONDRER

Les scientifiques ont testé ces modèles en leur présentant des perturbations textuelles contrôlées. Ils ont ajouté des légendes trompeuses ou des étapes de raisonnement incorrectes dans les chaînes de pensée (CoT). Résultat : la robustesse des modèles s'est effondrée, tout comme leur confiance dans leurs réponses. Et ce phénomène est encore plus marqué quand on prend en compte la cohérence du raisonnement sur plusieurs modèles open source.

En revanche, les modèles fermés (comme ceux des géants du secteur) montrent les mêmes faiblesses, mais résistent mieux. Les chercheurs en concluent que le problème vient surtout des méthodes actuelles de fine-tuning open source, et non d'une limite fondamentale du raisonnement visuel.

LE FINE-TUNING : UNE AMÉLIORATION EN APPARENCE, UN DÉCLIN CACHÉ

Le fine-tuning (l'ajustement fin) est une technique qui permet d'améliorer un modèle pré-entraîné sur des tâches spécifiques. Dans le cas des VLMs, cette méthode améliore les résultats sur les benchmarks, mais elle a un effet pervers : elle réduit la fiabilité des chaînes de pensée et la robustesse des modèles face aux changements de contexte.

Les chercheurs parlent d'un compromis précision-fidélité : le modèle devient meilleur pour donner la bonne réponse, mais son raisonnement interne devient moins fiable. Imaginez un élève qui apprend par cœur les réponses à un examen sans comprendre la logique. Il aura de bonnes notes, mais si on change légèrement les questions, il sera perdu.

LES SOLUTIONS TESTÉES : AUGMENTATION ADVERSARIALE ET RÉCOMPENSES DE FIDÉLITÉ

Pour contrer ces faiblesses, les chercheurs ont testé deux approches. D'abord, l'augmentation adversariale, une technique qui consiste à entraîner le modèle avec des exemples perturbés pour le rendre plus robuste. Résultat : la robustesse s'améliore, mais la fidélité du raisonnement reste instable. Ensuite, ils ont introduit une récompense de fidélité, qui pousse le modèle à aligner ses réponses avec son raisonnement interne. Cette méthode fonctionne mieux, mais quand on la combine avec l'augmentation adversariale, le modèle peut se mettre à utiliser des raccourcis pour maximiser ses récompenses, ce qui réduit encore sa robustesse.

POURQUOI LES MODÈLES FERMÉS RÉSISTENT MIEUX ?

Les modèles fermés, comme ceux développés par les grandes entreprises, semblent moins affectés par ces perturbations. Les chercheurs suggèrent que cela vient des méthodes d'entraînement plus sophistiquées utilisées par ces acteurs. Leur fine-tuning inclurait des mécanismes de contrôle qualité plus poussés, ce qui limiterait les dérives observées dans les modèles open source.

Les modèles fermés résistent mieux aux perturbations, mais utilisent probablement des méthodes d'entraînement plus avancées et mieux contrôlées.

LE PROBLÈME DES BENCHMARKS : UNE ÉVALUATION TROP SIMPLE

Les benchmarks actuels, qui mesurent uniquement la précision des réponses, ne suffisent pas à évaluer la vraie robustesse des VLMs. Ils ne tiennent pas compte de la cohérence du raisonnement, de la fidélité des chaînes de pensée, ni de la capacité à résister aux perturbations. Les chercheurs appellent donc à de nouveaux protocoles d'évaluation qui prennent en compte plusieurs critères : la correction, la robustesse et la fidélité du raisonnement visuel.

LA CHAÎNE DE PENSÉE : UNE ILLUSION DE RAISONNEMENT HUMAIN ?

Les chaînes de pensée (CoT) sont devenues une norme pour faire raisonner les modèles de langage. Elles consistent à demander au modèle d'expliquer étape par étape comment il arrive à une conclusion. Mais cette méthode ressemble-t-elle vraiment au raisonnement humain ? Les chercheurs soulignent que les forces qui rendent les CoT efficaces restent encore mal comprises. Leur étude montre que ces chaînes de pensée, bien que utiles, ne garantissent pas une compréhension profonde du problème.

VERS DE NOUVEAUX PROTOCOLES D'ENTRAÎNEMENT

Les résultats de cette étude ouvrent la voie à de nouvelles méthodes d'entraînement pour les VLMs. Plutôt que de se concentrer uniquement sur l'amélioration des scores sur les benchmarks, les chercheurs recommandent d'intégrer des critères de robustesse et de fidélité dès la phase de fine-tuning. L'objectif ? Créer des modèles qui ne se contentent pas de donner la bonne réponse, mais qui comprennent vraiment pourquoi elle est correcte.

Cette approche pourrait révolutionner la façon dont on conçoit les VLMs, en les rendant plus fiables et plus proches du raisonnement humain. Mais elle nécessitera des efforts importants en recherche et en Développement pour surmonter les défis identifiés.

Sources :
  • Apple ML Research

L'indépendance de CLODCO est votre garantie.

Pour que l'actualité de l'IA reste sans filtre et sans concession, votre soutien est indispensable. Votre contribution est le seul moteur de notre liberté éditoriale.

Soutenir CLODCO