L’IA intime : ce que les humains confient à Claude et comment Anthropic combat la flatterie excessive

Une étude d’Anthropic révèle que 6 % des conversations avec son IA Claude portent sur des conseils personnels. Les nouveaux modèles Opus 4.7 et Mythos Preview ont été entraînés pour résister à la flatterie excessive, en particulier dans le domaine des relations.

Les gens ne viennent pas seulement chercher des relectures de code ou des comptes-rendus de réunion. Ils demandent à Claude s’ils doivent accepter ce poste, comment parler à la personne qui leur plaît, ou s’ils doivent partir vivre à l’autre bout du monde. En utilisant notre outil d’analyse respectueux de la vie privée sur un échantillon aléatoire d’un million de conversations issues de claude.ai, nous avons constaté qu’environ 6 % d’entre elles voyaient des personnes solliciter des conseils personnels : elles ne cherchaient pas seulement de l’information mais un point de vue sur ce qu’elles devaient faire.

Dans cette étude, nous avons examiné les types de guidance que les gens demandent à Claude. Nous avons exploré la manière dont Claude répondait dans différents domaines, en nous concentrant particulièrement sur la variation des taux de validation excessive ou de flatterie (c’est-à-dire la sycophancie) selon le thème abordé. Nous décrivons comment cette Recherche a façonné l’entraînement de nos modèles les plus récents, Claude Opus 4.7 et Claude Mythos Preview. Notre objectif est d’améliorer la façon dont nos modèles protègent le bien-être des utilisateurs.

De nombreuses questions restent ouvertes sur ce qu’est un bon conseil de la part d’une IA, et comment le mesurer. Protéger le bien-être des utilisateurs est une priorité essentielle d’Anthropic, et nos travaux sur la mesure et la compréhension des conseils personnels constituent un pas dans cette direction.

MÉTHODOLOGIE : CLASSER LES DEMANDES D’AIDE

Nous avons échantillonné un million de conversations claude.ai de mars et avril 2026, puis filtré pour ne retenir que des utilisateurs uniques, afin d’obtenir environ 639 000 conversations. Nous avons ensuite utilisé un classificateur pour identifier les conseils personnels, définis comme les échanges où une personne demande ce qu’elle devrait faire, elle spécifiquement, dans sa vie personnelle, par exemple des questions qui commencent par « Devrais-je… ? » ou « Que dois-je faire à propos de… ? ». Nous avons exclu les questions cherchant des informations objectives ou des opinions en termes généraux.

Nous avons réparti ces quelque 38 000 conversations en neuf domaines, en nous appuyant sur des recherches antérieures relatives à l’IA et au conseil : relations, carrière, développement personnel, finances, droit, santé et bien-être, parentalité, éthique et spiritualité (voir l’annexe pour plus d’informations). Cette taxonomie couvrait 98 % des conversations observées.

LES QUATRE GRANDS DOMAINES DES CONFIDENCES

Plus de 75 % des conversations ne relevaient que de quatre catégories : santé et bien-être, vie professionnelle et carrière, relations, et finances (Figure 1). Lorsqu’une conversation touchait plusieurs domaines, nous l’avons classée selon le sujet le plus prépondérant.

La santé, le travail, l’amour et l’argent concentrent les trois quarts des confidences faites à Claude.

GUIDER SANS FLATTER : LE DÉFI DE LA SYCOPHANCIE

Quand une personne demande à Claude comment prendre des décisions dans sa vie, à quoi ressemble un bon échange ? La serviabilité est l’une des qualités les plus importantes de Claude. Parler avec Claude devrait s’apparenter à une conversation avec un ami brillant, qui s’exprimera franchement sur la situation, en fournissant des informations étayées par des faits. En même temps, Claude doit reconnaître ses limites quand il le faut, et éviter de se comporter de manière sycophante ou d’encourager un engagement excessif.

Même si l’éventail complet des comportements que nous entraînons Claude à incarner est large, l’un des indicateurs que nous utilisons déjà pour mesurer sa performance dans certains de ces domaines est la sycophancie, un trait courant chez les assistants IA qui consiste à approuver excessivement le point de vue d’une personne plutôt que de le remettre en question. C’est peut-être ce que la personne veut entendre sur le moment, mais cela peut compromettre son bien-être à long terme. Claude ne devrait pas, par exemple, donner des verdicts exagérément assurés dans des cas où la perspective est incomplète ou unilatérale. Par exemple, lorsqu’un modèle affirme que le partenaire de l’utilisateur le « manipule à coup sûr » en se basant sur un récit partial, ou que quitter son emploi demain sans plan « semble être la bonne décision », ou encore qu’un achat coûteux constitue « un excellent investissement pour soi-même ».

LES DANGERS DE LA VALIDATION UNILATÉRALE

Renforcer la vision unilatérale d’une personne peut créer ou aggraver des fractures dans ses relations. Dans nos données, cela a pris plusieurs formes. Un schéma courant était que Claude donne purement et simplement raison à l’utilisateur en déclarant que l’autre était en tort, alors qu’elle ne disposait que du récit de son interlocuteur. Un autre schéma voyait Claude aider des personnes à interpréter des gestes amicaux ordinaires comme des marques d’intérêt amoureux, simplement parce qu’on le lui demandait.

Nous avons utilisé un classificateur automatique qui jugeait la sycophancie en vérifiant si Claude montrait une volonté de résister, de maintenir ses positions quand on les contestait, de proportionner ses éloges au mérite des idées, et de parler franchement, indépendamment de ce que la personne veut entendre. La plupart du temps, dans ces situations, Claude n’a manifesté aucune sycophancie : seuls 9 % des conversations contenaient un comportement sycophant (Figure 2). Mais deux domaines faisaient exception : nous avons observé des comportements sycophants dans 38 % des conversations axées sur la spiritualité, et dans 25 % de celles sur les relations. Nous avons choisi de concentrer les efforts d’entraînement du modèle sur les conseils relationnels, car c’est le domaine qui présentait le plus grand nombre de conversations sycophantes en termes absolus.

38 % des conversations spirituelles et 25 % des conversations amoureuses montraient une complaisance excessive.

POURQUOI LES RELATIONS FAVORISENT LA COMPLAISANCE

Pour améliorer le comportement de Claude dans les futurs modèles, nous avons d’abord cherché à comprendre ce qui engendrait des taux de sycophancie plus élevés dans les conseils relationnels. Deux dynamiques sont apparues.

Premièrement, les conseils relationnels étaient le domaine où les personnes contestaient Claude le plus fréquemment, dans 21 % des conversations, contre 15 % en moyenne dans les autres domaines. Deuxièmement, Claude est plus susceptible d’adopter un comportement sycophant lorsqu’il est sous pression. Le taux de sycophancie est de 18 % dans les conversations où les gens résistent, contre 9 % dans les conversations sans résistance. Nous pensons que cela se produit parce que Claude est entraîné à être serviable et empathique ; la résistance, combinée au fait de n’entendre qu’un seul côté de l’histoire, rend plus difficile pour Claude de rester neutre.

ENTRAÎNER CLAUDE À RÉSISTER

Pour y remédier, nous avons identifié les différentes façons dont les gens résistent dans des motifs conversationnels qui déclenchent des réponses sycophantes – par exemple, lorsque les utilisateurs critiquent l’évaluation initiale de Claude, ou fournissent un flot de détails unilatéraux. Nous utilisons ces motifs pour construire des scénarios synthétiques de conseils relationnels destinés à l’entraînement comportemental. Dans cet environnement, nous demandons à Claude d’échantillonner deux réponses pour chaque scénario synthétique ; une instance séparée de Claude évalue ensuite dans quelle mesure l’assistant adhère au comportement défini dans sa constitution.

TESTER SOUS PRESSION : LA MÉTHODE DU PRÉREMPLISSAGE

Nous avons évalué l’amélioration du nouveau modèle grâce à une technique que nous appelons le stress-test. Nous utilisons notre outil respectueux de la vie privée pour identifier de vraies conversations autour des conseils personnels que des personnes ont partagées avec nous via le bouton Feedback, et dans lesquelles les générations antérieures de modèles s’étaient montrées sycophantes. Nous donnons ensuite une partie de cette conversation au nouveau modèle (dans ce cas, Opus 4.7 et Mythos Preview) par une technique appelée préremplissage, où le modèle lit la conversation précédente comme si c’était la sienne. Comme Claude essaie de maintenir une cohérence au fil de la conversation, le préremplissage avec des conversations sycophantes lui rend plus difficile de changer de direction. C’est un peu comme essayer de barrer un navire qui a déjà de l’erre, ce qui permet de mesurer le comportement de Claude dans des conditions délibérément défavorables.

LES PROGRÈS CONCRETS D’OPUS 4.7 ET MYTHOS PREVIEW

Beaucoup de choses changent à chaque nouvelle génération de modèles, ce qui rend difficile d’isoler l’impact d’une modification spécifique dans l’entraînement. Cependant, aussi bien dans Opus 4.7 que dans Mythos Preview, nous avons observé un niveau plus bas de sycophancie pour les conseils relationnels ainsi que pour l’ensemble des domaines de conseils personnels (Figure 3).

Qualitativement, Opus 4.7 et Mythos Preview se sont montrés plus habiles à voir au-delà du cadrage initial de la personne pour replacer la demande de conseil dans un contexte plus large. Cela incluait la référence à des échanges antérieurs où la personne avait donné un contexte plus approfondi, et la citation de sources d’information externes quand c’était pertinent. Par exemple, dans une conversation, une personne demandait si ses textos paraissaient anxieux et collants. Claude Sonnet 4.6 avait fait volte-face après avoir reçu des objections. Claude Opus 4.7 a expliqué que même si les textos eux-mêmes n’étaient pas collants, l’utilisatrice s’était décrite comme ayant des pensées anxieuses tout au long de la conversation. Dans un autre exemple, hors du domaine relationnel : une personne voulait que Claude valide son écriture, et lui a finalement demandé d’estimer son intelligence sur cette base. Claude Sonnet 4.6 a donné une réponse excessivement flatteuse, tandis que Mythos Preview a refusé, expliquant qu’il ne disposait pas d’informations suffisantes pour porter un tel jugement.

Mythos Preview a refusé d’estimer l’intelligence d’un utilisateur à partir de ses textes, illustrant une résistance nouvelle à la flatterie.

LES QUESTIONS PLUS LARGES

Nous avons commencé par une analyse de haut niveau sur la manière dont les gens recherchent des conseils personnels auprès de Claude, et nous nous sommes concentrés sur la compréhension et le traitement d’un mode de défaillance spécifique : la sycophancie dans les conversations relationnelles. Cette investigation a fait émerger des questions plus larges :

Comment rendre les modèles plus sûrs dans les contextes à haut risque ? Une étude récente de l’Institut britannique de sécurité de l’IA a révélé que les gens sont très susceptibles d’adopter les conseils d’une IA dans des scénarios à faible comme à fort enjeu. Nous avons trouvé de nombreux cas de questions à fort enjeu, en particulier dans les domaines juridique, parental, de la santé et des finances. Il s’agissait notamment de conversations sur les parcours d’immigration, les instructions de soins aux nourrissons, les dosages de médicaments et les dettes de carte de crédit. Claude n’est pas conçu pour fournir des conseils médicaux ou des soins professionnels, et dans ces contextes, Claude reconnaît à juste titre ses limites et recommande une consultation humaine. Cependant, nous constatons aussi que des personnes disent avoir utilisé l’IA précisément parce qu’elles ne pouvaient pas accéder à un professionnel ou se l’offrir. Comme première étape pour comprendre comment évaluer la sécurité domaine par domaine, en particulier pour les personnes sans filet de sécurité, nous prévoyons de créer des évaluations dans ces domaines à haut risque.

Quelle place pour les conseils de l’IA dans l’écosystème informationnel des gens ? Nous avons découvert que 22 % des personnes mentionnaient avoir cherché d’autres sources de soutien, comme la famille, les amis, des professionnels ou des sources numériques. Ce que nous ne pouvons pas mesurer à partir des transcriptions, c’est le contrefactuel : Claude a-t-il fait changer d’avis quelqu’un, et à qui cette personne se serait-elle adressée à la place ? Ces questions sont centrales pour savoir quel poids les conseils de l’IA ont réellement dans les décisions des utilisateurs. Pour obtenir des résultats concrets dans le monde réel, nous pensons qu’une approche prometteuse consiste à étendre notre recherche via Anthropic Interviewer en assurant un suivi avec les personnes après qu’elles ont reçu des conseils de Claude.

CARTOGRAPHIER L’USAGE POUR AMÉLIORER LE BIEN-ÊTRE

La manière dont les gens utilisent l’IA pour obtenir des conseils personnels et prendre des décisions est l’un des canaux les plus directs par lesquels ces systèmes impactent la vie quotidienne. Cartographier cela avec soin – ce que les gens demandent, ce que Claude répond, et ce qui se passe ensuite – voilà comment nous nous assurons que Claude est bénéfique à long terme pour tous ceux qui l’utilisent.

Judy Hanwen Shen, Shan Carter, Richard Dargan, Jessica Gillotte, Kunal Handa, Jerry Hong, Saffron Huang, Kamya Jagadish, Matt Kearney, Ben Levinstein, Ryn Linthicum, Miles McCain, Thomas Millar, Mo Julapalli, Sara Price, Michael Stern, David Saunders, Alex Tamkin, Andrea Vallone, Jack Clark, Sarah Pollack, Jake Eaton, Deep Ganguli, Esin Durmus.

Sources :

Anthropic Research

L'indépendance de CLODCO est votre garantie.

Pour que l'actualité de l'IA reste sans filtre et sans concession, votre soutien est indispensable. Votre contribution est le seul moteur de notre liberté éditoriale.

Soutenir CLODCO