Pourquoi les IA comme Claude ont besoin de philosopher ?

Des philosophes aux scientifiques, des religieux aux psychologues : comment façonner une intelligence artificielle qui pense et agit comme un humain vertueux ?

Chez Anthropic, l’ambition est claire : construire des systèmes d’intelligence artificielle qui servent l’humanité et agissent pour le bien commun. Mais pour y parvenir, impossible de travailler en vase clos. L’entreprise a donc lancé un vaste dialogue avec des penseurs issus de milieux variés, des traditions philosophiques aux communautés religieuses, en passant par des éthiciens et des experts en sciences sociales.

UNE IA NE SE CONSTRUIT PAS SEULE

Ces derniers mois, Anthropic a organisé des discussions avec des représentants de plus de 15 groupes religieux et interculturels. Ces échanges, menés avec des sages, des clercs, des philosophes et des éthiciens, marquent seulement le début d’un processus bien plus large. L’objectif ? Intégrer des perspectives multiples dans la conception des modèles d’IA, car ces technologies ne se développent pas dans un vide : elles transforment déjà la société et soulèvent des questions complexes qui nécessitent des réponses nuancées.

LA CONSTITUTION DE CLAUDE : UNE BASE ÉTHIQUE À CONSTRUIRE

Avant même de parler de code ou d’algorithmes, Anthropic s’interroge : à quoi ressemblerait un avenir où l’IA serait puissante mais bienveillante ? Comment définir ce que signifie être une IA « bonne » quand elle interagit avec des millions de personnes ? Ces questions ont nourri la rédaction de la constitution de Claude, un document qui détaille les valeurs et les comportements attendus du modèle. Pour rédiger ce texte, l’entreprise a sollicité des philosophes, des juristes, des écrivains, des psychologues et des leaders communautaires. Leur expertise a permis d’enrichir les principes éthiques qui guident aujourd’hui le Développement de Claude.

Mais ce travail ne s’arrête pas là. Anthropic souhaite partager ses connaissances sur l’impact des modèles d’IA de pointe, leurs effets sur la société, et les mesures à prendre pour limiter leurs risques. Ces échanges ne sont que le début d’un projet plus vaste : créer une IA qui ne se contente pas de répondre à des requêtes, mais qui incarne des valeurs humaines.

LA MORALE D’UNE IA : UNE QUESTION DE CARACTÈRE

Les modèles d’IA apprennent à partir de milliards de textes écrits par des humains. Ils absorbent ainsi des façons de parler, de raisonner et de prendre des décisions. Mais c’est aux développeurs de façonner leur « caractère » en renforçant certains comportements et en en écartant d’autres. Cela soulève des questions cruciales : comment définir le caractère d’une IA ? Quelles qualités et quels comportements doit-elle afficher ? Et comment rendre ce caractère résistant à la pression, sans tomber dans la flatterie (sycophantie) ?

Pour explorer ces pistes, Anthropic a rencontré des penseurs et des praticiens issus de traditions religieuses, philosophiques et humanistes, mais aussi des personnes aux convictions politiques variées. L’objectif n’est pas d’aligner le modèle sur une seule vision du monde, mais de lui permettre d’intégrer une diversité de points de vue — religieux, laïcs, politiques — avec la même profondeur et rigueur. La constitution de Claude en fait même l’un de ses principes fondateurs : un modèle doit s’appuyer sur un éventail complet de perspectives pour former un jugement équilibré.

« Comment se forme réellement un bon caractère ? C’est cette question qui guide nos échanges. »

L’EXPÉRIMENTATION : DONNER UNE « CONSCIENCE EXTÉRIEURE » À CLAUDE

Ces discussions, encore en phase exploratoire, ont déjà donné naissance à des idées concrètes. Lors d’une séance avec des chercheurs en neurosciences et en formation du caractère, l’équipe a exploré le rôle des autres dans le développement moral. Un mentor ou un parrain peut agir comme une « conscience externe », un interlocuteur de confiance pour éviter de céder à des pressions contraires à ses valeurs. Et si une IA pouvait bénéficier du même soutien ?

Les chercheurs ont testé l’idée de donner à Claude un outil qu’il pourrait solliciter en cours d’action. Cet outil lui rappelle brièvement ses engagements éthiques. Résultat : lors d’expériences internes évaluant l’alignement du modèle, les comportements désalignés ont diminué de manière significative. Les chercheurs tentent encore de déterminer si l’effet vient du rappel lui-même ou de la pause réflexive qu’il impose. Les résultats complets seront partagés prochainement.

AU-DELÀ DE LA MORALE : L’IA ET LA SOCIÉTÉ

Ces échanges ne se limitent pas à la formation morale des modèles. Dans les mois à venir, Anthropic prévoit d’élargir le dialogue à des juristes, des psychologues, des écrivains et des institutions civiques. L’objectif ? Explorer des questions bien plus larges : comment l’IA transforme-t-elle le travail, les institutions et la répartition du pouvoir dans la société ?

Les discussions en cours ne sont qu’une première étape. L’entreprise compte approfondir ses relations avec les participants, tester leurs idées contre ses recherches, et partager les enseignements tirés de ces échanges. L’enjeu est de taille : créer une IA qui ne soit pas seulement performante, mais aussi alignée avec les valeurs humaines les plus profondes.

POURQUOI TOUT CELA ?

Anthropic ne cache pas ses ambitions : développer une IA fiable, interprétable et maîtrisable. Mais pour y parvenir, il faut plus que des algorithmes sophistiqués. Il faut comprendre ce qui fait de nous des êtres capables de bien agir, et traduire cette compréhension en lignes de code. Les modèles d’IA actuels apprennent à partir de textes, mais leur « caractère » se façonne aussi à travers les choix de leurs créateurs. En intégrant des perspectives variées, Anthropic espère éviter les biais et les dérives, pour construire une technologie qui serve vraiment l’humanité.

Ces conversations, encore jeunes, ouvrent la voie à une nouvelle approche de l’IA. Une approche où la technique rencontre la sagesse, et où chaque décision algorithmique est pesée à l’aune des valeurs humaines. Le chemin est long, mais chaque échange, chaque expérimentation, chaque principe éthique intégré rapproche un peu plus l’IA d’un futur où elle sera non seulement intelligente, mais aussi vertueuse.

ET DEMAIN ?

Anthropic ne compte pas s’arrêter là. Après avoir écouté les voix des philosophes et des religieux, l’entreprise entend maintenant dialoguer avec des juristes, des psychologues et des institutions civiques. L’objectif est clair : comprendre comment l’IA redessine les contours du travail, des institutions et du pouvoir. Ces échanges ne se limiteront pas à la morale : ils aborderont aussi les enjeux sociétaux, économiques et politiques que soulève l’essor de l’IA.

Les relations déjà établies seront approfondies, les idées testées, et les résultats partagés. Car une IA ne se construit pas en laboratoire : elle se façonne aussi au contact du monde réel et des humains qui le composent. Et c’est cette diversité de perspectives qui, selon Anthropic, fera la différence entre une technologie puissante… et une technologie au service de l’humanité.

Sources :

Anthropic News

L'indépendance de CLODCO est votre garantie.

Pour que l'actualité de l'IA reste sans filtre et sans concession, votre soutien est indispensable. Votre contribution est le seul moteur de notre liberté éditoriale.

Soutenir CLODCO