ChatGPT : comment l'IA détecte les signaux de danger dans vos conversations

Les nouvelles mises à jour de ChatGPT permettent de détecter des risques émergents dans les conversations sensibles, même quand ils apparaissent progressivement.

CHATGPT AU QUOTIDIEN : DES MILLIERS DE CONVERSATIONS, DES MILLIERS DE SITUATIONS

Chaque jour, des centaines de millions d’utilisateurs s’adressent à ChatGPT pour parler de ce qui compte pour eux : des questions du quotidien, des sujets personnels, ou des discussions complexes. Parmi ces échanges, certains concernent des personnes en difficulté ou en détresse. Les systèmes de l’outil sont conçus pour réagir avec prudence dans ces moments précis, en proposant par exemple des ressources d’urgence ou en aidant à contacter une personne de confiance.

DE NOUVELLES MISES À JOUR POUR MIEUX COMPRENDRE LE CONTEXTE

L’équipe derrière ChatGPT vient de dévoiler des améliorations majeures pour aider l’IA à mieux identifier les risques qui se dessinent progressivement dans une conversation. Ces mises à jour permettent de repérer des indices subtils ou évolutifs, et d’utiliser ce contexte pour adapter les réponses de manière plus sûre. L’objectif ? Distinguer les millions de conversations anodines des rares cas où une vigilance accrue est nécessaire. Par exemple, l’IA peut désamorcer une situation, refuser de fournir des détails dangereux, ou rediriger vers des alternatives plus sûres.

Une simple phrase peut prendre un tout autre sens quand elle est analysée à la lumière d’un contexte de détresse ou d’intention malveillante.

Ces améliorations s’appuient sur des années de travail : entraînement des modèles, évaluations, systèmes de surveillance, et plus de deux ans de collaboration avec des experts en santé mentale et en sécurité.

LE CONTEXTE, CLÉ POUR RECONNAÎTRE LES RISQUES

Dans une conversation sensible, le contexte compte autant qu’un message isolé. Une demande qui semble banale ou ambiguë peut cacher un sens bien différent quand elle est mise en relation avec des signes antérieurs de détresse ou une intention potentiellement nuisible. Pour réagir de manière adaptée, ChatGPT a été entraîné à détecter les intentions dangereuses à partir du contexte environnant. Cela lui permet de refuser une requête, de désamorcer la situation, ou d’orienter l’utilisateur vers une aide appropriée.

Ces cas restent rares, mais ils sont d’une importance capitale. L’objectif est d’aider ChatGPT à repérer les signaux pertinents au bon moment, sans surréagir dans les conversations ordinaires.

UNE FOCALISATION SUR LES SITUATIONS LES PLUS CRITIQUES

Les équipes se sont concentrées sur des scénarios aigus : suicide, automutilation, ou intention de nuire à autrui. En collaboration avec des experts en santé mentale, elles ont actualisé les politiques du modèle et son entraînement pour améliorer sa capacité à reconnaître les signes d’alerte qui apparaissent au fil d’une conversation. L’IA utilise ensuite ce contexte pour adapter ses réponses de manière plus prudente.

Dans ces situations à haut risque et peu fréquentes, ChatGPT distingue mieux les demandes anodines de celles qui pourraient indiquer un danger accru. Ces améliorations s’appuient sur une approche de complétion sûre, conçue pour refuser les parties dangereuses d’une requête et répondre avec prudence quand cela est possible. L’objectif est d’aider le modèle à réagir de manière plus appropriée au contexte, en augmentant la vigilance quand des signaux de danger apparaissent, tout en continuant à répondre utilement dans les situations banales.

QUAND LE RISQUE ÉMERGE À TRAVERS PLUSIEURS CONVERSATIONS

Certains risques peuvent se révéler à travers des échanges séparés. Une première conversation peut contenir des indices subtils d’une intention potentiellement dangereuse, tandis qu’une seconde peut inclure des demandes qui ne deviennent préoccupantes que lorsqu’elles sont comprises en lien avec le contexte précédent. Sans ce contexte pertinent pour la sécurité, la deuxième conversation – et les signaux d’alerte potentiels – pourraient sembler anodins.

DES RÉSUMÉS DE SÉCURITÉ POUR CAPTURER L’ESSENTIEL

Pour renforcer la capacité de ChatGPT à repérer ces signes de détresse, l’équipe a développé des résumés de sécurité : de courtes notes factuelles sur les éléments de contexte pertinents pour la sécurité, qui peuvent être cruciaux dans les rares situations à haut risque. Ces résumés sont générés par un modèle spécialisé dans le raisonnement de sécurité. Ils sont limités dans leur portée, conservés seulement pour une durée déterminée, et utilisés uniquement lorsqu’un problème grave de sécurité est en jeu. Leur rôle ? Capturer le contexte de sécurité de manière factuelle, sans servir à une personnalisation générale ou à une mémoire à long terme.

Comme évoqué précédemment, ChatGPT a également été entraîné à utiliser ce contexte avec plus de prudence, afin de mieux reconnaître quand une vigilance accrue est nécessaire et de réagir de manière appropriée. Par exemple, il peut désamorcer une situation, refuser de fournir des détails, ou rediriger vers des alternatives plus sûres.

UNE EXPERTISE HUMAINE POUR GUIDER L’IA

Ces systèmes ont été conçus avec l’aide de professionnels de la santé mentale issus du réseau mondial de médecins de l’entreprise, incluant psychiatres et psychologues spécialisés en psychologie forensique, prévention du suicide et automutilation. Ces experts ont contribué à définir les critères de création des résumés de sécurité, la quantité de contexte antérieur pertinente, et la durée pendant laquelle le modèle doit prendre en compte ce contexte lors de ses réponses. Leur expertise a permis d’ancrer ce travail dans la réalité et de favoriser des réponses plus adaptées dans les situations sensibles.

RECONNAÎTRE LES PATRONS DE DANGER, MÊME SUBTILS

Ces mises à jour aident ChatGPT à mieux identifier les schémas d’intention potentiellement dangereuse, qu’ils apparaissent au sein d’une même conversation ou entre plusieurs échanges. Quand des signaux inquiétants émergent progressivement, le modèle est désormais capable de repérer le pattern et de réagir de manière plus sûre.

DES TESTS INTERNES POUR VALIDER LES PROGRÈS

Dans des évaluations internes spécifiquement conçues pour mesurer les performances dans des cas difficiles, ces améliorations ont significativement boosté les réponses sûres dans des scénarios où le risque devenait plus clair au fil du temps. Ces tests mesuraient à quelle fréquence le modèle fournissait la réponse sûre attendue dans des conversations conçues pour imiter des situations à haut risque.

Dans des scénarios impliquant une seule conversation longue, les performances en matière de réponses sûres ont progressé de 50 % dans les cas de suicide et d’automutilation, et de 16 % dans les cas d’intention de nuire à autrui. Cela signifie que le modèle était bien plus susceptible de reconnaître quand les parties antérieures d’une conversation modifiaient le sens d’une demande ultérieure et d’y répondre de manière appropriée.

DES AMÉLIORATIONS VALIDÉES SUR DIFFÉRENTS MODÈLES

Les équipes ont également testé les performances à travers plusieurs conversations et plusieurs modèles, afin de s’assurer que ces améliorations restent efficaces à mesure que les modèles évoluent. Sur GPT‑5.5 Instant, le modèle par défaut actuel de ChatGPT, les performances en matière de réponses sûres ont progressé de 52 % dans les cas d’intention de nuire à autrui et de 39 % dans les cas de suicide et d’automutilation.

LA QUALITÉ DES RÉSUMÉS DE SÉCURITÉ SOUS LA LOUPE

Les équipes ont également évalué la qualité des résumés de sécurité eux-mêmes. Sur plus de 4 000 évaluations, ces résumés ont obtenu une note moyenne de pertinence pour la sécurité de 4,93 sur 5 et une note de factualité de 4,34 sur 5. Cela indique qu’ils étaient généralement précis et centrés sur les éléments de contexte de sécurité les plus importants.

Les résumés de sécurité capturent l’essentiel sans alourdir les conversations ordinaires.

AUCUN IMPACT SUR LES CONVERSATIONS QUOTIDIENNES

Enfin, les équipes ont testé si l’ajout de ce contexte de sécurité réduisait la qualité des réponses dans les conversations ordinaires. Selon leurs évaluations internes, les réponses sont restées globalement comparables dans les échanges du quotidien. Aucune préférence significative n’a été observée entre les réponses avec ou sans résumés de sécurité.

UN DÉFI DE LONGUE HALEINE POUR L’IA

Aider les systèmes d’IA à reconnaître des risques qui ne deviennent clairs qu’avec le temps est un défi complexe et de longue haleine. Les signaux peuvent être subtils, dispersés à travers plusieurs messages, ou enfouis dans des conversations par ailleurs banales. Les équipes continueront d’améliorer la capacité de ChatGPT à identifier ces moments rares mais cruciaux et à y réagir de manière appropriée.

Pour l’instant, ces travaux se concentrent sur les scénarios d’automutilation et d’intention de nuire à autrui. À l’avenir, des méthodes similaires pourraient être explorées pour d’autres domaines à haut risque, comme la biologie ou la cybersécurité, sous réserve de mettre en place des garde-fous adaptés. Ce domaine reste une priorité constante, et les équipes s’engagent à renforcer les protections au fur et à mesure que leurs modèles et leur compréhension évoluent.

POUR ALLER PLUS LOIN

Découvrez davantage sur les travaux de l’équipe en matière de sécurité et de santé mentale :

Sources :

OpenAI News

L'indépendance de CLODCO est votre garantie.

Pour que l'actualité de l'IA reste sans filtre et sans concession, votre soutien est indispensable. Votre contribution est le seul moteur de notre liberté éditoriale.

Soutenir CLODCO