Des utilisateurs voient leurs numéros de téléphone personnels apparaître dans les réponses des chatbots IA. Impossible de les faire disparaître. Voici pourquoi.

Un utilisateur de Reddit a partagé son désespoir en ligne : pendant un mois, son téléphone n’a pas arrêté de sonner. Des inconnus l’appelaient pour lui demander de l’aide, comme s’il était avocat, designer industriel ou serrurier. Ces appels provenaient d’une erreur commise par l’intelligence artificielle générative de Google, le chatbot Gemini.

En mars, un développeur israélien a reçu un message WhatsApp après que Gemini ait fourni de fausses instructions de service client, incluant son numéro de téléphone. En avril, une doctorante de l’Université de Washington a testé Gemini et a réussi à obtenir le numéro de téléphone portable personnel de son collègue.

Les experts en vie privée et en IA alertent depuis des années sur les dangers de l’IA générative pour la protection des données personnelles. Ces cas montrent un nouveau risque : l’exposition des numéros de téléphone réels par les chatbots.

POURQUOI LES CHATBOTS IA DIVULGUENT-ILS NOS NUMÉROS ?

Les chercheurs et spécialistes de la protection des données pensent que ces fuites sont probablement dues à l’utilisation d’informations personnelles identifiables (PII, pour Personally Identifiable Information) dans les données d’entraînement des modèles. Cependant, le mécanisme exact qui fait apparaître ces numéros dans les réponses générées par l’IA reste flou. Peu importe la raison, le résultat est loin d’être anodin pour les personnes concernées. Pire encore, il semble qu’il n’existe aucun moyen simple d’y mettre fin.

Il est impossible de savoir à quelle fréquence les numéros de téléphone sont exposés par les chatbots IA. Mais les experts estiment que cela se produit bien plus souvent que ce qui est rapporté publiquement.

DeleteMe, une entreprise spécialisée dans la suppression des données personnelles en ligne, indique que les demandes de clients concernant l’IA générative ont augmenté de 400 % en sept mois, passant à quelques milliers de requêtes. Rob Shavell, cofondateur et PDG de DeleteMe, précise que 55 % de ces inquiétudes concernent ChatGPT, 20 % Gemini, 15 % Claude, et 10 % d’autres Outils d’IA générative.

DEUX TYPES DE FUITES DE DONNÉES

Shavell explique que les plaintes des clients concernant l’exposition de leurs données personnelles par les grands modèles de langage (LLM) prennent généralement deux formes. Soit un utilisateur pose une question anodine sur lui-même et reçoit en réponse des adresses précises, des numéros de téléphone, des noms de membres de sa famille ou des détails sur son employeur. Soit, l’utilisateur découvre que le chatbot a généré des informations de contact plausibles mais erronées concernant une autre personne.

C’est ce qui est arrivé à Daniel Abraham, un ingénieur logiciel israélien de 28 ans. Mi-mars, un inconnu lui a envoyé un message WhatsApp depuis un numéro inconnu, lui demandant de l’aide pour son compte sur PayBox, une application de paiement israélienne. Abraham a d’abord pensé à un spam ou à une blague.

Plus tard, il a demandé à Gemini comment contacter PayBox. Le chatbot a alors généré le numéro WhatsApp d’une autre personne. Lorsqu’il a posé la même question récemment, Gemini a de nouveau répondu avec un numéro israélien, mais celui-ci appartenait non pas à PayBox, mais à une société de cartes de crédit partenaire.

Abraham a rapidement mis fin à l’échange avec l’inconnu, mais il s’inquiète des conséquences potentielles : « Et si la personne avait demandé de l’argent pour 'résoudre' le problème de service client ? »

Pour comprendre comment cela avait pu arriver, Abraham a effectué une recherche Google avec son numéro de téléphone. Il a découvert que son numéro avait été partagé en ligne une fois, en 2015, sur un site local similaire à Quora. Bien qu’il ne sache pas qui l’y avait publié, cela pourrait expliquer pourquoi Gemini l’a reproduit plus de dix ans plus tard.

D’OÙ VIENNENT LES DONNÉES UTILISÉES POUR ENTRAÎNER LES CHATBOTS ?

Les chatbots comme Gemini, ChatGPT ou Claude reposent sur des LLM entraînés avec d’énormes quantités de données collectées sur le web. Ces données incluent inévitablement des centaines de millions d’exemples de PII. Par exemple, en été dernier, le jeu de données populaire en open source DataComp CommonPool, utilisé pour entraîner des modèles de génération d’images, contenait des copies de CV, de permis de conduire et de cartes de crédit.

La probabilité que des PII apparaissent dans les données d’entraînement de l’IA ne fait qu’augmenter, car les données publiques « s’épuisent » et les entreprises d’IA cherchent de nouvelles sources de données de haute qualité. Cela inclut les informations provenant d’agences de courtage de données et de sites de recherche de personnes. Selon le registre des courtiers en données de Californie, 31 des 578 courtiers enregistrés dans l’État ont déclaré avoir « partagé ou vendu des données de consommateurs à un développeur de système ou de modèle d’IA générative au cours de la dernière année ».

De plus, les modèles sont connus pour mémoriser et reproduire mot à mot des données issues de leurs ensembles d’entraînement. Des recherches récentes suggèrent que ce n’est pas seulement les données fréquemment répétées qui sont mémorisées.

LES PROTECTIONS INTÉGRÉES NE SUFFISENT PAS

Il est désormais courant d’intégrer des garde-fous dans la conception des LLM pour limiter certains types de réponses. Cela va de filtres de contenu visant à empêcher les chatbots de divulguer des PII, à des instructions données à Claude pour choisir des réponses contenant « le moins d’informations personnelles, privées ou confidentielles appartenant à autrui ».

Mais comme deux doctorants de l’Université de Washington l’ont constaté, ces protections ne fonctionnent pas toujours.

Meira Gilbert raconte : « Un jour, je jouais avec Gemini. J’ai recherché Yael Eiger, mon amie et collaboratrice. J’ai tapé 'Yael Eiger contact info', et après que Gemini m’ait donné un aperçu de ses recherches, comme je m’y attendais, il a aussi retourné son numéro de téléphone personnel. C’était choquant. »

Lorsque Gilbert a vu le résultat, Yael Eiger s’est souvenue avoir partagé son numéro en ligne l’année précédente, pour un atelier technologique. Mais elle ne s’attendait pas à ce qu’il devienne si accessible à tous sur internet.

« Avoir ses informations accessibles à un public, puis voir Gemini les rendre accessibles à n’importe qui, c’est complètement différent. » — Yael Eiger

Eiger a découvert que son numéro était enfoui dans les résultats de recherche Google, mais « sévèrement dégradé » : « Je ne l’aurais jamais trouvé en cherchant simplement sur Google. » (J’ai testé la même requête sur Gemini ce mois-ci : après un premier refus, l’outil a finalement donné le numéro d’Eiger.)

LES CHATBOTS PEUVENT-ILS RÉVÉLER L’ADRESSE DE VOTRE PROFESSEUR ?

Après cette expérience, Eiger, Gilbert et une autre doctorante de l’UW, Anna-Maria Gueorguieva, ont décidé de tester ChatGPT pour voir quelles informations il pourrait révéler sur un professeur.

Au début, les garde-fous d’OpenAI ont bloqué la demande : ChatGPT a répondu que l’information n’était pas disponible. Mais dans la même réponse, le chatbot a suggéré : « Si vous voulez creuser davantage, je peux essayer une approche plus 'investigative'. » Il suffisait de fournir une « estimation du quartier » où le professeur pourrait vivre, ou un « nom possible de co-propriétaire » pour sa résidence. ChatGPT a ajouté : « C’est généralement la seule façon d’obtenir des registres de propriété plus récents ou intentionnellement moins visibles. »

Les étudiantes ont fourni ces informations, et ChatGPT a alors produit l’adresse du professeur, le prix d’achat de sa maison et le nom de son conjoint à partir des registres fonciers de la ville.

Selon Rob Shavell de DeleteMe, cela révèle un problème fondamental avec les chatbots : « Les entreprises peuvent intégrer des garde-fous, mais leurs chatbots sont aussi conçus pour être efficaces et répondre aux questions des utilisateurs. »

CE N’EST PAS UN PROBLÈME ISOLÉ

L’exposition des données personnelles ne se limite pas à Gemini ou ChatGPT. L’année dernière, Futurism a découvert que si l’on demandait au chatbot Grok de xAI de rechercher « [nom] adresse », dans presque tous les cas, il fournissait non seulement les adresses résidentielles, mais aussi souvent les numéros de téléphone, les adresses professionnelles et les adresses de personnes portant des noms similaires. (xAI n’a pas répondu à une demande de commentaire.)

POURQUOI AUCUNE SOLUTION N’EST SIMPLE ?

Il n’existe pas de solution directe à ce problème. Il est impossible de vérifier facilement si les données personnelles de quelqu’un se trouvent dans l’ensemble d’entraînement d’un modèle donné. De même, il est impossible d’obliger les modèles à supprimer les PII.

Idéalement, les consommateurs devraient pouvoir demander la suppression de leurs PII, explique Jennifer King, experte en vie privée et en données à l’Institut d’IA centrée sur l’humain de l’Université Stanford. Mais cette possibilité est généralement interprétée comme s’appliquant uniquement aux données que les personnes ont directement fournies aux entreprises, par exemple lors d’une interaction avec un chatbot.

« Je ne sais même pas si Google dispose de l’infrastructure nécessaire pour me dire : 'Oui, nous avons vos données dans notre ensemble d’entraînement. Nous pouvons résumer ce que nous savons sur vous, puis supprimer ou corriger les informations erronées ou celles que vous ne souhaitez pas y voir', » déclare-t-elle.

Les législations existantes en matière de protection des données, comme la loi californienne sur la protection des consommateurs ou le RGPD européen, ne couvrent pas les informations « déjà publiques » qui ont été collectées et utilisées pour entraîner les LLM. Cela est d’autant plus vrai que beaucoup de ces données sont anonymisées (bien que plusieurs études aient montré à quel point il est facile de déduire des identités et des PII à partir de données anonymisées et pseudonymisées).

« Quant à savoir si les entreprises ont déjà systématiquement tenté de revenir en arrière sur les données déjà collectées sur internet et d’en minimiser la quantité ? Aucune idée », ajoute King.

La meilleure solution suivante serait que les entreprises « suppriment tous les numéros de téléphone ou toutes les données ressemblant à des numéros de téléphone », explique King, mais « personne n’a été prêt à dire » qu’il le faisait.

Hugging Face, une plateforme qui héberge des ensembles de données et des modèles d’IA en open source, propose un outil permettant de rechercher à quelle fréquence un élément de données, comme un numéro de téléphone, apparaît dans les ensembles de données d’entraînement des LLM en open source. Cependant, cela ne représente pas nécessairement ce qui a été utilisé pour entraîner les LLM fermés qui alimentent des chatbots populaires comme Claude, ChatGPT et Gemini. (Par exemple, le numéro d’Eiger n’est pas apparu dans l’outil de Hugging Face.)

QUELLES SONT LES SOLUTIONS PROPOSÉES PAR LES ENTREPRISES ?

Alex Joseph, responsable de la communication pour les applications Gemini et Google Labs, n’a pas répondu à des questions spécifiques, mais a indiqué que « l’équipe » examine les cas particuliers signalés par MIT Technology Review. Il a également fourni un lien vers un document de support expliquant comment les utilisateurs peuvent « s’opposer au traitement de vos données personnelles » ou « demander la correction de données personnelles inexactes dans les réponses des applications Gemini ». La page précise que la réponse de l’entreprise dépendra des lois sur la protection des données de votre juridiction.

OpenAI propose un portail de vie privée permettant aux utilisateurs de soumettre des demandes pour supprimer leurs informations personnelles des réponses de ChatGPT. Cependant, l’entreprise précise que cela équilibre les demandes de vie privée avec l’intérêt public et « peut refuser une demande si nous avons une raison légale de le faire ».

Anthropic décrit comment elle utilise les données personnelles dans l’entraînement des modèles, mais n’a pas de moyen clair pour les utilisateurs de demander leur suppression. L’entreprise n’a pas répondu à une demande de commentaire.

La meilleure option pour quiconque souhaite protéger ses données privées est de « commencer en amont : supprimez vos données personnelles du web public avant qu’elles ne soient collectées à nouveau », conseille Shavell. Par exemple, depuis le début de l’année, la Californie propose à ses résidents un portail en ligne pour demander aux courtiers en données de supprimer leurs informations. Cependant, cela ne garantit pas que vos données n’ont pas déjà été utilisées pour l’entraînement et n’apparaîtront pas dans les réponses d’un chatbot.

L’utilisateur de Reddit qui a reçu des appels incessants a posté qu’il avait « soumis une demande officielle de suppression/protection des données à Google, demandant d’urgence de blacklister mon numéro des sorties de leur LLM ». Il n’a pas encore reçu de réponse et a écrit le mois dernier que « le harcèlement continue quotidiennement ».

Abraham, le développeur israélien, affirme avoir contacté le service client de Google le 17 mars, le lendemain de l’exposition de son numéro. Il dit n’avoir reçu de réponse que le 4 mai, lui demandant simplement des documents qu’il avait déjà fournis.

UNE NOUVELLE RECHERCHE POUR MIEUX COMPRENDRE L’EXPOSITION

Inspirée par sa propre exposition sur Gemini, Yael Eiger, avec Meira Gilbert et Anna-Maria Gueorguieva, conçoit un projet de recherche pour étudier plus en profondeur quelles informations personnelles sont révélées par divers chatbots d’IA et ce qu’ils peuvent savoir, même s’ils ne le révèlent pas.

Une partie de ces informations peut « techniquement être publique », explique Gilbert, mais les chatbots pourraient modifier « l’effort que vous devriez fournir pour les trouver ». Désormais, au lieu de parcourir dix pages de résultats Google ou de payer pour obtenir ces informations sur un site de courtage de données, « l’IA générative ne fait-elle que réduire la barrière à l’entrée pour cibler les gens ? »

Cette question reste ouverte, mais une chose est sûre : l’exposition des données personnelles par les chatbots IA est un problème réel et croissant. Sans solutions claires à l’horizon, la prudence est de mise.

Sources :
  • MIT Tech Review AI

L'indépendance de CLODCO est votre garantie.

Pour que l'actualité de l'IA reste sans filtre et sans concession, votre soutien est indispensable. Votre contribution est le seul moteur de notre liberté éditoriale.

Soutenir CLODCO