Il ne décroche aucun entretien : l'IA a-t-elle saboté sa candidature en médecine ?

Chad Markey, étudiant en médecine, multiplie les refus. Convaincu qu’un outil de tri par IA a mal interprété son dossier, il consacre six mois à décortiquer l’algorithme.

UN AUTOMNE OBSESSIONNEL

Mi-octobre, à Hanover, New Hampshire, Chad Markey profitait d’une rare pause entre deux rotations cliniques. Au lieu de respirer l’air de la montagne et de plaisanter avec ses camarades de Dartmouth, il restait seul dans son appartement, prêt à en découdre.

Chaque matin, petit-déjeuner, puis il ouvrait son portable et se mettait à coder. Parfois, il ne remarquait pas la tombée de la nuit jusqu’à ce qu’un colocataire rentre et lui demande pourquoi les lumières étaient éteintes.

DES REJETS QUI NE PASSAIENT PAS

Depuis des jours, Markey parcourait un groupe Discord dédié à la résidence médicale. Des étudiants y annonçaient leurs invitations à des entretiens. Lui ne recevait que des refus. Cela lui semblait absurde : ce Texan de 33 ans, calme et sûr de ses accomplissements, affichait de bonnes notes en école de médecine Ivy League, une dizaine de publications dans le Journal of the American Medical Association et The Lancet, une lettre de motivation poignante et des recommandations élogieuses. Un professeur avait écrit n’avoir « jamais rencontré un étudiant en médecine plus habile, talentueux et adapté à sa vocation ».

Markey éplucha sa candidature à la Recherche d’un défaut rédhibitoire. N’en trouvant aucun, ses soupçons se tournèrent vers l’intelligence artificielle. Il avait entendu dire que certains hôpitaux utilisaient un outil gratuit de tri automatisé, et que celui-ci affichait parfois des notes erronées.

LA PISTE DE L’INTELLIGENCE ARTIFICIELLE

Sur la première page de son MSPE (Évaluation de performance de l’étudiant en médecine), un résumé de son parcours rédigé par l’école, Markey repéra une formulation susceptible de déclencher un filtre automatique. Le document indiquait qu’il avait « volontairement » pris trois congés, totalisant environ 22 mois, et choisi d’étaler sa troisième année sur deux ans pour « raisons personnelles ».

Or, ce n’était pas tout à fait exact. En 2021, Markey avait été diagnostiqué d’une spondylarthrite ankylosante, une maladie auto-immune affectant la colonne vertébrale. Ses absences, médicalement nécessaires, l’empêchaient de se tenir debout. Il devait obtenir son diplôme en sept ans au lieu de quatre. Qualifier ces congés de « volontaires » pouvait laisser croire qu’il avait craqué sous la pression.

« Je suis sorti d’un putain de trou noir », confiait Markey. « Je ne pouvais pas marcher pendant six mois. Être arrivé jusque-là, et me heurter à ça ? »

UN MAL PROFOND

La question qui taraude des millions de chercheurs d’emploi chaque jour : une IA a-t-elle mis mon dossier à la poubelle ? Même les recruteurs l’admettent. Le PDG d’une plateforme de recrutement évoquait à l’automne dernier une « boucle infernale de l’IA » : les RH submergés par des candidatures générées par IA utilisent plus de filtres IA ; les candidats se plaignent d’être injustement écartés. Certains ripostent en bourrant leur CV de mots-clés. « C’est très dystopique, mon employabilité se réduit à ma capacité à franchir des portes automatiques », témoignait un demandeur d’emploi.

UNE RÉGULATION LÉGÈRE

Quelques États seulement ont encadré ces outils. Les lois de l’Illinois, du New Jersey et du Colorado (pas encore en vigueur) interdisent les discriminations mais n’exigent guère de transparence au-delà d’une notification. La Californie va plus loin, imposant des tests de biais réguliers. Aucune de ces règles ne permet à un individu de comprendre comment il a été jugé.

UNE PLONGÉE DE SIX MOIS

Markey entama alors une tâche impossible. Pendant six mois, il écrivit des courriels, des articles, des demandes juridiques et lignes de code Python, cherchant à voir à l’intérieur de l’algorithme. « C’est devenu une obsession », confiait-il en février. « Je crois que je n’ai jamais été aussi contrarié de ma vie. »

UN PARCOURS MARQUÉ PAR LE HANDICAP

Sa première formation médicale remonte au lycée, quand il triait les médicaments de son père bipolaire et alcoolique, homme charismatique mais imprévisible. Un Noël, son père ne vint pas car arrêté pour conduite en état d’ivresse ; un autre, la voiture familiale fut saisie pour un prêt sur gage. Pendant ses études, financées par des bourses, sa famille perdit sa maison. Son père mourut quand il avait 21 ans.

Markey se souvient du moment où il s’est tourné vers la psychiatrie : son père lui expliqua que, en phase maniaque, seule une bouteille de vodka le faisait dormir. « C’est triste de penser que si je lui avais dit d’aller voir un psychiatre pour une prescription de Seroquel à faible dose, on ne sait pas ce qui aurait pu arriver. » Il abandonna alors Wall Street pour l’informatique de santé, puis la médecine. L’été avant Dartmouth, en 2019, sa spondylarthrite s’aggrava. Il dut prendre congé de ses études.

L’AFFLUX DE CANDIDATURES

Pendant ce temps, la pandémie bouleversait le milieu médical. Les entretiens de résidence devenus virtuels firent exploser le nombre de candidatures : Markey postula à 82 programmes. Cette masse rendit le tri plus difficile. En 2023, l’AAMC (Association des facultés de médecine américaines) s’associa à Thalamus, créateur de Cortex, un outil de filtrage gratuit pour les programmes de résidence à partir de 2025.

Cortex affiche les dossiers dans un tableau de bord, permet des recherches par mot-clé et utilise des modèles d’OpenAI pour harmoniser les notes entre écoles aux pratiques différentes. Environ 1 500 programmes (30 %) l’ont utilisé pendant le cycle 2025–2026.

LES PREMIERS COUACS

Des problèmes apparurent dès la rentrée de septembre 2025 : certains hôpitaux signalèrent que Cortex affichait des notes erronées. Dans le groupe Discord de Markey, les rumeurs enflaient. Alors que son anxiété culminait, une bonne nouvelle arriva : un résumé de recherche qu’il avait soumis fut accepté pour une présentation à la Société américaine d’hématologie et publié dans la revue Blood.

Markey écrivit alors aux coordinateurs de ses programmes préférés pour partager cette publication. La réaction fut quasi immédiate : en une heure et quart, il reçut une réponse enthousiaste du chef de l’un de ces programmes, suivie d’une invitation à un entretien. D’autres suivirent. « C’était comme si c’était la première fois qu’ils voyaient sa candidature », estimait-il. « Les places étaient déjà prises par les cent meilleurs candidats du tableau de bord. »

LA CONTROVERSE PERSISTE

Le 16 octobre, Thalamus publia un billet de blog : seules 10 erreurs vérifiées sur plus de 4 000 demandes, soit une fiabilité de « 99,3 % ». Mais un manque de clarté sur l’utilisation de l’IA suscita des critiques. Steven Pletcher, chirurgien ORL à l’Université de Californie, San Francisco, entendit parler de notes « complètement fausses » et voulut enquêter.

99,3 % de fiabilité affichée par Thalamus, mais des doutes subsistent après des témoignages de notes aberrantes.

Avec ses collègues, il testa Cortex et constata que les notes d’un même candidat pouvaient changer de minute en minute. En janvier, ils publièrent dans The Laryngoscope un article décrivant des « erreurs persistantes susceptibles de nuire aux candidats ».

THALAMUS SE DÉFEND

Jason Reminick, PDG de Thalamus, attribua ces variations à une manipulation trop rapide des graphiques, sans impact sur les résultats. Il affirma n’avoir reçu aucune autre plainte. Thalamus demanda la rétractation de l’article, sans succès.

Dans une déclaration, l’entreprise précisa que Cortex « n’est pas un outil de décision, n’utilise pas l’IA pour trier, filtrer, exclure, noter ou classer les candidats ». Elle regrettait que l’accent n’ait pas été mis sur le caractère limité de ces fonctions.

LA RÉPONSE FLOUE DE THALAMUS

Markey, lui, n’avait pas eu cette information. Il interrogea le support de Thalamus sur la prise en compte des congés maladie. La réponse resta vague : « Tout dépend de la configuration choisie par le programme. » Il décida donc de tester lui-même l’éventuel biais.

L’OPACITÉ DE L’IA

Même pour des auditeurs professionnels, il est impossible de comprendre pourquoi un algorithme a pris une décision donnée, rappelait Shea Brown, PDG de la société d’audit Babl AI. Avec un modèle de langage, « le cœur du raisonnement reste opaque, et toute explication sur l’origine d’une décision est cachée ». Seule une approche agrégée permet de détecter des discriminations, par exemple en comparant les scores de candidats handicapés à qualifications égales. « On ne peut pas le faire causalement à partir d’un seul dossier », soulignait-il.

LE TEST DU LANGAGE

Markey commença donc par comparer trois versions de son MSPE à l’aide d’outils d’équité recommandés par l’AAMC. Les résultats suggéraient qu’un algorithme de traitement du langage naturel pourrait interpréter différemment les congés pour « raisons personnelles » de ceux pour « condition médicale ».

Il utilisa ensuite VADER, un modèle open source d’analyse de sentiment, et obtint un score plus positif pour la description médicalement exacte. Puis il créa un jeu de données synthétiques de 6 000 candidats fictifs, avec notes, publications, lettres de recommandation, répartis en deux cohortes : l’une avec le langage de son MSPE, l’autre avec la version corrigée.

UN MILLIER DE CANDIDATS SYNTHÉTIQUES

À qualifications égales, les candidats au dossier médicalement exact avaient 66 % de chances supplémentaires de figurer dans les meilleurs 12 % lorsqu’il utilisa une régression logistique.

Les candidats au dossier médicalement exact avaient 66 % de chances de plus d’être retenus.

Mais cette simulation ne reflétait qu’un algorithme générique. Markey voulait comprendre Cortex lui-même.

LE BREVET MEDICRATIC

Il mit la main sur le brevet d’un filtre de candidatures développé par Medicratic, société rachetée par Thalamus en 2025. S’aidant de GitHub Copilot puis de Claude Code (Anthropic), il reconstitua le pipeline décrit, en substituant certains modules par ses propres recherches. Pour pondérer les critères, il éplucha la littérature sur la sélection en résidence.

DES SCORES TRÈS DIFFÉRENTS

Quelques semaines avant le Match Day (20 mars), son système était prêt. En modifiant uniquement la formulation de son congé maladie, le score variait fortement : la version médicalement exacte obtenait un score significativement plus élevé.

LA DEMANDE DE DIVULGATION

Markey adressa alors à Thalamus une demande d’accès aux données, en vertu de la loi sur la vie privée du New Hampshire. Il exigeait l’ensemble des informations le concernant, les paramètres de notation, les scores et les analyses de sentiment. L’entreprise avait 45 jours pour répondre.

RÉACTIONS DES PROGRAMMES DE RÉSIDENCE

Sollicités, la plupart des 82 programmes n’ont pas répondu ou ont refusé de commenter. Cinq ont indiqué ne pas avoir utilisé Cortex. Yale New Haven Health a déclaré que ses programmes de résidence avaient essayé

Sources :

Wired AI

L'indépendance de CLODCO est votre garantie.

Pour que l'actualité de l'IA reste sans filtre et sans concession, votre soutien est indispensable. Votre contribution est le seul moteur de notre liberté éditoriale.

Soutenir CLODCO