Une étude publiée en janvier 2026 évalue ChatGPT-4.0 Pro sur sa capacité à coder des analyses d'inférence causale en Python, R et Stata. Les résultats sont à la fois encourageants et inquiétants.

L'IA ÉCRIT-ELLE VRAIMENT VOTRE CODE ?

Depuis quelques années, ChatGPT et d'autres grands modèles de langage font partie du quotidien des étudiants, analystes, chercheurs et data scientists. Beaucoup utilisent déjà ces Outils pour générer une fonction Python, corriger une erreur de code, automatiser une tâche répétitive ou traduire rapidement un script d'un langage à un autre.

Mais il y a une différence majeure entre demander à ChatGPT d'écrire une petite fonction utilitaire et lui demander d'implémenter une méthode économétrique complexe. Peut-il coder correctement un modèle de Différence-de-différences ? Peut-il appliquer une pondération par probabilité inverse ? Peut-il reproduire une analyse de régression discontinue ? Et surtout, peut-il le faire non seulement en Python, mais aussi en R et en Stata ?

UNE ÉTUDE QUI CHANGE LA DONNE

C'est précisément ce que l'article « L'IA peut-elle écrire votre code ? Une étude de cas des capacités de codage statistique de ChatGPT pour la recherche quantitative » publié le 22 janvier 2026 dans la revue Health Economics Review cherche à déterminer. Les auteurs, Winberg et al., évaluent les performances de ChatGPT-4.0 Pro sur des tâches d'inférence causale en utilisant des solutions de référence issues de l'ouvrage Causal Inference: The Mixtape de Scott Cunningham.

La plupart des études précédentes sur ce sujet se concentraient sur des tâches de programmation relativement simples : petites automatisations, statistiques descriptives, nettoyage de données ou génération de code en Python, R ou SAS. Cette étude va plus loin. Elle interroge la capacité de ChatGPT à soutenir la recherche quantitative dans des contextes plus exigeants, où le code n'est pas seulement technique, mais aussi méthodologique.

TROIS MÉTHODES D'INFÉRENCE CAUSALE TESTÉES

Les auteurs se concentrent sur trois méthodes d'inférence causale largement utilisées :

  • Différence-de-différences (DiD) : une méthode qui compare les évolutions entre un groupe traité et un groupe non traité avant et après un événement.
  • Pondération par probabilité inverse du traitement (IPTW) : une technique qui ajuste les données pour réduire les biais dans les estimations causales.
  • Régression discontinue (RD) : une approche qui exploite les variations brutales autour d'un seuil pour estimer un effet causal.

Ces méthodes ont été choisies car elles sont couramment utilisées dans la recherche empirique et nécessitent plus qu'une simple génération de syntaxe. Elles demandent une préparation des données, une spécification du modèle et une interprétation des résultats.

UNE MÉTHODE D'ÉVALUATION RIGOUREUSE

Contrairement à la plupart des études qui évaluent les capacités de codage de ChatGPT de manière subjective, Winberg et al. adoptent une approche structurée. Ils comparent le code généré par ChatGPT avec des codes de référence standardisés et des sorties de référence issues de Causal Inference: The Mixtape. Cela leur permet d'évaluer le code non seulement sur son apparence, mais aussi sur sa capacité à reproduire les résultats attendus.

Un autre point important de cette étude est qu'elle inclut le langage Stata. Cela compte car de nombreux chercheurs en économie, en politiques publiques et en économie de la santé utilisent encore largement Stata. Pourtant, les discussions sur les assistants de codage par IA se concentrent principalement sur Python et R. En incluant Stata, les auteurs évaluent ChatGPT dans un langage très pertinent pour la recherche économétrique appliquée, mais moins analysé dans les études sur le codage par IA.

CHATGPT-4.0 PRO SOUS LA LOUPE

Les auteurs évaluent ChatGPT-4.0 Pro, la version payante de ChatGPT disponible au moment de l'étude. Leur objectif est de mesurer ses performances lorsqu'il est demandé de coder des analyses d'inférence causale en Python, R et Stata.

Ils utilisent des ensembles de données et des problèmes publics issus de Causal Inference: The Mixtape. Cet ouvrage, largement connu en économétrie appliquée, fournit des exemples avec du code en R, Stata et Python. Selon l'étude, les environnements de référence étaient R 3.6.0, Stata 18 et Python 3.13.

TROIS ÉTAPES POUR TESTER CHATGPT

L'étude se déroule en trois étapes :

1. Donner à ChatGPT des problèmes à résoudre et lui demander de générer du code pour les analyses économétriques pertinentes.

Par exemple, l'un des problèmes se concentre sur la méthode de Différence-de-différences. Le contexte est la légalisation de l'avortement dans cinq États américains avant la légalisation nationale suite à l'arrêt Roe v. Wade en 1973. La tâche consiste à estimer si la légalisation précoce de l'avortement a affecté l'incidence de la gonorrhée chez les adolescentes âgées de 15 à 19 ans.

Au lieu d'utiliser uniquement un simple indicateur post-traitement, l'invite demande à ChatGPT d'utiliser des interactions année-par-traitement pour capturer les effets dynamiques du traitement dans le temps. Ce type d'invite est plus complexe que de demander une régression basique. Il exige que le modèle comprenne le contexte politique, identifie l'indicateur de traitement, structure les termes d'interaction et génère un code approprié.

2. Fournir des invites plus complètes demandant à ChatGPT de reproduire des tâches de codage complètes issues de The Mixtape, incluant la gestion des données, l'analyse économétrique et la génération de figures.

Cela est important car les flux de travail de recherche réels sont rarement limités à une seule commande de modèle. Un chercheur doit généralement importer des données, nettoyer les variables, créer des indicateurs, estimer des modèles, générer des tableaux, produire des graphiques et comparer les résultats.

En testant des flux de travail complets, les auteurs évaluent si ChatGPT peut gérer la complexité pratique du travail quantitatif appliqué.

3. Exécuter le code généré dans l'environnement de programmation correspondant : Python, R ou Stata.

Les auteurs comparent ensuite les sorties produites par le code généré par ChatGPT avec les sorties de référence issues de The Mixtape.

DES INVITES CONÇUES POUR RÉDUIRE LES BIAIS

L'un des aspects les plus intéressants de l'étude est la manière dont les invites ont été conçues. Les auteurs ont recruté quatre chercheurs experts en méthodes économétriques. Deux étaient docteurs, et deux étaient doctorants. Trois chercheurs ont été assignés pour travailler avec un langage chacun : Python, R ou Stata. Le quatrième chercheur a reproduit l'ensemble du processus dans les trois langages pour valider les résultats et évaluer la cohérence.

Cette conception est utile car elle reflète la manière dont les chercheurs pourraient utiliser ChatGPT en pratique. Chaque chercheur interagit avec le modèle, génère du code, l'exécute, observe les erreurs et donne des retours.

Cependant, cela crée aussi un risque. Si chaque chercheur écrit des invites de manière indépendante, les résultats pourraient refléter des différences de style d'invite plutôt que des différences dans la capacité de codage de ChatGPT.

Pour réduire ce biais, les auteurs ont standardisé les invites. Ils ont développé collectivement des invites claires, structurées et suffisamment générales pour s'appliquer à différentes tâches. L'objectif était de fournir à ChatGPT suffisamment d'informations pour résoudre le problème sans suradapter l'invite à une tâche spécifique.

La qualité de la sortie dépend fortement de la qualité de l'invite. Si l'invite est vague, le modèle peut produire du code générique ou incorrect. Si l'invite est trop spécifique, il peut bien fonctionner sur une tâche mais échouer à se généraliser.

Une bonne invite doit fournir du contexte, spécifier la méthode attendue, définir les variables pertinentes, décrire la sortie souhaitée et clarifier les hypothèses.

CINQ CRITÈRES POUR ÉVALUER CHATGPT

Les auteurs évaluent les performances de ChatGPT selon cinq critères principaux : précision, efficacité, erreurs d'exécution, modifications nécessaires et cohérence.

Précision : Comparaison des résultats générés par le code de ChatGPT avec les sorties de référence de The Mixtape.

L'évaluation est binaire : si le résultat correspond à la référence, il est considéré comme précis. Sinon, il est considéré comme imprécis.

Efficacité : Comparaison du nombre de commandes utilisées dans le code généré par ChatGPT avec le nombre de commandes dans le code de référence standard.

Ce n'est pas une mesure parfaite de l'efficacité, mais elle donne une approximation utile.

Erreurs d'exécution : Documentation des erreurs d'exécution produites par le code généré par ChatGPT.

C'est l'un des indicateurs les plus pratiques. Lorsque le code ne s'exécute pas, l'utilisateur doit le déboguer. Si l'utilisateur ne comprend pas la méthode ou le langage de programmation, cela peut devenir un problème majeur.

Modifications nécessaires : Cas où le code ne produit pas d'erreur d'exécution mais nécessite des clarifications, un contexte supplémentaire ou des ajustements manuels pour obtenir la sortie correcte.

Cela est particulièrement important car tous les erreurs ne sont pas visibles. Un bloc de code peut s'exécuter sans planter mais produire un modèle incorrect, une mauvaise transformation de variable ou un graphique trompeur.

Cohérence : Évaluation de la cohérence lorsque le même chercheur répète les tâches avec les mêmes invites dans Python, R et Stata, avec un nouveau compte ChatGPT et sans historique de conversation préalable.

L'objectif est de déterminer si ChatGPT produit une logique et une structure similaires lorsque différents utilisateurs soumettent les mêmes invites. Cela compte car la reproductibilité est centrale dans la recherche. Si la même invite produit des codes très différents selon les sessions, les chercheurs doivent documenter et valider soigneusement les sorties.

LES RÉSULTATS : PYTHON ET R EN AVANT, STATA EN RETARD

La conclusion globale est nuancée. Voici un tableau qui résume les résultats.

ChatGPT a performé mieux en Python et en R qu'en Stata. Les auteurs indiquent que ChatGPT a généré du code et des résultats précis en R et Python pour la plupart des tâches, tandis que Stata était moins fiable.

Python et R sont largement utilisés en science des données, en statistiques et en apprentissage automatique. Ils disposent également de grandes communautés en ligne, d'une documentation extensive et de nombreux exemples de code disponibles publiquement. Comme les grands modèles de langage apprennent à partir de grandes quantités de données textuelles et de code, il est raisonnable de s'attendre à ce qu'ils performent mieux dans les langages disposant de plus d'exemples publics.

Cependant, cette interprétation doit être traitée avec prudence. L'étude n'est pas un benchmark à grande échelle couvrant des milliers de tâches. Il s'agit d'une étude de cas basée sur des ensembles de problèmes économétriques sélectionnés. Par conséquent, nous ne devrions pas conclure que ChatGPT est universellement meilleur en Python ou en R qu'en Stata dans tous les contextes.

Pour les tâches d'inférence causale testées dans cette étude, ChatGPT est apparu plus fiable en Python et en R qu'en Stata.

COMMENT L'IA A TRANSFORMÉ MON TRAVAIL

Ce qui rend cette étude particulièrement intéressante, c'est qu'elle ne traite pas seulement une question théorique. Elle se connecte directement à ce que l'auteur observe dans son propre travail, tant à la maison qu'en milieu professionnel. Dans le passé, une grande partie du travail pour mener une étude quantitative ou développer une méthodologie statistique était consacrée à la revue de littérature. Il fallait identifier les bons articles scientifiques, comprendre les méthodes utilisées, comparer différentes approches, puis décider comment les appliquer à ses propres données.

Avec ChatGPT, cette phase exploratoire est beaucoup plus rapide. Cela ne remplace pas la lecture critique des articles scientifiques, mais cela aide à structurer la recherche initiale, à identifier plus rapidement les concepts clés et à formuler plus clairement les questions méthodologiques.

Le changement a été encore plus visible en milieu professionnel, notamment dans la manière dont les langages de programmation sont utilisés. Auparavant, l'équipe utilisait principalement SAS pour l'extraction, la préparation et le traitement des données. SAS reste un outil très efficace pour gérer de grands volumes de données dans un environnement professionnel. Cependant, pour la modélisation statistique, l'équipe se tournait souvent vers R, qui était plus pratique pour l'estimation, la visualisation et l'expérimentation méthodologique.

Avec l'essor des grands modèles de langage, l'équipe a progressivement décidé de déplacer une part significative de son travail vers Python. Cette décision ne découlait pas seulement du fait que Python est simple et largement utilisé. Elle venait aussi d'une observation très pratique : selon l'expérience de l'équipe, des outils comme ChatGPT fournissent généralement de meilleures réponses en Python, avec moins d'erreurs et plus d'exemples réutilisables.

L'équipe n'a pas mené une étude scientifique aussi structurée que celle de Winberg et al., mais elle est parvenue à cette conclusion grâce aux retours des modélisateurs de l'équipe et dans le cadre d'un choix stratégique à long terme. En pratique, l'IA a influencé non seulement la manière dont le code est écrit, mais aussi l'infrastructure utilisée. L'équipe est passée d'un environnement centré sur SAS Studio et RStudio à un flux de travail plus orienté vers VS Code, car il s'intègre plus facilement avec des outils comme ChatGPT, Claude et GitHub Copilot.

Ce changement peut sembler technique, mais il est en réalité profond. L'IA n'améliore pas seulement la productivité. Elle influence aussi les langages que l'on choisit, les outils que l'on utilise et la manière dont on organise ses flux de travail.

LA COLLECTE DE DONNÉES EXTERNES, UNE TÂCHE RAPIDEMENT TRANSFORMÉE

Un autre exemple concret est la collecte de données externes. Dans leur travail, l'équipe a parfois besoin de jeux de données publics : données de l'INSEE, données climatiques, scénarios du GIEC, données du NGFS pour les tests de stress climatique, ou d'autres jeux de données utilisés dans la modélisation des risques ESG.

Dans le passé, ce type de tâche pouvait prendre plusieurs jours, voire plusieurs semaines. Il fallait trouver la bonne source, comprendre la structure des fichiers, télécharger les données, les nettoyer, les reformater et les rendre utilisables pour les modèles. Aujourd'hui, avec les grands modèles de langage, ce processus peut être significativement accéléré.

Récemment, par exemple, l'auteur a voulu récupérer les codes NAF de l'INSEE, ainsi que leurs libellés, dans un format directement utilisable. Dans le passé, cette tâche aurait probablement pris plusieurs heures. Avec quelques invites bien structurées, il a rapidement obtenu un script qui récupérait les données, nettoyait les codes, supprimait les points et produisait un fichier Excel prêt à l'emploi. Ce n'est pas seulement un gain de temps. Cela réduit aussi la friction entre une idée et son exécution.

Selon l'auteur, c'est l'une des contributions les plus importantes des grands modèles de langage pour les statisticiens et les analystes quantitatifs. Ils sont très utiles pour le traitement des données, la modélisation statistique, la programmation mathématique, la rédaction de rapports et la mise en forme des résultats.

Ils sont également devenus précieux pour produire des livrables : structurer des documents, améliorer des explications, mettre en forme des tableaux, décrire des figures et interpréter des résultats. Les versions antérieures de ChatGPT faisaient encore beaucoup d'erreurs dans ces tâches, notamment en raison d'un raisonnement technique insuffisant et de références incorrectes. Les modèles récents sont bien meilleurs, bien qu'ils nécessitent toujours une validation minutieuse.

Dans son travail, l'auteur voit ces outils davantage comme des assistants de recherche très rapides que comme des experts autonomes. Ils peuvent accomplir en quelques heures ce qu'une équipe aurait pu confier à un assistant de recherche pendant plusieurs jours : explorer une méthode, proposer du code, générer une première version d'un graphique, reformuler une interprétation ou automatiser une partie d'un rapport.

Mais cette rapidité s'accompagne d'une condition : la supervision humaine et la validation restent essentielles.

LES HALLUCINATIONS, UN RISQUE BIEN RÉEL

Le risque d'hallucination n'est pas théorique. Un exemple récent l'a démontré clairement : selon le Financial Times, EY Canada a retiré une étude utilisée pour promouvoir ses services de cybersécurité après avoir découvert qu'elle contenait des données fabriquées, des citations mal attribuées et même une référence à un rapport McKinsey qui n'existait pas.

C'est précisément pour cette raison que l'auteur trouve l'étude de Winberg et al. intéressante. Elle ne se contente pas de demander si ChatGPT peut écrire du code. Elle pointe vers une question plus importante : dans quelles conditions peut-on faire confiance au code généré par l'IA ?

Pour l'auteur, la réponse est claire. On peut utiliser les grands modèles de langage pour travailler plus vite, mais pas pour se soustraire à la responsabilité du chercheur. Le chercheur doit toujours vérifier les hypothèses, valider les données, tester le code, comparer les résultats avec les références et s'assurer que l'interprétation est correcte.

En d'autres termes, l'IA change profondément la manière dont on travaille, mais elle ne supprime pas le besoin d'expertise. Au contraire, elle la rend encore plus importante. Plus l'outil est puissant, plus il est nécessaire de savoir quand lui faire confiance et quand ne pas le faire.

L'ADOPTION DES OUTILS D'IA : UNE TRANSFORMATION EN MARCHE

L'adoption des outils d'IA continuera de transformer la manière dont on travaille. Certains processus deviendront plus efficaces, d'autres disparaîtront, et des flux de travail plus sophistiqués émergeront. Pour rester compétitif, il faut continuer à apprendre, à travailler et à être prêt à intégrer ces outils dans sa vie professionnelle.

Dans le même temps, l'IA changera aussi la manière dont le savoir est produit et partagé. Parce que ces outils améliorent la productivité, un article qui nécessitait autrefois un mois de travail peut désormais parfois être achevé en une semaine. C'est une bonne chose à bien des égards : cela réduit la barrière à l'écriture, aide plus de gens à partager des idées et accélère la circulation des connaissances.

Mais cela crée aussi un nouveau défi. Si tout le monde peut produire plus de contenu plus rapidement, Internet deviendra encore plus saturé. La portée de chaque article ne sera peut-être plus la même qu'avant. Certains rédacteurs pourraient se décourager, surtout si leur travail reçoit moins de visibilité malgré l'effort fourni.

Selon l'auteur, cela créera une nouvelle forme d'inégalité entre ceux qui savent utiliser l'IA efficacement et ceux qui ne le savent pas, mais aussi entre ceux qui écrivent uniquement pour produire du contenu et ceux qui écrivent parce qu'ils se soucient vraiment du sujet.

À long terme, l'auteur croit que ceux qui resteront seront ceux qui sont genuinely passionnés, ceux qui veulent apprendre, réfléchir profondément et partager des connaissances avec les autres. L'IA peut rendre l'écriture plus rapide, mais elle ne remplacera pas la curiosité, la discipline et le désir de contribuer quelque chose de significatif.

Sources :
  • Towards Data Science

L'indépendance de CLODCO est votre garantie.

Pour que l'actualité de l'IA reste sans filtre et sans concession, votre soutien est indispensable. Votre contribution est le seul moteur de notre liberté éditoriale.

Soutenir CLODCO