Une équipe a divisé par deux sa facture d'inférence IA en huit semaines. Trois mois plus tard, la satisfaction client s'effondrait. Ce piège structurel menace toutes les entreprises qui optimisent leurs coûts. Voici pourquoi et comment l'éviter.

LE PIÈGE DU ROUTAGE ÉCONOMIQUE : QUAND LES ÉCONOMIES TUENT LE PRODUIT

Les couches de routage optimisé par coût sont un piège de Pareto. La facture baisse. Le produit se brise. La plupart des équipes mettent trois mois à s’en rendre compte.

Une équipe avec laquelle je travaillais a réduit de plus de moitié sa facture d’inférence IA au dernier trimestre. Huit semaines d’ingénierie propre. C’était la victoire que l’équipe technique poursuivait depuis un an. C’était aussi la mauvaise optimisation. Trois mois plus tard, la satisfaction client chutait, le taux d’attrition augmentait, et les économies étaient directement liées à la perte de qualité. On n’avait pas gagné. On avait juste déplacé le coût là où on ne le mesurait pas.

Ce schéma va se répéter dans presque tous les déploiements d’IA en production d’ici six mois.

La conversation de 2026 autour de l’économie de l’IA a produit un livre de jeu consensuel. Envoyer les requêtes simples vers les modèles bon marché. Garder les requêtes complexes sur les modèles performants. Réduire la facture, conserver la qualité. Chaque directeur financier a vu les chiffres. Chaque équipe technique l’a construit ou est en train de le faire.

CE QUE L'ÉQUIPE A CONSTRUIT : UNE ARCHITECTURE PROPRE ET LOGIQUE

L’équipe gérait un agent d’IA de support client pour un produit SaaS avec environ 4 millions d’utilisateurs actifs par mois. L’agent fonctionnait sur un seul modèle performant, le modèle de raisonnement le plus haut de gamme de leur pile à l’époque. Le volume d’inférence était suffisamment élevé pour que la facture mensuelle de leur fournisseur de modèles atteigne six chiffres et continue d’augmenter avec l’adoption.

La couche de routage était conceptuellement propre. Un petit modèle de classification, entraîné sur environ 200 000 requêtes historiques de support client avec des étiquettes de qualité, se plaçait devant l’agent principal et étiquetait chaque requête entrante comme « simple » ou « complexe ». Les requêtes simples étaient envoyées vers un modèle moins cher de la même famille. Les requêtes complexes continuaient vers le modèle performant. Le classificateur lui-même était un encodeur affiné, suffisamment léger pour fonctionner en moins de 30 millisecondes avec un surcoût de coût négligeable.

La taxonomie de classification avait été construite à partir d’observations en production. Les requêtes simples étaient celles que l’équipe avait vues à répétition : recherches de comptes, questions sur l’état des factures, réinitialisations de mots de passe, suivi des commandes et questions sur les horaires d’ouverture. Les requêtes complexes étaient celles qui nécessitaient historiquement un raisonnement nuancé et en plusieurs étapes : litiges de remboursement, compromis de changement de forfait, dépannage d’intégration et anomalies de cycle de facturation. La répartition ressemblait à environ 65 % de requêtes simples et 35 % de requêtes complexes sur une semaine représentative de trafic de production.

La construction avait pris huit semaines. Trois ingénieurs, un praticien en apprentissage machine, allocation partielle. Ils avaient ajouté une validation de schéma entre le classificateur et les modèles en aval, une instrumentation sur la décision de routage et un chemin de repli au cas où le classificateur échouerait. Le déploiement était progressif : 5 % du trafic la première semaine, puis 10 %, 25 %, 50 %, et un déploiement complet sur six semaines. Chaque étape de déploiement maintenait les métriques de qualité dans la zone verte. La latence restait dans leur cible existante. Le coût diminuait en ligne avec la part de routage.

À la fin de la huitième semaine, la facture mensuelle d’inférence était tombée à environ 40 % de son niveau précédent.

L’équipe technique a présenté le travail lors de la réunion générale de l’entreprise. Le directeur financier a envoyé un mot de remerciement à l’équipe IA. Les métriques d’adoption à l’intérieur de l’agent restaient stables à légèrement positives. L’équipe est passée à la priorité du trimestre suivant.

Le travail était solide. L’architecture était raisonnable. La surveillance était en place. L’équipe avait fait ce que chaque article récent sur l’optimisation des coûts d’IA recommandait. Chaque décision individuelle était défendable. Le système combiné avait cependant créé un écart de qualité que l’architecture de mesure existante ne pouvait pas voir.

L'EFFONDREMENT QUI A PRIS QUATRE MOIS À ÊTRE VU

Cet écart a mis trois mois à apparaître dans les métriques commerciales et encore un mois pour être correctement attribué. Au moment où ils ont compris ce qui se passait, quatre mois s’étaient écoulés, et l’impact sur le client était déjà visible.

L’architecture d’évaluation de l’équipe avant la couche de routage reposait sur l’hypothèse qu’ils faisaient fonctionner un seul modèle. Le signal de qualité provenait de trois sources. Un échantillon de revue humaine quotidienne d’environ 200 réponses, notées pour leur exactitude et leur utilité. Une suite de régression hors ligne d’environ 12 000 requêtes étiquetées était exécutée chaque semaine contre le modèle de production. Et un signal de satisfaction issu du widget de feedback intégré au produit, où les utilisateurs pouvaient noter les réponses avec un pouce levé ou baissé.

Lorsque la couche de routage est entrée en service, l’équipe a étendu l’échantillon de revue humaine pour maintenir le même total d’environ 200 revues quotidiennes, mais sans le séparer par niveau de routage. Ils ont ajouté le modèle moins cher à la suite de régression hors ligne, où il a obtenu un score dans leur seuil d’acceptation. Ils ont laissé le widget de feedback intégré au produit inchangé car il n’avait aucun moyen de déterminer quel modèle avait servi la réponse.

En rétrospective, ces trois choix de mesure étaient à l’origine du problème. L’échantillon agrégé de revue humaine montrait une qualité stable à peu près au niveau de référence d’avant le routage. La suite de régression hors ligne montrait que le modèle moins cher passait son sous-niveau. Le widget de feedback agrégé restait dans la variance historique. Tout ce qu’ils pouvaient voir était vert.

Ce qu’ils ne voyaient pas est apparu à trois niveaux différents.

CE QUE LES TABLEAUX DE BORD NE MONTRAIENT PAS

L’échantillon de revue humaine, prélevé sans échantillonnage conscient du niveau de routage, était en réalité une moyenne pondérée, avec 65 % des revues sur le modèle bon marché et 35 % sur le modèle performant. Parce que le modèle bon marché était équivalent dans les cas faciles (le centre à haut volume de la distribution des requêtes simples), il tirait la moyenne vers le haut. Les problèmes de qualité sur le bord plus difficile de la distribution des requêtes simples étaient dilués au point de devenir invisibles dans l’agrégat.

La suite de régression hors ligne testait les deux modèles contre des ensembles de requêtes curatés, mais la curation était statique. Elle avait été construite six mois avant le déploiement, à une époque où l’équipe n’avait aucune notion de routage. La suite reflétait une distribution idéalisée plutôt que la distribution réelle de production que le modèle bon marché devait désormais gérer. Le modèle bon marché passait la suite statique mais se dégradait sur le bord vivant.

Le widget de feedback intégré au produit avait un problème structurel que l’équipe connaissait depuis plus d’un an mais n’avait pas priorisé de corriger. Les feedbacks clients étaient rares. Une session typique générait zéro évaluation. Les clients donnaient un pouce baissé environ trois fois par 1 000 interactions, et ces votes pouce baissé étaient biaisés vers les clients déjà frustrés pour une autre raison. Le rapport signal/bruit sur le widget était trop faible pour détecter tout changement inférieur à une régression majeure.

Aucun de ces échecs n’était spécifique à la couche de routage. Ils étaient latents dans l’architecture de mesure. La couche de routage les a simplement exposés. Tant que le système fonctionnait sur un seul modèle, les lacunes de mesure ne produisaient pas de fausses lectures positives, car il n’y avait qu’une seule distribution de qualité à mesurer. La couche de routage a introduit deux distributions de qualité, mais l’architecture existante ne pouvait pas les observer séparément.

La dérive de qualité sur le niveau du modèle bon marché a commencé à la troisième semaine après le déploiement complet. À la sixième semaine, la dérive était mesurable dans la suite de régression, mais l’équipe a interprété la petite régression comme une dérive de version de modèle de la part de leur fournisseur plutôt que comme liée au routage, car ils ne segmentaient pas leur analyse par niveau.

À la dixième semaine, l’impact cumulé sur la satisfaction client était évident dans les métriques du produit. À la treizième semaine, l’attrition suivait une tendance mesurable au-dessus de la référence précédente.

Le diagnostic a pris deux semaines. Ils ont reconstruit les décisions de routage à partir du journal d’instrumentation, les ont associées aux événements de feedback intégré au produit, et ont construit une vue de qualité par niveau que l’équipe n’avait jamais vue auparavant.

Le schéma est apparu immédiatement sur le niveau du modèle bon marché. Le modèle bon marché fonctionnait bien sur environ 80 % des requêtes que le classificateur lui envoyait, ce qui correspondait à la qualité équivalente trouvée dans l’ensemble de test initial de 5 000 requêtes. Mais les 20 % restants en production étaient structurellement différents de l’ensemble de test de manière que le classificateur ne pouvait pas détecter au moment de la décision.

L’exemple le plus clair concernait les requêtes de facturation. Le classificateur avait été entraîné pour reconnaître des motifs comme « où est ma charge » ou « j’ai été facturé deux fois » comme des requêtes simples, en supposant que la Recherche de compte plus la récupération de facture était un motif en aval fiable. Dans les tests de l’ensemble de test, c’était vrai. En production, une partie non négligeable de ces requêtes de facturation cachait des intentions plus complexes. Un utilisateur demandant « où est ma charge » demandait parfois à propos d’une charge frauduleuse réelle, parfois à propos d’un retard de réconciliation entre deux systèmes, et parfois à propos d’un changement de cycle de facturation dont il n’avait pas été informé. Le modèle performant avait correctement géré ces intentions imbriquées en silence car il avait la marge pour suivre la conversation jusqu’à sa complexité. Le modèle bon marché traitait chacune d’entre elles comme l’intention de surface et répondait à une question que le client ne posait pas vraiment.

Les clients qui recevaient ces mauvaises réponses ne donnaient pas toujours un pouce baissé. Beaucoup d’entre eux se désengageaient simplement de l’agent et appelaient la ligne de support à la place. Le signal pouce baissé sous-représentait donc l’échec. Le coût de l’échec était transféré à l’équipe de support humain, qui traitait la même requête une seconde fois, avec le coût humain payé sur un autre budget. L’effet cumulé était que le taux de déviation mesuré de l’agent IA restait stable tandis que le volume réel de support géré par des humains commençait à augmenter.

L’équipe n’avait pas relié l’augmentation du volume de support géré par des humains à la couche de routage car les deux équipes opéraient dans des centres de coûts différents, et la connexion n’était visible dans aucun tableau de bord unique.

L’impact cumulé sur la satisfaction client était plus difficile à mesurer proprement, mais il est finalement apparu de deux manières. Premièrement, la cohorte de clients qui avaient interagi avec l’agent pendant la période de déploiement de la couche de routage montrait des scores de satisfaction mesurably plus bas lors de l’enquête de suivi à 90 jours après l’interaction, par rapport à une cohorte de référence d’avant le déploiement. Deuxièmement, la rétention client au bout de 6 mois suivait une tendance à la baisse par rapport à la référence précédente, avec la chute la plus prononcée dans les segments les plus exposés aux motifs de routage défaillants.

Lorsque nous avons additionné les chiffres, l’impact de coût inféré de la perte de qualité était conservativement de quatre à cinq fois les économies de coûts de la couche de routage. L’équipe avait réduit les coûts d’inférence d’environ 100 000 dollars par mois et encouru des coûts de rétention et de support client compris entre 400 000 et 500 000 dollars par mois. Les maths, une fois vues dans leur ensemble, étaient sans ambiguïté.

C’est la propriété structurelle du piège de Pareto. Les économies de coûts sur la couche d’inférence sont mesurées par l’équipe qui a construit le système de routage. Le coût de la perte de qualité est supporté par l’expérience client, l’équipe de support humain et la fonction de rétention, aucune de ces entités n’étant détenue par l’équipe qui a fait l’optimisation.

L’équipe a rétrogradé la couche de routage à un réglage beaucoup plus conservateur à la seizième semaine. À la vingtième semaine, la tendance de satisfaction client s’inversait. À la vingt-huitième semaine, les chiffres de rétention étaient revenus à la normale. Le coût total de l’expérience, entre les économies de coûts récupérées et l’impact client encouru, était d’environ deux trimestres de valeur nette négative pour le produit.

POURQUOI CE PIÈGE EST STRUCTUREL ET PAS SITUATIONNEL

La raison pour laquelle ce schéma est structurel plutôt que situationnel vaut la peine d’être examinée de près. Ce n’est pas lié au modèle spécifique que l’équipe a choisi, au fournisseur spécifique ou au classificateur qu’ils ont entraîné. Cela concerne la géométrie de l’espace du problème.

Les requêtes clients dans tout déploiement d’IA en production suivent une distribution de puissance de la difficulté. Une grande masse de requêtes se regroupe autour du centre facile. Une masse plus petite s’étend dans une longue traîne de requêtes plus difficiles, ambiguës et dépendantes du contexte. Les modèles de pointe sont surdimensionnés pour le centre facile. Ils ont bien plus de capacité que nécessaire pour répondre à « à quelle heure ouvrez-vous ? ». Ce surdimensionnement est exactement la raison pour laquelle l’opportunité d’optimisation des coûts est réelle. Router le centre facile vers un modèle moins cher peut générer des économies réelles sans sacrifier la qualité sur ces requêtes.

Le problème est que les classificateurs ne peuvent pas séparer de manière fiable le centre facile de la longue traîne au moment de la décision. Le classificateur voit la forme de surface d’une requête. La longue traîne est cachée sous des formes de surface qui ressemblent à des requêtes faciles. Une requête qui se lit comme « où est ma charge » peut être une simple recherche de compte ou la première ligne d’une enquête pour fraude qui nécessite un raisonnement prudent et en plusieurs étapes. Le classificateur voit les mêmes mots. Le modèle bon marché donne la même réponse de surface. Le client dans le cas de fraude reçoit une réponse incorrecte à une question qu’il ne posait pas.

C’est le problème de compression de la longue traîne. La forme de surface est un mauvais prédicteur de la profondeur de l’intention pour les requêtes qui comptent le plus. Les requêtes où la forme de surface est la plus fiable sont les requêtes faciles, qui sont aussi celles où le choix du modèle compte le moins. Les requêtes où la forme de surface est la moins fiable sont les requêtes difficiles, où le choix du modèle compte le plus. Le classificateur est bien calibré exactement là où il n’a pas besoin de l’être, et mal calibré exactement là où il en a besoin.

Il existe un deuxième mécanisme. Les modèles de pointe ont tendance à avoir des modes de défaillance récupérables. Ils vont parfois hésiter, demander des clarifications ou afficher leur incertitude de manière à inciter un humain à intervenir. Les modèles plus petits échouent souvent avec confiance. Ils produisent une réponse complète, plausible et cohérente en surface qui est erronée sur l’intention réelle. La mauvaise réponse est plus difficile pour le client à reconnaître comme fausse qu’une réponse hésitante ne le serait, ce qui signifie que l’échec reste non signalé plus longtemps.

Le troisième mécanisme est la dérive. Les distributions de requêtes en production évoluent. De nouveaux produits sont lancés. De nouvelles cohortes de clients sont enregistrées. De nouveaux modes de défaillance émergent. Le classificateur entraîné sur six mois de trafic historique déroute progressivement une part croissante de requêtes à mesure que la distribution s’éloigne de son ensemble d’entraînement. Les économies de coûts restent stables car la couche de routage continue d’envoyer du trafic vers le modèle moins cher au même rythme. Le coût de qualité augmente silencieusement, car le classificateur a de plus en plus tort sur les requêtes qui sont réellement simples.

La géométrie combinée est impitoyable. Le niveau du modèle bon marché gère bien le volume facile, échoue de manière opaque sur la longue traîne cachée et se dégrade davantage à mesure que la distribution dérive. Les économies sont visibles sur un tableau de bord. Le coût est payé en aval par des personnes qui ne peuvent pas voir la décision de routage.

C’est ce qui fait des couches de routage un piège de Pareto plutôt qu’une simple optimisation bruyante. La géométrie est structurelle.

TROIS AUTRES CAS OÙ LE MÊME PIÈGE APPARAÎT

Après avoir travaillé sur ce cas, j’ai commencé à chercher le même schéma dans d’autres déploiements d’IA auxquels j’avais accès. Deux autres cas sont apparus rapidement.

Le premier concernait une entreprise SaaS de taille moyenne avec un assistant d’IA pour le succès client. Plus petite échelle que la première équipe, dépense mensuelle d’inférence dans les cinq chiffres bas plutôt que six. Même schéma architectural. Ils avaient construit une couche de routage quatre mois plus tôt qui envoyait les requêtes simples (définies par un classificateur de similarité d’embeddings plutôt que par un encodeur affiné) vers un modèle moins cher. Les économies de coûts étaient de l’ordre de cinquante pour cent. Les métriques de qualité sur leur tableau de bord interne affichaient du vert.

Lorsque nous avons segmenté leur signal de feedback par niveau de routage, le niveau du modèle bon marché avait un score de satisfaction significativement plus bas pour les requêtes de longue traîne que le classificateur d’embeddings avait étiquetées comme simples. L’équipe était restée aveugle à l’écart car le tableau de bord agrégé combinait les deux niveaux en un seul chiffre. Ils ont estimé l’impact sur la confiance client à environ deux et demi à trois fois les économies de coûts, bien que leur mesure soit moins précise que celle de la première équipe. Ils ont rétrogradé la couche de routage à une part beaucoup plus petite en un mois après l’audit.

Le second cas concernait un déploiement dans un secteur régulé de la fintech. La dépense mensuelle d’inférence était dans les six chiffres élevés. Ils avaient construit une couche de routage plus conservatrice qui n’envoyait que les requêtes qu’ils considéraient comme « informatives » (solde de compte, historique de transactions, informations de base sur le produit) vers un modèle moins cher, gardant tout ce qui touchait à la conformité ou aux décisions financières sur le modèle performant.

Le schéma est apparu différemment ici. Les économies de coûts étaient plus faibles car la part de routage était plus conservatrice, à environ 20 %. Mais l’échec de la longue traîne sur le niveau du modèle bon marché avait des implications de conformité car certaines requêtes qui se lisaient comme informatives portaient en réalité un poids réglementaire. Un client demandant « quel est mon taux d’intérêt » avait parfois une question de suivi qui dépendait de la première réponse étant livrée avec précision, ce que le modèle bon marché ne pouvait pas fournir de manière fiable. L’équipe de conformité l’a repéré via un audit manuel avant que cela ne devienne un problème réglementaire, mais ce quasi-accident les a poussés à rétrograder complètement la couche de routage.

Le cas de la fintech était particulièrement éclairant. Il a rendu évident que le compromis coût-qualité n’est pas symétrique selon les secteurs. Dans le support client, une mauvaise réponse est récupérable. Dans les secteurs régulés, une mauvaise réponse peut être une violation. Le piège de Pareto est amplifié dans tout contexte où les coûts de longue traîne sont élevés ou contraints.

LA MÉTHODE DE DÉTECTION QUI AURAIT PU SAUVER LES TROIS ÉQUIPES

La méthodologie diagnostique qui aurait pu repérer l’un de ces cas plus tôt est simple, mais elle nécessite de modifier l’architecture de mesure avant que la couche de routage ne soit mise en service. Trois ajouts concrets à la pile d’observabilité.

Surveillance de qualité par niveau est le premier. Chaque signal de qualité dans l’architecture existante doit être divisé par niveau de routage, avec l’étiquette de niveau propagée de bout en bout via l’instrumentation. Les échantillons de revue humaine doivent être stratifiés de sorte que chaque niveau reçoive une revue proportionnelle ou suréchantillonnée. Les suites de régression hors ligne doivent être divisées en sous-ensembles spécifiques à chaque niveau et évaluées séparément. Les événements de feedback intégré au produit doivent être associés au journal de décision de routage afin que la satisfaction par niveau devienne une dimension agrégée. Le chiffre de qualité agrégé, à lui seul, est structurellement incapable de révéler une dérive de qualité spécifique à un niveau.

Échantillonnage de satisfaction de longue traîne est le deuxième ajout. Parce que le problème de longue traîne est invisible dans l’agrégat, l’architecture de mesure doit suréchantillonner la longue traîne pour la rendre visible. Cela signifie échantillonner plus fortement les requêtes pour lesquelles le classificateur était le moins confiant, ou les requêtes qui se situent en dehors du centroïde de la distribution d’entraînement du classificateur.

Journalisation des décisions de routage avec contexte est le troisième ajout. Chaque décision de routage doit être enregistrée avec le texte de la requête originale, la probabilité de classification et la raison de la décision. Ce contexte doit être conservé pendant au moins 90 jours et joint aux signaux de qualité. Sans ce contexte, il est impossible de reconstruire rétrospectivement ce qui s’est passé lorsque la qualité commence à dériver.

Ces trois ajouts transforment une architecture de mesure aveugle en un système qui peut détecter une dérive de qualité spécifique à un niveau en temps réel. Ils exposent le problème de longue traîne avant qu’il n’ait un impact mesurable sur les métriques commerciales. Ils obligent les équipes à voir le coût réel de leurs optimisations, pas seulement les économies.

LE MODÈLE ARCHITECTURAL QUI ÉVITE LE PIÈGE

L’architecture que l’équipe aurait dû construire à la place est un système de routage à garde-fous. Au lieu de router les requêtes simples vers un modèle bon marché, elle aurait dû router les requêtes simples vers un modèle bon marché uniquement si le classificateur est suffisamment confiant. Pour les requêtes où la confiance est faible, envoyer vers le modèle performant par défaut. Construire un chemin de repli qui bascule automatiquement vers le modèle performant si la qualité du modèle bon marché dérive au-delà d’un seuil. Et instrumenter chaque couche pour que la qualité par niveau soit visible en temps réel.

Cette approche inverse la géométrie du piège. Au lieu d’avoir un classificateur qui est bien calibré là où il n’a pas besoin de l’être et mal calibré là où il en a besoin, elle crée un système qui envoie les requêtes ambiguës vers la capacité dont elles ont besoin, indépendamment de la forme de surface. Le surcoût de l’envoi de quelques requêtes supplémentaires vers le modèle performant est compensé par l’élimination des échecs de longue traîne qui coûtent des centaines de fois plus cher.

Le point clé est que le compromis coût-qualité n’est pas un compromis binaire. Ce n’est pas « économiser de l’argent » ou « garder la qualité ». C’est « économiser de l’argent sur les requêtes faciles où cela compte le moins » et « payer un peu plus pour les requêtes difficiles où cela compte le plus ». La géométrie du problème exige que nous mesurions la qualité là où elle est réellement consommée, pas là où nous choisissons de la mesurer.

CE QUE LES DIRECTEURS FINANCIERS DOIVENT SAVOIR

Les directeurs financiers qui approuvent ces optimisations doivent exiger trois choses. Premièrement, une architecture de mesure qui segmente la qualité par niveau de routage avant que le déploiement ne commence. Deuxièmement, un seuil clair pour quand le routage doit être rétrogradé si la qualité dérive. Troisièmement, une vue consolidée des coûts qui inclut non seulement la facture d’inférence, mais aussi l’impact sur le support client, la rétention et la confiance. Sans ces trois éléments, l’optimisation est structurellement négative, même si les tableaux de bord affichent du vert.

Le livre de jeu consensuel de 2026 est incomplet. Il optimise le coût visible et ignore le coût invisible. Les équipes qui adoptent ce livre de jeu sans ces garde-fous construiront des systèmes qui semblent moins chers sur le papier mais qui coûtent plus cher dans la réalité.

CE QUE LES ÉQUIPES TECHNIQUES DOIVENT FAIRE MAINTENANT

Les équipes techniques qui ont déjà déployé des couches de routage optimisées par coût doivent faire trois choses immédiatement. Premièrement, instrumenter leurs systèmes pour segmenter la qualité par niveau de routage dès aujourd’hui. Deuxièmement, exécuter une revue manuelle des 100 dernières requêtes de longue traîne qui ont été envoyées vers le modèle bon marché pour voir si des échecs sont déjà en cours. Troisièmement, préparer un plan de rétrogradation qui peut être déployé en moins de 48 heures si une dérive de qualité est détectée. Le coût de l’inaction est déjà en train d’être payé, même si personne ne le voit encore.

Les équipes qui n’ont pas encore déployé de routage doivent construire l’architecture de mesure d’abord. Les économies de coûts viendront naturellement une fois que la qualité par niveau est visible. Le piège est évité par la visibilité, pas par l’optimisation.

EN RÉSUMÉ : LE PIÈGE DE PARETO N'EST PAS UNE ERREUR, MAIS UNE LOI

Le piège de Pareto n’est pas une erreur que quelques équipes ont commise. C’est une loi structurelle de la géométrie des requêtes clients et de la mesure de qualité. Tant que les équipes mesureront la qualité de manière agrégée et optimiseront les coûts de manière visible, ce piège continuera à se répéter. La seule façon de l’éviter est de mesurer la qualité là où elle est réellement consommée : par niveau de routage, par requête de longue traîne, et par impact réel sur le client.

Les économies de coûts sont réelles. Les pertes de qualité sont réelles. Le problème n’est pas que nous optimisons pour le coût. Le problème est que nous optimisons pour le coût visible et ignorons le coût invisible. Jusqu’à ce que cela change, le piège de Pareto restera la règle, pas l’exception.

Sources :
  • Towards Data Science

L'indépendance de CLODCO est votre garantie.

Pour que l'actualité de l'IA reste sans filtre et sans concession, votre soutien est indispensable. Votre contribution est le seul moteur de notre liberté éditoriale.

Soutenir CLODCO