Agents IA : évaluer avant d'exécuter pour ne plus corriger après

Une nouvelle architecture intègre l’évaluation directement dans la boucle d’exécution des LLM, permettant une correction proactive des appels d’Outils. Les métriques d’utilité et de nocivité mesurent pour la première fois le compromis entre correction et dégradation.

ÉVALUATION PROACTIVE DANS LA BOUCLE D'EXÉCUTION

Les agents appelant des outils sont évalués sur la sélection d’outils, la précision des paramètres et la reconnaissance du périmètre, mais les évaluations des trajectoires des LLM restent fondamentalement rétrospectives. Déconnectées de la boucle d’exécution active, ces évaluations identifient des erreurs qui sont généralement corrigées par un ajustement des instructions ou un réentraînement, et elles ne peuvent fondamentalement pas corriger l’agent en temps réel. Pour combler cette lacune, nous intégrons l’évaluation dans la boucle d’exécution au moment de l’inférence : un agent réviseur spécialisé évalue les appels d’outils provisoires avant leur exécution, faisant ainsi passer le paradigme d’une correction rétrospective à une évaluation proactive et à une atténuation des erreurs.

Passer du paradigme de la correction rétrospective à une évaluation proactive et à l'atténuation des erreurs.

En pratique, cette architecture établit une séparation claire des préoccupations entre l’agent d’exécution principal et un agent de révision secondaire. Comme dans tout système multi-agents, le réviseur peut introduire de nouvelles erreurs tout en en corrigeant d’autres, mais aucun travail antérieur à notre connaissance n’a mesuré systématiquement ce compromis. Pour quantifier ce compromis, nous introduisons les métriques d’Utilité-Nocivité : l’utilité mesure le pourcentage d’erreurs de l’agent de base que le retour corrige ; la nocivité mesure le pourcentage de réponses correctes que le retour dégrade.

Ces métriques informent directement la conception du réviseur en révélant si un modèle ou une instruction donnée apporte une valeur nette positive.

PROTOTYPER L'EXPÉRIENCE DES AGENTS D'INTERFACE

Les agents d’interface alimentés par des modèles d’IA générative (appelés « agents ») peuvent automatiser des actions en fonction de commandes utilisateur. Un aspect important du développement d’agents est leur expérience utilisateur (c’est-à-dire l’expérience agent). Il existe un besoin croissant de fournir des structures à un ensemble plus large d’individus, au-delà des ingénieurs en IA, pour prototyper des expériences d’agent, car ils peuvent apporter des perspectives précieuses à la conception de ces expériences. Dans ce travail, nous explorons les…

DÉCISIONS SÉQUENTIELLES ROBUSTES EN ENVIRONNEMENT MULTI-AGENTS

Prendre des décisions séquentielles sophistiquées, robustes et sûres est au cœur des systèmes intelligents. Cela est particulièrement critique pour la planification dans des environnements multi-agents complexes, où les agents doivent anticiper les intentions des autres agents et leurs actions futures possibles. Les méthodes traditionnelles formulent le problème comme un processus de décision markovien, mais les solutions reposent souvent sur diverses hypothèses et deviennent fragiles face à des cas limites. Dans…

Notre recherche en apprentissage automatique repousse chaque jour les limites.

Sources :

Apple ML Research

L'indépendance de CLODCO est votre garantie.

Pour que l'actualité de l'IA reste sans filtre et sans concession, votre soutien est indispensable. Votre contribution est le seul moteur de notre liberté éditoriale.

Soutenir CLODCO

Agents IA : évaluer avant d'exécuter pour ne plus corriger après

ÉVALUATION PROACTIVE DANS LA BOUCLE D'EXÉCUTION

PROTOTYPER L'EXPÉRIENCE DES AGENTS D'INTERFACE

DÉCISIONS SÉQUENTIELLES ROBUSTES EN ENVIRONNEMENT MULTI-AGENTS

L'indépendance de CLODCO est votre garantie.

À lire dans la même thématique

L'IA qui révolutionne la création des médicaments : la fin des essais et erreurs ?

Quand l'IA d'OpenAI pirate un serveur pour tricher à un test. et ça change tout

SymptomAI : l'IA qui écoute tes symptômes mieux que ton médecin ?

À lire dans la même thématique

L'IA qui révolutionne la création des médicaments : la fin des essais et erreurs ?

Quand l'IA d'OpenAI pirate un serveur pour tricher à un test. et ça change tout

SymptomAI : l'IA qui écoute tes symptômes mieux que ton médecin ?