Une nouvelle architecture intègre l’évaluation directement dans la boucle d’exécution des LLM, permettant une correction proactive des appels d’Outils. Les métriques d’utilité et de nocivité mesurent pour la première fois le compromis entre correction et dégradation.
ÉVALUATION PROACTIVE DANS LA BOUCLE D'EXÉCUTION
Les agents appelant des outils sont évalués sur la sélection d’outils, la précision des paramètres et la reconnaissance du périmètre, mais les évaluations des trajectoires des LLM restent fondamentalement rétrospectives. Déconnectées de la boucle d’exécution active, ces évaluations identifient des erreurs qui sont généralement corrigées par un ajustement des instructions ou un réentraînement, et elles ne peuvent fondamentalement pas corriger l’agent en temps réel. Pour combler cette lacune, nous intégrons l’évaluation dans la boucle d’exécution au moment de l’inférence : un agent réviseur spécialisé évalue les appels d’outils provisoires avant leur exécution, faisant ainsi passer le paradigme d’une correction rétrospective à une évaluation proactive et à une atténuation des erreurs.
En pratique, cette architecture établit une séparation claire des préoccupations entre l’agent d’exécution principal et un agent de révision secondaire. Comme dans tout système multi-agents, le réviseur peut introduire de nouvelles erreurs tout en en corrigeant d’autres, mais aucun travail antérieur à notre connaissance n’a mesuré systématiquement ce compromis. Pour quantifier ce compromis, nous introduisons les métriques d’Utilité-Nocivité : l’utilité mesure le pourcentage d’erreurs de l’agent de base que le retour corrige ; la nocivité mesure le pourcentage de réponses correctes que le retour dégrade.
PROTOTYPER L'EXPÉRIENCE DES AGENTS D'INTERFACE
Les agents d’interface alimentés par des modèles d’IA générative (appelés « agents ») peuvent automatiser des actions en fonction de commandes utilisateur. Un aspect important du développement d’agents est leur expérience utilisateur (c’est-à-dire l’expérience agent). Il existe un besoin croissant de fournir des structures à un ensemble plus large d’individus, au-delà des ingénieurs en IA, pour prototyper des expériences d’agent, car ils peuvent apporter des perspectives précieuses à la conception de ces expériences. Dans ce travail, nous explorons les…
DÉCISIONS SÉQUENTIELLES ROBUSTES EN ENVIRONNEMENT MULTI-AGENTS
Prendre des décisions séquentielles sophistiquées, robustes et sûres est au cœur des systèmes intelligents. Cela est particulièrement critique pour la planification dans des environnements multi-agents complexes, où les agents doivent anticiper les intentions des autres agents et leurs actions futures possibles. Les méthodes traditionnelles formulent le problème comme un processus de décision markovien, mais les solutions reposent souvent sur diverses hypothèses et deviennent fragiles face à des cas limites. Dans…
Notre recherche en apprentissage automatique repousse chaque jour les limites.
- Apple ML Research
L'indépendance de CLODCO est votre garantie.
Pour que l'actualité de l'IA reste sans filtre et sans concession, votre soutien est indispensable. Votre contribution est le seul moteur de notre liberté éditoriale.
Soutenir CLODCO


