Comment réduire de 34% le coût de construction d'un graphe de connaissances à partir de contrats juridiques ? En utilisant Proxy-Pointer RAG et son Graphability Index pour ignorer les sections inutiles avant même de lancer l'IA.

UNE SOLUTION POUR ÉVITER DE BRÛLER DES MILLIONS DE TOKENS

Construire un graphe de connaissances à partir de contrats juridiques, c'est un peu comme essayer de comprendre un roman de 100 pages en lisant chaque mot. Sauf que dans ce cas, chaque mot coûte de l'argent : des millions de tokens (ces morceaux de texte que les IA comme les LLMs utilisent pour fonctionner) sont brûlés avant même que l'IA puisse commencer à extraire des informations utiles. Et ce n'est pas tout : il faut parfois relire plusieurs fois les mêmes documents, car l'extraction d'entités et de relations dans de longs textes peut donner des résultats incohérents.

Pourtant, il existe une solution : exploiter la structure prévisible de ces documents. Les contrats juridiques, même s'ils viennent de secteurs différents, ont souvent la même organisation. Ils sont remplis de texte standard, de clauses administratives et d'annexes qui n'apportent presque rien à l'extraction d'entités. Et si on pouvait prédire, avant même de lancer l'IA, quelles sections valent le coup d'être analysées ?

C'est exactement ce que propose Proxy-Pointer RAG, une technique d'extraction de relations basée sur la structure des documents. En combinant cette méthode avec un nouvel outil appelé Graphability Index, il est possible de réduire drastiquement les coûts d'extraction sans perdre en qualité. L'idée ? Ignorer les sections qui ne contiennent presque aucune information utile avant même de les envoyer à l'IA.

Les contrats juridiques sont remplis de texte standard, de clauses administratives et d'annexes qui n'apportent presque rien à l'extraction d'entités.

PROXY-POINTER RAG : UNE IA QUI COMPREND LA STRUCTURE DES DOCUMENTS

Contrairement aux méthodes classiques de RAG (Retrieval-Augmented Generation), qui découpent les documents en morceaux sans tenir compte de leur organisation, Proxy-Pointer RAG traite un document comme un arbre de blocs sémantiques (les sections). Chaque section est analysée séparément, ce qui permet de mieux comprendre le contexte et d'éviter les erreurs d'extraction. Par exemple, une section comme « Définitions » ou « Litiges » contient des informations précieuses, tandis qu'une annexe comme « Table des matières » ou « Exemples » n'apporte presque rien.

En utilisant cette approche, les entreprises peuvent réduire les coûts d'extraction tout en améliorant la qualité des résultats. Les LLMs (Large Language Models) sont bien plus précis pour extraire des entités et des relations à partir d'une section de 10 pages que d'un document de 100 pages. Et en répétant l'extraction sur chaque section, on évite les erreurs et les incohérences.

Proxy-Pointer RAG utilise cinq techniques d'ingénierie « zero-cost » pour optimiser l'extraction :

  • Un arbre de structure du document, qui permet de visualiser l'organisation des sections.
  • L'injection de « miettes de pain » (breadcrumb injection), qui aide à suivre le contexte entre les sections.
  • Un découpage guidé par la structure, qui évite de fragmenter le contexte.
  • Un filtre de bruit, qui supprime les sections inutiles avant même de les analyser.
  • Un pointeur de contexte, qui permet de relier les informations entre les sections.

Ces techniques permettent de réduire les coûts d'extraction tout en améliorant la qualité des graphes de connaissances.

LE GRAPHABILITY INDEX : UNE CARTE POUR SAVOIR QUOI IGNORER

Mais comment savoir quelles sections valent le coup d'être analysées ? C'est là qu'intervient le Graphability Index. Cet index prédictif permet de classer chaque section d'un document en fonction de sa « graphabilité », c'est-à-dire de sa capacité à contenir des entités et des relations utiles pour construire un graphe de connaissances.

Pour un contrat de crédit, par exemple, l'index peut être défini comme suit :

document_type: 
Sources :
  • Towards Data Science

L'indépendance de CLODCO est votre garantie.

Pour que l'actualité de l'IA reste sans filtre et sans concession, votre soutien est indispensable. Votre contribution est le seul moteur de notre liberté éditoriale.

Soutenir CLODCO