Avant de traiter des documents avec l'IA, il faut un schéma. Mais comment en créer des milliers sans savoir ce qu'ils contiennent ? Une nouvelle fonction automatise tout ça.

UN PROBLÈME DE TAILLE POUR LES DOCUMENTS INCONNUS

Imaginez une boîte remplie de milliers de documents de tous types : factures, contrats, relevés bancaires… Impossible de savoir par où commencer. Pourtant, pour utiliser des techniques de traitement intelligent de documents (ou IDP), il faut d’abord définir un schéma pour chaque type de document. Ce schéma indique à l’IA quoi extraire : le nom du client, le montant, la date, etc.

Le problème ? Créer ces schémas à la main pour des milliers de documents prend un temps fou. Résultat : beaucoup d’entreprises abandonnent avant même d’avoir commencé. La nouvelle fonction découverte multi-documents change la donne. Elle analyse automatiquement vos documents, les classe par type, et génère des schémas prêts à l’emploi pour l’IDP Accelerator.

Sans cette solution, il fallait déjà connaître les types de documents et fournir un exemple pour chaque classe. Désormais, l’IA s’en charge toute seule.

COMMENT FONCTIONNE CETTE MAGIE ?

L’IDP Accelerator est un outil open source, sans serveur, qui automatise le traitement de documents. Pour l’adapter à vos besoins, il suffit de créer un fichier de configuration où vous précisez les types de documents et les champs à extraire. Mais comment remplir ce fichier quand on ne connaît pas les documents ?

L’IDP Accelerator propose déjà un module de découverte qui crée un schéma à partir d’un seul exemple. Mais il faut quand même savoir quels types de documents existent et fournir un document représentatif pour chaque classe. La fonction découverte multi-documents supprime cette étape. Elle analyse un ensemble de documents non classés, les regroupe automatiquement, et génère des schémas adaptés.

Concrètement, voici comment ça marche :

  1. Vous téléchargez vos documents dans un bucket Amazon S3 ou un fichier ZIP.
  2. L’outil convertit chaque document en une représentation numérique (appelée embedding visuel).
  3. Ces embeddings sont regroupés en clusters selon leur similarité.
  4. Un agent IA analyse chaque cluster pour identifier le type de document et générer un schéma.
  5. Enfin, une étape de réflexion vérifie la cohérence des schémas avant validation.

LES EMBEDDINGS VISUELS : LA CLÉ DE LA CLASSIFICATION

Chaque document est transformé en un embedding visuel, une sorte de carte d’identité numérique qui capture son apparence : mise en page, polices, images, structure. Même si deux documents contiennent le même texte, leur embedding sera différent si leur présentation change. Par exemple, une facture et un contrat peuvent avoir des textes similaires, mais leur mise en page les rend facilement distinguables.

Pour cette étape, l’outil utilise Cohere Embed v4 via Amazon Bedrock. Cet embedding gère automatiquement les problèmes courants comme la compression d’images ou les limites de débit. Seule la première page des documents PDF est analysée, ce qui accélère le processus.

Les embeddings visuels capturent la mise en page et la structure, pas seulement le texte. C’est ce qui permet de distinguer un chèque d’un relevé bancaire, même si les deux contiennent des chiffres.

LA MAGIE DES CLUSTERS : COMMENT L’IA DÉCOUVRE LES TYPES DE DOCUMENTS

Une fois les embeddings créés, l’outil regroupe les documents similaires en clusters. Mais combien de clusters créer ? L’outil utilise un score de silhouette, une mesure qui évalue à quel point les clusters sont bien séparés et compacts. Plus le score est élevé, meilleure est la séparation.

L’outil teste automatiquement des valeurs de k (nombre de clusters) allant de 2 à 20. Pour chaque valeur, il calcule le score de silhouette et choisit celle qui donne le meilleur résultat. Chaque cluster doit contenir au moins deux documents pour être valide. Si nécessaire, l’outil réduit automatiquement la valeur maximale de k pour respecter cette contrainte.

UN TEST RÉUSSI : 9 TYPES DE DOCUMENTS IDENTIFIÉS SANS AUCUNE ÉTIQUETTE

Pour valider cette approche, les développeurs ont testé l’outil sur un jeu de données appelé OCR-benchmark. Ce jeu contient 293 documents répartis en 9 types : chèque bancaire, contrat de location commerciale, relevé de carte de crédit, bon de livraison, inspection d’équipement, glossaire, formulaire de pétition, document immobilier et planning de travail.

Résultat ? L’outil a identifié exactement 9 clusters, avec un score de silhouette maximal à k=9. Une visualisation en 2D (appelée TSNE-plot) montre comment les documents sont regroupés. Chaque cluster correspond parfaitement à un type de document réel.

L’outil a obtenu un score parfait : 1.0 pour l’Adjusted Rand Index et l’Normalized Mutual Information. Chaque cluster correspond exactement à un type de document réel, sans aucune erreur.

Ces résultats prouvent que les embeddings multimodaux permettent une classification entièrement non supervisée. Même sans données étiquetées, l’IA distingue des documents aussi variés qu’un chèque bancaire, un contrat immobilier ou un relevé de carte de crédit.

Attention : les performances sur ce jeu de données ne garantissent pas les mêmes résultats sur vos documents. La qualité dépend de vos données spécifiques.

L’AGENT IA : LE CERVEAU QUI GÉNÈRE LES SCHÉMAS

Une fois les clusters identifiés, l’outil passe à l’étape suivante : la Génération des schémas. Pour chaque cluster, un agent IA (basé sur Strands Agents et un modèle de langage) est lancé. Son rôle ? Déterminer le type de document et générer un schéma JSON prêt à l’emploi.

L’agent ne se contente pas d’analyser un seul document par cluster. Il examine plusieurs documents à différents endroits du cluster : un au centre, un en périphérie, un à mi-chemin. Cette approche flexible permet de capturer toute la diversité des documents dans un cluster. Une méthode fixe et déterministe ne fonctionnerait pas, car la qualité des clusters dépend fortement de vos documents spécifiques.

Pour accomplir cette tâche, l’agent dispose de deux outils spécialisés et d’un prompt système qui encode les conventions de JSON Schema et les exigences de configuration de l’IDP Accelerator.

LA RÉFLEXION : UNE VÉRIFICATION AUTOMATIQUE DES SCHÉMAS

Après que chaque agent a généré un schéma, une étape de réflexion analyse l’ensemble des résultats. Elle vérifie si les groupes de documents sont bien séparés ou s’ils se chevauchent. Elle repère les redondances ou les incohérences entre les schémas. Si nécessaire, elle propose des recommandations concrètes : fusionner des clusters ou affiner les définitions de champs.

L’outil produit un rapport de qualité lisible par un humain, visible dans les détails de la tâche de découverte de l’IDP Accelerator. Ce rapport vous aide à valider ou ajuster les schémas avant de les utiliser pour traiter vos documents.

COMMENT UTILISER CETTE FONCTION SUR VOS PROPRES DOCUMENTS

Pour lancer la découverte multi-documents sur vos propres documents, suivez ces étapes dans la console de l’IDP Accelerator :

Étape 1 : Créer une nouvelle configuration

Commencez par créer une configuration vierge dans la console de l’IDP Accelerator.

Étape 2 : Lancer la découverte multi-documents

Avec votre configuration prête, démarrez le processus de découverte. Vos documents doivent être placés dans l’un des buckets existants de l’IDP Accelerator (bucket de découverte, bucket de test ou bucket d’entrée).

Astuce : l’outil ne traite que la première page des PDF. Assurez-vous que vos fichiers sont des documents simples, pas des paquets multi-documents.

Étape 3 : Surveiller la tâche et consulter les résultats

Les classes découvertes et leurs schémas JSON s’intègrent automatiquement dans votre fichier de configuration. Vous pouvez consulter un rapport de qualité pour vérifier la cohérence des résultats avant de finaliser vos schémas.

LES BONNES PRATIQUES AVANT DE LANCER UNE TÂCHE À GRANDE ÉCHELLE

Avant de traiter des milliers de documents, gardez ces conseils en tête :

  • Assurez-vous que vos fichiers sont des documents simples (une seule page par PDF). Les paquets multi-documents ne sont pas encore supportés.
  • Après les premiers résultats, examinez attentivement le rapport de qualité pour repérer d’éventuels chevauchements de clusters ou des distributions inégales de documents.
  • Les caractéristiques de vos données influencent directement la qualité des résultats. Testez d’abord sur un petit échantillon pour ajuster les paramètres si nécessaire.

QUE FAIRE APRÈS LA DÉCOUVERTE ?

Une fois la tâche terminée, plusieurs scénarios sont possibles :

  • Si l’outil a identifié des types de documents inconnus, vous pouvez créer de nouvelles classes dans votre configuration.
  • Si des clusters se chevauchent, vous pouvez les fusionner ou affiner les schémas générés.
  • Si les résultats sont satisfaisants, vous pouvez utiliser les schémas pour lancer des tâches d’extraction d’informations sur vos documents.

POURQUOI CETTE SOLUTION EST UNE RÉVOLUTION

Cette fonction découverte multi-documents résout un problème de taille : comment traiter des milliers de documents sans connaître leur type à l’avance ? Elle combine trois technologies puissantes :

  • Les embeddings visuels pour regrouper les documents similaires.
  • Le clustering automatique pour identifier les types de documents.
  • Les agents IA pour générer des schémas précis et cohérents.

Résultat : une boîte de documents opaques devient un ensemble structuré, prêt à être traité par l’IDP Accelerator. Vous gagnez un temps précieux et évitez des heures de travail manuel.

Cette solution transforme des montagnes de documents non classés en schémas utilisables en quelques clics. Plus besoin de deviner, l’IA fait tout le travail.

ET MAINTENANT ?

Vous avez vu comment l’IDP Accelerator automatise la création de schémas pour le traitement intelligent de documents. Vous savez maintenant comment utiliser cette fonction pour analyser vos propres collections de documents. Si vous testez cette solution, n’hésitez pas à partager vos résultats ou vos questions dans les commentaires.

Vous rencontrez des problèmes ou souhaitez contribuer au projet ? Le code est disponible sur le dépôt GitHub de l’IDP Accelerator. Ouvrez une issue ou une pull request pour participer à l’amélioration de l’outil.

Sources :
  • AWS ML Blog

L'indépendance de CLODCO est votre garantie.

Pour que l'actualité de l'IA reste sans filtre et sans concession, votre soutien est indispensable. Votre contribution est le seul moteur de notre liberté éditoriale.

Soutenir CLODCO