Les Outils classiques lisent les mots dans un PDF. Les LLM de vision lisent aussi les images, transformant les graphiques en texte exploitable. Mais cette puissance a un prix.
UNE PAGE PDF, DEUX MANIÈRES DE LA LIRE
Imaginez un PDF d’entreprise rempli de graphiques, de schémas et de photos. Un parseur classique comme PyMuPDF ou Docling extrait le texte, les titres et les tableaux, mais ignore les images. Pour lui, un graphique est une boîte vide, sans aucune donnée exploitable. Résultat : si vous cherchez "prix du pétrole en 2024", votre outil de recherche ne trouvera rien, même si la réponse est sur la page.
Un LLM de vision, lui, lit la page comme un humain. Il décrit les graphiques en phrases, transcrit les axes, les légendes et les valeurs numériques. Pour lui, une photo de parking devient : "Vue aérienne d’un parking à moitié plein, environ quarante voitures visibles". Une recherche pour "occupations des parkings" donnera enfin des résultats.
COMMENT ÇA MARCHE : LE CODE QUI TRANSFORME LES IMAGES EN DONNÉES
Le principe est simple : le PDF est converti en image, puis envoyé à un modèle de vision. Voici comment fonctionne la fonction parsepagevision :
page = parsepagevision("CMO-April-2026.pdf", 10, model="gpt-4.1")
page.markdown # titres, paragraphes, tableaux
page.figures # une entrée par graphique / schéma
page.figures[0].description # "graphique en courbes, indice des prix ."
page.figures[0].transcription # axes, légende, valeurs lisibles
Cette fonction utilise deux modèles Pydantic pour structurer les données :
class FigureContent(BaseModel):
kind: str # graphique, schéma, photo, carte, .
description: str # ce qu'il montre, en mots exploitables
transcription: str # axes, légende, valeurs lisibles
class VisionPageParse(BaseModel):
markdown: str # la page en markdown, tableaux conservés
figures: list[FigureContent] # une entrée par figure sur la page
Le processus est le suivant :
- La page est rendue en image avec un zoom de 2.0.
- L’image est envoyée au modèle avec une instruction claire : "Analyse cette page".
- Le modèle retourne un objet structuré avec le texte en markdown et une liste de figures décrites.
UN EXEMPLE CONCRET : TROUVER UNE INFORMATION CACHÉE DANS UN GRAPHIQUE
Prenons un exemple réel : le World Bank Commodity Markets Outlook (avril 2026). Ce document contient des graphiques sur les prix des matières premières. Un parseur classique ne verra que des boîtes vides. Un LLM de vision, lui, produira une description comme :
Résultat : une recherche pour "indice des prix des matières premières depuis 2022" trouvera enfin cette page. Avant, elle était invisible pour les outils classiques.
DEUX MODÈLES, DEUX RÉSULTATS : LE TEST QUI NE MENT PAS
Pour évaluer la performance des LLM de vision, les auteurs ont testé deux modèles sur la même page de graphiques : gpt-4o-mini et gpt-4.1. Voici ce qu’ils ont obtenu :
gpt-4o-mini :
- Trouvé 3 graphiques sur 6.
- Labellisé 2 d’entre eux comme des tableaux.
gpt-4.1 :
- Trouvé les 6 graphiques.
- Transcrit les axes jusqu’au mois, y compris les graphiques sur l’incertitude politique et l’anomalie de température que le modèle moins puissant a manqués.
Les deux modèles ont correctement lu le texte et les tableaux. Mais seul gpt-4.1 a réussi à extraire les informations des graphiques, la partie pour laquelle les LLM de vision sont conçus.
LES LIMITES : CE QUE LES LLM DE VISION NE SAVENT PAS FAIRE
Les LLM de vision ne sont pas parfaits. Leurs deux principaux défauts sont :
1. L’imprécision des valeurs
Les nombres lus sur une courbe sont approximatifs. Le modèle peut se tromper sur une valeur précise, même si la tendance générale est correcte. Il faut donc traiter ces chiffres comme des indices, pas comme des faits absolus.
2. Les omissions silencieuses
Le modèle peut oublier un élément : une ligne de tableau, un graphique dans un panneau. Par exemple, gpt-4o-mini a omis la moitié des graphiques dans une section. Ce problème de complétude est une forme d’hallucination par omission, impossible avec un parseur déterministe comme PyMuPDF.
LE COÛT : POURQUOI CE N’EST PAS GRATUIT
Les LLM de vision coûtent plus cher que les parseurs classiques. Chaque page est traitée comme une grande image, et chaque appel au modèle est facturé par page. De plus, le résultat est moins précis. En résumé :
- Un parseur classique : rapide, peu coûteux, exact.
- Un LLM de vision : lent, coûteux, mais capable de lire les images.
La règle d’or : utilisez les LLM de vision uniquement pour les pages où les parseurs classiques échouent, c’est-à-dire les pages principalement composées d’images, de graphiques ou de schémas sans texte.
UNE FONCTION POUR LES QUESTIONS PONCTUELLES
Parfois, vous n’avez pas besoin d’analyser toute une page. Vous voulez juste une réponse à une question précise. La fonction answerfrompdf_vision fait exactement ça :
ans = answerfrompdf_vision(
"data/nist/NIST.CSWP.04162018.pdf",
"Category Unique Identifier for 'Asset Management'?",
pages=30,
)
ans.answer # "ID.AM"
ans.answer_found # True (False si la réponse n'est pas sur la page)
Cette fonction est utile pour des recherches ciblées, comme trouver un identifiant dans un cadre réglementaire. Les deux modèles testés (gpt-4o-mini et gpt-4.1) ont donné la même réponse correcte. Mieux encore : si la réponse n’est pas sur la page, le modèle retourne False, évitant ainsi les réponses inventées.
LES LLM DE VISION DÉJÀ DISPONIBLES DANS LE COMMERCE
Cette technologie n’est pas réservée aux laboratoires. Plusieurs fournisseurs la proposent déjà sous forme de produits clés en main :
Mistral Document AI (sur Azure AI Foundry) combine un modèle OCR et un petit modèle de raisonnement. Il retourne du markdown et un objet JSON personnalisable. Son avantage : tout est intégré dans un seul appel API, avec facturation par page.
Comparaison avec la solution OpenAI utilisée dans cet article :
- Mistral Document AI : markdown + JSON, bbox uniquement pour les images intégrées.
- OpenAI : markdown + liste de figures structurées, pas de bbox pour le texte.
LE PROBLÈME DES BOÎTES DE DÉLIMITATION (BBOX)
Les parseurs classiques comme PyMuPDF ou Docling fournissent des boîtes de délimitation (bbox) pour chaque ligne, paragraphe ou cellule de tableau. Ces bbox permettent de surligner les citations dans le PDF original et de vérifier les sources. Problème : les LLM de vision ne fournissent pas ces bbox pour le texte, seulement pour les images intégrées. Résultat :
- Impossible de surligner les citations dans le PDF source.
- Impossible de vérifier les sources ligne par ligne.
Question ouverte : comment fusionner les résultats de deux parseurs (Mistral markdown bbox-less et fitz Docling bbox-rich) en un seul flux cohérent ? Aligner deux flux de texte au niveau des lignes ou des tokens est un problème complexe. Si votre application a besoin de traçabilité bbox, ce coût de réconciliation doit être pris en compte avant de choisir un parseur.
QUATRE MOTEURS DE PARSING : LEURS FORCES ET LEURS FAIBLESSES
Les quatre moteurs de parsing présentés dans cette série sont :
- fitz (PyMuPDF) : parseur classique, rapide, exact, mais aveugle aux images.
- Azure Layout : parseur cloud, exact, mais sans bbox pour le texte.
- Docling : parseur open source, exact, avec bbox.
- LLM de vision : parseur qui lit texte ET images, mais lent, coûteux et imprécis sur les nombres.
Le parseur adaptatif (Article 10) choisit le bon moteur en fonction de la page. Le LLM de vision est réservé aux pages visuelles : graphiques, schémas, scans dégradés ou images sans texte.
D’OÙ VIENT CETTE TECHNOLOGIE ?
Les LLM de vision comme parseurs descendent de deux familles :
- Modèles open source de vision-langage : PaliGemma, Florence-2, Qwen-VL.
- API multimodales des géants : OpenAI GPT-4o / GPT-4.1, Anthropic Claude avec vision, Google Gemini.
Une référence clé : ColPali (Faysse et al. 2024), qui utilise la page visuelle comme primitive de recherche. Les documentations techniques d’OpenAI sur les capacités de vision de gpt-4.1 et gpt-4o-mini sont aussi des ressources incontournables.
LES SOURCES DES EXEMPLES UTILISÉS
Les graphiques et tableaux de cet article proviennent de sources ouvertement licenciées :
- The exciting new world of designing conversation driven APIs for LLMs.
- A framework for measuring retrieval quality in Model Context Protocol agents.
- From random example selection to systematic AuPair generation — how to make your LLM prompts actually.
- A primer on overcoming LLM limitations with formal verification.
POURQUOI CELA CHANGE TOUT POUR LES ENTREPRISES
Les entreprises utilisent des systèmes RAG (Retrieval-Augmented Generation) pour interroger leurs documents. Avec les parseurs classiques, les graphiques et schémas sont invisibles. Résultat : des informations cruciales sont ignorées, même si elles sont sous les yeux. Les LLM de vision comblent ce trou noir.
Cas d’usage :
- Analyse de rapports financiers avec graphiques.
- Recherche dans des manuels techniques illustrés.
- Traitement de scans de documents anciens où le texte est illisible.
- Extraction d’informations à partir de photos de tableaux blancs ou de schémas.
LE VERDICT : À QUOI SERVENT VRAIMENT LES LLM DE VISION ?
Les LLM de vision ne remplacent pas les parseurs classiques. Ils les complètent là où ils échouent : les pages sans texte exploitable. Leur utilité se résume en trois points :
- Lire les images : graphiques, schémas, photos, cartes.
- Décrire en texte exploitable : les axes, les légendes, les tendances.
- Rendre visible l’invisible : une recherche trouve enfin des informations cachées dans des images.
Mais attention : leur coût, leur lenteur et leur imprécision les réservent aux cas où les autres outils sont aveugles. Pour le reste, les parseurs classiques restent la meilleure option.
CE QUE L’AVENIR NOUS RÉSERVE
Cette technologie est encore jeune. Les modèles s’amélioreront, les coûts baisseront, et les bbox pourraient devenir une norme. En attendant, les entreprises doivent évaluer soigneusement le compromis entre précision, coût et couverture. Une chose est sûre : les LLM de vision ne sont pas une mode passagère. Ils sont là pour rester, et pour changer la manière dont nous interagissons avec les documents.
COMMENT INTÉGRER UN LLM DE VISION DANS VOTRE SYSTÈME
Si vous souhaitez tester cette technologie, voici les étapes à suivre :
- Identifiez les pages de vos PDFs où les parseurs classiques échouent (graphiques, schémas, images).
- Choisissez un modèle adapté à votre budget (gpt-4.1 pour la précision, gpt-4o-mini pour un coût réduit).
- Testez la fonction
parsepagevisionsur un échantillon de pages. - Évaluez la qualité des descriptions et la précision des valeurs extraites.
- Comparez les résultats avec ceux des parseurs classiques pour mesurer l’amélioration.
- Intégrez le LLM de vision dans votre pipeline de parsing adaptatif.
LES OUTILS DISPONIBLES AUJOURD’HUI
Voici une liste non exhaustive des outils et modèles disponibles pour utiliser les LLM de vision dans le parsing de documents :
- OpenAI GPT-4o / GPT-4.1 : modèles de vision avancés, disponibles via API.
- Anthropic Claude avec vision : alternative aux modèles OpenAI.
- Google Gemini : modèle multimodal intégré à l’écosystème Google.
- Mistral Document AI : solution clé en main sur Azure AI Foundry.
- PaliGemma : modèle open source de vision-langage.
- Florence-2 : modèle open source développé par Microsoft.
- Qwen-VL : modèle open source de vision-langage développé par Alibaba.
LES CAS D’USAGE CONCRETS DÉJÀ TESTÉS
Plusieurs entreprises et chercheurs ont déjà testé les LLM de vision pour le parsing de documents. Voici quelques exemples :
- Analyse de rapports financiers : extraction des tendances à partir de graphiques.
- Traitement de documents historiques : lecture de scans de vieux journaux ou livres.
- Automatisation de la saisie de données : extraction d’informations à partir de photos de formulaires.
- Recherche dans des manuels techniques : localisation d’informations dans des schémas complexes.
LES DÉFIS TECHNIQUES À RELEVER
Malgré leurs avancées, les LLM de vision posent encore plusieurs défis :
- Précision des valeurs : les nombres extraits des graphiques sont souvent approximatifs.
- Gestion des omissions : certains éléments peuvent être ignorés sans avertissement.
- Coût et latence : chaque page traitée coûte cher et prend du temps.
- Intégration avec les parseurs classiques : fusionner les résultats de différents parseurs reste complexe.
- Traçabilité : l’absence de bbox pour le texte complique la vérification des sources.
COMMENT ÉVALUER LA QUALITÉ D’UN LLM DE VISION
Pour choisir le bon modèle, voici les critères à évaluer :
- Précision des descriptions : les phrases générées sont-elles claires et exploitables ?
- Complétude : tous les éléments de la page sont-ils décrits ?
- Précision des valeurs : les nombres extraits des graphiques sont-ils fiables ?
- Coût par page : le prix est-il raisonnable pour votre budget ?
- Latence : le temps de traitement est-il acceptable pour votre flux de travail ?
LES ALTERNATIVES AUX LLM DE VISION
Si les LLM de vision ne correspondent pas à vos besoins, voici quelques alternatives :
- OCR avancé : outils comme Tesseract ou Amazon Textract pour extraire le texte des images.
- Parseurs hybrides : combinaisons de OCR et de modèles de mise en page pour extraire texte et structure.
- Annotation manuelle : pour les cas où la précision est critique et le volume faible.
LES RISQUES À PRENDRE EN COMPTE
Avant d’adopter les LLM de vision, pesez les risques suivants :
- Hallucinations : le modèle peut inventer des informations, surtout si la page est complexe.
- Biais des modèles : certains modèles sont meilleurs pour certaines langues ou types de graphiques.
- Problèmes de confidentialité : les documents sensibles sont envoyés à des serveurs externes.
- Coûts imprévus : une utilisation intensive peut rapidement faire exploser la facture.
LES BONNES PRATIQUES POUR UNE UTILISATION OPTIMALE
Pour tirer le meilleur parti des LLM de vision, suivez ces conseils :
- Ciblez les pages visuelles : n’utilisez pas le modèle pour des pages déjà bien parsées par les outils classiques.
- Validez les résultats : vérifiez manuellement les descriptions et les valeurs extraites.
- Optimisez les coûts : choisissez le modèle le moins cher qui répond à vos besoins.
- Documentez les limites : indiquez clairement dans votre système que les valeurs des graphiques sont approximatives.
- Testez avant de déployer : évaluez la qualité sur un échantillon représentatif de vos documents.
LES PERSPECTIVES D’ÉVOLUTION
Les LLM de vision sont une technologie en pleine maturation. Voici ce que l’avenir pourrait apporter :
- Meilleure précision : des modèles plus performants pour extraire les valeurs des graphiques.
- Réduction des coûts : des tarifs plus accessibles pour une adoption massive.
- Intégration native : des parseurs classiques intégrant désormais des capacités de vision.
- Bbox pour le texte : des modèles capables de fournir des boîtes de délimitation pour tout le contenu.
- Modèles open source : des alternatives locales aux solutions cloud pour plus de confidentialité.
EN RÉSUMÉ : LES LLM DE VISION, UN OUTIL PUISSANT MAIS À UTILISER AVEC PRUDENCE
Les LLM de vision représentent une avancée majeure pour le parsing de documents. Ils permettent de transformer des images en données exploitables, comblant ainsi un trou dans les systèmes RAG et les outils d’entreprise. Cependant, leur coût, leur imprécision et leur lenteur les réservent à des cas spécifiques.
Pour les entreprises, la stratégie gagnante est claire :
- Utilisez les parseurs classiques pour le texte et les tableaux.
- Réservez les LLM de vision pour les pages visuelles (graphiques, schémas, images).
- Évaluez soigneusement la qualité et le coût avant de généraliser leur usage.
Les LLM de vision ne sont pas une solution miracle, mais ils sont le chaînon manquant pour des systèmes d’IA capables de lire un PDF comme un humain.
- Towards Data Science
L'indépendance de CLODCO est votre garantie.
Pour que l'actualité de l'IA reste sans filtre et sans concession, votre soutien est indispensable. Votre contribution est le seul moteur de notre liberté éditoriale.
Soutenir CLODCO

