PaddleOCR 3.5 : l'OCR et l'analyse de documents passent à l'ère Transformers

PaddleOCR 3.5 intègre ses modèles d'OCR et d'analyse documentaire à Hugging Face Transformers. Une révolution pour les développeurs et les applications d'IA.

Imaginez un moteur de Recherche capable de lire n'importe quel document, tableau ou formule mathématique comme si c'était une page web. C'est exactement ce que permet désormais PaddleOCR 3.5, une mise à jour majeure qui rapproche l'OCR (reconnaissance optique de caractères) de l'écosystème Hugging Face Transformers.

UNE RÉVOLUTION DANS L'INFÉRENCE

Avec cette version, les modèles d'OCR comme PP-OCRv5 et les modèles d'analyse documentaire comme PaddleOCR-VL 1.5 peuvent désormais fonctionner avec Transformers comme backend d'inférence. Concrètement, cela signifie que vous pouvez exécuter ces modèles en utilisant la même infrastructure que les grands modèles de langage (LLM).

Pour la première fois, l'OCR et l'analyse de documents s'intègrent naturellement dans les workflows Hugging Face, réduisant les frictions d'intégration de 70%.

POURQUOI CELA CHANGE TOUT POUR LES APPLICATIONS DOCUMENTAIRES

Dans les applications d'IA comme les agents conversationnels, les systèmes de recherche augmentée par génération (RAG) ou les outils d'intelligence artificielle documentaire, la première étape consiste souvent à transformer des PDF, des captures d'écran ou des tableaux en données structurées. Si cette étape échoue, le reste du système peut produire des réponses erronées ou incomplètes.

PaddleOCR 3.5 répond à ce défi en proposant des modèles d'OCR comme PP-OCRv5 et des modèles d'analyse documentaire comme PaddleOCR-VL-1.5. La nouveauté ? Ces modèles peuvent désormais être exécutés avec un backend Transformers, ce qui les rend plus faciles à intégrer dans des stacks technologiques existants.

INSTALLATION : LES COMMANDES À CONNAÎTRE

Pour utiliser PaddleOCR 3.5 avec Transformers, commencez par installer les dépendances nécessaires. Voici les commandes à exécuter dans votre terminal :

python -m pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126
python -m pip install "paddleocr==3.5.0" "paddlex==3.5.2" "transformers>=5.4.0"

Si vous utilisez un CPU ou un environnement différent (comme ROCm), installez la version de PyTorch adaptée à votre matériel.

UTILISER L'OCR EN LIGNE DE COMMANDE

Une fois les packages installés, vous pouvez tester l'OCR directement depuis votre terminal. Voici un exemple de commande pour analyser une image :

paddleocr ocr \
  -i https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demoimage/generalocr_002.png \
  --device gpu:0 \
  --engine transformers

Cette commande utilise le backend Transformers pour analyser l'image spécifiée et extraire le texte qu'elle contient.

INTÉGRER PADDLEOCR DANS UN SCRIPT PYTHON

Pour une intégration plus poussée, vous pouvez utiliser l'API Python de PaddleOCR. Voici comment configurer un pipeline d'OCR avec Transformers :

from paddleocr import PaddleOCR

pipeline = PaddleOCR(
    device="gpu:0",
    engine="transformers",
    usedocorientation_classify=False,
    usedocunwarping=False,
    usetextlineorientation=False,
    engine_config={
        "dtype": "float32",
    },
)

results = pipeline.predict(
    "https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demoimage/generalocr_002.png"
)

for result in results:
    print(result)

Ce code crée un pipeline d'OCR configuré pour utiliser Transformers comme backend. Les résultats sont ensuite affichés ligne par ligne.

PERSONNALISER LE BACKEND POUR OPTIMISER LES PERFORMANCES

Transformers offre plusieurs options de configuration pour adapter l'exécution à votre matériel. Voici un exemple de configuration avancée :

engine_config = {
    "dtype": "bfloat16",
    "device_type": "gpu",
    "device_id": 0,
    "attn_implementation": "sdpa",
}

Cette configuration utilise le format bfloat16 pour réduire l'utilisation de mémoire tout en maintenant une bonne précision. L'option sdpa (Scaled Dot-Product Attention) optimise le calcul des attentions, ce qui accélère l'inférence sur les GPU modernes.

QUAND UTILISER LE BACKEND TRANSFORMERS ?

Le backend Transformers est particulièrement adapté si vous travaillez déjà avec l'écosystème Hugging Face. Voici les cas d'usage idéaux :

Applications RAG : pour extraire et structurer des données depuis des documents avant de les utiliser dans un modèle de langage.
Intelligence artificielle documentaire : pour analyser des PDF, des tableaux ou des formules mathématiques.
Agents conversationnels : pour permettre à un agent de comprendre et d'interagir avec des documents complexes.
Recherche et analytique : pour transformer des données non structurées en informations exploitables.

En revanche, si votre priorité est la vitesse d'exécution et que vous n'avez pas besoin de l'écosystème Hugging Face, le backend par défaut de PaddleOCR (paddle_static) reste généralement plus performant.

UNE DÉMONSTRATION EN LIGNE POUR TESTER

Pour voir PaddleOCR 3.5 en action avec Transformers, essayez la démo interactive disponible sur Hugging Face Spaces :

https://huggingface.co/spaces/PaddlePaddle/paddleocr-3.5-transformers-demo

Cette démo vous permet de tester l'OCR et l'analyse de documents sans installer quoi que ce soit sur votre machine.

UNE AVANCÉE MAJEURE POUR LES DÉVELOPPEURS

Cette mise à jour ne remplace pas les backends existants de PaddleOCR. Elle ajoute simplement une nouvelle option pour les développeurs qui souhaitent intégrer l'OCR et l'analyse documentaire dans des workflows basés sur Transformers. L'objectif ? Réduire les frictions d'intégration et offrir plus de flexibilité.

Avec PaddleOCR 3.5, les développeurs peuvent désormais construire des applications d'IA documentaire plus rapidement et avec moins de code.

RESOURCES UTILES

Pour en savoir plus sur PaddleOCR 3.5 et ses nouvelles fonctionnalités, consultez les ressources suivantes :

REMERCIEMENTS

Cette intégration n'aurait pas été possible sans le soutien des ingénieurs de Hugging Face. Un grand merci à Anton Vlasjuk pour son implication de bout en bout, notamment pour la révision et la fusion de toutes les pull requests liées à ce projet.

Des remerciements particuliers à Raushan Turganbay et Yoni Gozlan pour leurs précieuses relectures et leurs retours constructifs. Leur expertise a permis d'améliorer la qualité de l'intégration, la documentation et l'expérience développeur pour la communauté Hugging Face.

CONCLUSION : L'OCR DEVIENT PLUS ACCESSIBLE

PaddleOCR 3.5 marque un tournant dans l'histoire de l'OCR et de l'analyse documentaire. En intégrant ses modèles à l'écosystème Hugging Face Transformers, PaddleOCR rend ces technologies plus accessibles et plus faciles à intégrer dans des applications d'IA modernes.

Que vous soyez un développeur cherchant à construire un agent conversationnel, un système RAG ou une application d'intelligence artificielle documentaire, cette mise à jour vous offre une solution plus flexible et plus puissante. Et le meilleur ? Vous pouvez commencer à l'utiliser dès aujourd'hui via la démo en ligne ou en installant les packages.

L'avenir de l'OCR et de l'analyse de documents est en train de s'écrire. Et avec PaddleOCR 3.5, il vient de gagner en accessibilité et en puissance.

Sources :

Hugging Face Blog

L'indépendance de CLODCO est votre garantie.

Pour que l'actualité de l'IA reste sans filtre et sans concession, votre soutien est indispensable. Votre contribution est le seul moteur de notre liberté éditoriale.

Soutenir CLODCO