Un agent a conçu une galerie en 3D des monuments de Paris sans ouvrir un seul outil de Génération d'images ou de reconstruction 3D. Tout a été automatisé en enchaînant deux espaces en ligne.

UN AGENT A TOUT FAIT SEUL, SANS TOUCHER À RIEN

Un agent de programmation a reçu pour mission de construire un site web présentant les monuments de Paris sous forme de splats gaussiens 3D. Sans jamais ouvrir un générateur d'images ni un outil de reconstruction 3D, l'agent a produit toutes les ressources nécessaires : les images et les modèles 3D. Pour cela, il a simplement enchaîné deux espaces disponibles sur Hugging Face Spaces, puis les a reliés à un visualiseur cinématographique. Le résultat ? Une galerie interactive où l'utilisateur peut faire défiler les monuments et les faire tourner à la souris.

LA NOUVELLE ÉCONOMIE DES BLOCS DE CONSTRUCTION

Mitchell Hashimoto, cofondateur de HashiCorp, a récemment décrit un changement majeur dans la façon de construire des logiciels. Il parle d'économie des blocs de construction : au lieu de créer un seul gros logiciel parfait, la meilleure approche consiste désormais à assembler de petits composants bien documentés. Son observation clé : l'intelligence artificielle est capable de tout faire à partir de zéro, mais elle excelle surtout pour coller ensemble des éléments déjà éprouvés.

Jusqu'à présent, cette théorie était surtout appliquée aux bibliothèques de code. Mais les mêmes forces s'appliquent désormais à l'intelligence artificielle multimédia. Le vrai défi n'était pas d'utiliser un modèle d'images, de vidéos, de synthèse vocale ou de reconstruction 3D de pointe. Le vrai casse-tête, c'était l'intégration : SDK, poids des modèles, GPU, formats d'entrée, scrutation des résultats. Si chaque modèle était au contraire un bloc documenté et accessible via une API, un agent pourrait les enchaîner exactement comme il assemble des paquets npm.

Les modèles deviennent composables. Un modèle de splats 3D de pointe et un modèle d'images de pointe, issus d'organisations différentes, peuvent être enchaînés sans une seule ligne de code d'intégration.

HUGGING FACE SPACES : DES BLOCS DOCUMENTÉS ET PRÊTS À L'EMPLOI

C'est exactement ce que sont devenus les Hugging Face Spaces, discrètement. Un simple appel à l'URL d'un espace comme https://huggingface.co/spaces/VAST-AI/TripoSplat/agents.md renvoie tout ce qu'il faut en une seule fois : l'URL du schéma d'API, les modèles d'appels et de scrutation, la façon d'uploader des fichiers, et l'indication sur l'authentification :

API schema:   GET  ./gradio_api/info
Call endpoint: POST ./gradioapi/call/v2/{endpoint} {"paramname": value, .}
Poll result:  GET  ./gradioapi/call/{endpoint}/{eventid}
File inputs:  POST ./gradio_api/upload -F "[email protected]"
Auth:         Bearer $HF_TOKEN

Aucune bibliothèque cliente. Aucune intégration codée en dur. Un agent lit ces informations et peut piloter l'espace de bout en bout. Il suffit de définir une variable HF_TOKEN et c'est parti.

L'ENCHAÎNEMENT : LA CLÉ QUI DÉVERROUILLE TOUT

Le véritable progrès réside dans la possibilité d'enchaîner les espaces : la sortie d'un espace devient l'entrée du suivant. Par exemple, un texte → une image → un modèle 3D. C'est exactement la chaîne de production derrière cette galerie 3D de Paris.

EXEMPLE CONCRET : DES IMAGES AUX MODÈLES 3D

L'agent a enchaîné deux espaces disponibles sur Hugging Face :

  • Un espace pour générer des images à partir de descriptions textuelles, comme ideogram-ai/ideogram4.
  • Un espace pour transformer une seule image en splat gaussien 3D, comme VAST-AI/TripoSplat.

L'agent a commencé par générer six images des monuments de Paris, isolées sur fond noir et prêtes pour la reconstruction 3D à partir d'une seule vue.

L'AGENT A FAIT LE TRAVAIL DE COLLE

L'agent ne s'est pas contenté d'enchaîner les outils. Il a aussi réalisé les ajustements nécessaires pour que tout fonctionne parfaitement. Par exemple, il a remarqué que les sorties de TripoSplat étaient orientées avec l'axe Y vers le bas, et les a redressées. Il a automatiquement cadré chaque monument, compressé les fichiers .ply en .ksplat (trois fois plus petits, donc plus rapides à charger), et construit un visualiseur Three.js avec une interface permettant de faire défiler les monuments et de les faire tourner à la souris. Enfin, il a déployé l'ensemble sous forme d'un espace statique sur Hugging Face.

Les seules interventions humaines ont porté sur le goût : « élargis la vue », « remplace l'obélisque par quelque chose de mieux pour le splatting », « la transition dure trop longtemps ».

Plusieurs de ces étapes consistaient en une réaction de l'agent face à la réalité. Une pyramide en verre large se splatte mal. Un obélisque fin est ennuyeux. Une reconstruction à partir d'une seule vue infère l'arrière. C'est exactement la boucle « R&D externalisée, itération rapide » prédite par l'économie des blocs de construction, sauf que la R&D s'est faite par une conversation.

POURQUOI CELA CHANGE TOUT

Les modèles deviennent composables. Un modèle de splats 3D de pointe et un modèle d'images de pointe, issus d'organisations différentes, peuvent être enchaînés sans une seule ligne de code d'intégration. Le catalogue de poids ouverts de Hugging Face se transforme en une bibliothèque de primitives multimédias appelables.

Les agents préfèrent ce qui est documenté et accessible. Le fichier agents.md rend un espace trivialement accessible, donc un agent le choisira plutôt qu'un modèle qu'il faudrait configurer manuellement. C'est la même dynamique que celle que Hashimoto observe pour les bibliothèques open source.

Le vrai obstacle était l'intégration, et il a presque disparu. « Transformer une description en un monument 3D rotatif » était autrefois un projet complet. Ici, c'était une simple étape dans une chaîne de production automatisée.

ESSAYEZ VOUS-MÊME

Pour reproduire cette expérience, il suffit de pointer votre propre agent vers le fichier agents.md d'un espace. Voici les liens à utiliser :

# génération d'images
curl https://huggingface.co/spaces/ideogram-ai/ideogram4/agents.md

# transformation d'une image en splat gaussien 3D
curl https://huggingface.co/spaces/VAST-AI/TripoSplat/agents.md

Copiez l'un de ces liens dans votre agent de programmation (comme Claude Code), définissez votre HF_TOKEN, et demandez-lui de construire quelque chose. Le pipeline complet et reproductible de cette galerie, ainsi que les scripts qui appellent ces deux endpoints, sont disponibles dans le dépôt de l'espace.

LES BLOCS SONT DÉJÀ SUR HUGGING FACE

Les éléments de base sont disponibles directement sur le Hub. Les agents savent déjà comment les assembler.

LES ESPACES MENTIONNÉS DANS CET ARTICLE

ideogram-ai/ideogram4 pour la génération d'images à partir de texte.
VAST-AI/TripoSplat pour la transformation d'une image en splat gaussien 3D.

COMMENTAIRES

Vous pouvez commenter cet article en vous connectant à Hugging Face. Glissez-déposez des images, des audios ou des vidéos dans la zone de texte, ou collez-les directement. Appuyez ou collez ici pour uploader des images.

AUTRES ARTICLES DE L'AUTEUR

11 juin 2026 : 10 idées qui transforment une séance d'entraînement de 45 minutes en 90 secondes.
20 mars 2026 : Une édition communautaire est disponible.

Sources :
  • Hugging Face Blog

L'indépendance de CLODCO est votre garantie.

Pour que l'actualité de l'IA reste sans filtre et sans concession, votre soutien est indispensable. Votre contribution est le seul moteur de notre liberté éditoriale.

Soutenir CLODCO