La révolution de la recherche sémantique : comment l'IA comprend enfin vos mots

L’IA ne se contente plus de chercher des mots : elle comprend maintenant ce que ces mots veulent dire. Retour sur 40 ans d’évolution en un tutoriel pas à pas.

Imaginez que vous écrivez un commentaire sur La Nuit étoilée de Van Gogh. Vous parlez de « lumière douce », de « figure centrale isolée » et d’une « atmosphère de réflexion ». Comment un ordinateur peut-il comprendre que votre critique ressemble à celles d’experts ? La réponse réside dans l’évolution de la Recherche sémantique : une technologie qui transforme des mots en sens, et non plus en simples combinaisons de lettres.

QUATRE GÉNÉRATIONS POUR UNE MÊME IDÉE : COMPRENDRE LES CRITIQUES D’ART

Pour illustrer cette évolution, prenons l’exemple d’un exercice courant en intelligence artificielle : comparer une critique d’art écrite par un étudiant avec celles d’experts. L’objectif ? Déterminer si le texte de l’étudiant ressemble à une analyse d’expert ou à une impression superficielle. Cette comparaison se fait en quatre étapes, chacune représentant une génération de recherche sémantique.

La première génération repose sur des règles écrites à la main : on compte les mots qui se répètent. La deuxième utilise des algorithmes classiques pour apprendre à reconnaître des motifs. La troisième capture le sens profond des phrases grâce à des représentations vectorielles. Enfin, la quatrième génération ajuste ces représentations en fonction du contexte, comme un humain qui adapterait son interprétation selon l’interlocuteur.

La recherche sémantique ne s’est pas construite en un jour. Chaque génération a résolu des problèmes tout en en créant de nouveaux.

GÉNÉRATION 1 : TF-IDF, LE COMPTEUR DE MOTS QUI DEVIENT INTELLIGENT

La première méthode s’appelle TF-IDF (Term Frequency-Inverse Document Frequency). Derrière ce nom barbare se cache une idée simple : certains mots sont plus importants que d’autres. Par exemple, le mot « la » apparaît dans presque toutes les phrases et n’a donc aucune valeur. À l’inverse, « symbolisme » ou « composition » sont des termes rares qui révèlent une analyse approfondie.

Concrètement, TF-IDF transforme chaque critique en une liste de nombres. Chaque nombre correspond à l’importance d’un mot dans ce texte précis, comparé à l’ensemble des critiques disponibles. Ces nombres forment un vecteur, une sorte de carte d’identité numérique du texte.

Pour comparer deux critiques, on mesure l’angle entre leurs vecteurs. Plus l’angle est petit, plus les textes se ressemblent. C’est ce qu’on appelle la similarité cosinus. Imaginez deux flèches pointant dans la même direction : elles représentent deux textes qui utilisent des mots similaires dans des proportions comparables.

Mais TF-IDF a ses limites. Deux critiques peuvent parler de la même idée sans utiliser les mêmes mots. Par exemple, une critique parle de « lumière dramatique » et une autre de « clair-obscur marqué ». Ces phrases décrivent la même technique artistique, mais TF-IDF ne le verra pas, car il ne comprend que les mots, pas leur sens.

GÉNÉRATION 2 : L’APPRENTISSAGE AUTOMATIQUE, OU COMMENT LA MACHINE DÉCIDE SEULE

Pour dépasser les limites de TF-IDF, la deuxième génération utilise des algorithmes d’apprentissage automatique. Au lieu de compter les mots, la machine apprend à reconnaître des motifs dans les textes. Par exemple, elle peut apprendre que les mots « profondeur », « analyse » ou « structure » apparaissent souvent dans les critiques d’experts, tandis que « beau » ou « j’aime » sont plus fréquents chez les novices.

Concrètement, on utilise un modèle appelé régression logistique. Ce modèle prend en entrée les vecteurs TF-IDF et apprend à prédire si une critique ressemble à celle d’un expert ou d’un novice. Contrairement à la première génération, la machine ne se contente plus de comparer des mots : elle apprend à distinguer les styles d’écriture.

Le code suivant montre comment construire ce système :

model = Pipeline([
    ("tfidf", TfidfVectorizer(
        ngram_range=(1, 2),
        lowercase=True,
        min_df=1,
        stop_words="english"
    )),
    ("classifier", LogisticRegression())
])

Le TfidfVectorizer transforme le texte en vecteurs, tandis que la LogisticRegression apprend à classer les critiques. Après entraînement, le modèle peut analyser une nouvelle critique et donner une probabilité : 0.672 pour une critique d’étudiant, ce qui signifie qu’elle ressemble à 67,2 % à une critique d’expert.

La machine n’interprète pas l’art. Elle reconnaît les motifs de langage associés aux experts.

GÉNÉRATION 3 : LES EMBEDDINGS, OU COMMENT TRANSFORMER LES MOTS EN SENS

La troisième génération va encore plus loin. Au lieu de compter les mots ou de reconnaître des motifs, elle transforme chaque phrase en un embedding, une représentation numérique qui capture le sens profond du texte. Deux critiques qui utilisent des mots différents mais parlent de la même idée seront placées proches l’une de l’autre dans l’espace des embeddings.

Pour créer ces embeddings, on utilise un modèle de type Sentence Transformer (un modèle de langage basé sur des transformers). Ce modèle génère un vecteur de 384 nombres pour chaque critique. Ces nombres ne correspondent pas à des mots précis, mais à des concepts abstraits comme « émotion », « profondeur » ou « composition ».

Pour comparer deux critiques, on mesure à nouveau la similarité cosinus, mais cette fois dans l’espace des embeddings. On peut aussi calculer un centroïde expert, une sorte de moyenne de tous les vecteurs des critiques d’experts. Ce centroïde représente le « centre de gravité » des analyses expertes. Plus une critique d’étudiant est proche de ce centroïde, plus elle ressemble à une critique d’expert.

Pour visualiser ces embeddings, on utilise une technique appelée PCA (Principal Component Analysis). La PCA réduit les 384 dimensions en seulement deux dimensions, tout en conservant une grande partie du sens. Le résultat est un graphique où chaque point représente une critique. Les critiques d’experts et d’étudiants qui se ressemblent sont placées proches les unes des autres.

Les résultats sont impressionnants : certaines critiques d’étudiants sont presque indiscernables des critiques d’experts. Par exemple, la critique S1 obtient un score de 0,802, ce qui signifie qu’elle est très proche des analyses expertes. À l’inverse, la critique S4, qui se concentre sur des impressions personnelles plutôt que sur une analyse artistique, obtient un score de 0,618 et est plus éloignée du centroïde expert.

GÉNÉRATION 4 : LES TRANSFORMERS FINE-TUNÉS, OU COMMENT L’IA S’ADAPTE AU CONTEXTE

La quatrième et dernière génération pousse le concept encore plus loin. Au lieu d’utiliser des embeddings fixes, on utilise des modèles de type transformer qui peuvent ajuster leur compréhension en fonction du contexte. Par exemple, une critique qui parle de « lumière » dans le contexte de Van Gogh n’a pas le même sens que dans un autre contexte.

Pour entraîner un tel modèle, on utilise des données labellisées : certaines critiques sont marquées comme « expertes », d’autres comme « novices ». Le modèle apprend alors à prédire si une nouvelle critique ressemble à une analyse experte ou non. Contrairement aux générations précédentes, ce modèle ne se contente pas de comparer des textes : il comprend le sens profond des phrases et s’adapte au contexte.

Le code suivant montre comment tokenizer et préparer les données pour un modèle transformer :

# Charger le tokenizer
model_checkpoint = "distilbert-base-uncased"
tokenizer = AutoTokenizer.frompretrained(modelcheckpoint)

# Fonction pour tokenizer les textes
def tokenize_function(example):
    return tokenizer(
        example["text"],
        truncation=True,
        padding="max_length",
        max_length=128
    )

# Appliquer le tokenizer à l'ensemble de données
tokenizeddataset = dataset.map(tokenizefunction)

Le padding="max_length" ajoute des zéros à la fin des phrases pour qu’elles aient toutes la même longueur. Le truncation=True coupe les phrases trop longues pour qu’elles rentrent dans la limite de 128 tokens (mots ou morceaux de mots).

Une fois le modèle entraîné, il peut prédire si une critique est « experte » ou « novice ». Par exemple, une critique obtient la prédiction suivante :

Predicted label: 0
Confidence: 0.685
Probability novice-like: 0.685
Probability expert-like: 0.315

Ici, le modèle prédit que la critique ressemble à une analyse de novice (label 0) avec une confiance de 68,5 %. La probabilité qu’elle soit une critique d’expert n’est que de 31,5 %.

POURQUOI CETTE ÉVOLUTION EST-ELLE IMPORTANTE ?

Chaque génération de recherche sémantique a résolu des problèmes tout en en créant de nouveaux. La première génération était simple et interprétable, mais limitée. La deuxième a permis à la machine d’apprendre, mais dépendait encore des mots. La troisième a capturé le sens profond, mais les embeddings étaient fixes. La quatrième a rendu les modèles adaptatifs et contextuels.

Cette évolution reflète un changement majeur dans l’intelligence artificielle : le passage de systèmes conçus par des humains à des modèles qui apprennent directement à partir des données. Aujourd’hui, les systèmes de recherche sémantique ne se contentent plus de trouver des mots : ils comprennent le sens, le contexte et même les nuances.

La recherche sémantique est passée de règles écrites à la main à des modèles qui apprennent par eux-mêmes. Une révolution silencieuse qui change notre rapport au langage.

ET DEMAIN ?

Les modèles de type transformer continuent de progresser. Demain, ils pourraient comprendre non seulement le sens des mots, mais aussi les intentions, les émotions et même les sous-entendus. La recherche sémantique ne se limitera plus aux textes : elle s’étendra aux images, aux vidéos et même à la voix.

Pour l’instant, les quatre générations décrites ici restent des outils puissants. Que vous soyez étudiant en art, développeur ou simplement curieux, comprendre leur fonctionnement vous donne un aperçu du pouvoir de l’intelligence artificielle. Et qui sait ? Peut-être qu’un jour, votre critique de Van Gogh sera aussi bien comprise qu’une analyse d’expert.

EN PRATIQUE : COMMENT UTILISER CES TECHNIQUES ?

Si vous voulez expérimenter vous-même, le code complet pour les quatre méthodes est disponible sur GitHub. Vous y trouverez des exemples concrets pour implémenter TF-IDF, la régression logistique, les embeddings et les transformers fine-tunés. Une façon de voir par vous-même comment l’IA comprend (ou pas) le sens des mots.

Que vous soyez débutant ou expert en machine learning, ce tutoriel vous donne les clés pour comprendre l’évolution de la recherche sémantique. Et qui sait ? Peut-être qu’un jour, vous utiliserez ces techniques pour créer des systèmes encore plus intelligents.

Sources :

Towards Data Science

L'indépendance de CLODCO est votre garantie.

Pour que l'actualité de l'IA reste sans filtre et sans concession, votre soutien est indispensable. Votre contribution est le seul moteur de notre liberté éditoriale.

Soutenir CLODCO