Votre MacBook peut désormais héberger une IA puissante : le guide ultime

Un MacBook et quelques commandes suffisent pour faire tourner un modèle de langage de 9 milliards de paramètres. Voici comment installer Qwen3 8B avec Ollama et l'utiliser en local, sans connexion internet.

INSTALLER OLLAMA SUR MAC : LA PREMIÈRE ÉTAPE

Pour commencer, il faut télécharger et installer Ollama, un outil qui permet de faire tourner des modèles de langage locaux sur un ordinateur. Ollama est spécialement optimisé pour les puces Apple Silicon, celles qui équipent les MacBook récents. La procédure est simple et ne prend que quelques minutes.

Ollama transforme votre MacBook en une machine capable d'exécuter une IA puissante, entièrement hors ligne.

Ouvrez le Terminal sur votre MacBook. Si vous ne savez pas comment faire, recherchez simplement « Terminal » dans les applications. Ensuite, copiez-collez ces commandes une par une pour installer Ollama :

# Télécharger la version pour Apple Silicon
cd ~/Downloads
curl -L -o Ollama-darwin.zip https://ollama.com/download/Ollama-darwin.zip

# Décompresser et déplacer l'application dans le dossier Applications
unzip -o -q Ollama-darwin.zip
mv Ollama.app /Applications/

CONFIGURER LA LIGNE DE COMMANDE D'OLLAMA

Ollama s'installe comme une application classique, mais il inclut aussi un outil en ligne de commande (CLI) caché dans le dossier de l'application. Pour l'utiliser facilement, il faut créer un raccourci dans votre profil système. Cela permet de lancer Ollama depuis n'importe où dans le Terminal.

Exécutez ces commandes pour configurer le raccourci :

# Créer un dossier local pour les commandes
mkdir -p ~/.local/bin

# Créer un lien symbolique vers l'outil Ollama
ln -sf /Applications/Ollama.app/Contents/Resources/ollama ~/.local/bin/ollama

# Ajouter ce dossier au PATH pour le rendre permanent
# (Cela permet d'utiliser 'ollama' depuis n'importe où dans le Terminal)
echo 'export PATH="$HOME/.local/bin:$PATH"' >> ~/.zshrc

# Appliquer immédiatement les changements dans le Terminal actuel
export PATH="$HOME/.local/bin:$PATH"

# Vérifier que Ollama est bien installé
ollama --version

LANCER LE SERVEUR OLLAMA POUR FAIRE TOURNER LES MODÈLES

Ollama fonctionne grâce à un petit serveur qui tourne en arrière-plan. Ce serveur permet de charger les modèles de langage et de les utiliser via une interface simple. Pour démarrer ce serveur, exécutez ces commandes :

# Créer un dossier pour les logs du serveur
mkdir -p ~/.ollama/logs

# Démarrer le serveur Ollama en arrière-plan
# La commande 'nohup' permet de continuer à l'exécuter même si on ferme le Terminal
nohup ollama serve > ~/.ollama/logs/serve.log 2>&1 &

# Vérifier que le serveur est bien lancé
curl -s http://127.0.0.1:11434/api/version

Si le serveur répond avec une version, c'est que tout fonctionne correctement. Vous êtes maintenant prêt à installer votre premier modèle de langage.

TÉLÉCHARGER ET UTILISER LE MODÈLE QWEN3 8B

Qwen3 8B est un modèle de langage puissant développé par Alibaba. Il pèse environ 5,2 Go et nécessite environ 6 Go de mémoire vive une fois chargé. C'est un bon compromis entre performance et taille pour un usage local sur un MacBook.

Pour télécharger ce modèle, utilisez la commande suivante :

ollama pull qwen3:8b

# Vérifier que le modèle est bien installé
ollama list

Qwen3 8B est un modèle de 9 milliards de paramètres, capable de comprendre et de générer du texte avec une grande précision.

Le téléchargement prend environ 5,2 Go d'espace disque. Une fois terminé, vous verrez le modèle apparaître dans la liste des modèles disponibles. Vous êtes maintenant prêt à interagir avec votre propre intelligence artificielle locale.

TROIS FAÇONS D'UTILISER VOTRE MODÈLE LOCAL

Il existe trois méthodes principales pour interagir avec votre modèle Qwen3 8B local : le chat interactif, les commandes en une ligne et l'API HTTP. Chaque méthode a ses avantages selon ce que vous voulez faire.

1. LE CHAT INTERACTIF : LA MÉTHODE LA PLUS SIMPLE

Pour lancer une session de chat interactive avec votre modèle, utilisez simplement cette commande :

ollama run qwen3:8b

Cette commande ouvre une session où vous pouvez discuter avec le modèle en temps réel. Par défaut, le modèle affiche ses étapes de raisonnement (les « tokens de pensée ») avant de donner sa réponse. C'est utile pour comprendre comment l'IA arrive à ses conclusions, mais cela peut ralentir un peu la réponse.

Par exemple, si vous demandez au modèle ce qu'il pense des modèles open source, il affichera d'abord ses réflexions en gris clair avant de donner sa réponse finale. Le modèle retient aussi le contexte des échanges précédents, comme un assistant conversationnel classique.

Le nombre de tokens générés par seconde dépend de la puissance de votre MacBook. En mode économie d'énergie, le modèle peut générer environ 5,7 tokens par seconde. En mode performance, ce chiffre peut monter à 15-20 tokens par seconde.

2. LES COMMANDES EN UNE LIGNE : POUR DES TÂCHES SIMPLES

Si vous voulez poser une question ou donner une instruction sans ouvrir de session interactive, utilisez la commande suivante :

ollama run qwen3:8b "Écris un script Python qui compte le nombre de voyelles dans un mot"

Le modèle va générer un script Python comme celui-ci :

# Demander à l'utilisateur de saisir un mot
word = input("Entrez un mot : ")

# Définir l'ensemble des voyelles
vowels = {'a', 'e', 'i', 'o', 'u'}

# Initialiser un compteur
count = 0

# Convertir le mot en minuscules et vérifier chaque caractère
for char in word.lower():
    if char in vowels:
        count += 1

# Afficher le résultat
print(f"Nombre de voyelles : {count}")

Vous pouvez copier ce script et l'exécuter directement dans votre Terminal. C'est idéal pour des tâches rapides comme générer du code, résumer un texte ou répondre à une question précise.

3. L'API HTTP : POUR INTÉGRER L'IA DANS VOS PROPRES SCRIPTS

Si vous êtes à l'aise avec la programmation, vous pouvez utiliser l'API HTTP d'Ollama pour intégrer le modèle dans vos propres scripts Python ou applications. Voici un exemple de script qui utilise l'API pour poser une question au modèle :

import json, urllib.request

req = urllib.request.Request(
    "http://127.0.0.1:11434/api/generate",
    data=json.dumps({
        "model": "qwen3:8b",
        "prompt": "Donne-moi trois utilisations concrètes d'un modèle de langage local.",
        "stream": False,
        "think": False,
    }).encode(),
    headers={"Content-Type": "application/json"},
)
print(json.loads(urllib.request.urlopen(req).read())["response"])

Ce script envoie une requête au serveur local d'Ollama, qui répond avec une liste d'utilisations possibles pour un modèle de langage local. Voici la réponse que vous pourriez obtenir :

"Voici trois utilisations courantes et pratiques d'un modèle de langage local (LLM) : 1. Assistance personnalisée et productivité : un LLM local peut agir comme un assistant IA privé, aidant à rédiger des emails, organiser un planning, prendre des notes ou même coder. 2. Création de contenu et traitement du langage : vous pouvez utiliser un LLM local pour générer des articles, des histoires, des scripts ou des textes marketing. 3. Applications personnalisées et intégration : un LLM local peut être intégré dans des applications ou des flux de travail personnalisés, comme des chatbots ou des systèmes de support client."

COMMENT GÉRER LES ÉTAPES DE RAISONNEMENT DU MODÈLE

Qwen3 est un modèle hybride qui, par défaut, affiche ses étapes de raisonnement avant de donner une réponse. Ces étapes sont utiles pour comprendre comment l'IA arrive à ses conclusions, mais elles peuvent ralentir la Génération de la réponse finale. Heureusement, Ollama permet de désactiver cette fonctionnalité si vous préférez obtenir des réponses plus rapides.

Pour désactiver l'affichage des étapes de raisonnement, utilisez l'une de ces commandes :

# Désactiver complètement l'affichage des étapes de pensée
ollama run qwen3:8b --think=false

# Masquer les étapes de pensée dans les réponses
ollama run qwen3:8b --hidethinking

Ces options sont utiles si vous voulez utiliser le modèle pour des tâches rapides ou si vous préférez ne pas voir les détails de son raisonnement.

INTÉGRER LE MODÈLE LOCAL À VOS OUTILS DE DÉVELOPPEMENT

Si vous utilisez un éditeur de code comme Visual Studio Code, vous pouvez intégrer votre modèle local pour l'utiliser directement dans votre environnement de développement. L'extension Continue.dev permet de configurer facilement un assistant IA local pour coder, éditer et automatiser des tâches.

Voici un exemple de configuration pour Continue.dev :

name: Assistant Local
version: 1.0.0
models:
  - name: Qwen3 8B (local)
    provider: ollama
    model: qwen3:8b
    roles:
      - chat
      - edit
      - apply
  - name: Qwen3 8B Autocomplétion
    provider: ollama
    model: qwen3:8b
    roles:
      - autocomplete

Cette configuration permet d'utiliser Qwen3 8B pour discuter, éditer du code et automatiser des tâches, ainsi que pour l'autocomplétion de code en temps réel. Pour une expérience optimale, il est recommandé d'utiliser un modèle plus petit (comme Qwen2.5-coder:1.5b-base) pour l'autocomplétion, car il est plus rapide et plus réactif.

Pour installer ce modèle plus petit, utilisez la commande :

ollama pull qwen2.5-coder:1.5b-base

POURQUOI UTILISER UN MODÈLE LOCAL ?

Les modèles de langage locaux comme Qwen3 8B ne remplacent pas encore les modèles cloud les plus puissants, mais ils offrent des avantages uniques, notamment en termes de vie privée et de autonomie. Voici pourquoi cette technologie est importante :

1. Confidentialité totale : Contrairement aux modèles cloud, un modèle local ne transmet aucune donnée à des serveurs distants. Vos échanges restent sur votre machine, ce qui est idéal pour travailler sur des documents sensibles ou confidentiels.

2. Indépendance technologique : Vous n'êtes pas dépendant des décisions des grandes entreprises technologiques. Vous contrôlez entièrement votre outil et vos données.

3. Accessibilité hors ligne : Votre modèle fonctionne même sans connexion internet. C'est parfait pour les voyages, les zones sans couverture réseau ou les situations où vous ne voulez pas dépendre d'une connexion.

Les modèles locaux sont souvent décrits comme un moyen de « démocratiser » l'IA. Pourtant, cette démocratisation n'est pas encore totale. Pour faire tourner un modèle comme Qwen3 8B, il faut un MacBook avec au moins 24 Go de mémoire unifiée, ce qui représente un investissement important. De plus, l'installation nécessite de connaître quelques commandes de Terminal.

Cependant, la situation évolue rapidement. Il y a deux ans, faire tourner un modèle décent en local nécessitait une station de travail dédiée et des compétences techniques poussées. Aujourd'hui, il suffit d'un MacBook récent et de quelques heures pour tout configurer.

QUELLE CONFIGURATION POUR FAIRE TOURNER QWEN3 8B ?

Pour faire tourner Qwen3 8B de manière fluide, il est recommandé d'avoir un MacBook avec au moins 24 Go de mémoire unifiée. Les puces Apple Silicon (M1, M2, M3, M4) sont particulièrement adaptées grâce à leur architecture unifiée, où le CPU et le GPU partagent la même mémoire. Cela évite les transferts lents de données entre la mémoire et le processeur.

Sur un MacBook Air M4 avec 24 Go de mémoire, Qwen3 8B prend environ 5 Go sur le disque et 6 Go en mémoire une fois chargé. Vous pouvez même faire tourner un modèle de 14 milliards de paramètres tout en gardant plusieurs onglets de navigateur ouverts.

Si vous avez un MacBook avec seulement 8 Go de mémoire, il est préférable d'utiliser un modèle plus petit comme Qwen2.5-coder:1.5b-base (1,5 milliard de paramètres) pour éviter les ralentissements.

OLLAMA : L'OUTIL QUI SIMPLIFIE TOUT

Ollama est un outil open source conçu pour rendre l'utilisation des modèles de langage locaux aussi simple que possible. Il regroupe plusieurs fonctionnalités en un seul package :

Un moteur optimisé pour exécuter les modèles (basé sur llama.cpp avec accélération GPU via Metal d'Apple).
Un registre de modèles similaire à Docker, pour télécharger et gérer facilement les modèles.
Une API HTTP locale, pour interagir avec le modèle depuis vos propres scripts ou applications.

Contrairement à d'autres solutions qui demandent de configurer des dépendances complexes ou de compiler du code, Ollama s'installe en quelques clics et fonctionne immédiatement. C'est l'outil idéal pour les débutants comme pour les experts.

LES LIMITES DES MODÈLES LOCAUX : CE QU'IL FAUT SAVOIR

Bien que les modèles locaux comme Qwen3 8B soient puissants, ils ont encore des limites par rapport aux modèles cloud des grandes entreprises technologiques :

1. Performance inférieure : Les modèles locaux ne sont pas encore au niveau des modèles les plus avancés comme GPT-4 ou Claude 3. Ils sont plus lents et moins précis pour les tâches complexes.

2. Données statiques : Les modèles locaux ne peuvent pas accéder à des informations en temps réel, car leurs données d'entraînement sont figées à la date de leur création. Pour des informations actualisées, il faut soit mettre à jour le modèle, soit utiliser une recherche web (mais cela sort du cadre local).

3. Recherche web limitée : Ollama permet d'activer une fonctionnalité de recherche web pour enrichir les réponses du modèle. Cependant, cette fonctionnalité envoie vos requêtes sur internet, ce qui peut poser un problème de confidentialité. Si la vie privée est votre priorité absolue, il est préférable de désactiver cette option.

Malgré ces limites, les modèles locaux progressent à un rythme impressionnant. Des modèles comme GLM 5.2 et Qwen 3.7 Max se rapprochent rapidement des performances des modèles cloud. La démocratisation de l'IA locale est en marche, et elle ne fait que commencer.

UN AVENIR PROMETTEUR POUR L'IA LOCALE

L'IA locale n'est pas encore accessible à tout le monde, mais son potentiel est immense. À l'avenir, les modèles locaux pourraient devenir aussi performants que les modèles cloud, tout en offrant une confidentialité et une autonomie inégalées. Voici ce que l'avenir pourrait réserver :

1. Des modèles plus légers et plus rapides : Les progrès en optimisation permettront de faire tourner des modèles encore plus puissants sur des machines moins puissantes, comme des MacBook avec 16 Go de mémoire.

2. Une intégration plus poussée : Les éditeurs de logiciels intégreront de plus en plus les modèles locaux directement dans leurs outils, comme des assistants de codage ou des correcteurs grammaticaux.

3. Une adoption massive : À mesure que les prix des ordinateurs puissants baissent et que les outils comme Ollama s'améliorent, l'IA locale deviendra accessible à un public plus large.

Pour l'instant, faire tourner une IA locale reste une aventure technique, mais elle en vaut la peine. Que ce soit pour protéger vos données, travailler hors ligne ou simplement explorer les possibilités de l'IA, cette technologie ouvre de nouvelles perspectives.

L'IA locale n'est pas une solution miracle, mais elle représente un pas de géant vers une technologie plus ouverte, plus privée et plus accessible à tous.

CONCLUSION : VOTRE MACBOOK PEUT DEVENIR UNE IA

Avec Ollama et Qwen3 8B, votre MacBook peut désormais héberger une intelligence artificielle complète, capable de comprendre, générer et automatiser des tâches. Cette solution est idéale pour ceux qui veulent garder le contrôle sur leurs données et travailler hors ligne.

Bien que les modèles locaux ne remplacent pas encore les modèles cloud pour les tâches les plus complexes, ils offrent une alternative puissante pour les usages du quotidien. Et surtout, ils représentent un pas vers une IA plus démocratique et plus respectueuse de la vie privée.

Si vous avez un MacBook récent, essayez cette solution ce week-end. Vous pourriez être surpris par ce que votre machine est capable de faire, même sans connexion internet.

Sources :

Towards Data Science

L'indépendance de CLODCO est votre garantie.

Pour que l'actualité de l'IA reste sans filtre et sans concession, votre soutien est indispensable. Votre contribution est le seul moteur de notre liberté éditoriale.

Soutenir CLODCO