Un MacBook et quelques commandes suffisent pour faire tourner un modèle de langage de 9 milliards de paramètres. Voici comment installer Qwen3 8B avec Ollama et l'utiliser en local, sans connexion internet.
INSTALLER OLLAMA SUR MAC : LA PREMIÈRE ÉTAPE
Pour commencer, il faut télécharger et installer Ollama, un outil qui permet de faire tourner des modèles de langage locaux sur un ordinateur. Ollama est spécialement optimisé pour les puces Apple Silicon, celles qui équipent les MacBook récents. La procédure est simple et ne prend que quelques minutes.
Ouvrez le Terminal sur votre MacBook. Si vous ne savez pas comment faire, recherchez simplement « Terminal » dans les applications. Ensuite, copiez-collez ces commandes une par une pour installer Ollama :
# Télécharger la version pour Apple Silicon
cd ~/Downloads
curl -L -o Ollama-darwin.zip https://ollama.com/download/Ollama-darwin.zip
# Décompresser et déplacer l'application dans le dossier Applications
unzip -o -q Ollama-darwin.zip
mv Ollama.app /Applications/
CONFIGURER LA LIGNE DE COMMANDE D'OLLAMA
Ollama s'installe comme une application classique, mais il inclut aussi un outil en ligne de commande (CLI) caché dans le dossier de l'application. Pour l'utiliser facilement, il faut créer un raccourci dans votre profil système. Cela permet de lancer Ollama depuis n'importe où dans le Terminal.
Exécutez ces commandes pour configurer le raccourci :
# Créer un dossier local pour les commandes
mkdir -p ~/.local/bin
# Créer un lien symbolique vers l'outil Ollama
ln -sf /Applications/Ollama.app/Contents/Resources/ollama ~/.local/bin/ollama
# Ajouter ce dossier au PATH pour le rendre permanent
# (Cela permet d'utiliser 'ollama' depuis n'importe où dans le Terminal)
echo 'export PATH="$HOME/.local/bin:$PATH"' >> ~/.zshrc
# Appliquer immédiatement les changements dans le Terminal actuel
export PATH="$HOME/.local/bin:$PATH"
# Vérifier que Ollama est bien installé
ollama --version
LANCER LE SERVEUR OLLAMA POUR FAIRE TOURNER LES MODÈLES
Ollama fonctionne grâce à un petit serveur qui tourne en arrière-plan. Ce serveur permet de charger les modèles de langage et de les utiliser via une interface simple. Pour démarrer ce serveur, exécutez ces commandes :
# Créer un dossier pour les logs du serveur
mkdir -p ~/.ollama/logs
# Démarrer le serveur Ollama en arrière-plan
# La commande 'nohup' permet de continuer à l'exécuter même si on ferme le Terminal
nohup ollama serve > ~/.ollama/logs/serve.log 2>&1 &
# Vérifier que le serveur est bien lancé
curl -s http://127.0.0.1:11434/api/version
Si le serveur répond avec une version, c'est que tout fonctionne correctement. Vous êtes maintenant prêt à installer votre premier modèle de langage.
TÉLÉCHARGER ET UTILISER LE MODÈLE QWEN3 8B
Qwen3 8B est un modèle de langage puissant développé par Alibaba. Il pèse environ 5,2 Go et nécessite environ 6 Go de mémoire vive une fois chargé. C'est un bon compromis entre performance et taille pour un usage local sur un MacBook.
Pour télécharger ce modèle, utilisez la commande suivante :
ollama pull qwen3:8b
# Vérifier que le modèle est bien installé
ollama list
Le téléchargement prend environ 5,2 Go d'espace disque. Une fois terminé, vous verrez le modèle apparaître dans la liste des modèles disponibles. Vous êtes maintenant prêt à interagir avec votre propre intelligence artificielle locale.
TROIS FAÇONS D'UTILISER VOTRE MODÈLE LOCAL
Il existe trois méthodes principales pour interagir avec votre modèle Qwen3 8B local : le chat interactif, les commandes en une ligne et l'API HTTP. Chaque méthode a ses avantages selon ce que vous voulez faire.
1. LE CHAT INTERACTIF : LA MÉTHODE LA PLUS SIMPLE
Pour lancer une session de chat interactive avec votre modèle, utilisez simplement cette commande :
ollama run qwen3:8b
Cette commande ouvre une session où vous pouvez discuter avec le modèle en temps réel. Par défaut, le modèle affiche ses étapes de raisonnement (les « tokens de pensée ») avant de donner sa réponse. C'est utile pour comprendre comment l'IA arrive à ses conclusions, mais cela peut ralentir un peu la réponse.
Par exemple, si vous demandez au modèle ce qu'il pense des modèles open source, il affichera d'abord ses réflexions en gris clair avant de donner sa réponse finale. Le modèle retient aussi le contexte des échanges précédents, comme un assistant conversationnel classique.
Le nombre de tokens générés par seconde dépend de la puissance de votre MacBook. En mode économie d'énergie, le modèle peut générer environ 5,7 tokens par seconde. En mode performance, ce chiffre peut monter à 15-20 tokens par seconde.
2. LES COMMANDES EN UNE LIGNE : POUR DES TÂCHES SIMPLES
Si vous voulez poser une question ou donner une instruction sans ouvrir de session interactive, utilisez la commande suivante :
ollama run qwen3:8b "Écris un script Python qui compte le nombre de voyelles dans un mot"
Le modèle va générer un script Python comme celui-ci :
# Demander à l'utilisateur de saisir un mot
word = input("Entrez un mot : ")
# Définir l'ensemble des voyelles
vowels = {'a', 'e', 'i', 'o', 'u'}
# Initialiser un compteur
count = 0
# Convertir le mot en minuscules et vérifier chaque caractère
for char in word.lower():
if char in vowels:
count += 1
# Afficher le résultat
print(f"Nombre de voyelles : {count}")
Vous pouvez copier ce script et l'exécuter directement dans votre Terminal. C'est idéal pour des tâches rapides comme générer du code, résumer un texte ou répondre à une question précise.
3. L'API HTTP : POUR INTÉGRER L'IA DANS VOS PROPRES SCRIPTS
Si vous êtes à l'aise avec la programmation, vous pouvez utiliser l'API HTTP d'Ollama pour intégrer le modèle dans vos propres scripts Python ou applications. Voici un exemple de script qui utilise l'API pour poser une question au modèle :
import json, urllib.request
req = urllib.request.Request(
"http://127.0.0.1:11434/api/generate",
data=json.dumps({
"model": "qwen3:8b",
"prompt": "Donne-moi trois utilisations concrètes d'un modèle de langage local.",
"stream": False,
"think": False,
}).encode(),
headers={"Content-Type": "application/json"},
)
print(json.loads(urllib.request.urlopen(req).read())["response"])
Ce script envoie une requête au serveur local d'Ollama, qui répond avec une liste d'utilisations possibles pour un modèle de langage local. Voici la réponse que vous pourriez obtenir :
COMMENT GÉRER LES ÉTAPES DE RAISONNEMENT DU MODÈLE
Qwen3 est un modèle hybride qui, par défaut, affiche ses étapes de raisonnement avant de donner une réponse. Ces étapes sont utiles pour comprendre comment l'IA arrive à ses conclusions, mais elles peuvent ralentir la Génération de la réponse finale. Heureusement, Ollama permet de désactiver cette fonctionnalité si vous préférez obtenir des réponses plus rapides.
Pour désactiver l'affichage des étapes de raisonnement, utilisez l'une de ces commandes :
# Désactiver complètement l'affichage des étapes de pensée
ollama run qwen3:8b --think=false
# Masquer les étapes de pensée dans les réponses
ollama run qwen3:8b --hidethinking
Ces options sont utiles si vous voulez utiliser le modèle pour des tâches rapides ou si vous préférez ne pas voir les détails de son raisonnement.
INTÉGRER LE MODÈLE LOCAL À VOS OUTILS DE DÉVELOPPEMENT
Si vous utilisez un éditeur de code comme Visual Studio Code, vous pouvez intégrer votre modèle local pour l'utiliser directement dans votre environnement de développement. L'extension Continue.dev permet de configurer facilement un assistant IA local pour coder, éditer et automatiser des tâches.
Voici un exemple de configuration pour Continue.dev :
name: Assistant Local
version: 1.0.0
models:
- name: Qwen3 8B (local)
provider: ollama
model: qwen3:8b
roles:
- chat
- edit
- apply
- name: Qwen3 8B Autocomplétion
provider: ollama
model: qwen3:8b
roles:
- autocomplete
Cette configuration permet d'utiliser Qwen3 8B pour discuter, éditer du code et automatiser des tâches, ainsi que pour l'autocomplétion de code en temps réel. Pour une expérience optimale, il est recommandé d'utiliser un modèle plus petit (comme Qwen2.5-coder:1.5b-base) pour l'autocomplétion, car il est plus rapide et plus réactif.
Pour installer ce modèle plus petit, utilisez la commande :
ollama pull qwen2.5-coder:1.5b-base
POURQUOI UTILISER UN MODÈLE LOCAL ?
Les modèles de langage locaux comme Qwen3 8B ne remplacent pas encore les modèles cloud les plus puissants, mais ils offrent des avantages uniques, notamment en termes de vie privée et de autonomie. Voici pourquoi cette technologie est importante :
1. Confidentialité totale : Contrairement aux modèles cloud, un modèle local ne transmet aucune donnée à des serveurs distants. Vos échanges restent sur votre machine, ce qui est idéal pour travailler sur des documents sensibles ou confidentiels.
2. Indépendance technologique : Vous n'êtes pas dépendant des décisions des grandes entreprises technologiques. Vous contrôlez entièrement votre outil et vos données.
3. Accessibilité hors ligne : Votre modèle fonctionne même sans connexion internet. C'est parfait pour les voyages, les zones sans couverture réseau ou les situations où vous ne voulez pas dépendre d'une connexion.
Les modèles locaux sont souvent décrits comme un moyen de « démocratiser » l'IA. Pourtant, cette démocratisation n'est pas encore totale. Pour faire tourner un modèle comme Qwen3 8B, il faut un MacBook avec au moins 24 Go de mémoire unifiée, ce qui représente un investissement important. De plus, l'installation nécessite de connaître quelques commandes de Terminal.
Cependant, la situation évolue rapidement. Il y a deux ans, faire tourner un modèle décent en local nécessitait une station de travail dédiée et des compétences techniques poussées. Aujourd'hui, il suffit d'un MacBook récent et de quelques heures pour tout configurer.
QUELLE CONFIGURATION POUR FAIRE TOURNER QWEN3 8B ?
Pour faire tourner Qwen3 8B de manière fluide, il est recommandé d'avoir un MacBook avec au moins 24 Go de mémoire unifiée. Les puces Apple Silicon (M1, M2, M3, M4) sont particulièrement adaptées grâce à leur architecture unifiée, où le CPU et le GPU partagent la même mémoire. Cela évite les transferts lents de données entre la mémoire et le processeur.
Sur un MacBook Air M4 avec 24 Go de mémoire, Qwen3 8B prend environ 5 Go sur le disque et 6 Go en mémoire une fois chargé. Vous pouvez même faire tourner un modèle de 14 milliards de paramètres tout en gardant plusieurs onglets de navigateur ouverts.
Si vous avez un MacBook avec seulement 8 Go de mémoire, il est préférable d'utiliser un modèle plus petit comme Qwen2.5-coder:1.5b-base (1,5 milliard de paramètres) pour éviter les ralentissements.
OLLAMA : L'OUTIL QUI SIMPLIFIE TOUT
Ollama est un outil open source conçu pour rendre l'utilisation des modèles de langage locaux aussi simple que possible. Il regroupe plusieurs fonctionnalités en un seul package :
- Un moteur optimisé pour exécuter les modèles (basé sur llama.cpp avec accélération GPU via Metal d'Apple).
- Un registre de modèles similaire à Docker, pour télécharger et gérer facilement les modèles.
- Une API HTTP locale, pour interagir avec le modèle depuis vos propres scripts ou applications.
Contrairement à d'autres solutions qui demandent de configurer des dépendances complexes ou de compiler du code, Ollama s'installe en quelques clics et fonctionne immédiatement. C'est l'outil idéal pour les débutants comme pour les experts.
LES LIMITES DES MODÈLES LOCAUX : CE QU'IL FAUT SAVOIR
Bien que les modèles locaux comme Qwen3 8B soient puissants, ils ont encore des limites par rapport aux modèles cloud des grandes entreprises technologiques :
1. Performance inférieure : Les modèles locaux ne sont pas encore au niveau des modèles les plus avancés comme GPT-4 ou Claude 3. Ils sont plus lents et moins précis pour les tâches complexes.
2. Données statiques : Les modèles locaux ne peuvent pas accéder à des informations en temps réel, car leurs données d'entraînement sont figées à la date de leur création. Pour des informations actualisées, il faut soit mettre à jour le modèle, soit utiliser une recherche web (mais cela sort du cadre local).
3. Recherche web limitée : Ollama permet d'activer une fonctionnalité de recherche web pour enrichir les réponses du modèle. Cependant, cette fonctionnalité envoie vos requêtes sur internet, ce qui peut poser un problème de confidentialité. Si la vie privée est votre priorité absolue, il est préférable de désactiver cette option.
Malgré ces limites, les modèles locaux progressent à un rythme impressionnant. Des modèles comme GLM 5.2 et Qwen 3.7 Max se rapprochent rapidement des performances des modèles cloud. La démocratisation de l'IA locale est en marche, et elle ne fait que commencer.
UN AVENIR PROMETTEUR POUR L'IA LOCALE
L'IA locale n'est pas encore accessible à tout le monde, mais son potentiel est immense. À l'avenir, les modèles locaux pourraient devenir aussi performants que les modèles cloud, tout en offrant une confidentialité et une autonomie inégalées. Voici ce que l'avenir pourrait réserver :
1. Des modèles plus légers et plus rapides : Les progrès en optimisation permettront de faire tourner des modèles encore plus puissants sur des machines moins puissantes, comme des MacBook avec 16 Go de mémoire.
2. Une intégration plus poussée : Les éditeurs de logiciels intégreront de plus en plus les modèles locaux directement dans leurs outils, comme des assistants de codage ou des correcteurs grammaticaux.
3. Une adoption massive : À mesure que les prix des ordinateurs puissants baissent et que les outils comme Ollama s'améliorent, l'IA locale deviendra accessible à un public plus large.
Pour l'instant, faire tourner une IA locale reste une aventure technique, mais elle en vaut la peine. Que ce soit pour protéger vos données, travailler hors ligne ou simplement explorer les possibilités de l'IA, cette technologie ouvre de nouvelles perspectives.
CONCLUSION : VOTRE MACBOOK PEUT DEVENIR UNE IA
Avec Ollama et Qwen3 8B, votre MacBook peut désormais héberger une intelligence artificielle complète, capable de comprendre, générer et automatiser des tâches. Cette solution est idéale pour ceux qui veulent garder le contrôle sur leurs données et travailler hors ligne.
Bien que les modèles locaux ne remplacent pas encore les modèles cloud pour les tâches les plus complexes, ils offrent une alternative puissante pour les usages du quotidien. Et surtout, ils représentent un pas vers une IA plus démocratique et plus respectueuse de la vie privée.
Si vous avez un MacBook récent, essayez cette solution ce week-end. Vous pourriez être surpris par ce que votre machine est capable de faire, même sans connexion internet.
- Towards Data Science
L'indépendance de CLODCO est votre garantie.
Pour que l'actualité de l'IA reste sans filtre et sans concession, votre soutien est indispensable. Votre contribution est le seul moteur de notre liberté éditoriale.
Soutenir CLODCO


