Avec une seule commande, transformez votre ordinateur en serveur d'IA puissant. Sans installation compliquée, sans Matériel coûteux. Juste du texte et de la magie technologique.
PRÉPARER SON ORDINATEUR POUR L'IA
Avant de lancer votre serveur d'IA, il faut préparer votre machine. Pas besoin d'être un expert : deux étapes suffisent. D'abord, installez la dernière version de huggingface_hub (la bibliothèque qui permet de parler à Hugging Face). Ouvrez votre terminal et tapez :
pip install -U "huggingface_hub>=1.20.0"
Ensuite, connectez-vous à Hugging Face depuis votre terminal avec :
hf auth login
Cela permet à votre ordinateur de communiquer avec les serveurs de Hugging Face. Vous aurez besoin d'une méthode de paiement ou d'un crédit prépayé pour utiliser les services payants (les serveurs sont facturés à la seconde).
LANCER LE SERVEUR D'IA EN UNE COMMANDE
La magie opère ici. Avec une seule commande, vous allez créer un serveur d'IA privé sur les serveurs de Hugging Face. Pas besoin d'acheter un ordinateur puissant ou de configurer quoi que ce soit. Voici comment faire :
hf jobs run --flavor a10g-large --expose 8000 --timeout 2h \
vllm/vllm-openai:latest \
vllm serve Qwen/Qwen3-4B --host 0.0.0.0 --port 8000
Décomposons cette commande :
- --flavor a10g-large : demande un serveur avec une carte graphique puissante (une NVIDIA A10G).
- --expose 8000 : ouvre le port 8000 pour que vous puissiez envoyer des requêtes au serveur.
- --timeout 2h : le serveur s'arrêtera automatiquement après 2 heures (vous pouvez changer cette durée).
- vllm/vllm-openai:latest : utilise l'image officielle de vLLM, un outil qui accélère les serveurs d'IA.
- vllm serve Qwen/Qwen3-4B : lance le modèle d'IA Qwen3-4B, un modèle de langage puissant mais pas trop gourmand.
La commande affiche ensuite un identifiant de serveur (par exemple 6a381ca1953ed90bfb947332) et une URL pour y accéder. Gardez cet identifiant précieusement, vous en aurez besoin plus tard.
UNE FOIS LE SERVEUR LANCÉ : VÉRIFIER QU'IL FONCTIONNE
Le serveur met quelques minutes à démarrer. Quand les logs affichent Application startup complete, votre serveur est prêt. Vous pouvez vérifier son état avec cette commande :
curl https://--8000.hf.jobs/v1/models \
-H "Authorization: Bearer $(hf auth token)"
Cette commande liste les modèles disponibles sur votre serveur. Si tout fonctionne, vous devriez voir une réponse avec le modèle Qwen/Qwen3-4B.
POLLUER VOTRE SERVEUR D'IA AVEC CURL OU PYTHON
Pour discuter avec votre serveur d'IA, vous avez deux options principales : utiliser curl (un outil en ligne de commande) ou Python avec la bibliothèque OpenAI. Voici comment faire avec les deux méthodes.
Avec curl :
curl https://--8000.hf.jobs/v1/chat/completions \
-H "Authorization: Bearer $(hf auth token)" \
-H "Content-Type: application/json" \
-d '{
"model": "Qwen/Qwen3-4B",
"messages": [{"role": "user", "content": "Hello."}],
"chattemplatekwargs": {"enable_thinking": false}
}'
Cette commande envoie un message au serveur et reçoit une réponse en format JSON. Le champ choices[0].message.content contient la réponse de l'IA : "Hello. How can I assist you today? 😊".
Avec Python et la bibliothèque OpenAI :
from huggingfacehub import gettoken
from openai import OpenAI
client = OpenAI(
base_url="https://--8000.hf.jobs/v1",
apikey=gettoken(),
)
resp = client.chat.completions.create(
model="Qwen/Qwen3-4B",
messages=[{"role": "user", "content": "Hello."}],
extrabody={"chattemplatekwargs": {"enablethinking": False}},
)
print(resp.choices[0].message.content)
Cette méthode est plus pratique si vous travaillez avec des scripts ou des notebooks. Le résultat sera identique à la méthode curl.
ARRÊTER LE SERVEUR POUR ÉCONOMISER
Vos serveurs sont facturés à la seconde. Quand vous n'en avez plus besoin, arrêtez-les avec :
hf jobs cancel
Une carte graphique de type a10g-large coûte environ 1,50 dollar par heure. Pour économiser, utilisez le plus petit serveur possible et arrêtez-le quand vous avez fini. Vous pouvez consulter la liste complète des prix et des configurations disponibles avec :
hf jobs hardware
UTILISER DES MODÈLES PLUS PUISSANTS : 122 MILLIARDS DE PARAMÈTRES .
Le serveur que vous venez de créer peut gérer des modèles bien plus puissants. Par exemple, le modèle Qwen3.5-122B-A10B (122 milliards de paramètres) est bien plus performant. Voici comment le lancer :
hf jobs run --flavor h200x2 --expose 8000 --timeout 2h \
vllm/vllm-openai:latest \
vllm serve Qwen/Qwen3.5-122B-A10B \
--host 0.0.0.0 --port 8000 --tensor-parallel-size 2 \
--max-model-len 32768 --max-num-seqs 256
Cette commande utilise deux cartes graphiques H200 pour répartir la charge du modèle. Le paramètre --tensor-parallel-size 2 indique à vLLM d'utiliser deux GPU. Voici ce que signifient les autres paramètres :
- --max-model-len 32768 : limite la longueur maximale des requêtes à 32 768 tokens (un token, c'est comme un mot ou une partie de mot).
- --max-num-seqs 256 : limite le nombre de requêtes simultanées à 256.
Ces paramètres sont spécifiques au modèle Qwen3.5-122B-A10B car il a une architecture hybride (mélange de Mamba et d'attention) et un contexte par défaut de 256 000 tokens. Sans ces limites, le serveur manquerait de mémoire.
CHATTER AVEC VOTRE IA DANS UNE INTERFACE GRAPHIQUE
Si vous préférez discuter avec votre IA dans une interface graphique plutôt que via des commandes, vous pouvez utiliser Gradio, une bibliothèque Python pour créer des interfaces web simples. Voici comment faire :
D'abord, ajoutez le paramètre --reasoning-parser deepseek_r1 à votre commande de lancement pour que l'IA affiche ses
- Hugging Face Blog
L'indépendance de CLODCO est votre garantie.
Pour que l'actualité de l'IA reste sans filtre et sans concession, votre soutien est indispensable. Votre contribution est le seul moteur de notre liberté éditoriale.
Soutenir CLODCO


