1. Création site Internet
  2. > Articles Techniques
  3. > Data Mining, IA, Décisionnel
  4. > Installer et utiliser Ollama : l’intelligence artificielle locale sous (...)
Installer et utiliser Ollama : l'intelligence artificielle locale sous Linux

Installer et utiliser Ollama : l’intelligence artificielle locale sous Linux

dimanche 2 novembre 2025, par Guillaume Orsal

Diplômé d’un master en Intelligence Artificielle, je suis aujourd’hui développeur web fullstack spécialisé en Laravel, Livewire, React. J’intègre l’IA générative dans les projets web modernes pour créer des solutions intelligentes, sans dépendance aux API propriétaires.

Dans cet article, je vous guide pas à pas : installation d’Ollama sous Linux, choix et téléchargement de modèles open source comme Mistral ou Phi-3, tests de l’API REST et intégration dans Laravel pour bénéficier d’une IA locale rapide, économique et respectueuse de vos données.

Installation d’Ollama sous Linux

L’installation d’Ollama sous Linux (Debian/Ubuntu) est très simple grâce au script officiel fourni par l’équipe Ollama :

curl -fsSL https://ollama.com/install.sh | sh

Une fois installé, la commande ollama devient disponible et le service système démarre automatiquement. Par défaut, Ollama écoute uniquement en local sur 127.0.0.1:11434, ce qui garantit qu’aucune requête externe ne peut atteindre votre instance tant que vous ne modifiez pas la config réseau.

Pour vérifier le statut du service :

systemctl status ollama

Le service doit afficher active (running).

Vérifier l’écoute du service

Vérifier que le serveur Ollama écoute bien sur son port par défaut avec :

ss -tulpen | grep 11434

Vous devez obtenir une ligne similaire :

tcp LISTEN 0 4096 127.0.0.1:11434 ...

Cette configuration empêche toute exposition réseau accidentelle.

Si le port n’est pas visible, le service n’est probablement pas démarré ou le firewall local bloque l’accès.

Télécharger les modèles d’IA

Voici une sélection de modèles open-source adaptés à différents usages.

Ces modèles sont quantifiés (Q4/Q8), c’est-à-dire que leur précision numérique interne est réduite pour occuper moins de VRAM et calculer plus vite, tout en gardant une qualité de génération très proche du modèle d’origine.

Ollama n’embarque aucun modèle par défaut : vous devrez donc télécharger ceux dont vous avez besoin via {{ollama pull}}.

ollama pull mistral
ollama pull phi3
ollama pull neural-chat

- Mistral : excellentes performances en génération de texte
- Phi 3 : léger et performant
- NeuralChat : ton conversationnel naturel

Pour lister les modèles installés :

ollama list

Premier test de génération

Vous pouvez interroger Ollama directement via son API REST locale. Par exemple, pour tester la génération avec Mistral :

curl http://127.0.0.1:11434/api/generate -d '{"model":"mistral","prompt":"Dis bonjour"}'

Ollama renvoie la réponse sous forme de tokens JSON en streaming, comme une API OpenAI.

Obtenir uniquement le texte final

jq est indispensable si vous souhaitez parser proprement les réponses JSON en ligne de commande ou dans vos scripts Bash.

L’outil s’installe avec la commande :

sudo apt-get install jq -y

Puis, un nouvel appel à l’API d’Ollama, chaîné à jq :

curl -sN http://127.0.0.1:11434/api/generate -d '{"model":"mistral","prompt":"Dis bonjour"}' | jq -rj --unbuffered 'select(.response) | .response';echo

Le texte s’affiche sans formatage JSON.

Une fonction Bash pour simplifier l’usage

Pour simplifier vos tests sans réécrire la commande curl, voici une fonction shell utilitaire à ajouter à vos alias dans .bash_aliases :

ollama-say() {
 if [ -z "$1" ]; then
   echo "Usage: ollama-say \"prompt\" [model]"
   return 1
 fi
 local PROMPT="$1"
 local MODEL="${2:-mistral}"
 curl -sN http://127.0.0.1:11434/api/generate \
   -d "{\"model\":\"$MODEL\",\"prompt\":\"$PROMPT\"}" \
   | jq -rj --unbuffered 'select(.response) | .response'
 echo
}

Recharger les alias :

source ~/.bash_aliases

Vous pouvez maintenant appeler Ollama comme une mini-API locale directement depuis le terminal, en précisant dans la ligne de commande le prompt suivi du modèle :

ollama-say "Dis bonjour!" mistral

Après quelques secondes, vous obtiendrez la réponse sans formatage.

Accès distant via tunnel SSH

Ollama n’écoute par défaut que l’IP 127.0.0.1 pour des raisons de sécurité. Evitez absolument d’exposer le port 11434 directement sur Internet.

Si le service tourne sur une autre machine, par exemple un serveur disposant de meilleures capacités de calcul, vous pourrez créer un tunnel SSH.

Remplacez user par le login et serveur par l’IP ou le nom du serveur.

ssh -L 11434:localhost:11434 user@serveur

Le modèle devient alors accessible sur votre poste via http://localhost:11434. Le port local 11434 étant désormais redirigé vers le même port sur le serveur.

Pour lancer le tunnel SSH en arrière-plan :

ssh -N -f -L 11434:localhost:11434 user@serveur

Pour fermer le tunnel, il faudra s’attaquer directement au processus :

pkill -f "ssh -L 11434"

Cette approche permet un accès distant tout en conservant le niveau de sécurité d’un service local.

Intégration d’Ollama dans Laravel : cas d’usage concrets

L’API d’Ollama est compatible avec n’importe quel framework backend.

Ollama devient puissant lorsqu’il est intégré dans une architecture web moderne. Quelques applications concrètes :

- Génération de contenu : Articles, descriptions produit, résumés
- Analyse de texte : Catégorisation de commentaires, détection de spam
- Suggestions intelligentes : Recommandations, auto-complétion
- Recherche sémantique : Au-delà des mots-clés, recherche contextuelle via embeddings

Voici comment l’utiliser facilement dans Laravel via Http ::post() :

php
$response = Http::post('http://localhost:11434/api/generate', [
   'model' => 'mistral',
   'prompt' => 'Génère une description produit concise pour : ' . $product->name,
   'stream' => false,
]);

$description = $response->json()['response'];

Cela réduit drastiquement vos coûts API (OpenAI, Gemini) en gardant le contrôle total de vos données.

Performances et optimisation GPU

Bien que Ollama fonctionne sans GPU, les performances augmentent significativement avec une carte graphique supportée.

- Sans GPU : 5-30 secondes par réponse selon le modèle
- Avec GPU NVIDIA : Accélération de 5 à 20x, réponses en 1-5 secondes
- VRAM nécessaire : Mistral ( 4GB), Phi 3 ( 2GB), Llama 2 ( 7GB)

Benchmark simple :

time ollama-say "Écris un email pour remercier un client"

En production avec une application Laravel, placer Ollama sur un serveur distinct, idéalement avec GPU, afin d’éviter de saturer votre serveur web.

Alternatives : Ollama vs llama.cpp vs LocalAI

Ollama : Installation simple, gestion facile des modèles, API REST standard. Meilleur pour débuter.

llama.cpp : Plus léger, excellente performance CPU. Idéal pour machines peu puissantes, mais installation plus complexe.

LocalAI : Interface web complète, compatible avec OpenAI API. Meilleur si vous migrez depuis OpenAI.

Pour un développeur fullstack Laravel cherchant du plug & play sans complexité, Ollama me semble le meilleur choix.

Erreurs courantes et dépannage

Ces erreurs sont les plus fréquentes lors d’un premier déploiement d’Ollama sur un serveur Linux.

Erreur « connection refused » : Ollama écoute uniquement sur localhost par défaut. Vérifier : `systemctl status ollama`. Pour l’accès distant, utiliser obligatoirement un tunnel SSH.

Modèle qui ne répond pas : Il calcule toujours. Attendre plus longtemps la première fois. Pour des timeouts, augmenter : `curl —max-time 300`.

VRAM saturée : Un modèle trop gros pour votre GPU. Vérifier : `nvidia-smi`. Réduire la taille du prompt ou utiliser un modèle plus léger.

Quantization confusion : Ollama gère automatiquement. Q4 = rapide mais moins précis, Q8 = plus lent mais meilleur. Aucune action requise sauf pour tirage manuel.

Conclusion

Ollama permet d’exécuter des modèles d’IA directement sur un serveur Linux, sans GPU obligatoire, sans dépendance tierce ni coûts récurrents.

L’installation est rapide, la configuration sûre, et la flexibilité excellente pour le développement, les tests et et la génération de contenu automatisée.

Une solution robuste et respectueuse des données, idéale pour développeurs et passionnés d’IA locale.

Ollama s’intègre parfaitement dans un workflow moderne Laravel/Livewire/React, que ce soit pour prototyper en local, automatiser des tâches éditoriales ou alimenter une plateforme SaaS interne.

Intégrer Ollama à votre stack full-stack : expertise et services

Intégrer Ollama dans une architecture web (Laravel, React, Livewire, Tailwind) demande une bonne compréhension du code métier, du traitement de texte génératif et des flux applicatifs.

Si vous envisagez d’ajouter de l’IA générative locale à votre application, je peux vous accompagner sur :

- Intégration Laravel / API : prompts, streaming, validation, performances
- Automatisation & file de jobs : tâches lourdes, exécution asynchrone
- Choix et gestion des modèles : Mistral, Phi-3, formats d’entrée/sortie
- Déploiement sur serveur Linux : installation, configuration et supervision de base

Je suis développeur web fullstack spécialisé Laravel et IA générative locale, avec une solide pratique Linux. Mon objectif : livrer des solutions fonctionnelles, maintenables et utilement assistées par l’IA.

Parlons de votre projet