jeudi 2 octobre 2025, par
Je suis issu d’une formation initiale en Intelligence Artificielle, mais depuis, l’arrivée des IA génératives a changé la donne. Alors pour réaliser des projets basés sur l’IA générative sans me ruiner en achat de tokens ChatGPT ou Gemini, j’ai souhaité réaliser des projets qui tournent en local sur un moteur d’IA open source local ou auto-hébergé.
Voici l’installation et l’utilisation d’un serveur Ollama, sur une machine locale ou un serveur Linux, pour bénéficier d’un moteur de génération de texte rapide, sans dépendance à une API tierce, et capable de fonctionner en réseau local ou sur un serveur dédié.
L’installation d’Ollama est particulièrement simple grâce au script officiel :
curl -fsSL https://ollama.com/install.sh | shUne fois installée, la commande ollama devient disponible et le service démarre automatiquement.
Par défaut, Ollama n’écoute que sur l’interface locale 127.0.0.1:11434, ce qui signifie qu’il n’est accessible que depuis la machine elle-même — un très bon point pour la sécurité.
NB : si vous l’installez sur une machine dédiée, notamment bénéficiant de plus de puissance de calcul via l’utilisation de GPU Nvidia, vous pourrez y accéder via un tunnel ssh.
Pour vérifier que tout fonctionne, il faut vérifier le status du service :
systemctl status ollamaLe service doit apparaître comme active (running).
La commande suivante va permettre de vérifier que le serveur Ollama est bien en train d’écouter son port par défaut.
ss -tulpen | grep 11434Une ligne doit apparaître, celle correspondant au serveur Ollama en train de s’exécuter :
tcp LISTEN 0 4096 127.0.0.1:11434 ...Cette configuration empêche toute exposition réseau accidentelle.
Ollama n’embarque aucun modèle d’IA par défaut : il faut choisir lesquels installer selon l’usage. Il y en a plein donc pas facile de choisir. J’ai trouvé une liste de modèles pour Ollama avec quelques explications.
La commande ollama pull permettra de rapatrier les modèles souhaités. Moi j’ai pris ceux-là pour commencer.
ollama pull mistral
ollama pull phi3
ollama pull neural-chatLe modèle Mistral offre d’excellentes performances en génération de texte. Phi 3 est plus léger, tandis que NeuralChat apporte un ton conversationnel plus naturel.
Pour lister les modèles installés, on peut interroger l’api :
curl http://127.0.0.1:11434/api/tagsou plus simple en appelant directement Ollama
ollama listPour tester la génération de texte avec le modèle Mistral :
curl http://127.0.0.1:11434/api/generate -d '{"model":"mistral","prompt":"Dis bonjour"}'Ollama renvoie alors une série de tokens JSON au fur et à mesure de la réponse. Ce mode “streaming” est identique à celui des API OpenAI, mais c’est assez incompréhensible pour un humain.
Pour un affichage plus propre, on peut installer l’utilitaire jq :
sudo apt-get install jq -yPuis exécuter la commande suivante qui fait appel à l’API d’Ollama :
curl -sN http://127.0.0.1:11434/api/generate -d '{"model":"mistral","prompt":"Dis bonjour"}' | jq -rj --unbuffered 'select(.response) | .response';echoLe texte complet s’affiche, sans le flux JSON intermédiaire.
J’ai ajouté une fonction pratique dans mon `.bash_aliases` pour interagir directement avec Ollama :
ollama-say() {
if [ -z "$1" ]; then
echo "Usage: ollama-say \"ton prompt\" [model]"
return 1
fi
local PROMPT="$1"
local MODEL="${2:-mistral}"
curl -sN http://127.0.0.1:11434/api/generate \
-d "{\"model\":\"$MODEL\",\"prompt\":\"$PROMPT\"}" \
| jq -rj --unbuffered 'select(.response) | .response'
echo
}Rechargez ensuite le shell :
source ~/.bash_aliasesEt testez. La commande prend deux paramètres : le prompt éventuellement suivi du nom du modèle.
ollama-say "Dis bonjour!" mistralAprès quelques secondes de calcul, vous obtiendrez la réponse sans formatage JSON.
Ollama reste volontairement limité à `127.0.0.1` pour la sécurité. Mais si le service tourne sur une autre machine, un simple tunnel SSH permet d’y accéder localement :
ssh -L 11434:localhost:11434 user@serveurLe modèle devient alors accessible via http://localhost:11434 sur votre poste.
Pour lancer le tunnel en arrière-plan :
ssh -N -f -L 11434:localhost:11434 user@serveurEt pour le fermer :
pkill -f "ssh -L 11434"Cette méthode offre la flexibilité d’un accès distant tout en conservant la sécurité d’un service local.
Ollama permet d’exécuter des modèles d’intelligence artificielle modernes directement sur un serveur Linux, même sans GPU, sans dépendance et sans coût récurrent.
L’installation est rapide, la configuration sûre, et la flexibilité excellente pour le développement, les tests ou la génération de contenu automatisée.
Personnellement, je l’utilise pour expérimenter des modèles open source et tester des prompts.
Une solution robuste et respectueuse des données, idéale pour les développeurs et les curieux de l’IA locale.