Guillaume Orsal EI

Développeur Web indépendant

Installer et utiliser Ollama : l’intelligence artificielle locale sous Linux

jeudi 2 octobre 2025, par Guillaume Orsal

Je suis issu d’une formation initiale en Intelligence Artificielle, mais depuis, l’arrivée des IA génératives a changé la donne. Alors pour réaliser des projets basés sur l’IA générative sans me ruiner en achat de tokens ChatGPT ou Gemini, j’ai souhaité réaliser des projets qui tournent en local sur un moteur d’IA open source local ou auto-hébergé.

Voici l’installation et l’utilisation d’un serveur Ollama, sur une machine locale ou un serveur Linux, pour bénéficier d’un moteur de génération de texte rapide, sans dépendance à une API tierce, et capable de fonctionner en réseau local ou sur un serveur dédié.

Installation d’Ollama sous Linux

L’installation d’Ollama est particulièrement simple grâce au script officiel :

curl -fsSL https://ollama.com/install.sh | sh

Une fois installée, la commande ollama devient disponible et le service démarre automatiquement.

Par défaut, Ollama n’écoute que sur l’interface locale 127.0.0.1:11434, ce qui signifie qu’il n’est accessible que depuis la machine elle-même — un très bon point pour la sécurité.

NB : si vous l’installez sur une machine dédiée, notamment bénéficiant de plus de puissance de calcul via l’utilisation de GPU Nvidia, vous pourrez y accéder via un tunnel ssh.

Pour vérifier que tout fonctionne, il faut vérifier le status du service :

systemctl status ollama

Le service doit apparaître comme active (running).

Vérifier l’écoute du service

La commande suivante va permettre de vérifier que le serveur Ollama est bien en train d’écouter son port par défaut.

ss -tulpen | grep 11434

Une ligne doit apparaître, celle correspondant au serveur Ollama en train de s’exécuter :

tcp LISTEN 0 4096 127.0.0.1:11434 ...

Cette configuration empêche toute exposition réseau accidentelle.

Télécharger les modèles d’intelligence artificielle

Ollama n’embarque aucun modèle d’IA par défaut : il faut choisir lesquels installer selon l’usage. Il y en a plein donc pas facile de choisir. J’ai trouvé une liste de modèles pour Ollama avec quelques explications.

La commande ollama pull permettra de rapatrier les modèles souhaités. Moi j’ai pris ceux-là pour commencer.

ollama pull mistral

ollama pull phi3

ollama pull neural-chat

Le modèle Mistral offre d’excellentes performances en génération de texte. Phi 3 est plus léger, tandis que NeuralChat apporte un ton conversationnel plus naturel.

Pour lister les modèles installés, on peut interroger l’api :

curl http://127.0.0.1:11434/api/tags

ou plus simple en appelant directement Ollama

ollama list

Premier test de génération

Pour tester la génération de texte avec le modèle Mistral :

curl http://127.0.0.1:11434/api/generate -d '{"model":"mistral","prompt":"Dis bonjour"}'

Ollama renvoie alors une série de tokens JSON au fur et à mesure de la réponse. Ce mode “streaming” est identique à celui des API OpenAI, mais c’est assez incompréhensible pour un humain.

Obtenir uniquement le texte final

Pour un affichage plus propre, on peut installer l’utilitaire jq :

sudo apt-get install jq -y

Puis exécuter la commande suivante qui fait appel à l’API d’Ollama :

curl -sN http://127.0.0.1:11434/api/generate   -d '{"model":"mistral","prompt":"Dis bonjour"}'   | jq -rj --unbuffered 'select(.response) | .response';echo

Le texte complet s’affiche, sans le flux JSON intermédiaire.

Une fonction Bash pour simplifier l’usage

J’ai ajouté une fonction pratique dans mon `.bash_aliases` pour interagir directement avec Ollama :

ollama-say() {

  if [ -z "$1" ]; then

    echo "Usage: ollama-say \"ton prompt\" [model]"

    return 1

  fi

  local PROMPT="$1"

  local MODEL="${2:-mistral}"

  curl -sN http://127.0.0.1:11434/api/generate \

    -d "{\"model\":\"$MODEL\",\"prompt\":\"$PROMPT\"}" \

    | jq -rj --unbuffered 'select(.response) | .response'

  echo

}

Rechargez ensuite le shell :

source ~/.bash_aliases

Et testez. La commande prend deux paramètres : le prompt éventuellement suivi du nom du modèle.

ollama-say "Dis bonjour!" mistral

Après quelques secondes de calcul, vous obtiendrez la réponse sans formatage JSON.

Accès distant via tunnel SSH

Ollama reste volontairement limité à `127.0.0.1` pour la sécurité. Mais si le service tourne sur une autre machine, un simple tunnel SSH permet d’y accéder localement :

ssh -L 11434:localhost:11434 user@serveur

Le modèle devient alors accessible via http://localhost:11434 sur votre poste.

Pour lancer le tunnel en arrière-plan :

ssh -N -f -L 11434:localhost:11434 user@serveur

Et pour le fermer :

pkill -f "ssh -L 11434"

Cette méthode offre la flexibilité d’un accès distant tout en conservant la sécurité d’un service local.

Conclusion

Ollama permet d’exécuter des modèles d’intelligence artificielle modernes directement sur un serveur Linux, même sans GPU, sans dépendance et sans coût récurrent.

L’installation est rapide, la configuration sûre, et la flexibilité excellente pour le développement, les tests ou la génération de contenu automatisée.

Personnellement, je l’utilise pour expérimenter des modèles open source et tester des prompts.

Une solution robuste et respectueuse des données, idéale pour les développeurs et les curieux de l’IA locale.

| Plan du site | Mentions légales | RSS 2.0 |