Lokale KI-Modelle mit Ollama

Wer ChatGPT oder Claude nutzt, gibt seine Prompts an externe Server weiter. Für viele Anwendungsfälle ist das kein Problem — aber sobald es um interne Dokumente, Kundendaten oder einfach nur persönliche Privatsphäre geht, sieht das anders aus. Ollama löst dieses Problem: ein schlankes Tool, das große Sprachmodelle lokal auf deiner eigenen Hardware ausführt.

Was ist Ollama?

Ollama ist ein Open-Source-Programm, das LLMs (Large Language Models) lokal ausführt. Es kümmert sich um Download, Verwaltung und Ausführung der Modelle und stellt eine REST-API bereit — kompatibel mit der OpenAI-API. Das bedeutet: viele bestehende Tools und Bibliotheken funktionieren mit Ollama ohne Änderungen.

Installation

Linux

curl -fsSL https://ollama.com/install.sh | sh

Das Skript installiert Ollama als Systemd-Service. Nach der Installation läuft der Dienst automatisch auf http://localhost:11434.

macOS

Ollama gibt es als native macOS-App unter ollama.com. Nach dem Start läuft es im Tray und ist sofort bereit.

Docker

docker run -d \
  -v ollama:/root/.ollama \
  -p 11434:11434 \
  --name ollama \
  ollama/ollama

Für GPU-Unterstützung unter Linux mit NVIDIA:

docker run -d \
  --gpus=all \
  -v ollama:/root/.ollama \
  -p 11434:11434 \
  --name ollama \
  ollama/ollama

Erstes Modell laden und ausführen

ollama run llama3.2

Beim ersten Aufruf wird das Modell heruntergeladen. Danach öffnet sich direkt eine interaktive Chat-Session im Terminal. Mit /bye beendest du sie.

Modelle verwalten:

ollama list          # installierte Modelle anzeigen
ollama pull mistral  # Modell herunterladen ohne zu starten
ollama rm llama3.2   # Modell löschen

Welches Modell für welchen Zweck?

Modell	Größe	VRAM (GPU)	RAM (CPU)	Stärken
`phi3.5`	2,2 GB	4 GB	6 GB	Schnell, effizient, für schwächere Hardware
`mistral`	4,1 GB	6 GB	8 GB	Ausgewogen, gute Instruction-Following
`llama3.2`	2,0 GB	4 GB	6 GB	Kompakt, schnell, mehrsprachig
`llama3.1:8b`	4,7 GB	8 GB	10 GB	Gute Qualität für lokale Nutzung
`llama3.1:70b`	40 GB	40+ GB	48+ GB	Nahe GPT-4-Qualität, braucht viel Hardware
`codellama`	3,8 GB	6 GB	8 GB	Code-Generierung und -Analyse
`nomic-embed-text`	274 MB	1 GB	2 GB	Embeddings für RAG-Anwendungen

Faustregel: Mit 16 GB RAM läuft ein 7B-Modell komfortabel auf der CPU. Eine GPU mit 8 GB VRAM beschleunigt die Ausgabe enorm — von ca. 5–10 Token/s (CPU) auf 40–80 Token/s (GPU).

Die REST-API nutzen

Ollama stellt eine HTTP-API bereit, die du direkt ansprechen kannst:

curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2",
  "prompt": "Erkläre Docker in zwei Sätzen.",
  "stream": false
}'

OpenAI-kompatibler Endpunkt:

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "llama3.2",
    "messages": [{"role": "user", "content": "Was ist ein Container?"}]
  }'

Damit kannst du Ollama als Drop-in-Ersatz für die OpenAI-API in bestehenden Projekten nutzen — z.B. in LangChain, Open WebUI oder n8n.

Hardware-Anforderungen im Überblick

Szenario	Empfehlung
Testen und Ausprobieren	8 GB RAM, 7B-Modell auf CPU
Produktive Nutzung (CPU)	16–32 GB RAM, 7B–13B-Modell
Produktive Nutzung (GPU)	NVIDIA mit 8 GB VRAM, 7B-Modell
High-End lokal	24 GB VRAM, 34B-Modell oder mehrere GPUs

Ollama unterstützt NVIDIA CUDA, AMD ROCm und Apple Metal (M-Chips) automatisch — die jeweils passende Beschleunigung wird erkannt und genutzt.

Ollama im Browser: Open WebUI

Wer kein Terminal-Interface will, installiert Open WebUI — eine ChatGPT-ähnliche Oberfläche für Ollama:

docker run -d \
  -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  ghcr.io/open-webui/open-webui:main

Danach erreichbar unter http://localhost:3000.

Fazit

Ollama macht den Einstieg in lokale KI-Modelle so einfach wie möglich. Die Installation dauert Minuten, Modelle sind mit einem Befehl verfügbar, und die OpenAI-kompatible API erlaubt Integration in bestehende Workflows ohne Mehraufwand. Wer einmal erlebt hat, wie schnell ein 7B-Modell auf moderner Hardware antwortet, fragt sich, wozu die Cloud noch gebraucht wird.