Wer ChatGPT oder Claude nutzt, gibt seine Prompts an externe Server weiter. Für viele Anwendungsfälle ist das kein Problem — aber sobald es um interne Dokumente, Kundendaten oder einfach nur persönliche Privatsphäre geht, sieht das anders aus. Ollama löst dieses Problem: ein schlankes Tool, das große Sprachmodelle lokal auf deiner eigenen Hardware ausführt.
Was ist Ollama?
Ollama ist ein Open-Source-Programm, das LLMs (Large Language Models) lokal ausführt. Es kümmert sich um Download, Verwaltung und Ausführung der Modelle und stellt eine REST-API bereit — kompatibel mit der OpenAI-API. Das bedeutet: viele bestehende Tools und Bibliotheken funktionieren mit Ollama ohne Änderungen.
Installation
Linux
curl -fsSL https://ollama.com/install.sh | sh
Das Skript installiert Ollama als Systemd-Service. Nach der Installation läuft der Dienst automatisch auf http://localhost:11434.
macOS
Ollama gibt es als native macOS-App unter ollama.com. Nach dem Start läuft es im Tray und ist sofort bereit.
Docker
docker run -d \
-v ollama:/root/.ollama \
-p 11434:11434 \
--name ollama \
ollama/ollama
Für GPU-Unterstützung unter Linux mit NVIDIA:
docker run -d \
--gpus=all \
-v ollama:/root/.ollama \
-p 11434:11434 \
--name ollama \
ollama/ollama
Erstes Modell laden und ausführen
ollama run llama3.2
Beim ersten Aufruf wird das Modell heruntergeladen. Danach öffnet sich direkt eine interaktive Chat-Session im Terminal. Mit /bye beendest du sie.
Modelle verwalten:
ollama list # installierte Modelle anzeigen
ollama pull mistral # Modell herunterladen ohne zu starten
ollama rm llama3.2 # Modell löschen
Welches Modell für welchen Zweck?
| Modell | Größe | VRAM (GPU) | RAM (CPU) | Stärken |
|---|---|---|---|---|
phi3.5 | 2,2 GB | 4 GB | 6 GB | Schnell, effizient, für schwächere Hardware |
mistral | 4,1 GB | 6 GB | 8 GB | Ausgewogen, gute Instruction-Following |
llama3.2 | 2,0 GB | 4 GB | 6 GB | Kompakt, schnell, mehrsprachig |
llama3.1:8b | 4,7 GB | 8 GB | 10 GB | Gute Qualität für lokale Nutzung |
llama3.1:70b | 40 GB | 40+ GB | 48+ GB | Nahe GPT-4-Qualität, braucht viel Hardware |
codellama | 3,8 GB | 6 GB | 8 GB | Code-Generierung und -Analyse |
nomic-embed-text | 274 MB | 1 GB | 2 GB | Embeddings für RAG-Anwendungen |
Faustregel: Mit 16 GB RAM läuft ein 7B-Modell komfortabel auf der CPU. Eine GPU mit 8 GB VRAM beschleunigt die Ausgabe enorm — von ca. 5–10 Token/s (CPU) auf 40–80 Token/s (GPU).
Die REST-API nutzen
Ollama stellt eine HTTP-API bereit, die du direkt ansprechen kannst:
curl http://localhost:11434/api/generate -d '{
"model": "llama3.2",
"prompt": "Erkläre Docker in zwei Sätzen.",
"stream": false
}'
OpenAI-kompatibler Endpunkt:
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "llama3.2",
"messages": [{"role": "user", "content": "Was ist ein Container?"}]
}'
Damit kannst du Ollama als Drop-in-Ersatz für die OpenAI-API in bestehenden Projekten nutzen — z.B. in LangChain, Open WebUI oder n8n.
Hardware-Anforderungen im Überblick
| Szenario | Empfehlung |
|---|---|
| Testen und Ausprobieren | 8 GB RAM, 7B-Modell auf CPU |
| Produktive Nutzung (CPU) | 16–32 GB RAM, 7B–13B-Modell |
| Produktive Nutzung (GPU) | NVIDIA mit 8 GB VRAM, 7B-Modell |
| High-End lokal | 24 GB VRAM, 34B-Modell oder mehrere GPUs |
Ollama unterstützt NVIDIA CUDA, AMD ROCm und Apple Metal (M-Chips) automatisch — die jeweils passende Beschleunigung wird erkannt und genutzt.
Ollama im Browser: Open WebUI
Wer kein Terminal-Interface will, installiert Open WebUI — eine ChatGPT-ähnliche Oberfläche für Ollama:
docker run -d \
-p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
--name open-webui \
ghcr.io/open-webui/open-webui:main
Danach erreichbar unter http://localhost:3000.
Fazit
Ollama macht den Einstieg in lokale KI-Modelle so einfach wie möglich. Die Installation dauert Minuten, Modelle sind mit einem Befehl verfügbar, und die OpenAI-kompatible API erlaubt Integration in bestehende Workflows ohne Mehraufwand. Wer einmal erlebt hat, wie schnell ein 7B-Modell auf moderner Hardware antwortet, fragt sich, wozu die Cloud noch gebraucht wird.