Wer ChatGPT oder Claude nutzt, gibt seine Prompts an externe Server weiter. Für viele Anwendungsfälle ist das kein Problem — aber sobald es um interne Dokumente, Kundendaten oder einfach nur persönliche Privatsphäre geht, sieht das anders aus. Ollama löst dieses Problem: ein schlankes Tool, das große Sprachmodelle lokal auf deiner eigenen Hardware ausführt.

Was ist Ollama?

Ollama ist ein Open-Source-Programm, das LLMs (Large Language Models) lokal ausführt. Es kümmert sich um Download, Verwaltung und Ausführung der Modelle und stellt eine REST-API bereit — kompatibel mit der OpenAI-API. Das bedeutet: viele bestehende Tools und Bibliotheken funktionieren mit Ollama ohne Änderungen.

Installation

Linux

curl -fsSL https://ollama.com/install.sh | sh

Das Skript installiert Ollama als Systemd-Service. Nach der Installation läuft der Dienst automatisch auf http://localhost:11434.

macOS

Ollama gibt es als native macOS-App unter ollama.com. Nach dem Start läuft es im Tray und ist sofort bereit.

Docker

docker run -d \
  -v ollama:/root/.ollama \
  -p 11434:11434 \
  --name ollama \
  ollama/ollama

Für GPU-Unterstützung unter Linux mit NVIDIA:

docker run -d \
  --gpus=all \
  -v ollama:/root/.ollama \
  -p 11434:11434 \
  --name ollama \
  ollama/ollama

Erstes Modell laden und ausführen

ollama run llama3.2

Beim ersten Aufruf wird das Modell heruntergeladen. Danach öffnet sich direkt eine interaktive Chat-Session im Terminal. Mit /bye beendest du sie.

Modelle verwalten:

ollama list          # installierte Modelle anzeigen
ollama pull mistral  # Modell herunterladen ohne zu starten
ollama rm llama3.2   # Modell löschen

Welches Modell für welchen Zweck?

ModellGrößeVRAM (GPU)RAM (CPU)Stärken
phi3.52,2 GB4 GB6 GBSchnell, effizient, für schwächere Hardware
mistral4,1 GB6 GB8 GBAusgewogen, gute Instruction-Following
llama3.22,0 GB4 GB6 GBKompakt, schnell, mehrsprachig
llama3.1:8b4,7 GB8 GB10 GBGute Qualität für lokale Nutzung
llama3.1:70b40 GB40+ GB48+ GBNahe GPT-4-Qualität, braucht viel Hardware
codellama3,8 GB6 GB8 GBCode-Generierung und -Analyse
nomic-embed-text274 MB1 GB2 GBEmbeddings für RAG-Anwendungen

Faustregel: Mit 16 GB RAM läuft ein 7B-Modell komfortabel auf der CPU. Eine GPU mit 8 GB VRAM beschleunigt die Ausgabe enorm — von ca. 5–10 Token/s (CPU) auf 40–80 Token/s (GPU).

Die REST-API nutzen

Ollama stellt eine HTTP-API bereit, die du direkt ansprechen kannst:

curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2",
  "prompt": "Erkläre Docker in zwei Sätzen.",
  "stream": false
}'

OpenAI-kompatibler Endpunkt:

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "llama3.2",
    "messages": [{"role": "user", "content": "Was ist ein Container?"}]
  }'

Damit kannst du Ollama als Drop-in-Ersatz für die OpenAI-API in bestehenden Projekten nutzen — z.B. in LangChain, Open WebUI oder n8n.

Hardware-Anforderungen im Überblick

SzenarioEmpfehlung
Testen und Ausprobieren8 GB RAM, 7B-Modell auf CPU
Produktive Nutzung (CPU)16–32 GB RAM, 7B–13B-Modell
Produktive Nutzung (GPU)NVIDIA mit 8 GB VRAM, 7B-Modell
High-End lokal24 GB VRAM, 34B-Modell oder mehrere GPUs

Ollama unterstützt NVIDIA CUDA, AMD ROCm und Apple Metal (M-Chips) automatisch — die jeweils passende Beschleunigung wird erkannt und genutzt.

Ollama im Browser: Open WebUI

Wer kein Terminal-Interface will, installiert Open WebUI — eine ChatGPT-ähnliche Oberfläche für Ollama:

docker run -d \
  -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  ghcr.io/open-webui/open-webui:main

Danach erreichbar unter http://localhost:3000.

Fazit

Ollama macht den Einstieg in lokale KI-Modelle so einfach wie möglich. Die Installation dauert Minuten, Modelle sind mit einem Befehl verfügbar, und die OpenAI-kompatible API erlaubt Integration in bestehende Workflows ohne Mehraufwand. Wer einmal erlebt hat, wie schnell ein 7B-Modell auf moderner Hardware antwortet, fragt sich, wozu die Cloud noch gebraucht wird.