Ollama – Einstiegsstufe
Installiert mit zwei Befehlen, läuft auf macOS, Windows, Linux. Ideal für Pilotprojekte und Einzelgerät-Szenarien. GPU-Beschleunigung für NVIDIA (CUDA), Apple Silicon (Metal), AMD (ROCm) inklusive.
vLLM – Produktionsstufe
Hochoptimierter Inferenz-Server mit Batching, Streaming, deutlich höhere Token-Raten als Ollama. Für Mehrklassen-Setups; braucht dezidierte Server-GPU.
LM Studio / Jan / LocalAI – Desktop-Lösungen
GUI-basiert, ideal für Lehrpersonen, die mit Modellen experimentieren wollen, ohne Terminal zu bedienen. Begrenzt skalierbar – nichts für hundert gleichzeitige Nutzer.