On-Prem & Open-Source-LLMs für Schulen (2026): Llama 4, Mistral, Ollama

Kernaussage. On-Prem ist kein Selbstzweck. Es ist sinnvoll, wenn Datenschutz-Anforderungen keinen Cloud-Anbieter zulassen, wenn die Nutzungsintensität hoch genug ist, oder wenn eine Schule den Lernwert selbst in der Infrastruktur sieht. Für die Mehrzahl der Schulen bleibt eine AI-Act-konforme Cloud-Lösung der ökonomisch und didaktisch bessere Weg.

1

Warum überhaupt On-Prem?

Gute Gründe

Datensouveränität. Daten verlassen die eigene Infrastruktur nie. Relevant für kantonale Rahmen mit strikten Anforderungen.
Kostenkontrolle bei hoher Nutzungsdichte. Ab ~10 000 Interaktionen/Monat kann eigene Hardware günstiger sein als API-Kosten.
Reproduzierbarkeit. Modelle und Systemverhalten bleiben über Jahre stabil – kein "Modell-Drift" durch Anbieter-Updates.
Lernwert. Die Schule baut selbst KI-Kompetenz auf, statt nur Kunde zu sein.

Gute Gründe dagegen

Betriebsaufwand. IT-Personal für Einrichtung, Updates, Monitoring nötig.
Qualität. Offene Modelle sind sehr gut, erreichen für Agentic, Multimodal und Reasoning aber noch nicht durchgängig das Niveau kommerzieller Spitzenmodelle.
Hardware-Investition. Eine brauchbare GPU-Server-Basis startet bei CHF 10–20 k; für Schul-Traffic meist amortisierbar, aber nicht trivial.
Sicherheit. Eigene Modelle bringen eigene Pflichten (Zugriffskontrolle, Logging, Patching).

2

Offene Modelle 2026 im Überblick

Llama 4 (Meta) – Scout & Maverick: Instruction-tuned Varianten mit 128k Kontextfenster; starke Allgemeinleistung; über Ollama mit `ollama run llama4:scout` direkt lauffähig. Lizenz erlaubt breite Nutzung, aber nicht uneingeschränkt kommerziell.
Mistral (Mistral AI): Europäische Herkunft; schlanke, schnelle Modelle mit sehr guter Preis-/Leistungs-Relation; Mistral Small, Mixtral für Mischszenarien. Aus Datenschutz-Sicht besonders interessant für CH/EU-Schulen.
Gemma 3 (Google): Offene Modellfamilie mit guter Dokumentation; Varianten von 2B bis 27B Parametern; gut geeignet für Desktops und kleine Server.
Qwen 3 (Alibaba): Sehr starke Reasoning- und Multilingual-Leistung; auch in kompakten Größen verfügbar. Herkunft und geopolitische Fragen gesondert abwägen.
DeepSeek R1: Reasoning-Modell mit offengelegten Trainings-Methoden; für Aufgaben mit strukturiertem Denken gut geeignet. Ähnliche Herkunfts-Überlegungen wie Qwen.
Phi (Microsoft): Sehr kompakte Modelle (2.7B–14B), auf Datenqualität ausgelegt; gut für einfache Aufgaben auf schwächerer Hardware.

Referenz-Vergleiche: Hugging Face: Best OSS LLMs 2025, Ollama Library, ComputingForGeeks: OSS LLM Comparison 2026.

3

Stack-Optionen für die Schul-IT

Ollama – Einstiegsstufe

Installiert mit zwei Befehlen, läuft auf macOS, Windows, Linux. Ideal für Pilotprojekte und Einzelgerät-Szenarien. GPU-Beschleunigung für NVIDIA (CUDA), Apple Silicon (Metal), AMD (ROCm) inklusive.

vLLM – Produktionsstufe

Hochoptimierter Inferenz-Server mit Batching, Streaming, deutlich höhere Token-Raten als Ollama. Für Mehrklassen-Setups; braucht dezidierte Server-GPU.

LM Studio / Jan / LocalAI – Desktop-Lösungen

GUI-basiert, ideal für Lehrpersonen, die mit Modellen experimentieren wollen, ohne Terminal zu bedienen. Begrenzt skalierbar – nichts für hundert gleichzeitige Nutzer.

Typische Hardware-Setups

Lehrerzimmer-PC (Ollama, Llama 3.1 8B oder Mistral 7B): 16 GB RAM, moderne Consumer-GPU (RTX 4060 Ti oder Apple Silicon M3). Gut für 1–3 parallele Nutzer. Investition: ~CHF 2–3 k.
Schulserver (vLLM + Llama 4 Scout oder Mistral Medium): Server mit 1–2× NVIDIA L40S / A6000, 128 GB RAM. Reicht für ~50 parallele Nutzer bei moderaten Antworten. Investition: CHF 15–25 k + Strom.
Gemeinde-/Kantons-Cluster (vLLM, hochverfügbar): Mehrere Nodes mit Hochleistungs-GPUs. Für Verbände oder große Schulträger. Partnerschaft mit kantonaler IT sinnvoll.

4

Total Cost of Ownership (TCO) – realistisch

Einmalkosten

Hardware (Server + GPU): CHF 10–30 k je nach Setup
Einrichtung (IT-Tage extern oder intern): 5–10 Personentage
Erste Integration in Schul-Portale: 2–5 Personentage

Laufende Kosten (pro Jahr)

Strom: CHF 500–2 000 je nach GPU und Nutzung
Wartung, Updates, Sicherheit: 15–30 % einer IT-Stelle
Redundanz / Backup: einplanen, sonst teurer Ausfall
Neue Modelle testen, einspielen: 1–2 Personentage/Quartal

Faustregel: On-Prem rechnet sich, wenn mindestens 500 Lernende aktiv nutzen oder die Schule pro Jahr mehr als CHF 5 000 an Cloud-API-Gebühren zahlen würde. Für kleinere Setups ist eine kommerzielle Enterprise-Lizenz mit EU-Hosting wirtschaftlich fast immer besser – dort liegt die eigentliche didaktische Arbeit, nicht im Infrastruktur-Eigenbau.

5

Entscheidungskompass

Vier Kernfragen, bevor eine Schule On-Prem ernsthaft angeht.

Haben wir einen Datenschutz-Grund, der Cloud ausschließt? Wenn nein – Cloud mit AI-Act-/nDSG-Compliance reicht.
Haben wir IT-Personal mit Linux-, Docker- und GPU-Erfahrung? Wenn nein – Cloud, oder Dienstleister beauftragen.
Erwarten wir mehr als 10 000 Interaktionen/Monat? Wenn nein – Cloud ist fast immer günstiger.
Haben wir eine mindestens 3-jährige Perspektive? Hardware amortisiert sich nicht in einem Schuljahr; kürzer ist On-Prem nicht sinnvoll.

Wenn drei oder vier Antworten "ja" sind, lohnt sich ein Pilot. Starten mit Ollama + einem mittleren Modell, nach 6 Monaten Entscheidung über Ausbau. Wenn weniger – Cloud mit klaren Verträgen ist die bessere Wahl.

On-Prem & Open-Source-LLMs für Schulen