Modell C · Vertiefung

On-Prem & Open-Source-LLMs für Schulen

Stand: April 2026

Offene Modelle wie Llama 4 (Meta), Mistral, Gemma 3 (Google) und Qwen (Alibaba) erreichen für viele schulische Aufgaben das Niveau kommerzieller Frontier-Modelle. Mit Ollama, vLLM oder LM Studio lassen sie sich auf eigener Hardware betreiben. Damit wird Datensouveränität real – aber zum Preis von Betriebsverantwortung. Diese Seite hilft zu entscheiden, wann sich das lohnt.

Warum überhaupt · Modelle · Stack · Kosten (TCO) · Entscheidungskompass

Kernaussage. On-Prem ist kein Selbstzweck. Es ist sinnvoll, wenn Datenschutz-Anforderungen keinen Cloud-Anbieter zulassen, wenn die Nutzungsintensität hoch genug ist, oder wenn eine Schule den Lernwert selbst in der Infrastruktur sieht. Für die Mehrzahl der Schulen bleibt eine AI-Act-konforme Cloud-Lösung der ökonomisch und didaktisch bessere Weg.
1

Warum überhaupt On-Prem?

Gute Gründe

  • Datensouveränität. Daten verlassen die eigene Infrastruktur nie. Relevant für kantonale Rahmen mit strikten Anforderungen.
  • Kostenkontrolle bei hoher Nutzungsdichte. Ab ~10 000 Interaktionen/Monat kann eigene Hardware günstiger sein als API-Kosten.
  • Reproduzierbarkeit. Modelle und Systemverhalten bleiben über Jahre stabil – kein "Modell-Drift" durch Anbieter-Updates.
  • Lernwert. Die Schule baut selbst KI-Kompetenz auf, statt nur Kunde zu sein.

Gute Gründe dagegen

  • Betriebsaufwand. IT-Personal für Einrichtung, Updates, Monitoring nötig.
  • Qualität. Offene Modelle sind sehr gut, erreichen für Agentic, Multimodal und Reasoning aber noch nicht durchgängig das Niveau kommerzieller Spitzenmodelle.
  • Hardware-Investition. Eine brauchbare GPU-Server-Basis startet bei CHF 10–20 k; für Schul-Traffic meist amortisierbar, aber nicht trivial.
  • Sicherheit. Eigene Modelle bringen eigene Pflichten (Zugriffskontrolle, Logging, Patching).
2

Offene Modelle 2026 im Überblick

Llama 4 (Meta) – Scout & Maverick
Instruction-tuned Varianten mit 128k Kontextfenster; starke Allgemeinleistung; über Ollama mit `ollama run llama4:scout` direkt lauffähig. Lizenz erlaubt breite Nutzung, aber nicht uneingeschränkt kommerziell.
Mistral (Mistral AI)
Europäische Herkunft; schlanke, schnelle Modelle mit sehr guter Preis-/Leistungs-Relation; Mistral Small, Mixtral für Mischszenarien. Aus Datenschutz-Sicht besonders interessant für CH/EU-Schulen.
Gemma 3 (Google)
Offene Modellfamilie mit guter Dokumentation; Varianten von 2B bis 27B Parametern; gut geeignet für Desktops und kleine Server.
Qwen 3 (Alibaba)
Sehr starke Reasoning- und Multilingual-Leistung; auch in kompakten Größen verfügbar. Herkunft und geopolitische Fragen gesondert abwägen.
DeepSeek R1
Reasoning-Modell mit offengelegten Trainings-Methoden; für Aufgaben mit strukturiertem Denken gut geeignet. Ähnliche Herkunfts-Überlegungen wie Qwen.
Phi (Microsoft)
Sehr kompakte Modelle (2.7B–14B), auf Datenqualität ausgelegt; gut für einfache Aufgaben auf schwächerer Hardware.

Referenz-Vergleiche: Hugging Face: Best OSS LLMs 2025, Ollama Library, ComputingForGeeks: OSS LLM Comparison 2026.

3

Stack-Optionen für die Schul-IT

Ollama – Einstiegsstufe

Installiert mit zwei Befehlen, läuft auf macOS, Windows, Linux. Ideal für Pilotprojekte und Einzelgerät-Szenarien. GPU-Beschleunigung für NVIDIA (CUDA), Apple Silicon (Metal), AMD (ROCm) inklusive.

vLLM – Produktionsstufe

Hochoptimierter Inferenz-Server mit Batching, Streaming, deutlich höhere Token-Raten als Ollama. Für Mehrklassen-Setups; braucht dezidierte Server-GPU.

LM Studio / Jan / LocalAI – Desktop-Lösungen

GUI-basiert, ideal für Lehrpersonen, die mit Modellen experimentieren wollen, ohne Terminal zu bedienen. Begrenzt skalierbar – nichts für hundert gleichzeitige Nutzer.

Typische Hardware-Setups

Lehrerzimmer-PC (Ollama, Llama 3.1 8B oder Mistral 7B)
16 GB RAM, moderne Consumer-GPU (RTX 4060 Ti oder Apple Silicon M3). Gut für 1–3 parallele Nutzer. Investition: ~CHF 2–3 k.
Schulserver (vLLM + Llama 4 Scout oder Mistral Medium)
Server mit 1–2× NVIDIA L40S / A6000, 128 GB RAM. Reicht für ~50 parallele Nutzer bei moderaten Antworten. Investition: CHF 15–25 k + Strom.
Gemeinde-/Kantons-Cluster (vLLM, hochverfügbar)
Mehrere Nodes mit Hochleistungs-GPUs. Für Verbände oder große Schulträger. Partnerschaft mit kantonaler IT sinnvoll.
4

Total Cost of Ownership (TCO) – realistisch

Einmalkosten

  • Hardware (Server + GPU): CHF 10–30 k je nach Setup
  • Einrichtung (IT-Tage extern oder intern): 5–10 Personentage
  • Erste Integration in Schul-Portale: 2–5 Personentage

Laufende Kosten (pro Jahr)

  • Strom: CHF 500–2 000 je nach GPU und Nutzung
  • Wartung, Updates, Sicherheit: 15–30 % einer IT-Stelle
  • Redundanz / Backup: einplanen, sonst teurer Ausfall
  • Neue Modelle testen, einspielen: 1–2 Personentage/Quartal

Faustregel: On-Prem rechnet sich, wenn mindestens 500 Lernende aktiv nutzen oder die Schule pro Jahr mehr als CHF 5 000 an Cloud-API-Gebühren zahlen würde. Für kleinere Setups ist eine kommerzielle Enterprise-Lizenz mit EU-Hosting wirtschaftlich fast immer besser – dort liegt die eigentliche didaktische Arbeit, nicht im Infrastruktur-Eigenbau.

5

Entscheidungskompass

Vier Kernfragen, bevor eine Schule On-Prem ernsthaft angeht.

  1. Haben wir einen Datenschutz-Grund, der Cloud ausschließt? Wenn nein – Cloud mit AI-Act-/nDSG-Compliance reicht.
  2. Haben wir IT-Personal mit Linux-, Docker- und GPU-Erfahrung? Wenn nein – Cloud, oder Dienstleister beauftragen.
  3. Erwarten wir mehr als 10 000 Interaktionen/Monat? Wenn nein – Cloud ist fast immer günstiger.
  4. Haben wir eine mindestens 3-jährige Perspektive? Hardware amortisiert sich nicht in einem Schuljahr; kürzer ist On-Prem nicht sinnvoll.
Wenn drei oder vier Antworten "ja" sind, lohnt sich ein Pilot. Starten mit Ollama + einem mittleren Modell, nach 6 Monaten Entscheidung über Ausbau. Wenn weniger – Cloud mit klaren Verträgen ist die bessere Wahl.
Quellen

Belege & Anleitungen

Weiter mit