Multimodalität im Unterricht
Aktuelle KI-Systeme verarbeiten nicht mehr nur Text. GPT-4o, Gemini 2.5 und Claude 4.7 können Bilder analysieren, Sprache verstehen und transkribieren, Handschriften entziffern und auf visuelle Eingaben reagieren — in Echtzeit und ohne spezialisierte Hardware. Das eröffnet im Unterricht Möglichkeiten, die vor zwei Jahren noch nicht denkbar waren; es stellt Lehrpersonen aber auch vor neue didaktische und datenschutzrechtliche Fragen.
Was Multimodalität bedeutet
Multimodale KI-Systeme nehmen mehrere Eingabeformen gleichzeitig entgegen und verarbeiten sie in einem gemeinsamen Kontext. Das bedeutet konkret: Eine Lernende kann ein Foto ihrer handgeschriebenen Mathematiksolution hochladen und fragen, ob ihre Lösungsschritte korrekt sind. Ein Lernender kann ein Sprachaufnahme-File einreichen und die KI bittet um eine strukturierte Zusammenfassung. Lehrpersonen können eine fotografierte Seite aus einem Schweizer Geschichtslehrmittel hochladen und Vertiefungsfragen generieren lassen.
Die wichtigsten Modalitäten in der Schulpraxis sind: Bild (Fotos, Diagramme, Handschriften, Screenshots), Audio (Sprachaufnahmen, Leseversuche, mündliche Prüfungsantworten) und Text — in unterschiedlichen Kombinationen. Videoanalyse ist technisch möglich, aber aus Datenschutzgründen im Schulkontext mit Vorsicht zu behandeln.
Im Unterricht: Bildanalyse, Audiodiagnose
Bildanalyse
Multimodale KI eignet sich besonders gut für Aufgaben, bei denen visuelle Eingaben bisher entweder ignoriert oder per Hand transkribiert wurden:
Handschrift und Skizzen: Lernende fotografieren ihre handschriftlichen Notizen, Entwürfe oder mathematischen Lösungen. Die KI entziffert, kommentiert und gibt strukturiertes Feedback. Das schafft eine Feedback-Schleife, die Lehrpersonen bei 25 Lernenden nicht einzeln leisten können.
Diagramme und Abbildungen: Technische Zeichnungen, geografische Karten, biologische Zellskizzen — multimodale KI kann diese Abbildungen beschreiben, Fehler identifizieren und erklären. Für Lernende mit visuellen Stärken oder Schriftschwierigkeiten eröffnet das neue Zugangswege zum Lernstoff.
Lehrmittel-Fotos: Lehrpersonen können Seiten aus (nicht digitalisierten) Schulbüchern fotografieren und daraus Übungsaufgaben, Zusammenfassungen oder Quizfragen generieren lassen — ohne manuelle Transkription. Achtung: Urheberrecht beachten; interne Nutzung für Unterrichtsvorbereitung ist in den meisten Fällen zulässig, öffentliche Weitergabe nicht.
Audiodiagnose
Sprachbasierte Anwendungen sind besonders für den Sprachunterricht relevant:
Lesediagnose: Lernende nehmen ihre Leseprobe auf (30–60 Sekunden). Die KI transkribiert, identifiziert Lesefehler und gibt strukturiertes Feedback zu Aussprache und Lesefluss. Das ist kein Ersatz für eine professionelle Lesediagnose, aber ein niederschwelliger Einstieg für Lehrpersonen ohne Sonderpädagogikausbildung.
Aussprache im Fremdsprachenunterricht: Lernende sprechen einen Satz oder einen kurzen Text. Die KI bewertet Aussprache und Intonation, erklärt Abweichungen und gibt korrekte Beispielaussprache zurück. In Kombination mit Voice-Tutoring entstehen 1:1-Übungssequenzen, die im Klassenzimmer kaum realisierbar wären.
Grenzen
Multimodalität hat klare Grenzen, die Lehrpersonen kennen sollten:
Genauigkeit ist nicht garantiert: Handschriften-Erkennung ist gut, aber nicht perfekt. Insbesondere bei undeutlichen Handschriften, Dialektschreibungen oder mathematischen Sonderzeichen können Fehler auftreten. Lernende sollten KI-Feedback immer als ersten, nicht als letzten Kommentar behandeln.
Datenschutz und Bildrechte: Bilder, die Personen zeigen (Klassenfotos, Videoaufnahmen von Lernenden), unterliegen strengen Datenschutzanforderungen — auch wenn sie in einem pädagogischen Kontext entstehen. Fotografierte Lernende auf eine KI-Plattform hochzuladen, ist in der Regel ohne ausdrückliche Einwilligung der Erziehungsberechtigten nicht zulässig. Das gilt auch für Aufnahmen, auf denen Lernende nicht erkennbar sind, wenn andere personenbezogene Merkmale vorhanden sind.
Abhängigkeit von Qualität der Eingabe: Was die KI aus einem Bild oder einer Audioaufnahme macht, hängt stark von der Qualität der Aufnahme ab. Schlechte Lichtverhältnisse, Hintergrundgeräusche oder komprimierte Formate reduzieren die Ergebnisqualität erheblich.
Decision-Mode-Implikationen
Multimodale KI-Anwendungen verändern die Decision-Mode-Analyse. Ein Aufgabentyp, der als Text-basiert als „verboten" eingestuft wurde (weil die KI das Produkt erzeugen würde), kann bei multimodaler Nutzung in „begleiten" wechseln — weil nun der Prozess (die handschriftliche Notiz, das gesprochene Argument) als Eingabe und damit als Eigenleistungsnachweis dient.
Umgekehrt: Aufgaben, die bisher als KI-resistent galten (z. B. eine handgezeichnete Biologieskizze), können durch multimodale KI neu bewertet werden — weil die KI nun auch diese Darstellungsform analysieren und kommentieren kann.
Lehrpersonen sollten ihren Entscheidungsbaum mindestens einmal mit der Frage durchlaufen: Welche meiner bisherigen „KI-verboten"-Entscheide basieren auf Text-Annahmen, die bei multimodalen Inputs nicht mehr gelten?
In der Praxis
Eine Mathematiklehrperson an einer Sekundarschule führt eine wöchentliche „Foto-Feedback-Runde" ein: Lernende fotografieren ihre handschriftlichen Hausaufgaben und laden sie in eine gemeinsame KI-Sitzung hoch. Die KI gibt strukturiertes Feedback zu jedem Lösungsweg. Die Lehrperson nutzt die 20 Minuten, um gezielt bei denjenigen zu helfen, die das KI-Feedback nicht verstanden haben. Die Qualität der Lernendengespräche hat sich nach Einschätzung der Lehrperson messbar verbessert — weil Lernende die KI-Kommentare vorbereiten, nicht erst in der Stunde mit einem leeren Blatt erscheinen.