Browser- und Desktop-Bedienung
Claude Computer Use kann Screenshots interpretieren, Maus und Tastatur simulieren und so Software bedienen, die keine API bietet. OpenAI Operator automatisiert wiederkehrende Browser-Aufgaben. Die Ausführung bleibt langsam (Sekunden pro Klick), ist aber für strukturierte Workflows einsetzbar.
Mehrschrittige Auftragsabwicklung
Agenten planen, zerlegen, führen aus und reagieren auf Zwischenergebnisse. Sie nutzen Werkzeuge (Suche, Code, Dateioperationen) und halten einen Zustand über viele Schritte – das unterscheidet sie von einem reinen Q&A-Assistenten.
Menschliche Aufsicht steuerbar
Alle großen Systeme erlauben Aufsichtsmodi: vollautonom (Agent entscheidet), bestätigungspflichtig (Agent fragt vor heiklen Schritten), streng überwacht (Mensch bestätigt jeden Schritt). Die schulische Einsatzfrage ist weniger „ob Agent", sondern „auf welcher Stufe".
Was sie noch nicht sicher können
Langfristige Planung jenseits weniger Stunden, korrekte Verallgemeinerung auf unbekannte UIs, zuverlässige Fehlerkorrektur bei fehlgeschlagenen Zwischenschritten. Wer das ignoriert, baut fragile Workflows.