OECD: Den Prozess bewerten, nicht das Produkt

Als die OECD im Januar ihren Digital Education Outlook 2026 veröffentlichte, stach eine Empfehlung besonders hervor: Schulen sollten zu einer "prozessorientierten Bewertung" übergehen. Der 245-seitige Bericht, der internationale Forschung zu generativer KI in der Bildung untersuchte, kam zu dem Schluss, dass "traditionelle Bewertungsmodelle, die sich ausschließlich auf Endergebnisse konzentrieren, zunehmend unzureichend werden." Stattdessen forderte die OECD die Pädagogen auf, "nicht nur zu bewerten, was Schüler produzieren, sondern wie sie sich mit dem Lernen auseinandersetzen, um Produkte zu erstellen" (OECD, 2026).

Dies ist keine schrittweise politische Empfehlung. Es stellt einen grundlegenden Wandel dar, wie internationale Organisationen über Schülerbewertung in einer Zeit denken, in der KI Aufsätze generieren, Gleichungen lösen und sogar Experimente in Sekunden entwerfen kann. Für uns bei WhimsyLabs bedeutet es auch etwas anderes: internationale Bestätigung eines Ansatzes, den wir seit unserer Gründung entwickeln.

Was genau empfiehlt die OECD?

Der OECD-Bericht ist eindeutig: Wenn KI sofort perfekte Ergebnisse produzieren kann, sagt die Bewertung dieser Ergebnisse fast nichts über das Lernen der Schüler aus. Die Lösung besteht laut dem Bericht darin, stattdessen den Prozess zu bewerten. Wie die Europäische Plattform für Erwachsenenbildung zusammenfasst, schlägt die OECD vor, dass "anstatt die Abschlussarbeit zu benoten, Lehrer bewerten sollten, wie ein Schüler mit KI interagiert hat, wie er deren Ausgabe kritisiert hat und wie er seine Ideen im Laufe der Zeit verfeinert hat" (EPALE, 2026).

Diese Empfehlung stammt aus Forschungsergebnissen, die ein beunruhigendes Paradoxon zeigen: Schüler, die KI verwenden, schneiden bei unmittelbaren Aufgaben besser ab, aber schlechter, wenn die KI entfernt wird. Der Bericht zitiert Studien, die zeigen, dass KI-unterstützte Schüler zwar 48% erfolgreicher bei der Erledigung von Aufgaben waren, ihre Leistung jedoch um 17% sank, wenn sie ohne KI-Unterstützung getestet wurden. Die OECD nennt dieses Phänomen "kognitive Auslagerung", bei der Schüler die KI das Denken übernehmen lassen und den mentalen Kampf verpassen, der für echtes Lernen notwendig ist.

Die Besorgnis ist nicht hypothetisch. RTE berichtete über die Warnung der OECD, dass "KI, wenn sie als Abkürzung statt als Lernwerkzeug verwendet wird, kognitive Anstrengung verdrängen und die Fähigkeiten schwächen kann, die tiefes Lernen unterstützen." Der Bericht warnt ausdrücklich vor "der Fata Morgana falscher Meisterschaft, bei der die beeindruckenden von KI generierten Ausgaben die Unterentwicklung wesentlicher Fähigkeiten verbergen" (RTE, 2026).

Warum kann sich die traditionelle Bewertung nicht anpassen?

Das grundlegende Problem bei der traditionellen Bewertung ist, dass sie entwickelt wurde, um Ergebnisse zu messen, als Ergebnisse noch menschliche Anstrengung erforderten. Als ein Schüler 1990 einen Aufsatz einreichte, korrelierte die Qualität dieses Aufsatzes ziemlich gut mit dem Verständnis des Schülers. Der Schüler musste das Argument durchdenken, seine Ideen strukturieren und Prosa produzieren, die sein Verständnis widerspiegelte. Das Ergebnis war in einem sinnvollen Sinne ein Beweis für den Prozess.

Diese Korrelation ist gebrochen. Ein Schüler kann jetzt eine KI auffordern, in Sekunden einen anspruchsvollen Aufsatz zu generieren, ihn mit kleinen Änderungen einreichen und gute Noten erhalten, obwohl er nichts gelernt hat. Lehrer berichten, dass sie zunehmend Zeit damit verbringen, KI-generierte Arbeit zu erkennen, Zeit, die für das eigentliche Unterrichten aufgewendet werden könnte.

Der OECD-Bericht macht deutlich, dass Erkennung nicht die Lösung ist. KI-generierte Inhalte werden nur schwerer zu identifizieren sein, und das Erkennungs-Wettrüsten lenkt pädagogische Energie vom Lernen auf die Überwachung um. Die Lösung besteht nicht darin, Betrüger zu fangen, sondern das zu ändern, was wir bewerten. Wenn wir den Prozess statt des Produkts bewerten, wird KI zum Werkzeug statt zur Bedrohung.

Warum Wissenschaftslabore die perfekte Fallstudie sind

Nirgendwo ist der Unterschied zwischen Prozess und Produkt deutlicher als in der Laborwissenschaft. Wenn ein Schüler eine Titration durchführt und die korrekte Molarität angibt, was hat er tatsächlich demonstriert? Er könnte systematisch durch das Verfahren argumentiert haben, sorgfältige Beobachtungen gemacht und die zugrunde liegende Chemie verstanden haben. Oder er könnte einen Nachbarn nach der Antwort gefragt haben, aus dem Laborbericht des letzten Jahres kopiert haben oder einfach Glück gehabt haben. Die endgültige Zahl sagt fast nichts aus.

Dieses Problem existierte schon vor KI, aber KI hat es dringend gemacht. Ein Schüler kann jetzt ChatGPT bitten, einen vollständigen Laborbericht zu schreiben, einschließlich plausibler Beobachtungen, angemessener Fehleranalyse und gut begründeter Schlussfolgerungen, ohne jemals das Equipment zu berühren. Der Bericht sieht korrekt aus, weil KI synthetisieren kann, wie korrekte Berichte aussehen. Aber der Schüler hat keine der Fähigkeiten entwickelt, die das Labor vermitteln sollte.

Prozessorientierte Bewertung für Labore bedeutet zu verfolgen, wie ein Schüler ein Experiment angeht. Hat er vor dem Beginn eine Hypothese formuliert? Hat er Variablen systematisch oder willkürlich getestet? Als die Ergebnisse ihn überraschten, hat er nachgeforscht oder ignoriert? Hat er Daten nachdenklich interpretiert oder voreilige Schlüsse gezogen? Diese Fragen zielen auf das ab, was Laborausbildung tatsächlich entwickeln soll: wissenschaftliches Denken.

Wie WhimsyLabs Prozessbewertung aufgebaut hat

Bei WhimsyLabs ist prozessorientierte Bewertung keine nachträgliche Anpassung als Reaktion auf KI. Es ist, wie wir unsere Plattform von Anfang an konzipiert haben. Unsere virtuellen Labore erfassen jede Aktion, die ein Schüler durchführt: welche Ausrüstung er auswählt, in welcher Reihenfolge er Schritte ausführt, wie er auf unerwartete Ergebnisse reagiert und wie sich seine Technik im Laufe der Zeit verbessert. Diese Interaktionsprotokollierung erstellt einen detaillierten Nachweis wissenschaftlichen Denkens in Aktion.

Aktionsprotokollierung ist das Fundament. Wenn ein Schüler die Temperatur misst, erfassen wir nicht nur den Endwert, sondern auch, wann er ihn abgelesen hat, wie viele Messungen er gemacht hat und ob er gewartet hat, bis sich das Thermometer stabilisiert hat. Wenn er eine Lösung pipettiert, verfolgen wir seine Technik, einschließlich Winkel, Geschwindigkeit und ob er die Spitze vorbefeuchtet hat.

Technikbewertung baut auf der Aktionsprotokollierung auf, um die prozedurale Kompetenz zu bewerten. Unser KI-Tutor WhimsyCat bewertet nicht nur Ergebnisse, sondern auch die Ausführung. Ein Schüler, der den korrekten Endpunkt bei einer Titration durch schlampige Technik erreicht, erhält anderes Feedback als einer, dessen Technik präzise war, der aber die Molarität falsch berechnet hat.

Expertenpfadvergleich setzt das Verhalten der Schüler in einen Kontext. Wir haben kartiert, wie Expertenwissenschaftler an gängige Experimente herangehen, und identifiziert die Entscheidungsbäume und Problemlösungsmuster, die geschicktes wissenschaftliches Denken charakterisieren. Wenn der Ansatz eines Schülers erheblich von Expertenpfaden abweicht, signalisiert dies eine Gelegenheit für gezielte Anleitung.

Was die Forschung unterstützt

Die OECD-Empfehlung stimmt mit Jahrzehnten pädagogischer Forschung überein. Black und Wiliams wegweisende Überprüfung von 1998 zeigte, dass formative Bewertung, Feedback während des Lernens statt danach, erhebliche Lernfortschritte über alle Fächer und Altersgruppen hinweg erzeugt. Ihre Meta-Analyse fand Effektstärken zwischen 0,4 und 0,7, größer als fast jede andere pädagogische Intervention (Black & Wiliam, 1998).

Neuere Arbeiten haben sich speziell auf wissenschaftliches Denken konzentriert. Forschung zu virtuellen Laboren hat gezeigt, dass Systeme, die Prozessdaten erfassen, Fehlvorstellungen identifizieren können, die traditionelle Bewertungen völlig übersehen.

Auswirkungen für Schulen und Lehrer

Die Empfehlung der OECD hat erhebliche Auswirkungen darauf, wie Schulen die Bewertung angehen. Der Bericht stellt fest, dass KI die für administrative Aufgaben aufgewendete Zeit um etwa 31% reduzieren kann, aber nur, wenn Schulen überdenken, was diese Aufgaben beinhalten. Wenn Lehrer weiterhin Produkte statt Prozesse bewerten, bietet KI keine sinnvolle Hilfe und kann sogar die Arbeitsbelastung durch Erkennungsbemühungen erhöhen.

Prozessorientierte Bewertung erfordert andere Infrastruktur. Schulen benötigen Lernumgebungen, die Prozessdaten erfassen, was genau das ist, was zweckgebundene Bildungstechnologie bietet. Standardmäßige Chatbots können das Denken von Schülern während eines Chemieexperiments nicht verfolgen. Virtuelle Labore, die für die Prozesserfassung konzipiert sind, können dies.

Der Übergang erfordert auch berufliche Weiterentwicklung. Lehrer, die es gewohnt sind, Laborberichte zu korrigieren, benötigen Unterstützung bei der Interpretation von Interaktionsprotokollen, Technikmetriken und Pfadanalysen. Der OECD-Bericht fordert ausdrücklich "neue Kompetenzpfade und Schulungsrahmen", um Pädagogen zu helfen, effektiv mit KI-gestützten Bewertungssystemen zu arbeiten.

Die Herausforderung der Umsetzung

Der Wechsel von Ergebnis- zu Prozessbewertung ist nicht einfach. Es erfordert ein Umdenken dessen, was Noten darstellen, das Neugestalten von Rubriken und die Hilfe für Schüler zu verstehen, warum der Weg genauso wichtig ist wie das Ziel. Schüler, die es gewohnt sind, nur nach Endergebnissen beurteilt zu werden, könnten zunächst Bewertungssysteme ablehnen, die ihren Ansatz bewerten.

Es gibt auch Bedenken hinsichtlich der Chancengleichheit. Prozessorientierte Bewertung basiert auf Technologie, die das Verhalten von Schülern erfasst, was Geräte, Konnektivität und technischen Support erfordert, den nicht alle Schulen derzeit haben. Der OECD-Bericht erkennt dies an und weist auf das Entstehen einer "zweiten digitalen Kluft" hin, die nicht auf dem Zugang, sondern auf der Qualität der Nutzung basiert.

WhimsyLabs hat unsere Plattform so konzipiert, dass sie auf Standard-Chromebooks über typische Schulnetzwerke läuft, gerade weil Infrastruktureinschränkungen real sind. Wir können die digitale Kluft nicht lösen, aber wir können sicherstellen, dass prozessorientierte Bewertung keine spezielle Hardware erfordert, die sich viele Schulen nicht leisten können.

Was als Nächstes kommt

Die Unterstützung der OECD für prozessorientierte Bewertung ist bedeutsam, weil sie internationale Bestätigung für einen Ansatz bietet, der in der pädagogischen Forschung seit Jahren an Dynamik gewinnt. Schulen und politische Entscheidungsträger, die auf maßgebliche Anleitung gewartet haben, haben sie jetzt. Die Frage ist nicht mehr, ob man zur Prozessbewertung übergehen soll, sondern wie schnell und effektiv dieser Übergang erfolgen kann.

Für WhimsyLabs ist dieser Moment ermutigend, aber nicht überraschend. Wir haben unsere Plattform um die Prozessbewertung herum aufgebaut, weil die Forschung sie unterstützte, weil die Laborausbildung sie erfordert und weil wir glaubten, dass KI schließlich die reine Ergebnisbewertung unhaltbar machen würde. Der OECD-Bericht bestätigt, worauf wir hinarbeiten: eine Zukunft, in der Schüler nach ihrem Denken bewertet werden, nicht nur nach ihren Antworten.