94% der Studierenden nutzen KI — und das ist nicht das Problem

Die Umfrage des Higher Education Policy Institute zur generativen KI unter Studierenden 2026 wurde letzte Woche mit einer Statistik veröffentlicht, die Schlagzeilen machte: 94% der britischen Studierenden nutzen mittlerweile generative KI zur Unterstützung bei bewerteten Arbeiten (HEPI, 2026). Die Reaktion war vorhersehbar. Einige Kommentatoren beklagten die akademische Integrität. Andere forderten strengere Erkennungstools. Einige wenige schlugen vor, einfach die Niederlage zu akzeptieren und KI alles schreiben zu lassen.

All diese Reaktionen verfehlen den Punkt. Die 94%-Zahl ist kein Beweis dafür, dass Studierende massenhaft betrügen. Sie ist ein Beweis dafür, dass traditionelle Bewertung defekt ist, und das schon seit einiger Zeit. Wir haben Ergebnisse bewertet, die KI jetzt mühelos produzieren kann, und uns dann gewundert, wenn Studierende KI nutzen, um sie zu produzieren. Das Problem sind nicht die Studierenden. Das Problem ist, dass wir die falschen Dinge bewertet haben.

Was zeigt die HEPI-Umfrage tatsächlich?

Der HEPI-Bericht, durchgeführt von Savanta im Dezember 2025 mit 1.054 Vollzeit-Studierenden in Großbritannien, zeigt ein nuancierteres Bild als die Schlagzeile suggeriert. Ja, 94% nutzen KI zur Unterstützung bei bewerteten Arbeiten. Aber "Unterstützung" umfasst ein breites Spektrum: Zusammenfassen dichter Lektüre, Erstellen von Entwurfsgliederungen, Erklären schwieriger Konzepte und Grammatikprüfung. Nur 12% geben an, KI-generierten Text direkt in ihre Einreichungen aufzunehmen, gegenüber 8% im Vorjahr.

Die qualitativen Antworten sind besonders aufschlussreich. Ein Studierender erklärte: "KI-Tools ermöglichten es mir, dichte Lektüre schnell zusammenzufassen und Entwürfe oder Gliederungen für Aufgaben zu erstellen, was Stunden mühsamer Arbeit sparte und mir ermöglichte, mich auf kritische Analyse und tieferes Verständnis zu konzentrieren." Ein anderer gab einfach zu: "Ich benutze mein Gehirn überhaupt nicht." Die HEPI-Autoren bemerken den auffälligen Kontrast: "Es gibt einen Unterschied zwischen einem Studierenden, der KI nutzt, um sein Lernen voranzutreiben, und einem Studierenden, der sein Lernen an KI auslagert."

Diese Unterscheidung ist wichtig. Der erste Studierende nutzt KI als kognitives Gerüst und setzt mentale Ressourcen für höherwertige Denkprozesse frei. Der zweite erlebt das, was die OECD "kognitives Auslagern" nennt, wobei er die KI denken lässt und den für echtes Lernen notwendigen Kampf verpasst. Beide Verhaltensweisen werden als "KI-Nutzung" registriert, aber ihre bildungsbezogenen Auswirkungen sind gegensätzlich.

Warum Erkennung dieses Problem nicht lösen kann

Die instinktive Reaktion auf steigende KI-Nutzung ist die Verbesserung der Erkennung. Wenn Studierende KI unangemessen nutzen, erwischen Sie sie. Aber dieser Ansatz ist gescheitert, scheitert und wird aus gut dokumentierten Gründen weiterhin scheitern.

Unabhängige Analysen haben ergeben, dass KI-Erkennungstools Falsch-Positiv-Raten zwischen 5% und 20% produzieren, was bedeutet, dass echte Studierendenarbeit routinemäßig als maschinengeneriert markiert wird (Nesenoff & Miltenberg, 2025). Die Konsequenzen sind nicht abstrakt. Im Jahr 2024 beschuldigte die Australian Catholic University fälschlicherweise etwa 1.500 Studierende auf Basis von Turnitins KI-Detektor. Studierende verloren Stellen als Pflegekräfte nach dem Studium. Transkripte wurden monatelang als "Ergebnisse zurückgehalten" markiert. Einige wurden gezwungen, ihren gesamten Internet-Browserverlauf zu übergeben, um ihre Unschuld zu beweisen.

Diese Tools sind besonders unzuverlässig für nicht-muttersprachliche Englischsprecher und neurodivergente Studierende, deren Schreibmuster natürlich von dem abweichen können, was Algorithmen als "menschliches Schreiben" erwarten. Ein Studierender der Yale School of Management klagte 2025 wegen unrechtmäßiger Suspendierung, nachdem GPTZero seine Prüfung markiert hatte, und führte Diskriminierung gegen nicht-muttersprachliche Englischsprecher an. Das Erkennungs-Wettrüsten ist nicht nur wirkungslos; es schadet aktiv den Studierenden, die es zu schützen vorgibt.

Selbst wenn Erkennung funktioniert, behandelt sie nur das Symptom. Ein Studierender, der die Erkennung erfolgreich umgeht, hat trotzdem nichts aus der Aufgabe gelernt. Ein Studierender, der erwischt wird, wurde bestraft, aber die zugrundeliegende Anreizstruktur bleibt unverändert. Solange wir Ergebnisse bewerten, die KI produzieren kann, schaffen wir Anreize für Studierende, KI zu nutzen, um sie zu produzieren. Erkennung behandelt das Verhalten als moralisches Versagen, wenn es tatsächlich eine rationale Reaktion auf falsch ausgerichtete Anreize ist.

Das eigentliche Problem: Bewertung von Ergebnissen, die kein menschliches Denken mehr erfordern

Der traditionelle Aufsatz, der Laborbericht, der Aufgabensatz: Diese Bewertungsformate entwickelten sich, als ihre Produktion anhaltende kognitive Anstrengung erforderte. Wenn Sie ein gut strukturiertes Argument über Photosynthese wollten, mussten Sie Photosynthese verstehen. Wenn Sie eine kohärente Analyse von Titrationsergebnissen wollten, mussten Sie die Titration durchführen und die Daten durchdenken. Das Ergebnis diente als vernünftiger Beweis für den Prozess.

Diese Korrelation ist zerbrochen. Ein Studierender kann jetzt eine KI auffordern, einen ausgeklügelten Aufsatz mit Zitaten in weniger als einer Minute zu generieren. Sie können einen Laborbericht mit plausiblen Beobachtungen, angemessener Fehleranalyse und gut begründeten Schlussfolgerungen anfordern, ohne Geräte zu berühren. Das Ergebnis sieht korrekt aus, weil KI synthetisieren kann, wie korrekte Ergebnisse aussehen. Aber der Studierende hat keine der Fähigkeiten entwickelt, die die Aufgabe vermitteln sollte.

Dies ist kein neues Problem. Studierende haben immer Wege gefunden, Bewertungen abzukürzen: Kopieren von Vorjahren, Aufteilen der Arbeit unter Studiengruppen, Online-Kauf von Aufsätzen. KI hat einfach die Abkürzung demokratisiert und sie allen zugänglich gemacht, nicht nur denen mit Ressourcen oder Verbindungen. Das Ausmaß hat sich geändert, aber das zugrundeliegende Problem, dass wir vom Prozess losgelöste Ergebnisse bewerten, existiert seit Jahrzehnten.

Wie sieht KI-sichere Bewertung aus?

Der OECD Digital Education Outlook 2026 beantwortete diese Frage explizit: "Anstatt die Abschlussarbeit zu benoten, sollten Lehrkräfte bewerten, wie ein Studierender mit KI interagiert hat, wie er deren Ausgabe kritisiert hat und wie er seine Ideen im Laufe der Zeit verfeinert hat" (OECD, 2026). Dies ist prozessorientierte Bewertung: nicht bewerten, was Studierende produzieren, sondern wie sie sich mit dem Lernen beschäftigen, um es zu produzieren.

In der Praxis bedeutet dies, den Prozess selbst zu erfassen. Wenn ein Studierender ein Problem durcharbeitet, welche Entscheidungen trifft er? Wenn er auf Schwierigkeiten stößt, wie reagiert er? Wenn sein erster Ansatz scheitert, passt er sich an oder gibt er auf? Diese Fragen zielen auf das ab, was Bildung tatsächlich entwickeln soll: Denkfähigkeiten, Problemlösungskompetenz und die Fähigkeit, aus Fehlern zu lernen.

Die Laborwissenschaft bietet ein besonders klares Beispiel. Man kann nicht mit KI durch Pipettiertechnik navigieren. Man kann ChatGPT nicht auffordern, Feinmotorik zu entwickeln, die Fähigkeit, subtile Farbveränderungen zu beobachten, oder das Instinkt dafür, wenn ein Experiment sich falsch anfühlt. Diese Fähigkeiten existieren im Körper und entwickeln sich durch Übung. Ein Studierender, der zuschaut, wie KI einen perfekten Laborbericht generiert, hat nichts über die Arbeit im Labor gelernt.

Wie virtuelle Labore Prozessbewertung ermöglichen

Bei WhimsyLabs ist prozessorientierte Bewertung keine nachträgliche Reaktion auf KI. Es ist die Art, wie wir unsere Plattform von Anfang an entworfen haben. Unsere virtuellen Labore erfassen jede Aktion, die ein Studierender vornimmt: welche Geräte er auswählt, in welcher Reihenfolge er Schritte ausführt, wie er auf unerwartete Ergebnisse reagiert und wie sich seine Technik im Laufe der Zeit verbessert. Diese Interaktionsprotokollierung erstellt einen detaillierten Bericht über wissenschaftliches Denken in Aktion.

Aktionsprotokollierung ist die Grundlage. Wenn ein Studierender eine Lösung pipettiert, verfolgen wir seine Technik: den Winkel, in dem er die Pipette hält, die Geschwindigkeit, mit der er dosiert, ob er die Spitze vorbefeuchtet. Wenn er die Temperatur misst, zeichnen wir nicht nur den Endwert auf, sondern wann er ihn genommen hat, wie viele Messungen er durchgeführt hat und ob er auf das Gleichgewicht gewartet hat. Diese granularen Details zeigen, ob ein Studierender ordnungsgemäße Laborgewohnheiten entwickelt oder nur die Bewegungen durchführt.

Technikbewertung baut auf der Aktionsprotokollierung auf, um Verfahrenskompetenz zu bewerten. Ein Studierender, der den richtigen Endpunkt bei einer Titration durch schlampige Technik erreicht, erhält anderes Feedback als einer, dessen Technik präzise war, aber der die Molarität falsch berechnet hat. Beide müssen sich verbessern, aber auf unterschiedliche Weise. Traditionelle Bewertung, die sich nur auf die Endantwort konzentriert, kann zwischen ihnen nicht unterscheiden.

Expertenpfad-Vergleich setzt Studierendenverhalten in Kontext. Wir haben kartiert, wie Expertenwissenschaftler häufige Experimente angehen und dabei die Entscheidungsbäume und Problemlösungsmuster identifiziert, die kompetentes wissenschaftliches Denken charakterisieren. Wenn der Ansatz eines Studierenden erheblich von Expertenpfaden abweicht, signalisiert dies eine Gelegenheit für gezielte Anleitung. Wenn sein Ansatz mit der Expertenlogik übereinstimmt, selbst wenn er zu einer falschen Schlussfolgerung kommt, deutet dies darauf hin, dass sich sein wissenschaftliches Denken angemessen entwickelt.

Die Bewertungskrise ist auch eine Chance

Die HEPI-Umfrage zeigt etwas, das jeden Pädagogen beunruhigen sollte: Fast zwei Drittel der Studierenden (65%) sagen, dass sich die Bewertung als Reaktion auf KI erheblich verändert hat, und viele artikulieren Angst vor falschen Anschuldigungen wegen Fehlverhaltens. Studierende leben in einer Überwachungsumgebung, in der ihre authentische Arbeit als betrügerisch markiert werden könnte, während KI-unterstützte Arbeit unentdeckt bleiben könnte. Die Anreize sind pervers.

Aber dieselbe Umfrage zeigt einen Weg nach vorn. Studierende sehen KI-Fähigkeiten überwältigend als wesentlich an, wobei 68% glauben, dass diese Fähigkeiten notwendig sind, um in der heutigen Welt erfolgreich zu sein. Sie versuchen nicht zu betrügen. Sie versuchen, Fähigkeiten zu entwickeln, die sie korrekt als wichtig wahrnehmen. Das Problem ist, dass aktuelle Bewertungsstrukturen sie zwingen, zwischen der Entwicklung von KI-Kompetenz und dem Nachweis von Fachwissen zu wählen, wenn beides gleichzeitig möglich sein sollte.

Prozessorientierte Bewertung löst diese Spannung. Wenn wir bewerten, wie Studierende denken, statt was sie produzieren, wird KI zu einem Werkzeug statt zu einer Bedrohung. Studierende können KI nutzen, um Lektüre zusammenzufassen, Entwurfsgliederungen zu erstellen oder ihre Argumentation zu überprüfen, während sie weiterhin auf die kognitive Arbeit bewertet werden, die zählt: Hypothesen bilden, Daten interpretieren, sich an unerwartete Ergebnisse anpassen und praktische Laborfähigkeiten entwickeln, die keine KI replizieren kann.

Was das für die naturwissenschaftliche Bildung bedeutet

Die naturwissenschaftliche Bildung steht vor einer besonderen Herausforderung, da Laborfähigkeiten für die Disziplin zentral sind. Ein Studierender, der nie eine Pipette gehalten, ein Mikroskop eingestellt oder eine chemische Reaktion beobachtet hat, kann nicht behaupten, Naturwissenschaft in irgendeinem bedeutsamen Sinne zu verstehen. Doch traditionelle Laborbewertung, die sich auf schriftliche Berichte konzentriert, war immer anfällig für Abkürzungen. KI hat diese Anfälligkeit einfach unmöglich zu ignorieren gemacht.

Die Lösung ist nicht, KI aus der naturwissenschaftlichen Bildung zu verbannen. Es geht darum zu bewerten, was KI nicht kann: die praktischen Fähigkeiten, die Verfahrenskompetenz, die Fähigkeit, auf Echtzeit-Experimentierherausforderungen zu reagieren. Virtuelle Labore, die Prozessdaten erfassen, machen dies in großem Maßstab möglich. Das Interaktionsprotokoll eines Studierenden liefert reichhaltigere Beweise für seine wissenschaftliche Entwicklung als jeder schriftliche Bericht es könnte, und es kann von keiner KI gefälscht werden.

Die HEPI-Autoren schließen, dass "Institutionen eine entscheidende Rolle dabei spielen, sicherzustellen, dass KI das Lernen verbessert statt es zu vermindern." Sie empfehlen strukturierte KI-Einführung, Lehrplanänderungen zur expliziten Vermittlung von KI-Fähigkeiten und klare bewertungsspezifische Leitlinien. All das ist wichtig. Aber die grundlegendste erforderliche Änderung ist das Überdenken dessen, was wir überhaupt bewerten.

Vierundneunzig Prozent der Studierenden, die KI nutzen, sind keine Krise. Es ist ein Signal, dass sich Bewertung weiterentwickeln muss. Die Werkzeuge existieren. Die Forschung unterstützt es. Die einzige Frage ist, ob sich die Bildung anpasst oder weiterhin einen Erkennungskrieg führt, den sie bereits verloren hat.