Wenn KI 'mindestens eins' falsch liest: Textbewertung scheitert

Liam Roselle, ein Abiturient an der Amity Regional High School in Connecticut, erhielt eine Eins von drei Punkten bei zwei Fragen für eine AP-Psychologie-Aufgabe. Das Feedback teilte ihm mit, dass er keine spezifischen Belege geliefert habe. Das hatte er aber. Das Problem, wie er schließlich herausfand, war, dass die Frage nach "mindestens einem konkreten und relevanten Beleg" fragte, und er hatte mehrere Studien zitiert. Das KI-Bewertungssystem interpretierte "mindestens eins" als "nur eins" und bestrafte ihn dafür, mehr als das Minimum geleistet zu haben.

Um einen einzelnen Punkt bei einer Hausaufgabe zurückzugewinnen, musste Roselle eine dreiseitige E-Mail-Beschwerde schreiben, in der er den genauen Wortlaut der Frage zitierte und die Semantik des Ausdrucks "mindestens" erklärte. Sein Lehrer stimmte zu, dass die Erklärung Sinn ergab, und vergab den Punkt. Aber wie Roselle in CT Mirror schrieb: "Die Frage, die man stellen sollte, ist, wie viele Schüler, die mit dem gleichen Fehler konfrontiert waren, die Note einfach akzeptiert und weitergemacht haben."

Er ist nicht allein mit seiner Sorge. Mehr als 150 Amity-Schüler haben eine Petition gegen KI-Bewertung an ihrer Schule unterzeichnet. Und ihre Bedenken werden durch Forschung gestützt: Eine Studie, die auf der Konferenz der American Educational Research Association 2024 präsentiert wurde, ergab, dass KI und menschliche Bewerter nur in etwa 40 Prozent der Fälle exakt übereinstimmen, mit einer konsistenten Voreingenommenheit gegen qualitativ hochwertige Texte. Wenn professionelle AP-Bewerter bei Aufsätzen unterschiedlicher Meinung sind, ziehen sie einen Mediator hinzu. KI-Bewertungssysteme bieten standardmäßig keine solche Absicherung.

Warum hat KI Schwierigkeiten mit schriftlicher Bewertung?

Die Fehlinterpretation von "mindestens eins" ist kein Randfall. Sie offenbart eine grundlegende Einschränkung der Art und Weise, wie KI-Systeme natürliche Sprache verarbeiten. Diese Systeme arbeiten mit Mustererkennung: Sie lernen, wie "korrekte" Antworten typischerweise aussehen, und bewerten Einreichungen basierend auf der Ähnlichkeit zu diesen Mustern. Wenn ein Schüler korrektes Verständnis auf unerwartete Weise ausdrückt oder mehr als das erwartete Minimum liefert, erkennt das System es nicht.

Sprache ist von Natur aus mehrdeutig. Betrachten Sie, auf wie viele Arten ein Schüler dasselbe wissenschaftliche Konzept korrekt beschreiben könnte:

"Die Lösung wurde rosa" vs "Der Indikator veränderte seine Farbe" vs "Eine Farbveränderung wurde beobachtet"
"Mindestens ein Beispiel" könnte ein, zwei oder fünf Beispiele bedeuten
"Die Reaktion erfordert Wärme" vs "thermische Energie wird benötigt" vs "erhöhte Temperatur"
Verschiedene Schreibweisen je nachdem, ob man britisches oder amerikanisches Englisch gelernt hat

Jede dieser Varianten drückt dasselbe wissenschaftliche Verständnis aus. Ein menschlicher Bewerter erkennt sie als gleichwertig. Ein KI-System, das auf bestimmte Formulierungen trainiert wurde, möglicherweise nicht.

Forschung zur automatisierten Aufsatzbewertung hat diese Fehler ausführlich dokumentiert. KI-Systeme bestrafen unkonventionelle Satzstrukturen, selbst wenn der wissenschaftliche Inhalt korrekt ist. Sie belohnen weitschweifige, selbstbewusst klingende Prosa gegenüber prägnanten, genauen Antworten. Sie zeigen konsistente Voreingenommenheitsmuster, die bestimmte Schreibstile benachteiligen, unabhängig vom demonstrierten Wissen.

Die versteckten Kosten von KI-Bewertungsfehlern

Roselles Fall veranschaulicht die versteckte Belastung, die KI-Bewertung den Schülern auferlegt. Er hat seine Note erfolgreich angefochten, aber dafür brauchte er akademische Schreibfähigkeiten, Selbstvertrauen, um ein automatisiertes System herauszufordern, und einen Lehrer, der bereit war, die Beschwerde zu prüfen. Wie viele Schüler fehlt eines oder mehrere davon?

Die Schüler, die am ehesten eine falsche KI-Bewertung akzeptieren, sind oft diejenigen, die bereits akademisch kämpfen. Ihnen fehlt möglicherweise das Selbstvertrauen, Autorität herauszufordern, selbst algorithmische Autorität. Sie haben möglicherweise nicht die Schreibfähigkeiten, um eine überzeugende Beschwerde zu verfassen. Sie haben vielleicht aus Erfahrung gelernt, dass ihre Einwände abgewiesen werden. KI-Bewertungssysteme, die als objektiv und effizient präsentiert werden, können systematisch genau die Schüler benachteiligen, die die meiste Unterstützung brauchen.

Darüber hinaus ergab Roselles FOIA-Anfrage, dass Amity Regional fünf KI-Produkte für insgesamt 19.216,51 Dollar gekauft hatte, über 8.000 Dollar mehr als die 11.000-Dollar-Zahl, die der Bezirk öffentlich zitiert hatte. Die Diskrepanz wirft Fragen zur Transparenz und Rechenschaftspflicht bei der Beschaffung von Bildungstechnologie auf. Wenn Bezirke nicht genau berichten können, welche KI-Tools sie verwenden und zu welchen Kosten, wird eine sinnvolle Aufsicht unmöglich.

Was, wenn wir die Mehrdeutigkeit vollständig beseitigen würden?

Es gibt eine Alternative dazu, KI-Systeme zu zwingen, mehrdeutigen Text zu interpretieren: Handlungen statt Worte bewerten. Wenn ein Schüler eine Titration in einem virtuellen Labor durchführt, gibt es keine Mehrdeutigkeit darüber, ob er das Reagenz tropfenweise in der Nähe des Endpunkts hinzugefügt hat. Entweder hat er es getan oder nicht. Das System muss seine Beschreibung nicht analysieren; es beobachtet seine Technik direkt.

Dies ist das Prinzip hinter der prozessbasierten Bewertung. Anstatt Schüler zu bitten zu beschreiben, was sie tun würden, und dann ihre Sprache zu analysieren, beobachten Sie, was sie tatsächlich tun, und messen es. Der Unterschied ist tiefgreifend:

Textbasiert: "Ich habe 2,5 Milliliter der Lösung pipettiert" muss interpretiert werden. Meinten sie genau 2,5? Ungefähr 2,5? Beschrieben sie die durchgeführte Handlung oder die beabsichtigte Handlung?
Prozessbasiert: Die virtuelle Pipette hat 2,47 ml übertragen aufgezeichnet. Keine Interpretation erforderlich.

Das Dreamscape Learn-Programm der Arizona State University demonstriert diesen Ansatz im großen Maßstab. Schüler lösen biologische Probleme in immersiven VR-Umgebungen, und das System bewertet sie nach ihrem Denkweg durch das Problem, nicht nach schriftlichen Erklärungen dessen, was sie getan haben. Erste Ergebnisse zeigen, dass Schüler in diesen prozessbasierten Abschnitten bessere Noten und eine bessere Retention erzielen als Mitschüler in konventionellen Kursen.

Physik hat keine semantische Mehrdeutigkeit

Der grundlegende Vorteil der prozessbasierten Bewertung ist, dass physische Handlungen definitiv sind. Wenn ein Schüler einen Becher neigt, ist der Neigungswinkel messbar. Wenn er Wärme anwendet, folgt die Temperaturänderung vorhersagbarer Physik. Wenn er das Volumen misst, hat die Messung einen spezifischen Wert. Es gibt keine Synonyme für physische Handlungen.

Deshalb haben wir WhimsyLabs um eine proprietäre Physik-Engine herum gebaut, anstatt auf geskriptete Animationen zu setzen. Unsere Simulationen verfolgen tatsächliche physikalische Größen: das Volumen der Flüssigkeit in einem Behälter, das genaue Timing von Zugaben, die Stetigkeit der Technik. Wenn wir die Leistung der Schüler bewerten, vergleichen wir ihre Handlungen mit korrekter Technik, nicht ihre Beschreibungen mit erwarteten Phrasen.

Ein Schüler aus Deutschland, Japan oder Spanien führt dieselbe Pipettierbewegung aus. Ein Schüler, der Englisch als Zweitsprache spricht, demonstriert dasselbe Verständnis, indem er einen Kolben im richtigen Moment schwenkt. Die universelle Sprache wissenschaftlicher Verfahren überwindet die Mehrdeutigkeiten, die textbasierte KI-Bewertung plagen.

Was ist mit schriftlichen Kommunikationsfähigkeiten?

Eine berechtigte Frage stellt sich: Sollte naturwissenschaftliche Bildung nicht auch schriftliche Kommunikationsfähigkeiten entwickeln? Die Fähigkeit, wissenschaftliche Verfahren klar zu beschreiben, ist wertvoll.

Die Antwort ist ja, aber mit einer wichtigen Unterscheidung. Schriftliche Kommunikation ist eine Fähigkeit, die es wert ist, entwickelt zu werden, und sie kann bewertet werden, wenn das das explizite Ziel ist. Das Problem mit KI-bewerteten schriftlichen Prüfungen ist, dass sie wissenschaftliches Verständnis mit Schreibfähigkeit verwechseln. Ein Schüler, der Titration tief versteht, aber unbeholfen schreibt, wird nicht für wissenschaftliche Missverständnisse bestraft, sondern für sprachliche. Ein Schüler, der flüssig schreibt, aber oberflächlich versteht, kann höhere Punkte erhalten.

Prozessbasierte Bewertung trennt diese Anliegen. Wenn Sie wissenschaftliche Technik bewerten wollen, bewerten Sie die Technik direkt. Wenn Sie wissenschaftliche Kommunikation bewerten wollen, bewerten Sie die Kommunikation explizit. Geben Sie nicht vor, das eine zu messen, während Sie tatsächlich das andere messen.

Das wahre Versprechen von KI in der Bewertung

Die Fehler der KI-Textbewertung bedeuten nicht, dass KI keine Rolle bei der Bildungsbewertung hat. Sie bedeuten, dass KI auf Aufgaben angewendet werden sollte, bei denen sie hervorragend ist, anstatt auf Aufgaben, bei denen sie kämpft.

KI ist hervorragend bei der Mustererkennung in strukturierten Daten, beim Verfolgen von Verfahrenssequenzen, beim Identifizieren spezifischer Technikfehler und beim Analysieren großer Datensätze auf Muster. Diese Fähigkeiten sind perfekt für prozessbasierte Bewertung geeignet, wo die Daten eindeutig sind und die Muster gut definiert.

In WhimsyLabs verwendet unser KI-Tutor WhimsyCat Prozessdaten, um Echtzeit-Feedback zu geben. Wenn ein Schüler durch ein Verfahren hastet, bemerkt WhimsyCat es und schlägt vor, langsamer zu werden. Wenn ein Schüler denselben Fehler mehrmals wiederholt, erklärt WhimsyCat, warum der Ansatz nicht funktioniert, und bietet Alternativen an. Dieses Feedback ist möglich, weil die Daten präzise sind. WhimsyCat versucht nicht zu erraten, ob ein Schüler etwas aus einer mehrdeutigen Phrase verstanden hat; es hat genau beobachtet, was der Schüler getan hat.

Was Roselles Beschwerde offenbart

Zurück zu Liam Roselles Fall. Seine erfolgreiche Beschwerde erforderte von ihm zu erklären, mit Zitaten zum genauen Wortlaut der Frage, warum die Interpretation der KI falsch war. Sein Lehrer bemerkte, dass "da sowohl KI-Bewertungstools als auch Menschen Fragen und Antworten unterschiedlich interpretieren können und fehlbar sind", er froh war, dass sie die Gelegenheit hatten, darüber zu diskutieren.

Diese Aussage offenbart unbeabsichtigt das Kernproblem. Wenn die Bewertung eine Interpretation von Sprache erfordert, ist Uneinigkeit unvermeidlich. Menschen sind sich untereinander uneinig. KI ist sich mit Menschen uneinig. KI ist sich mit sich selbst uneinig, wenn sie mit umformulierten Versionen identischer Inhalte konfrontiert wird. Das System ist instabil, weil Sprache instabil ist.

Aber eine Pipettiertechnik erfordert keine Interpretation. Ein Titrationsendpunkt erfordert keine Interpretation. Der Winkel eines Bechers, das Timing einer Zugabe, die Stetigkeit einer Hand: Das sind Fakten, keine Interpretationen. Bewertung, die auf Fakten statt auf Interpretationen aufgebaut ist, liefert konsistente, verteidigbare Ergebnisse, die keine Beschwerden erfordern.

Der Weg nach vorn

Der Vorstand der Amity Regional High School sollte am 9. März 2026 über das Budget des nächsten Jahres abstimmen. Roselle hatte ihnen über zwei Wochen lang täglich E-Mails geschickt und sie gebeten, ernsthaft darüber nachzudenken, was 150 Schüler sagten und was ein Schüler tun musste, um einen Punkt zurückzugewinnen, den er bereits verdient hatte.

Seine Situation spiegelt eine breitere Herausforderung wider, vor der die Bildung steht: der Druck, KI wegen Effizienzgewinnen einzuführen, ohne angemessen zu berücksichtigen, wo KI tatsächlich gut funktioniert. Textinterpretation ist schwierig, weil Text mehrdeutig ist. Das ist keine vorübergehende Einschränkung, die auf einen Durchbruch wartet. Es ist eine grundlegende Eigenschaft natürlicher Sprache.

Die Lösung ist nicht, KI aufzugeben, sondern sie angemessen einzusetzen. Prozessbasierte Bewertung in virtuellen Laboren stellt einen solchen angemessenen Einsatz dar. Wenn Schüler ihr Verständnis durch Handlung statt durch Beschreibung demonstrieren, kann KI sie genau, fair und in großem Maßstab bewerten. Die semantische Mehrdeutigkeit, die Roselle gefangen hielt, verschwindet vollständig.

KI kann eine Pipettiertechnik nicht falsch lesen, weil es nichts falsch zu lesen gibt. Die Handlung ist entweder korrekt passiert oder nicht. In dieser Klarheit liegt eine bessere Zukunft für die Bildungsbewertung.