AIが「少なくとも1つ」を誤読：テキスト評価が失敗する理由

コネチカット州のアミティ地域高校の最上級生であるLiam Roselleは、AP心理学の課題の2つの設問で3点満点中1点を受け取りました。フィードバックには、具体的な証拠を提示できなかったと記されていました。彼は提示していたのです。問題は、最終的に彼が突き止めたところによれば、設問が「少なくとも1つの具体的で関連性のある証拠」を求めていたのに対し、彼は複数の研究を引用していたことでした。AI採点システムは「少なくとも1つ」を「1つだけ」と解釈し、最低限を超えたことに対して彼を罰したのです。

宿題の課題で1点を取り戻すために、Roselleは設問の正確な文言を引用し、「少なくとも」というフレーズの意味論を説明する3段落のメールで異議を申し立てなければなりませんでした。彼の教師はその説明が筋が通っていることに同意し、その点を与えました。しかしRoselleが CT Mirrorに書いたように、「問う価値のある問いは、同じ誤りに直面した学生のうち、何人がただスコアを受け入れて先に進んでしまったのか、ということです」。

彼だけがこの懸念を抱いているわけではありません。150人を超えるアミティの学生が、自分たちの学校でのAI採点に反対する請願書に署名しています。そして彼らの懸念は研究によって裏付けられています：2024年のアメリカ教育研究学会の会議で発表された研究によれば、 AIと人間の採点者が完全に一致するのは約40パーセントの場合のみであり、質の高い文章に対して一貫した偏りが見られました。プロのAP採点者がエッセイについて意見を異にするとき、彼らは仲裁者を呼び込みます。AI採点システムは、デフォルトではそのような安全装置を提供しません。

なぜAIは書面評価に苦戦するのか？

「少なくとも1つ」の誤解釈は、例外的なケースではありません。それはAIシステムが自然言語を処理する方法の根本的な限界を明らかにしています。これらのシステムはパターンマッチングによって動作します：「正しい」答えが通常どのように見えるかを学習し、それらのパターンとの類似性に基づいて提出物を採点します。学生が予期しない方法で正しい理解を表現したり、期待される最低限を超えたものを提供したりすると、システムはそれを認識できません。

言語は本質的に曖昧です。学生が同じ科学的概念を正しく記述する方法がどれほど多くあるか考えてみましょう：

「溶液がピンク色に変わった」対「指示薬が色を変えた」対「色の変化が観察された」
「少なくとも1つの例」は、1つ、2つ、または5つの例を意味する可能性があります
「反応には熱が必要」対「熱エネルギーが必要」対「高温」
イギリス英語とアメリカ英語のどちらを学んだかによる「colour」対「color」

これらの各バリエーションは、同じ科学的理解を表現しています。人間の採点者はそれらを等価なものとして認識します。特定の言い回しで訓練されたAIシステムは、そうしないかもしれません。

自動エッセイ採点に関する研究は、これらの失敗を広範に文書化しています。AIシステムは、科学的内容が正確であっても、非従来型の文構造を罰します。簡潔で正確な回答よりも、冗長で自信がありそうに聞こえる散文を報酬します。実証されている知識にかかわらず、特定の文章スタイルを不利にする一貫した偏りのパターンを示します。

AI採点エラーの隠れたコスト

Roselleのケースは、AI採点が学生に課す隠れた負担を示しています。彼は成績の異議申し立てに成功しましたが、そうするには学術的な文章力、自動システムに異議を唱える自信、そして異議申し立てを確認する意欲のある教師が必要でした。これらのうち1つ以上を欠いている学生はどれほどいるでしょうか？

誤ったAIスコアを受け入れる可能性が最も高い学生は、すでに学業に苦しんでいる学生であることが多いのです。彼らは権威に、たとえアルゴリズムの権威であっても、異議を唱える自信を欠いているかもしれません。説得力のある異議申し立てを構築する文章力を持っていないかもしれません。自分の反論が退けられることを経験から学んでいるかもしれません。客観的で効率的だと提示されるAI採点システムは、最も支援を必要とするまさにその学生を体系的に不利にする可能性があります。

さらに、Roselleの情報公開請求により、アミティ地域が合計19,216.51ドルの5つのAI製品を購入していたことが明らかになりました。これは、その学区が公に引用していた11,000ドルという数字より8,000ドル以上多い金額です。この食い違いは、教育テクノロジー調達における透明性と説明責任について疑問を投げかけます。学区が、どのAIツールをどのコストで使用しているかを正確に報告できないとき、意味のある監督は不可能になります。

曖昧さを完全に排除したらどうなるか？

AIシステムに曖昧なテキストを解釈させることに代わる方法があります：言葉ではなく動作を評価するのです。学生が仮想ラボで滴定を行うとき、終点近くで試薬を滴下添加したかどうかに曖昧さはありません。行ったか、行わなかったかのどちらかです。システムは彼らの記述を解析する必要はありません。彼らの技術を直接観察するのです。

これがプロセスベースの評価の背後にある原則です。学生に何をするかを説明させてからその言語を解析するのではなく、実際に何をするかを観察し、それを測定します。その違いは深遠です：

テキストベース：「溶液を2.5ミリリットルピペッティングした」は解釈されなければなりません。彼らは正確に2.5を意味したのでしょうか？およそ2.5でしょうか？彼らが取った動作を記述したのでしょうか、それとも意図した動作を記述したのでしょうか？
プロセスベース：仮想ピペットは2.47 mLの移送を記録しました。解釈は不要です。

アリゾナ州立大学の Dreamscape Learnプログラムは、このアプローチを大規模に実証しています。学生は没入型VR環境で生物学の問題を解決し、システムは彼らが何をしたかについての書面の説明ではなく、問題を通じた推論の経路に基づいて彼らを採点します。初期の結果では、これらのプロセスベースのセクションの学生は、従来のコースの同僚よりも高い成績とより良い定着を達成していることが示されています。

物理学には意味論的な曖昧さがない

プロセスベースの評価の根本的な利点は、物理的な動作が明確であることです。学生がビーカーを傾けるとき、傾きの角度は測定可能です。熱を加えるとき、温度変化は予測可能な物理法則に従います。体積を測定するとき、その測定には特定の値があります。物理的な動作に同義語はありません。

これが、私たちがスクリプト化されたアニメーションではなく、独自の物理エンジンを中心にWhimsyLabsを構築した理由です。私たちのシミュレーションは、実際の物理量を追跡します：容器内の液体の体積、添加の正確なタイミング、技術の安定性。私たちが学生のパフォーマンスを評価するとき、彼らの動作を正しい技術と比較するのであって、彼らの記述を期待されるフレーズと比較するのではありません。

ドイツ、日本、スペインの学生は、同じピペッティングの動作を行います。英語を第二言語として話す学生は、適切な瞬間にフラスコを旋回させることで同じ理解を示します。科学的手順の普遍的な言語は、テキストベースのAI採点を悩ませる曖昧さを超越します。

書面コミュニケーション能力についてはどうか？

正当な疑問が生じます：理科教育は書面コミュニケーション能力も育成すべきではないのか？科学的手順を明確に記述する能力は価値があります。

答えはイエスですが、重要な区別があります。書面コミュニケーションは育成する価値のある能力であり、それが明示的な目標であるときに評価できます。AI採点の書面評価の問題は、科学的理解と文章力を混同することです。滴定を深く理解しているが、ぎこちなく書く学生は、科学的な誤解ではなく言語的な誤解に対して罰せられます。流暢に書くが表面的にしか理解していない学生は、より高いスコアを受け取るかもしれません。

プロセスベースの評価は、これらの懸念を分離します。科学的技術を評価したいときは、技術を直接評価します。科学的コミュニケーションを評価したいときは、コミュニケーションを明示的に評価します。一方を測定するふりをしながら、実際には他方を測定してはいけません。

評価におけるAIの本当の約束

AIテキスト採点の失敗は、AIが教育評価に役割を持たないことを意味するものではありません。それは、AIが苦戦するタスクではなく、AIが優れているタスクに適用されるべきだということを意味します。

AIは、構造化データでのパターン認識、手続き的シーケンスの追跡、特定の技術エラーの特定、そしてパターンを求める大規模データセットの分析に優れています。これらの能力は、データが曖昧でなく、パターンが明確に定義されているプロセスベースの評価に完璧に適しています。

WhimsyLabsでは、私たちのAIチューターWhimsyCatがプロセスデータを使用してリアルタイムのフィードバックを提供します。学生が手順を急いで進めると、WhimsyCatはそれに気づき、速度を落とすよう提案します。学生が同じエラーを複数回繰り返すと、WhimsyCatはなぜそのアプローチがうまくいかないのかを説明し、代替案を提供します。このフィードバックが可能なのは、データが正確だからです。WhimsyCatは、曖昧なフレーズから学生が何かを理解したかどうかを推測しようとしているのではありません。学生が正確に何をしたかを観察したのです。

Roselleの異議申し立てが明らかにすること

Liam Roselleのケースに戻りましょう。彼の異議申し立ての成功には、設問の正確な文言を引用しながら、なぜAIの解釈が誤っていたのかを説明することが必要でした。彼の教師は、「AI採点ツールも人間も、設問や答えを異なって解釈する可能性があり、誤りを犯しやすい」ため、それについて議論する機会があったことを嬉しく思うと述べました。

この発言は、図らずも核心的な問題を明らかにしています。評価が言語の解釈を必要とするとき、意見の相違は避けられません。人間同士が意見を異にします。AIは人間と意見を異にします。AIは、同一の内容を言い換えたバージョンを提示されると、自分自身とも意見を異にします。言語が不安定であるため、システムは不安定なのです。

しかしピペッティング技術は解釈を必要としません。滴定の終点は解釈を必要としません。ビーカーの角度、添加のタイミング、手の安定性：これらは解釈ではなく事実です。解釈ではなく事実に基づいて構築された評価は、異議申し立てを必要としない、一貫した擁護可能な結果を生み出します。

前進への道

アミティ地域高校の理事会は、2026年3月9日に来年度の予算を採決する予定でした。Roselleは2週間以上にわたって彼らに毎日メールを送り、150人の学生が言っていることと、すでに獲得していた1点を取り戻すために1人の学生がしなければならなかったことに真剣に向き合うよう求めていました。

彼の状況は、教育が直面するより広範な課題を反映しています：AIが実際にどこでうまく機能するかを十分に考慮せずに、効率の向上のためにAIを採用するという圧力です。テキストの解釈が難しいのは、テキストが曖昧だからです。これは突破口を待つ一時的な限界ではありません。それは自然言語の根本的な性質なのです。

解決策はAIを放棄することではなく、AIを適切に展開することです。仮想ラボでのプロセスベースの評価は、そのような適切な展開の一つを表しています。学生が記述ではなく動作を通じて理解を実証するとき、AIは正確に、公平に、そして大規模に彼らを評価できます。Roselleを罠にかけた意味論的な曖昧さは完全に消え去ります。

AIはピペッティング技術を誤読できません。なぜなら、誤読するものが何もないからです。動作は正しく起こったか、起こらなかったかのどちらかです。その明確さの中に、教育評価のより良い未来があります。

参考文献

Roselle, L. (2026, March 5). My school is grading me with AI. It got my grade wrong. CT Mirror. https://ctmirror.org/2026/03/05/my-school-is-grading-me-with-ai-it-got-my-grade-wrong/
Barshay, J. (2024). AI essay grading: What the research shows. The Hechinger Report. https://hechingerreport.org/proof-points-ai-essay-grading/
Dreamscape Learn. (2024). Research and outcomes at Arizona State University. https://www.dreamscapelearn.com/research
Keep Amity Human. (2026). FOIA documents on AI tools in Amity Regional School District. https://keepamityhuman.org/foia.html
American Educational Research Association. (2024). Research on automated essay scoring reliability and bias.