学生の94%が評価課題でAIを使用：それは問題ではない

高等教育政策研究所（HEPI）の2026年学生生成AI調査が先週発表され、見出しを飾る統計がありました。英国の学部生の94%が、評価課題を支援するために生成AIを利用しているというのです（HEPI, 2026）。反応は予想通りでした。一部の評論家は学術的誠実性について頭を悩ませました。他の人々はより厳格な検出ツールを求めました。少数の人々は、単に敗北を受け入れてAIにすべてを書かせるべきだと提案しました。

これらの反応はすべて要点を見逃しています。94%という数字は、学生が大量に不正行為をしている証拠ではありません。それは、従来の評価が機能不全に陥っており、しばらくの間そうであった証拠です。私たちはAIが今や容易に生成できる成果物を評価し、学生がそれを生成するためにAIを使うと驚いたふりをしてきました。問題は学生ではありません。問題は、私たちが間違ったものを評価してきたことです。

HEPI調査は実際に何を示しているのか？

2025年12月にSavantaが1,054人の英国のフルタイム学部生を対象に実施したHEPIの報告書は、見出しが示唆するよりも微妙な状況を明らかにしています。確かに94%が評価課題を支援するためにAIを利用しています。しかし「支援」は幅広い範囲をカバーしています。難解な読み物の要約、下書きの構成案の生成、難しい概念の説明、文法のチェックなどです。提出物にAI生成のテキストを直接含めていると報告したのはわずか12%で、前年の8%から増加しています。

定性的な回答は特に示唆に富んでいます。ある学生は「AIツールのおかげで、難解な読み物を素早く要約し、課題の下書きや構成案を生成でき、退屈な作業に何時間も費やすことなく、批判的分析とより深い理解に集中できました」と説明しました。別の学生は単純にこう認めました。「私はまったく頭を使っていません。」HEPIの著者は際立った対比に注目しています。「学習を進めるためにAIを活用している学生と、学習をAIに外注している学生との間には違いがあります。」

この区別は重要です。最初の学生はAIを認知的な足場として使い、高次の思考のために精神的リソースを解放しています。2番目の学生はOECDが「認知的オフローディング」と呼ぶものを経験しており、AIに思考をさせ、本物の学習に必要な苦闘を逃しています。どちらの行動も「AIの利用」として記録されますが、その教育的意味合いは正反対です。

なぜ検出ではこの問題を解決できないのか

AI利用の増加に対する本能的な反応は、検出を改善することです。学生が不適切にAIを使っているなら、それを捕まえる。しかしこのアプローチは失敗してきましたし、現在も失敗しており、今や十分に文書化された理由によって今後も失敗し続けるでしょう。

独立した分析によると、AI検出ツールは5%から20%の誤検出率を生み出しており、これは本物の学生の課題が機械生成として日常的にフラグを立てられていることを意味します（Nesenoff & Miltenberg, 2025）。その結果は抽象的なものではありません。2024年、オーストラリア・カトリック大学はTurnitinのAI検出器に基づいて約1,500人の学生を誤って告発しました。学生たちは大学院の看護職を失いました。成績証明書は何ヶ月もの間「結果保留」と記されました。一部の学生は無実を証明するために、自分のインターネット閲覧履歴全体を提出することを余儀なくされました。

これらのツールは、英語を母語としない学生や神経多様性のある学生にとって特に信頼性が低く、彼らの文章パターンは、アルゴリズムが「人間の文章」がどのように見えると期待するものと自然に異なる場合があります。イェール経営大学院の学生は2025年に、GPTZeroが試験にフラグを立てた後に不当な停学処分を受けたとして訴訟を起こし、英語を母語としない人々に対する差別を指摘しました。検出の軍拡競争は効果がないだけでなく、保護すると主張する学生を積極的に害しています。

検出が機能する場合でも、それは症状にのみ対処します。検出をうまく逃れた学生は、それでも課題から何も学んでいません。捕まった学生は罰せられましたが、根底にあるインセンティブ構造は変わらないままです。AIが生成できる成果物を評価する限り、私たちは学生にそれを生成するためにAIを使うよう動機づけているのです。検出は、その行動が実際には不適切なインセンティブに対する合理的な反応であるにもかかわらず、それを道徳的な失敗として扱います。

本当の問題：もはや人間の思考を必要としない成果物の評価

従来のエッセイ、実験レポート、問題集。これらの評価形式は、それらを生み出すのに持続的な認知的努力が必要だった時代に発展しました。光合成についてよく構造化された議論が欲しければ、光合成を理解しなければなりませんでした。滴定結果の一貫した分析が欲しければ、滴定を実行し、データを通して考えなければなりませんでした。成果物は、そのプロセスの合理的な証拠として機能していました。

その相関関係は崩壊しました。学生は今や、引用付きの洗練されたエッセイを1分以内にAIに生成させることができます。機器に一切触れることなく、もっともらしい観察、適切な誤差分析、よく論証された結論を備えた実験レポートを要求できます。AIが正しい成果物がどのように見えるかを合成できるため、成果物は正しく見えます。しかし学生は、その課題が教えるよう設計されたスキルを何も身につけていません。

これは新しい問題ではありません。学生は常に評価をショートカットする方法を見つけてきました。前年度のものをコピーする、学習グループ間で作業を分担する、オンラインでエッセイを購入するなどです。AIは単にそのショートカットを民主化し、資源やコネを持つ者だけでなく、誰もがアクセスできるようにしただけです。規模は変わりましたが、私たちがプロセスから切り離された成果物を評価するという根底にある問題は、何十年もの間存在してきました。

AI耐性のある評価とはどのようなものか？

OECD Digital Education Outlook 2026は、この問いに明確に答えました。「最終的な論文を評価する代わりに、教師は学生がどのようにAIと対話したか、その出力をどのように批判したか、そして時間をかけてどのように自分の考えを洗練させたかを評価すべきです」（OECD, 2026）。これがプロセス指向の評価です。学生が何を生み出すかではなく、それを生み出すために学習にどのように取り組むかを評価します。

実際には、これはプロセスそのものをキャプチャすることを意味します。学生が問題に取り組むとき、どのような決定を下すのか？困難に遭遇したとき、どのように対応するのか？最初のアプローチが失敗したとき、適応するのか、それとも諦めるのか？これらの問いは、教育が実際に発達させようとしているもの、すなわち思考スキル、問題解決能力、そして失敗から学ぶ能力に迫ります。

実験室科学は特に明確な例を提供します。ピペッティングの技術をAIで切り抜けることはできません。微妙な色の変化を観察する能力、実験が間違っていると感じる直感、または微細な運動制御を発達させるようChatGPTに指示することはできません。これらのスキルは身体に存在し、練習を通じて発達します。AIが完璧な実験レポートを生成するのを見ている学生は、実験室で作業することについて何も学んでいません。

仮想実験室はどのようにプロセス評価を可能にするか

WhimsyLabsでは、プロセス指向の評価はAIへの対応として後付けされたものではありません。それは私たちが最初からプラットフォームを設計した方法です。私たちの仮想実験室は、学生が取るすべてのアクションをキャプチャします。どの機器を選択するか、どのような順序でステップを実行するか、予期しない結果にどのように対応するか、そして時間とともに技術がどのように向上するか。このインタラクションのログは、実際に動作している科学的思考の詳細な記録を作成します。

アクションログが基礎です。学生が溶液をピペッティングするとき、私たちはその技術を追跡します。ピペットを持つ角度、分注する速度、チップを事前に湿らせるかどうかです。温度を測定するとき、最終的な読み取り値だけでなく、いつ測定したか、何回読み取ったか、平衡を待ったかどうかを記録します。これらの細かい詳細は、学生が適切な実験室の習慣を発達させているのか、それとも単に形式的に動作しているだけなのかを明らかにします。

技術の評価はアクションログの上に構築され、手順的な能力を評価します。雑な技術で滴定の正しい終点に達した学生は、技術は正確だったがモル濃度を計算ミスした学生とは異なるフィードバックを受けます。どちらも改善が必要ですが、その方法は異なります。最終的な答えだけに焦点を当てた従来の評価では、両者を区別できません。

専門家の経路との比較は、学生の行動を文脈の中に置きます。私たちは専門の科学者が一般的な実験にどのようにアプローチするかをマッピングし、熟練した科学的思考を特徴づける決定木と問題解決パターンを特定しました。学生のアプローチが専門家の経路から大きく逸脱するとき、それは的を絞った指導の機会を示します。誤った結論に達したとしても、彼らのアプローチが専門家の推論と一致するとき、それは彼らの科学的思考が適切に発達していることを示唆します。

評価の危機はまた機会でもある

HEPI調査は、すべての教育者が懸念すべきことを明らかにしています。学生のほぼ3分の2（65%）が、AIに対応して評価が大きく変わったと述べており、多くが不正行為の誤った告発についての不安を表明しています。学生は、自分の本物の作業が不正としてフラグを立てられるかもしれない一方で、AIの支援を受けた作業が検出されずに通過するかもしれない監視環境の中で生活しています。インセンティブは倒錯しています。

しかし同じ調査は前進の道を示しています。学生は圧倒的にAIスキルを不可欠と見なしており、68%がこれらの能力が今日の世界で成功するために必要だと考えています。彼らは不正行為をしようとしているのではありません。彼らは正しく重要だと認識しているスキルを発達させようとしているのです。問題は、現在の評価構造が、AIリテラシーの発達と教科知識の証明のどちらかを選ぶことを彼らに強いていることです。本来、両方が同時に可能であるべきなのに。

プロセス指向の評価はこの緊張を解決します。学生が何を生み出すかではなく、どのように考えるかを評価するとき、AIは脅威ではなくツールになります。学生はAIを使って読み物を要約したり、下書きの構成案を生成したり、自分の推論をチェックしたりできる一方で、重要な認知的作業、すなわち仮説を立て、データを解釈し、予期しない結果に適応し、いかなるAIも再現できない物理的な実験室スキルを発達させることについて、依然として評価されるのです。

これが科学教育にとって何を意味するか

実験室スキルが学問の中心であるため、科学教育は特有の課題に直面しています。ピペットを持ったことも、顕微鏡を調整したことも、化学反応を観察したこともない学生は、いかなる意味のある意味でも科学を理解していると主張することはできません。しかし書面のレポートに焦点を当てた従来の実験室評価は、常にショートカットに対して脆弱でした。AIは単にその脆弱性を無視できないものにしただけです。

解決策は科学教育からAIを禁止することではありません。それは、AIにできないこと、すなわち物理的なスキル、手順的な能力、リアルタイムの実験的課題に対応する能力を評価することです。プロセスデータをキャプチャする仮想実験室は、これを大規模に可能にします。学生のインタラクションログは、いかなる書面のレポートよりも豊かな科学的発達の証拠を提供し、いかなるAIによっても偽造することはできません。

HEPIの著者は、「機関はAIが学習を低下させるのではなく、向上させることを保証する上で極めて重要な役割を担っている」と結論づけています。彼らは、構造化されたAIの導入、AIスキルを明示的に教えるためのカリキュラムの変更、そして明確な評価固有のガイダンスを推奨しています。これらはすべて重要です。しかし必要とされる最も根本的な変化は、そもそも私たちが何を評価するのかを再考することです。

学生の94%がAIを利用していることは危機ではありません。それは評価が進化しなければならないというシグナルです。ツールは存在します。研究はそれを支持しています。唯一の問いは、教育が適応するのか、それともすでに敗北した検出戦争を戦い続けるのかということです。

参考文献

Higher Education Policy Institute (HEPI). (2026). Student Generative AI Survey 2026. HEPI Report 199. https://www.hepi.ac.uk/reports/student-generative-ai-survey-2026/
Nesenoff & Miltenberg LLP. (2025). When AI Gets You Accused: What to Do if Your School Says You Used ChatGPT. https://nmllplaw.com/blog/when-ai-gets-you-accused-what-to-do-if-your-school-says-you-used-chatgpt/
OECD. (2026). OECD Digital Education Outlook 2026: Exploring Effective Uses of Generative AI in Education. OECD Publishing. https://www.oecd.org/en/publications/oecd-digital-education-outlook-2026_062a7394-en.html