教室でのAI理科チューター：実際に効果があるもの

WhimsyCatは、生徒が仮想実験室で作業している間、リアルタイムでガイダンスを提供します。

過去2年間に教育関連のカンファレンスに参加したことがあれば、このセールストークを聞いたことがあるでしょう。AIチューターが学習を革命的に変える。すべての生徒が個人チューターを持つようになる。学力格差は解消される。教師は雑務から解放され、本当に重要なことに集中できるようになる。

これの一部は真実です。一部はマーケティングです。AIチュータリングの主張を評価しようとしている理科教師や学校管理者であれば、その違いを知る必要があります。

私たちはWhimsyCatを開発しています。これは仮想実験室プラットフォームに組み込まれたAIチューターです。AIが理科教育で実際に何ができ、どこで不十分なのかを理解するために何年も費やしてきました。この投稿は私たちの正直な評価です。

誇大広告と現実

AIチュータリングの約束は、本物の研究に基づいています。インテリジェントチュータリングシステム（ITS）は1970年代から研究されており、メタ分析は一貫してその有効性を示しています。VanLehn（2011）による包括的なレビューでは、適切に設計されたITSは約0.76の効果量を達成でき、人間のチュータリングの効果に近づくことがわかりました。

しかし、マーケティングが省略しがちなことがあります：これらの結果は、特定の条件下での特定の実装から得られたものです。教育コンテンツに貼り付けられたすべてのAIが効果的なチューターになるわけではありません。有用なAIチューターと煩わしいチャットボットの違いは、実装の詳細にあります。

Koedinger et al.（2023）の研究は、効果的なインテリジェントチュータリングには、単に会話インターフェースを上に追加するのではなく、学習タスクとの深い統合が必要であることを強調しています。AIは生徒が何を入力しているかだけでなく、何をしているかを理解する必要があります。

AIチューターが実際にうまくできること

まず、本当の強みから始めてみませんか。適切に実装されれば、AIチューターは、30人の生徒がいる教室で人間の教師が物理的にできないいくつかのことで優れています。

リアルタイムで生徒の行動を観察する

仮想実験室環境では、AIチューターは生徒が行うすべての行動を観察できます。最終的な答えだけでなく、そこにどうやって到達したか。慎重に測定したのか、急いだのか？ステップを何度も繰り返したか？指示を読んだのか、それともすぐにボタンをクリックし始めたか？

この詳細な観察は、クラス全体を管理している人間の教師には不可能です。教師は生徒が苦労していることに気づくかもしれませんが、すべての生徒の技術をすべての瞬間に同時に追跡することはできません。AIにはそれができます。

理科教育における学習分析の研究は、プロセスデータ—生徒が問題にどのようにアプローチするかの記録—が、最終的な答えだけよりも学習成果をよく予測することが多いことを示しています（Sao Pedro et al., 2021）。

技術的なエラーを見つける

実践的な理科では、技術が重要です。ピペットを間違った角度で持てば、測定値がずれます。滴定を急げば、終点を超えてしまいます。これらのエラーは実験を通じて累積し、生徒がしばしば説明できない悪い結果につながります。

物理シミュレーションと統合されたAIチューターは、これらの技術的な問題が発生した時点で検出できます。実験が失敗した後ではなく、エラーが発生した瞬間に。「ビュレットをかなり傾けているようですね。より正確な読み取りのために、垂直に保つようにしてみてください。」

技術に関するこの即座のフィードバックは、物理的な実験室ではほとんど提供されないものです。生徒は悪い技術で実験全体を完了し、異常な結果を得て、なぜかを決して理解しないことがよくあります。

即座のフィードバックを提供する

フィードバックではタイミングが重要です。研究は一貫して、特に手順的なスキルについては、即座のフィードバックが遅延フィードバックよりも学習をより良くサポートすることを示しています（Attali & van der Kleij, 2017）。生徒がエラーを犯したとき、数秒以内の修正は原因と結果を結びつけるのに役立ちます。

人間の教師はできるときにフィードバックを提供しますが、教室の現実は遅延が避けられないことを意味します。生徒は10分間助けを待つかもしれませんが、その時点では諦めているか、エラーを何度も繰り返しているか、理解せずに先に進んでいるかのいずれかです。

AIチューターには注意を競合する要求がありません。毎回即座に応答します。

苦手な点に基づいてヒントをパーソナライズする

すべての生徒が同じことで苦労するわけではありません。概念的なフレームワークの助けが必要な人もいます。理論を理解しているが手順的なエラーを犯す人もいます。解いた例から恩恵を受ける生徒もいれば、ソクラテス式の質問から恩恵を受ける生徒もいます。

AIチューターは各生徒の履歴を追跡し、それに応じてアプローチを適応させることができます。生徒が一貫して単位変換で苦労している場合、AIはそこで追加のスキャフォールディングを提供しながら、すでにマスターした概念は素早く進むことができます。この適応的なアプローチは、パーソナライズされた学習の研究で有望性を示しています（Pane et al., 2019）。

AIチューターにできないこと

ここで限界について正直になる必要があります。AIチューターには本当の弱点があり、そうでないふりをすることは誰にとっても不利益です。

教師の判断を置き換える

教師は毎日何百もの専門的な判断を下しますが、AIはそれを複製できません。この生徒をもっと押すべきか、それとも緩めるべきか？そのコメントは混乱の兆候か退屈の兆候か？このクラスは今日、もっと構造が必要か、それとももっと自由が必要か？

これらの判断には、AIが単純に持っていない文脈の理解が必要です。今日の生徒の成績は、家庭での出来事、友人関係のドラマ、他の科目の今後の試験、または教師が感じ取れるかもしれないがAIが検出できない他の多くの要因によって影響を受ける可能性があります。

教師の専門性に関する研究は、専門的な判断は何年もの経験と個人としての生徒についての深い知識を通じて発達することを強調しています（Ball et al., 2008）。AIはデータを処理できますが、知恵を置き換えることはできません。

感情的な文脈を完全に理解する

私たちはWhimsyCatを、行動パターンを通じてフラストレーションの兆候を検出するように構築しました：繰り返されるエラー、不規則な動き、長い一時停止、タスクの放棄。しかし、フラストレーションを検出することは、それを理解することと同じではありません。

人間の教師は、生産的な苦闘—生徒が挑戦されているが関与している状態—と、完全に異なるアプローチが必要な非生産的なフラストレーションの違いを知っています。励ましが助けになるときと、それが恩着せがましく感じるときを感じ取ることができます。生徒が学業的なサポートを必要としているのか、感情的なサポートを必要としているのかを明らかにする微妙な手がかりを拾います。

AIは注意深いパターンマッチングを通じてこれの一部を近似できますが、感情的な理解のニュアンスは根本的に人間のものです。

本当に新しい状況に対処する

AIチューターは、生徒の行動が予想されるパターンに収まるときにうまく機能します。以前の生徒からのデータで訓練されており、以前に機能したことに基づいて応答します。

しかし、生徒は創造的です。誰も予想しなかったエラーを犯します。システムが対処するように設計されていない誤解を明らかにする質問をします。開発者が想像もしなかった方法で物事を壊す方法を見つけます。

状況が訓練データの外に落ちると、AIチューターは役に立たないから積極的に混乱させるまでの範囲の応答を与える可能性があります。人間の教師は即興で対応できます。AIにはできません。

WhimsyCatのアプローチ

これらの現実を考えると、理科教育でAIチューターは実際にどのように機能すべきでしょうか？これが私たちが構築したもので、その理由です。

答えだけでなく、実験技術を観察する

WhimsyCatは私たちの物理シミュレーションエンジンと統合されています。生徒が正しい答えを得たかどうかだけをチェックするのではありません。彼らがどのように作業するかを観察します。

慎重に測定しているか、それとも推定しているか？安全手順に従っているか？データを体系的に記録しているか？信頼性のために測定を繰り返しているか？これらのプロセススキルは理科で重要であり、WhimsyCatはそのすべてについてフィードバックを提供します。

これは、ほとんどのAIチュータリングシステムが提供するものを超えています。従来のITSは知識と問題解決に焦点を当てています。仮想実験室の統合により、実践的な技術を評価しサポートすることができます。

フラストレーションを検出して調整する

私たちは苦闘の兆候を監視します：単純なタスクの前のためらい、同じ間違ったアプローチでの繰り返しの試み、機器との不規則または攻撃的なインタラクション、時間の経過に伴う関与の低下。

WhimsyCatがこれらのパターンを検出すると、アプローチを調整します。より簡単なヒントを提供したり、概念を復習するために一歩下がることを提案したり、単にこれが難しいことを認めたりするかもしれません。「このステップは多くの人がつまずきます。一緒に見ていきましょうか？」

目標は苦闘を防ぐことではありません—それは学習の一部です—しかし、諦めにつながる非生産的なフラストレーションを防ぐことです。

教師の設定に従う

教師は生徒を知っています。どの生徒がより多くのスキャフォールディングを必要とし、どの生徒がより多くの挑戦を必要とするかを知っています。ヒントが早く来るべきときと、生徒がより長く苦闘すべきときを知っています。

WhimsyCatは教師の好みに従います。教師はヒントがどれくらい速く表示されるか、どのレベルのサポートを提供するか、どの学習目標を強調するかを設定できます。AIは教師が定義するパラメータ内で動作し、その逆ではありません。

このアプローチは、教師が教育的決定をコントロールし続けることの重要性を強調する、教育における人間とAIの協力に関する研究と一致しています（Holstein et al., 2019）。

教師に決定ではなくデータを提供する

WhimsyCatは生徒の作業に関する詳細なデータを生成します：技術評価、タスクに費やした時間、苦闘の領域、時間の経過に伴う進捗。しかし、これは教師が解釈するための情報として提示され、すでに下された決定としてではありません。

AIは生徒が特定の概念で大きく苦労したことをフラグ付けするかもしれません。成績を推奨したり、介入を処方したりはしません。教師はデータをレビューし、必要であれば生徒の作業のリプレイを見て、何をすべきかを決定します。

テクノロジーは人間の専門知識を増強すべきであり、それをバイパスすべきではありません。

インテリジェントチュータリングシステムに関する研究

インテリジェントチュータリングの証拠基盤は実質的ですが、ニュアンスがあります。私たちが知っていることは以下の通りです：

大規模なメタ分析はポジティブな効果を示しています。KulikとFletcher（2016）は50の研究をレビューし、約0.66の平均効果量を発見しました。これは管理された条件下での人間のチュータリングに匹敵します。効果は、学習コンテンツと緊密に統合された適切に設計されたシステムでより大きくなります。

文脈は大きく影響します。ITSは概念的理解よりも手順的スキルに、オープンエンドのものよりも構造化されたドメインに、スタンドアロンソリューションとしてよりも教師のサポートと組み合わせた方がうまく機能する傾向があります（Steenbergen-Hu & Cooper, 2014）。

実装品質は大きく異なります。同じ基盤技術でも、設計、展開、サポートの方法によって非常に異なる結果を生む可能性があります。研究は、教師のトレーニングと教室での実践との統合が結果に大きく影響することを示しています（Plass & Kaplan, 2020）。

AIチュータリングの主張を評価する方法

学校のためにAIチュータリング製品を検討している場合、以下の質問をしてください：

AIは学習タスクとどれだけ深く統合されていますか？ 静的コンテンツに追加されたチャットボットは、リアルタイムで生徒の作業を観察するAIとは大きく異なります。AIがどのようなデータをどのように使用するかについての詳細を尋ねてください。
教師は何をコントロールできますか？ 教師はパラメータを設定したり、AIの決定を上書きしたり、推奨の背後にある理由を見たりできますか？教師を締め出す製品は懸念を引き起こすべきです。
主張を裏付ける証拠は何ですか？ 証言だけでなく、査読された研究を求めてください。会社が研究を引用している場合、それが特定の製品についてなのか、一般的なAIチュータリングについてなのかを確認してください。
認められている限界は何ですか？ 自社のAIに限界がないと主張するベンダーは、ナイーブか不誠実かのいずれかです。良い製品には、いつうまく機能しないかについての正直な文書が付属しています。
人間の教育をどのように補完しますか？ 最高のAIチューターは、教師を置き換えるのではなく、サポートするように設計されています。教師の役割を最小化するセールストークには注意してください。

私たちが構築している未来

理科教育におけるAIチュータリングは本当に有望です。適切に行われれば、すべての生徒が必要なときに必要なガイダンスを得るのを助けるパーソナライズされたサポートを提供できます。技術的なエラーが蓄積する前にキャッチできます。30人の生徒を同時に監視する疲れる作業の一部から教師を解放できます。

しかし、それはツールであり、置き換えではありません。教師の役割は消えるのではなく進化します。教師は指揮者となり、AIが生成したデータを使用して生徒をより良く理解し、どこに介入するかについて専門的な判断を下し、AIがサポートする学習体験を設計します。

それが私たちがWhimsyCatで構築している未来です。教師の専門知識を置き換えるAIではなく、それを拡張するAI。AIがうまくできることを行い、人間だけができることについてはしっかりと自分のレーンに留まるテクノロジー。

実際にそれがどのように見えるかを見たい場合は、お問い合わせください。WhimsyCatの動作をお見せし、何ができて何ができないかをご自身で判断していただきます。

参考文献

Attali, Y., & van der Kleij, F. (2017). Effects of feedback elaboration and feedback timing during computer-based practice in mathematics problem solving. Computers & Education, 110, 154-169. https://doi.org/10.1007/s11165-016-9602-2
Ball, D. L., Thames, M. H., & Phelps, G. (2008). Content knowledge for teaching: What makes it special? Journal of Teacher Education, 59(5), 389-407. https://doi.org/10.1177/0022487108324554
Holstein, K., McLaren, B. M., & Aleven, V. (2019). Co-Designing a Real-Time Classroom Orchestration Tool to Support Teacher-AI Complementarity. Journal of Learning Analytics, 6(2), 27-52. https://doi.org/10.18608/jla.2019.62.3
Koedinger, K. R., Anderson, J. R., Hadley, W. H., & Mark, M. A. (2023). Intelligent tutoring goes to school in the big city. International Journal of Artificial Intelligence in Education, 33(1), 30-52. https://doi.org/10.1007/s11251-018-9459-3
Kulik, J. A., & Fletcher, J. D. (2016). Effectiveness of intelligent tutoring systems: A meta-analytic review. Review of Educational Research, 86(1), 42-78. https://doi.org/10.1007/s10648-014-9268-0
Pane, J. F., Steiner, E. D., Baird, M. D., Hamilton, L. S., & Pane, J. D. (2019). How does personalized learning affect student achievement? RAND Corporation. https://doi.org/10.1016/j.compedu.2019.103700
Plass, J. L., & Kaplan, U. (2020). Emotional design in digital media for learning. Emotions, Technology, Design, and Learning, 131-161. https://doi.org/10.1007/s11165-019-09875-z
Sao Pedro, M. A., Baker, R. S., & Gobert, J. D. (2021). What different kinds of stratification can reveal about the generalizability of data-mined skill assessment models. Journal of Learning Analytics, 8(1), 59-86. https://doi.org/10.18608/jla.2021.7325
Steenbergen-Hu, S., & Cooper, H. (2014). A meta-analysis of the effectiveness of intelligent tutoring systems on college students' academic learning. Journal of Educational Psychology, 106(2), 331-347. https://doi.org/10.1016/j.edurev.2016.06.001
VanLehn, K. (2011). The relative effectiveness of human tutoring, intelligent tutoring systems, and other tutoring systems. Educational Psychologist, 46(4), 197-221. https://doi.org/10.1007/s10648-014-9268-0