La IA malinterpreta 'al menos uno': la evaluación textual falla

Liam Roselle, un estudiante de último año en Amity Regional High School en Connecticut, recibió uno de tres puntos en dos preguntas para una tarea de Psicología AP. La retroalimentación le dijo que no había proporcionado evidencia específica. La había proporcionado. El problema, como finalmente descubrió, fue que la pregunta pedía "al menos una pieza de evidencia específica y relevante," y él había citado múltiples estudios. El sistema de calificación de IA interpretó "al menos uno" como "solo uno" y lo penalizó por hacer más del mínimo.

Para recuperar un solo punto en una tarea, Roselle tuvo que escribir un correo electrónico de apelación de tres párrafos citando la redacción exacta de la pregunta y explicando la semántica de la frase "al menos." Su profesor estuvo de acuerdo en que la explicación tenía sentido y otorgó el punto. Pero como Roselle escribió en CT Mirror, "La pregunta que vale la pena hacer es cuántos estudiantes, enfrentando el mismo error, simplemente aceptaron la calificación y siguieron adelante."

No está solo en su preocupación. Más de 150 estudiantes de Amity han firmado una petición contra la calificación por IA en su escuela. Y sus preocupaciones están respaldadas por investigación: un estudio presentado en la conferencia de la American Educational Research Association de 2024 encontró que la IA y los calificadores humanos coinciden exactamente solo alrededor del 40 por ciento de las veces, con un sesgo consistente contra la escritura de alta calidad. Cuando los calificadores profesionales de AP no están de acuerdo en ensayos, traen un mediador. Los sistemas de calificación por IA no ofrecen tal salvaguarda por defecto.

¿Por qué la IA tiene dificultades con la evaluación escrita?

La mala interpretación de "al menos uno" no es un caso marginal. Revela una limitación fundamental de cómo los sistemas de IA procesan el lenguaje natural. Estos sistemas funcionan mediante coincidencia de patrones: aprenden cómo suelen verse las respuestas "correctas" y califican las presentaciones basándose en la similitud con esos patrones. Cuando un estudiante expresa comprensión correcta de una manera inesperada, o proporciona más del mínimo esperado, el sistema no lo reconoce.

El lenguaje es inherentemente ambiguo. Considere cuántas formas un estudiante podría describir correctamente el mismo concepto científico:

"La solución se volvió rosa" vs "El indicador cambió de color" vs "Se observó un cambio de color"
"Al menos un ejemplo" podría significar uno, dos o cinco ejemplos
"La reacción requiere calor" vs "se necesita energía térmica" vs "temperatura elevada"
Diferentes ortografías dependiendo de si aprendiste inglés británico o americano

Cada una de estas variaciones expresa la misma comprensión científica. Un calificador humano las reconoce como equivalentes. Un sistema de IA entrenado en fraseologías particulares puede que no.

La investigación sobre la calificación automatizada de ensayos ha documentado estos fallos extensamente. Los sistemas de IA penalizan estructuras de oraciones no convencionales incluso cuando el contenido científico es preciso. Recompensan la prosa verbosa y de sonido confiado sobre las respuestas concisas y precisas. Muestran patrones de sesgo consistentes que perjudican ciertos estilos de escritura independientemente del conocimiento demostrado.

Los costos ocultos de los errores de calificación por IA

El caso de Roselle ilustra la carga oculta que la calificación por IA impone a los estudiantes. Apeló su calificación con éxito, pero hacerlo requirió habilidades de escritura académica, confianza para desafiar un sistema automatizado y un profesor dispuesto a revisar la apelación. ¿Cuántos estudiantes carecen de uno o más de estos?

Los estudiantes más propensos a aceptar una calificación incorrecta de IA son a menudo aquellos que ya tienen dificultades académicas. Pueden carecer de la confianza para desafiar la autoridad, incluso la autoridad algorítmica. Pueden no tener las habilidades de escritura para construir una apelación persuasiva. Pueden haber aprendido por experiencia que sus objeciones son descartadas. Los sistemas de calificación por IA, presentados como objetivos y eficientes, pueden perjudicar sistemáticamente precisamente a los estudiantes que necesitan más apoyo.

Además, la solicitud de FOIA de Roselle reveló que Amity Regional había comprado cinco productos de IA por un total de $19,216.51, más de $8,000 más que la cifra de $11,000 que el distrito había estado citando públicamente. La discrepancia plantea preguntas sobre la transparencia y la rendición de cuentas en la adquisición de tecnología educativa. Cuando los distritos no pueden informar con precisión qué herramientas de IA usan y a qué costo, la supervisión significativa se vuelve imposible.

¿Qué pasaría si elimináramos la ambigüedad por completo?

Hay una alternativa a forzar a los sistemas de IA a interpretar texto ambiguo: evaluar acciones en lugar de palabras. Cuando un estudiante realiza una titulación en un laboratorio virtual, no hay ambigüedad sobre si añadió reactivo gota a gota cerca del punto final. O lo hizo o no lo hizo. El sistema no necesita analizar su descripción; observa su técnica directamente.

Este es el principio detrás de la evaluación basada en procesos. En lugar de pedir a los estudiantes que describan lo que harían y luego analizar su lenguaje, observas lo que realmente hacen y lo mides. La diferencia es profunda:

Basado en texto: "Pipeteé 2.5 mililitros de la solución" debe interpretarse. ¿Querían decir exactamente 2.5? ¿Aproximadamente 2.5? ¿Describieron la acción que tomaron o la acción que pretendían?
Basado en procesos: La pipeta virtual registró 2.47 mL transferidos. No se requiere interpretación.

El programa Dreamscape Learn de la Universidad Estatal de Arizona demuestra este enfoque a escala. Los estudiantes resuelven problemas biológicos en entornos inmersivos de RV, y el sistema los califica por su camino de razonamiento a través del problema, no por explicaciones escritas de lo que hicieron. Los primeros resultados muestran que los estudiantes en estas secciones basadas en procesos logran mejores calificaciones y mejor retención que sus compañeros en cursos convencionales.

La física no tiene ambigüedad semántica

La ventaja fundamental de la evaluación basada en procesos es que las acciones físicas son definidas. Cuando un estudiante inclina un vaso de precipitados, el ángulo de inclinación es medible. Cuando aplican calor, el cambio de temperatura sigue física predecible. Cuando miden volumen, la medición tiene un valor específico. No hay sinónimos para las acciones físicas.

Por eso construimos WhimsyLabs alrededor de un motor de física propietario en lugar de animaciones con guión. Nuestras simulaciones rastrean cantidades físicas reales: el volumen de líquido en un contenedor, el tiempo preciso de las adiciones, la firmeza de la técnica. Cuando evaluamos el rendimiento del estudiante, comparamos sus acciones contra la técnica correcta, no sus descripciones contra frases esperadas.

Un estudiante de Alemania, Japón o España realiza el mismo movimiento de pipeteo. Un estudiante que habla inglés como segundo idioma demuestra la misma comprensión al agitar un matraz en el momento correcto. El lenguaje universal del procedimiento científico trasciende las ambigüedades que afectan a la calificación por IA basada en texto.

¿Qué pasa con las habilidades de comunicación escrita?

Surge una pregunta legítima: ¿no debería la educación científica también desarrollar habilidades de comunicación escrita? La capacidad de describir procedimientos científicos claramente es valiosa.

La respuesta es sí, pero con una distinción importante. La comunicación escrita es una habilidad que vale la pena desarrollar, y puede evaluarse cuando ese es el objetivo explícito. El problema con las evaluaciones escritas calificadas por IA es que confunden la comprensión científica con la habilidad de escritura. Un estudiante que entiende la titulación profundamente pero escribe torpemente es penalizado no por conceptos erróneos científicos sino por lingüísticos. Un estudiante que escribe con fluidez pero entiende superficialmente puede recibir puntuaciones más altas.

La evaluación basada en procesos separa estas preocupaciones. Cuando quieres evaluar la técnica científica, evalúa la técnica directamente. Cuando quieres evaluar la comunicación científica, evalúa la comunicación explícitamente. No pretendas medir uno mientras realmente mides el otro.

La verdadera promesa de la IA en la evaluación

Los fallos de la calificación de texto por IA no significan que la IA no tenga un papel en la evaluación educativa. Significan que la IA debe aplicarse a tareas donde sobresale en lugar de tareas donde tiene dificultades.

La IA sobresale en el reconocimiento de patrones en datos estructurados, el seguimiento de secuencias procedimentales, la identificación de errores técnicos específicos y el análisis de grandes conjuntos de datos en busca de patrones. Estas capacidades son perfectamente adecuadas para la evaluación basada en procesos, donde los datos son inequívocos y los patrones están bien definidos.

En WhimsyLabs, nuestro tutor de IA WhimsyCat utiliza datos de procesos para proporcionar retroalimentación en tiempo real. Cuando un estudiante se apresura a través de un procedimiento, WhimsyCat lo nota y sugiere reducir la velocidad. Cuando un estudiante repite el mismo error varias veces, WhimsyCat explica por qué el enfoque no funciona y ofrece alternativas. Esta retroalimentación es posible porque los datos son precisos. WhimsyCat no está tratando de adivinar si un estudiante entendió algo de una frase ambigua; observó exactamente lo que el estudiante hizo.

Lo que revela la apelación de Roselle

Volvamos al caso de Liam Roselle. Su apelación exitosa le requirió explicar, con citas a la redacción exacta de la pregunta, por qué la interpretación de la IA estaba equivocada. Su profesor notó que "como tanto las herramientas de puntuación de IA como los humanos pueden interpretar preguntas y respuestas de manera diferente, y son falibles," estaba contento de que tuvieran la oportunidad de discutirlo.

Esta declaración revela inadvertidamente el problema central. Cuando la evaluación requiere interpretación del lenguaje, el desacuerdo es inevitable. Los humanos discrepan entre sí. La IA discrepa de los humanos. La IA discrepa de sí misma cuando se le presenta versiones reformuladas de contenido idéntico. El sistema es inestable porque el lenguaje es inestable.

Pero una técnica de pipeteo no requiere interpretación. Un punto final de titulación no requiere interpretación. El ángulo de un vaso de precipitados, el momento de una adición, la firmeza de una mano: estos son hechos, no interpretaciones. La evaluación construida sobre hechos en lugar de interpretaciones produce resultados consistentes y defendibles que no requieren apelaciones.

El camino a seguir

La junta de Amity Regional High School estaba programada para votar sobre el presupuesto del próximo año el 9 de marzo de 2026. Roselle les había estado enviando correos electrónicos diarios durante más de dos semanas, pidiéndoles que consideraran seriamente lo que 150 estudiantes estaban diciendo y lo que un estudiante tuvo que hacer para recuperar un punto que ya había ganado.

Su situación refleja un desafío más amplio que enfrenta la educación: la presión de adoptar IA para ganancias de eficiencia sin considerar adecuadamente dónde la IA realmente funciona bien. La interpretación de texto es difícil porque el texto es ambiguo. Esta no es una limitación temporal esperando un avance. Es una propiedad fundamental del lenguaje natural.

La solución no es abandonar la IA sino implementarla apropiadamente. La evaluación basada en procesos en laboratorios virtuales representa una implementación apropiada. Cuando los estudiantes demuestran su comprensión a través de la acción en lugar de la descripción, la IA puede evaluarlos con precisión, justicia y a escala. La ambigüedad semántica que atrapó a Roselle desaparece por completo.

La IA no puede malinterpretar una técnica de pipeteo porque no hay nada que malinterpretar. La acción ocurrió correctamente o no lo hizo. En esa claridad yace un mejor futuro para la evaluación educativa.