Enfoque
INTRODUCCION
La inteligencia artificial (IA) ha emergido como una herramienta revolucionaria en la educación. Su integración en el aula promete transformar los procesos de enseñanza-aprendizaje, ofreciendo soluciones innovadoras para retos tradicionales. De interés particular es la corrección automática de exámenes, donde la IA tiene el potencial de aliviar la carga de trabajo y proporcionar una calificación objetiva y consistente. Los modelos de lenguaje de gran tamaño (LLM), como ChatGPT, han mostrado una notable capacidad para entender y procesar el lenguaje natural. Esta habilidad los convierte en candidatos ideales para la tarea de corrección de preguntas con respuesta abierta corta (PRAC), adaptadas a los criterios específicos y estilo de corrección de cada profesor.
OBJETIVO
Comparar en preguntas tipo PRAC las calificaciones proporcionadas por ChatGPT con un profesor experto en la materia. Identificar el impacto del número de ejemplos proporcionados a la IA en la calidad de sus calificaciones.
METODOLOGIA
Mediante un diseño experimental comparativo, se analizan las capacidades de corrección de ChatGPT con las calificaciones asignadas por la profesora responsable de Podología Física (obligatoria del tercer curso del grado de Podologia). Un total de 17 participantes respondieron a dos preguntas específicas de la materia. Inicialmente, un profesor evaluó las respuestas, estableciendo un estándar de corrección. Posteriormente, las mismas respuestas fueron corregidas por ChatGPT 3.5 y ChatGPT 4, tanto con como sin ejemplos previos de calificación de respuestas. Para evaluar la coherencia en las correcciones de la IA, se repitió la corrección de la misma serie de preguntas tres veces.. El análisis cuantitativo se centró en la determinación de los intervalos de confianza y en la correlación de las correcciones de la IA con las realizadas por el profesor.
RESULTADOS
El modelo con mayor número de ejemplos, alcanzó un Coeficiente de Correlación Intraclase (CCI) de 0,902 (intervalo de confianza: 0,747 – 0,965) para la primera pregunta y 0,888 (intervalo de confianza: 0,703 – 0,961) para la segunda. Se observó una mejora significativa en los resultados de corrección a medida que se incrementaba el número de ejemplos proporcionados a la IA.
DISCUSION
Los resultados muestran altas correlaciones entre la calificación del profesor y la IA e indican que la precisión de la IA mejora significativamente con la incorporación de más ejemplos. Estos hallazgos resaltan un avance prometedor en la aplicación de los LLM en una integración más efectiva y personalizada en procesos educativos.
CONCLUSIONES
Este estudio revela que los LLM, como ChatGPT, tienen un potencial significativo para automatizar la corrección de preguntas PRAC. Aunque se requieren estudios futuros con conjuntos de datos más extensos para una generalización, los resultados presentados muestran que la eficacia en la corrección automatizada por IA es notablemente coherente con los criterios del docente si se proporcionan suficientes ejemplos. Asimismo, la consistencia en las correcciones de la IA fue muy alta. No obstante, es imperativo mantener la supervisión y participación activa de expertos humanos para asegurar la exactitud y la pertinencia pedagógica de estas herramientas automatizadas.
Francisco Brazuelo Grund
Comentó el 03/02/2024 a las 11:45:02
Enhorabuena por la ponencia, me ha parecido muy interesante y útil, y un ejemplo del camino para automatizar (o semiautomatizar), tareas educativas que se llevan buena parte del tiempo docente como es la corrección. ¿Cuáles son los siguientes pasos previstos en su investigación sobre el curso de la IAG en este tipo de tareas de evaluación?
Ivan Gadea Saez
Comentó el 03/02/2024 a las 11:54:05
Gracias por su pregunta,
Tenemos que seguir investigando la importancia del prompt introducido respecto a la calidad de la respuesta obtenida. El objetivo final es obtener calificaciones automáticas tan similares a las del docente que sean matemáticamente indistinguibles, manteniendo una gran estabilidad en el modelo (condición imprescindible si queremos poder llegar a fiarnos). Además, hay retos importantes como los ataques adversarios, por los que un alumno conocedor del sistema de calificación podría atacarlo obteniendo una buena calificación sin responder correctamente ninguna pregunta.
Ivan Gadea Saez
Comentó el 03/02/2024 a las 11:59:02
Ah, sin olvidar que está a punto de salir GPT-5 y eso puede mejorar todos los valores mostrados en el presente estudio.
Carlos Pose
Comentó el 02/02/2024 a las 19:12:23
Muy interesante, Nuria e Iván. ¿Consideráis que los resultados sería los mismos si trasladamos la comparación al campo de las ciencias humanas? Muchas gracias.
Ivan Gadea Saez
Comentó el 02/02/2024 a las 20:19:28
Se debería de probar, pero en principio no debería haber una gran diferencia si se trata de preguntas cortas (de entre 2 y 15 líneas de texto aproximadamente, que fueron las respuestas que obtuvimos). Los campos dónde cabría obtener resultados diferentes son aquellos que involucraran las matemáticas o respuestas mucho más largas.
Pablo Palomero Fernández
Comentó el 02/02/2024 a las 09:30:32
Buenos días, muchas gracias por su ponencia, muy interesante. Quería preguntar qué tipo de preguntas cortas se utilizaron. Es decir, si se trataba de preguntas que daban lugar a una respuesta más bien unívoca o si se preguntaba por cuestiones que podrían responderse correctamente de distintas maneras.
Saludos y gracias
Nuria Padrós Flores
Comentó el 02/02/2024 a las 12:52:16
Buenos días,
Las preguntas fueron:
"Enuncia y explica las contraindicaciones del masaje, justifica la respuesta"
"Explica las diferencias en los efectos sobre el cuerpo de la termoterapia y la electroterapia"
Salvador García Martínez
Comentó el 02/02/2024 a las 07:55:13
Genial la ponencia, muchas gracias.
Tengo la siguiente pregunta:
¿Cómo se puede configurar y optimizar ChatGPT para realizar una calificación eficiente y precisa de respuestas abiertas cortas en un contexto educativo, asegurando al mismo tiempo la justicia y la objetividad en la evaluación de las respuestas de los estudiantes?
Nuria Padrós Flores
Comentó el 02/02/2024 a las 12:50:31
Gracias por la pregunta,
En principio, la justicia y la objetividad vienen implícitos, en tanto en cuanto, la herramienta no tiene conocimiento de la situación particular del estudiante. Sin embargo, todo LLM, debido a su entrenamiento, genera sesgos que provienen de los datos con los que fue entrenada y que podrían aparecer a la hora de la corrección dependiendo de las respuestas de los estudiantes. Para ello están los ejemplos. Si detectamos que hay alguna pregunta que podría hacer saltar un sesgo aprendido (por ejemplo, la creencia de que una étnia es superior a otra), lo que deberíamos hacer es ofrecerle al prompt ejemplos en los que se vea la igualdad entre ellas.
Salvador García Martínez
Comentó el 04/02/2024 a las 19:45:41
Muchas gracias Nuria.
Luciano Martínez Balbuena
Comentó el 01/02/2024 a las 23:29:58
Hola Nuria,
Sin duda la metodología que presentan es interesante. Sólo tengo una duda sobre la aplicación del Prompt para ChatGPT. ¿Ustedes usan el Prompt en la página nativa de ChatPT o la integran en alguna otra plataforma? En otras palabras, ¿cómo le solicitan a ChatGPT que revise las respuestas que dieron los estudiantes?
Nuria Padrós Flores
Comentó el 02/02/2024 a las 12:46:02
Buenos días,
Utilizamos la plataforma estándar. Uno de los objetivos era comprobar qué tan fácil podía ser usar ChatGPT para la corrección de preguntas PRAC. Hay otras opciones, pero suelen ser complejas para un usuario medio, mientras que usar ChatGPT está al alcance de cualquiera e incluso es gratis en su versión 3.5
Antoni Martínez-Ballesté
Comentó el 01/02/2024 a las 19:15:22
Muy interesante vuestro estudio. Podríamos pensar que en un escenario en donde la IA evalúa una respuesta, un alumno que vea que se le ha calificado mal siempre puede pedir revisión al humano. Esto podría ser una solución... ahora bien, ¿qué sucede si pasa al revés, es decir, el alumno ha escrito una respuesta que calificaríamos mal pero la IA la puntúa, por error, bien? No espero que me respondáis, quería aportar un comentario a un tema, el de la IA generativa, del cual solo estamos al principio.
Ivan Gadea Saez
Comentó el 01/02/2024 a las 20:46:36
Justo ese es el problema que tiene la IA ahora mismo para calificar. Hay estudios que indican que es relativamente fácil engañar a un LLM como ChatGPT, dando respuestas absolutamente fallidas (https://doi.org/10.1007/978-3-030-52237-7_15). Lo usan en modelos anteriores a 2020, pero también existen este tipo de ataques (adversarios) para ChatGPT.
Esta es una de las razones principales por las que el uso de este tipo de sistemas debe supervisarse. Una respuesta tendenciosamente errónea para engañar a una IA, es trivial detectarla para un humano.
Francisco Astudillo Pacheco
Comentó el 01/02/2024 a las 12:51:32
Buenos días,
Muchas gracias por esta interesante ponencia.
Comentaban que ChatGPT es capaz de responder inlcuso si los comandos están construidos con faltas de ortografía.
¿Creen que la respuesta sería diferente en función de si el comando están bien escrito o contiene faltas de ortografía o de sintaxis?
¿Variaría la respuesta dependiendo del tono en que se haga la pregunta? (directo, conminatorio, educado, ...)
Saludos Cordiales
Ivan Gadea Saez
Comentó el 01/02/2024 a las 13:10:36
Dos preguntas muy interesantes que requieren de una comprobación empírica.
No tenemos respuesta para ninguna de las dos, pero sí una intuición.
Lo que sí sabemos es que la capacidad de obtener buenas respuestas depende de la calidad de los prompts y muchas veces, esto se consigue por la cantidad de contenido del mismo. Es decir, si le digo a ChatGPT "califica esta pregunta", va a calificar mucho peor que si le explico que es de un nivel universitario, que es una asignatura de tal carrera, que espero esto y lo otro, etc. Por ello, si no le pido específicamente que penalice faltas de ortografía y sintáxis, es bastante probable que no lo haga. Y por otra parte, especialmente si al prompt se le dan ejemplos, el tono de la pregunta no debería tener una relación muy grande con las calificaciones.
No obstante, como dije al inicio, no lo hemos probado y no podemos dar una respuesta definitiva.
Mabel Pisá Bó
Comentó el 01/02/2024 a las 12:51:02
Primero, enhorabuena por el trabajo. En el estudio se destaca que es necesario a día de hoy mantener la supervisión y participación activa de expertos humanos para asegurar la exactitud, pero dados los continuos avances, ¿Pensáis que en algun momento los profesores podrían ser sustituidos casi totalmente por la IA?
Ivan Gadea Saez
Comentó el 01/02/2024 a las 13:16:02
Es una pregunta muy importante que, como docentes, todos deberíamos hacernos.
Con el tipo de IA que disponemos actualmente, personalmente considero que en la calificación sí se podría prescindir del criterio humano en un horizonte no muy lejano (entre 5 y 10 años). Pero otra cosa es la evaluación continuada del alumno. Ahí todavía no hay ningún sistema de IA que demuestre tener la capacidad de empatía y los valores humanos suficientes como para atender a un alumno de manera integral. Quizás en un futuro se desarrollen dichas capacidades y entonces tengamos que replantearnos muchas cosas, pero hasta ese día, el docente debe estar en el aula.
Santa Palella Stracuzzi
Comentó el 01/02/2024 a las 12:48:48
Nuria e Iván,
Gracias por compartir vuestra presentación. Enhorabuena¡¡ Basado en los resultados obtenidos, ¿qué áreas de mejora se identifican para la calificación automatizada utilizando ChatGPT, y cómo podrían abordarse en futuras investigaciones?
Ivan Gadea Saez
Comentó el 01/02/2024 a las 13:19:41
Gracias por tu pregunta.
ChatGPT depende mucho del prompt de entrada que se le suministre. Se ha demostrado que una buena respuesta depende de un buen prompt. En nuestra investigación hemos utilizado un único prompt, pero creo que ahí hay muchísimo margen de mejora. Y por otra parte, las preguntas que se usaron fueron muy específicas de un área del conocimiento en concreto (podología física), ampliar este abanico podría revelar nuevos datos.
Carlos Bellido González del Campo
Comentó el 01/02/2024 a las 12:46:40
Dados los altos coeficientes de correlación entre las calificaciones de la IA y las del profesor, ¿cómo se podrían abordar y mitigar las posibles limitaciones de los modelos de lenguaje, como la interpretación de respuestas creativas o no convencionales de los estudiantes, para garantizar que la corrección automática no solo sea coherente con los criterios del docente sino también justa y adaptativa a la diversidad de respuestas estudiantiles?
Ivan Gadea Saez
Comentó el 01/02/2024 a las 13:29:38
Gracias por tu pregunta.
Realmente, no hay una respuesta cerrada que te pueda dar, este es un campo de investigación que sigue abierto a día de hoy. Hasta mi conocimiento, la mejor manera de abordarlo es mediante la implementación de un enfoque híbrido en la corrección automática de exámenes. Esto implica combinar la inteligencia artificial con la revisión humana, especialmente en casos donde las respuestas se desvíen significativamente de las convenciones esperadas. Para garantizar que la corrección sea justa y adaptativa a la diversidad de respuestas estudiantiles, se pueden desarrollar mecanismos de detección dentro del modelo que identifiquen respuestas con alto grado de originalidad o que se aparten de los patrones típicos de respuesta. Estas podrían entonces ser marcadas para una revisión más detallada por parte de un experto humano.
No obstante, es un campo abierto y no sería sorprendente que en una evaluación de resultados nos encontráramos con que LLMs como ChatGPT lo hacen bien. En mi experiencia del día a día con esta herramienta, una de las características más notables que he percibido es la capacidad de crear historias originales, mezclando temas a veces resultan sorprendentes (probar por ejemplo: "explícame como resolver una ecuación como si estuvieras narrando un partido de fútbol"). No sería extraño que también funcionara a la inversa y fuera capaz de evaluar correctamente respuestas creativas o no convencionales.
Bartolome Pizà-Mir
Comentó el 01/02/2024 a las 08:55:25
Buenos días,
Gracias por su ponencia.
Me surge la siguiente pregunta.
¿Cuáles son las implicaciones y desafíos identificados en el estudio y posible implementación sobre la corrección automatizada?
Un saludo,
Ivan Gadea Saez
Comentó el 01/02/2024 a las 10:19:34
Es una pregunta muy interesante. Por una parte, tenemos la constatación de que pronto vamos a disponer de herramientas que van a ser capaces de calificar exámenes al mismo nivel (¿quizás mejor?) que los humanos. Aún queda un cierto margen para llegar a este punto, pero el avance en los últimos años ha sido espectacular. Por otra parte, tenemos la nueva legislación de la Unión Europea en materia de IA que dice que las evaluaciones oficiales no pueden ser automatizadas.
Por tanto, bajo el actual paraguas normativo, el docente debe seguir dirigiendo todo el proceso de evaluación y las IAs solo pueden servir como apoyo, pero no pueden tener la última palabra.
Si tratamos de vislumbrar el futuro, imagino que llegará el momento en el que la evidencia sobre las capacidades de corrección automática serán tan apabullantes que habrá un cambio legislativo. Ahora mismo ya se usan sistemas de corrección automáticos en preguntas test y seguro que en su momento hubo resistencias para su aplicación.
Elizabeth Diaz Rodriguez
Comentó el 31/01/2024 a las 16:10:48
Nuria e Iván personalmente he comprobado que los resultados de su investigación son correctos. Sin embargo lo contrario es cierto. El Chat tiene errores. De todos los detectores de información que procede del Chat ¿recomendarías alguno?
Ivan Gadea Saez
Comentó el 31/01/2024 a las 20:56:35
Buenos días Elizabeth,
Efectivamente ChatGPT también comete errores y eso es un problema. No se si su pregunta se refiere a la detección de los errores o a la detección del texto generado por ChatGPT. En cuanto a la detección de errores, hasta el momento la única forma de detectarlos es buscando las fuentes de información. Existe una herramienta llamada "Consensus" que realiza muy bien este trabajo, aunque a veces también falla. Y en cuanto a la detección de texto generado por IA, hay un estudio muy interesante que prueba las principales herramientas existente y que concluye que no hay ninguna que sea fiable (https://doi.org/10.1007/s40979-023-00146-z). Piense en esto como una carrera del gato y el ratón, primero la IA aprende a generar textos, otra IA aprende a detectarlos y la primera vuelve a aprender cómo generar sin que la segunda lo detecte. Y vuelta al mismo círculo.
Deja tu comentario
Lo siento, debes estar conectado para publicar un comentario.
Organizan
Colaboran
Configuración de Cookies
Utilizamos cookies para mejorar su experiencia y las funcionalidades de esta web. Ver política de cookies