">

ChatGPT y Enem: el robot se desempeña mejor que el 80% de las personas – 05/04/2023 – Educación / Brasil

Si fuera un estudiante, ChatGPT tendría un puntaje promedio de 612.3 en las pruebas objetivas de Enem (Examen Nacional de Escuela Secundaria). Lo haría mejor que el 98,9% de los estudiantes en humanidades y el 95,3% en idiomas y códigos. En general, superaría al 78,9% de los solicitantes.

Sin embargo, el rendimiento en todas las disciplinas es desigual: al robot le va mucho peor en matemáticas, superando solo al 27 % de los participantes del examen. Su desempeño en ciencias exactas sería el mayor obstáculo para ingresar a cursos disputados en las principales universidades federales del país.

Los datos son del análisis DeltaBrasil basado en respuestas de inteligencia artificial (IA) en pruebas realizadas en cinco años, de 2017 a 2021, el más reciente con puntajes individuales disponibles públicamente, lo que permite calcular la calificación final del robot en cada área de conocimiento.

ChatGPT respondió a 1290 preguntas. Es un raro ejemplo de un estudio a esta escala que evalúa la tecnología en portugués.

Con respecto a 2020 y 2021, se consideraron las dos solicitudes de examen en cada año, las cuales tienen preguntas totalmente diferentes entre sí.

El resultado de Enem no coincide exactamente con el porcentaje de preguntas correctas. Corregir preguntas difíciles y fallar fácilmente, por ejemplo, puede entenderse como una adivinanza, y esto se refleja en la calificación final. el analisis de Hoja reprodujo este cálculo para comparar directamente el ingenio entre los humanos y la IA.

Las pruebas evaluaron GPT-3.5, la tecnología de la versión original de ChatGPT, utilizando herramientas de análisis de desempeño hechas por OpenAI, creador del robot.

Para la primera aplicación de la prueba de 2021, el informe le pidió al sistema que escribiera un ensayo siguiendo la misma declaración de prueba. Para simular la metodología del Ministerio de Educación, el texto fue corregido por dos especialistas que utilizaron los criterios del Enem. La calificación promedio del bot fue 700, mejor que el 68 % de los estudiantes, que promediaron 613.

Sumando el puntaje de escritura al promedio de las pruebas objetivas en 2021 (726,8 en ciencias humanas, 606,2 en lenguajes y códigos, 577 en ciencias naturales y 433,6 en matemáticas), el puntaje de ChatGPT en Enem fue de 608,7.

El resultado es mejor que el obtenido por el 79% de los estudiantes ese año – el promedio fue de 535. Sería suficiente para garantizar el acceso a cursos como trabajo social en la Universidad Federal de Pernambuco y ciencias sociales en la Universidad Federal Fluminense.

La evaluación consideró el cálculo que adopta cada curso (el peso de las disciplinas difiere según la carrera). La calificación garantizaría, según el Sisu (Sistema Unificado de Selección), la admisión a 63 de las 938 opciones enumeradas por diez de las universidades federales mejor ubicadas en el Ranking Universitario Brasil 2019.

Las humanidades eran el punto fuerte de AI. El promedio de calificaciones de cinco años fue de 725,3, superior a los 523,3 puntos de los estudiantes. En 2017, con la mejor puntuación (785,3), el robot fue superado por solo 775 candidatos (sobre 4,7 millones).

ChatGPT también superó a los competidores orgánicos en lenguaje y ciencias naturales. La nota media fue de 641,4 (contra 516,1) y 639,2 (contra 492,5), respectivamente.

En comparación, los resultados en las pruebas de matemáticas son casi pésimos. De media, el robot acumuló 443,1 puntos, por debajo de los 527,1 obtenidos por los candidatos reales. Obtuvo entre el 13,6 % y el 27,3 % de las preguntas correctas en cada aplicación; alguien que adivine todas las respuestas debería acertar alrededor del 20 %.

Un artículo científico publicado el miércoles pasado (29) realizó un análisis similar al de Hoja. En él, investigadores de las universidades de São Paulo (USP), São Francisco (USF) y Campinas (Unicamp) alcanzaron un estándar de desempeño similar, con calificaciones bajas en matemáticas.

Para Ricardo Primi, uno de los autores, una posible explicación es que estas preguntas requieren que el robot extraiga información de la pregunta y siga una línea de razonamiento, como configurar la cuenta necesaria, para llegar a la respuesta. En el caso de humano e idiomas, basta con acceder a datos que ya ha visto, sin tener que ejecutar nada.

En el estudio del grupo, el resultado mejoró con una inducción GPT: cuando, en lugar de simplemente preguntar y esperar una respuesta, los investigadores dieron algunos ejemplos de preguntas respondidas anteriormente. Las respuestas correctas aumentaron aún más cuando le pidieron a la tecnología que justificara las respuestas.

“Cuando un problema se presenta en texto, tal vez no tuvo esos mismos datos en el proceso de entrenamiento. No vio los patrones de los pasos de razonamiento de manera explícita”, dice Primi.

La disciplina aparece como el talón de Aquiles del sistema desde su lanzamiento. OpenAI incluso anunció mejoras en el área a fines de enero.

En marzo, la empresa lanzó una actualización de este sistema, GPT-4, pero aún no está ampliamente disponible. En pruebas oficiales, la nueva versión se desempeñó mejor que la anterior en pruebas creadas para humanos en relación a su antecesora.

Ensayo

En la prueba de escritura, el informe pedía al robot las mismas instrucciones que el Enem, usando como ejemplo la prueba de 2021. El comunicado pedía un texto argumentativo-distorsionador sobre «invisibilidad y registro civil: garantizar el acceso a la ciudadanía en Brasil».

Enem considera cinco habilidades para la evaluación textual (ver art). De entrada, los dos expertos consultados destacaron que el texto superaría las 30 líneas permitidas.

Según Adriano Chan, quien le dio al personal de ChatGPT una puntuación de 760, el texto era cohesivo, pero dejaba algo que desear en los demás ítems. El profesor señala que el robot falló en comas y construcción sintáctica, mostró poco repertorio sociocultural, falló en argumentar con datos concretos y en proponer una intervención para solucionar el problema.

La corrección de la maestra Jéssica Dorta identificó problemas similares, con un puntaje de 640. Le quitó más puntos por falta de cohesión y descartó las propuestas de intervención.

Metodología

El modelo matemático adoptado por Enem, la Teoría de Respuesta al Ítem, predice ítems calibrados según parámetros de discriminación (los candidatos se diferencian según el nivel de conocimiento en ese tema), dificultad y probabilidad de éxito. Además del número de respuestas correctas, el cálculo considera qué preguntas se respondieron correctamente.

Para alcanzar la puntuación final de ChatGPT, el Hoja reprodujo esta metodología con base en datos del Inep (Instituto Nacional de Estudios e Investigaciones Educativas).

A través de una interfaz para programadores, el robot respondía cada pregunta una sola vez, indicando la alternativa que creía correcta, sin ejemplo previo. Como la tecnología no interpreta imágenes, se utilizaron las versiones del Enem de ledor, que se leen en voz alta a los candidatos con dificultades visuales, con las descripciones oficiales de fotos y gráficos.

GPT también se ha configurado para que sea lo menos creativo posible en las respuestas, a fin de limitar cualquier «divagación». La alternativa elegida se extrajo de las réplicas del robot (ver la lista completa).

Los sistemas de lenguaje como GPT se ejecutan en el entrenamiento: reciben miles de millones de datos textuales de los que extraen patrones de encadenamiento de palabras. En este proceso, es posible que el robot ya haya visto algunas de las preguntas de las pruebas aplicadas.

Los datos conocidos por ChatGPT se remontan a septiembre de 2021, es decir, existe la posibilidad de que ya haya encontrado preguntas y respuestas de cuatro ediciones probadas de Enem. El fenómeno, llamado contaminación, sin embargo, parece tener un efecto limitado.

Al revelar GPT-4, los investigadores vinculados a OpenAI pusieron la herramienta para resolver una serie de pruebas, como el SAT (una especie de Enem estadounidense) y la prueba para convertirse en abogado en los EE. UU. Descubrieron que la contaminación tuvo poco impacto en el resultado final: la puntuación fue similar incluso sin tener en cuenta las preguntas que la IA sabía de antemano.

Un análisis del Enem eliminando los contenidos contaminados es imposible, ya que OpenAI no revela al público qué textos se usaron en el proceso de entrenamiento de la máquina. En la prueba brasileña, los resultados de las pruebas más antiguas fueron similares al rendimiento de la prueba más reciente.

Noticia de Brasil
Fuente: uol.com.br

Salir de la versión móvil