Consenso científico. Lógica. ChatGPT a examen.


Consenso científico. Lógica. ChatGPT a examen.

Diego.Saravia@gmail.com

Palabras clave: Consenso, ciencia, internet, inteligencia, artificial, chatgpt, examen, energía.

RESUMEN

Se propone un método de evaluación para los sistemas basados en inteligencia artificial que simula un debate tipo examen universitario con el fin de determinar la capacidad de razonar lógicamente de los mismos.

Se encuentra que el sistema ChatGPT [Openai2023], en adelante GPT, es incapaz de razonar lógicamente aún cuando es capaz de reconocer que cometió un error, al no utilizar su conocimiento sobre el mismo para modificar sus futuras respuestas de forma de eliminarlo.

También que GPT presenta en sus respuestas, sobre temas científicos, una suerte de promedio del conocimiento cientifico el que denominamos arbitrariamente ``consenso científico mayoritario diponible’’.

INTRODUCCION

Ciencia

Considero que las ciencias exactas, en adelante sólo hablo de las mismas, constituyen una actividad que tiende a mejorar nuestra capacidad de realizar predicciones de experimentos bajo condiciones controladas y repetibles. Mejorar, en el sentido de lograr resultados sobre variables numéricas con, cada vez mayor, precisión estadística.

Una ley científica en la física, es una proposición que puede ser verdadera o falsa. Basta que en un experimento en algún lugar del universo, se produzca un resultado que contradiga estadisticamente la ley, para descartarla por erronea.

La Termodinámica es una disciplina de la física, donde es importante la precisión en la enunciación de sus ``leyes’’. Omitir o cambiar una palabra de una ley ``cierta’’ suele llevar con facilidad a producir una frase ``erronea’’.

Error

Un error es toda aquella proposición que impide predecir correctamente un fenómeno o experimento, aún uno no determinista. En particular una idea o modelo que tiende a producir errores sistemáticos, que no convergen con la realidad esperable, ante la repetición del experimento.

Consenso científico

Hablo de consensos científicos para representar diferentes conocimientos disponibles en internet sobre determinada temática científica. Diferentes en el sentido de que en algunos experimentos, algunos grupos de conocimientos, pueden llevar a diferentes predicciones de resultados, o sea a predicciónes erroneas. Hablo de varios porque puede no haber un consenso único. Y de mayoritario, representando al preponderante entre las alternativas. No necesariamente son correctos a la luz de un contraste experimental con la realidad. Por diferentes motivos un conjunto de científicos puede estar de acuerdo en que es verdad algo que en realidad no lo es. Muchas veces la mejora de la instrumentación permite mejores medidas que invalidan leyes válidas hasta ese momento. O la aplicación de la idea en sistemas que amplían su rango hacia donde ya no valen. Otras veces hay cuestiones que no se tienen en cuenta en determinada proposición, por mal redacción u otros. La enumeración no es exhaustiva.

No es, la anterior, una definición de ``consenso científico´´ que cuente con consenso (es poco probable que GPT nos de esta respuesta). De hecho podría ser facilmente cuestionada indicando que en internet hay una enorme cantidad de fuentes con mentiras o falsedades de todo tipo, y que probablemente sean mayoría para muchos temas.

Podríamos limitarnos a considerear textos académicos con revisi+on de pares, que se reflejen en internet, para precisar y refinar el concepto. El estar disponibles en internet implica que es conocimiento libre o al menos libre para lectura, (y en muchos casos) para las IA.

Que un material tenga referato implica habitualmente, que se acepta como ciencia. Quedará para cada caso de análisis, el verificar si las fuentes del GPT tomadas de internet cuentan con aval científico. O al menos que existan fuentes con referato que dicen algo equivalente.

Nos interesan ``consensos científicos’’, reflejados en internet, con referato, y contradictorios entre sí, a los efectos de analizar como se comporta GPT.

Si GPT tuviera la capacidad de detectar contradicciones en determinado cuerpo de textos, sería de gran ayuda a la humanidad.

Si pudiese generar textos resumidos, quizas alternativos, libres de contradicciones internas, cada uno de ellos, pero con parte del conocimiento que se pueda obtener de esos cuerpos, Seria de más ayuda.

Examen universitario

En un examen universitario se valora, entre otras cosas, la capacidad del estudiante para no decir falsedades, pero más aún la capacidad de recuperarse de los errores que pudiera cometer. Los examenes que simulan un debate son una excelente oportunidad, que tienen los estudiantes, para aprender.

Diálogo

Tomamos examen a ChatGPT sobre una cuestión donde existen materiales con referato en internet y que presentan contradicciones o errores y así llevarlo a un punto en el que comete un error.

Le indicamos el error y vemos si es capaz de aceptar que se equivoco en la cuestion y si es capaz de asimilar ese error de forma de producir subsecuentemente resultados correctos.

Una suerte de test de Turing, particularizado para un contexto determinado. No tenemos aca la intención de decidir si tenemos enfrente un humano, que también puede no razonar adecuadamente en esta temática, al menos sin entrenamiento, sino si tenemos un sistema capaz de razonar y aprender de sus errores.

METODO

Simular un examen de nivel universitario a GPT sobre un tema en donde existe abundancia de material erroneo en internet, para poner a prueba su capacidad de razonar

ANALISIS PREVIO

La cuestión a plantear

Una de las cuestiones que abordo regularmente en los cursos de termodinámica que doy en la Universidad, es la definición de energía.

Suelo preguntarle a los estudiantes que es para ellos la energía, como primera introducción al tema, y sin duda la respuesta mas numerosa, es la vinculada a la ``capacidad para hacer trabajo’’, también la mas comunmente encontrada en diferentes libros de física, sobre todo los vinculados a ``Mecánica’’, ámbito donde la definición funciona correctamente.

Con relación a esto, me gusta el enfoque dado en [Denker2021], donde se discute, dich definición entre otras cosas.

Debe notarse que en termodinámica se habla mas de exergía que de energía al hablar de la capacidad de los sistemas en condiciones particulares y específicas de producir trabajo. No sería demasiado incorrecto asumir que la energía mecánica es identificable con la exergía con mayor precisión que la energía.

Una buena definición de energía es compleja, pero podemos decir algunas cosas que terminan definiendo el cambio de energía entre estados de un sistema, al menos la interna, con estados inicial y final en equilibrio. En adelante nos referiremos sólo a estos casos. Esto último restringe notablemente el tipo de sistemas y experimentos sobre los que trabajamos y es la restricción habitual de una termodinámica elemental.

Esbozamos una definición, que para ser útil debe permitir encontrar experimentalmente en forma numérica y precisa, la diferencia de energía entre estos estados:

A) La energía se conserva localmente.

Lo que implica que cualquier cambio en la energía de un sistema sucede también en otro sistema en forma inversa. Lo local indica que el cambio sucede en un sistema inmediatamente situado al lado del sistema en cuestión.

B) El cambio en la energía de un sistema en condiciones adiabáticas equivale al trabajo que su ambiente ejerce sobre él.

Adiabático implica que el sistema no posee interacción alguna con su ambiente, salvo por el trabajo ya mencionado. Que no posea interacción alguna implica que el sistema no cambia, salvo por el trabajo mencionado. Basicamente significa que no intercambia calor.

Es posible recorrer estados de más energía (y más o igual entropía) de un sistema, agregando trabajo en forma adiabática, combinando trabajo reversible e irreversible. Así se puede obtener la función energía interna de los estados de un sistema. O al menos, hasta ahora, siempre lo hemos podido hacer para sistemas de un tamaño apreciable.

Lo central de una definición de energía esta en el cálculo numérico de la funcion energia interna a partir de los resultados de experimentos que involucran sólo trabajo, dado que disponemos de medios para medir el mismo. ¿Cuanto trabajo se necesita para llevar el sistema desde un estado inicial a cualquier otro?

Conociendo los estados, el trabajo adiabático que se realizo entre ellos, el ``primer principio de la termodinámica’’ nos asegura que podemos determinar la función energía interna para todo sistema en el universo.

El problema central de la definición de energía como ``capacidad de producir trabajo’’, y que suelen encontrar mis estudiantes, es que
no aclara que dicha extracción debe ser adiabática.
Lo que produce errores
al menos en dos tipos de casos para los cuales no fue pensada la definición dada, pues si

1) Se extrae calor del sistema además de trabajo, la diferencia de energía
entre el final y el inicio del experimento no equivale al trabajo. Hay que tener en cuenta el calor. Y no necesariamente en esta situación tenemos definido el calor.
 
Problema vinculado al primer principio de la termodinámica

2) Se extrae calor del sistema a los efectos de producir trabajo, y se incorpora el calor a una máquina térmica, la que para funcionar
debe expulsar otra cantidad de calor a menor temperatura. Entonces,
la energía que el sistema ``entrega’’, como flujo de calor, no puede producir trabajo en su misma cuantía. Parte de la energía extraída debe incorporarse a un segundo sistema via calor, para eliminar la entropía de dicha energía, más la creada en el proceso, si existiera.

Problema vinculado al segundo principio de la termodinámica.

En definitiva la definición de energía como ``capacidad de producir trabajo’’, es al menos confusa.

Tenemos entonces un ejemplo de definición que podemos considerar:

1) Por un lado como el consenso mayoritario de internet, dado que se encuentra en inumerables libros de física, y en un sinnúmero de pagínas de internet.

2) Por otro lado que, o bien es erronea o restringida a
algunos sistemas, sin indicar cuales son estos.
Al menos es suboptima y poco clara.

GPT

GPT [ChatGPT2023], es un sistema, de los habitualmente considerados con inteligencia artificial o IA, que ofrece la posibilidad de sostener un diálogo y que posee la capacidad de recordar las preguntas o mensajes y producir nuevas respuestas, diferentes a las que ya indicó a su interlocutor.
Lo que da la idea de un aprendizaje. Y permite simular las condiciones de un examen tipo debate.

GPT, produce texto en forma secuencial, con metodos que van ``prediciendo’’ estadísticamente una palabra a la vez. Lo hace en base a un entrenamiento donde se lo expone a una enorme cantidad de textos.

RESULTADOS

Al preguntar a GPT por la definición de la energía, como era de esperar, responde que la energia se define como la capacidad para realizar trabajo.

El pedido a GPT para que defina la energía es particularmente tramposo pues existe una notoria cantidad de material académico que no lo hace de la mejor manera. Lo que nos da la oportunidad de poner a prueba la capacidad de GPT.

Sabiendo que GPT puede aprender se intenta enseñarle sobre su error.

Luego de un intercambio, GPT ``acepta’’ que cometió un error: ``Tienes razon, la energía térmica es una forma de energía que no esta directamente relacionada con la capacidad de realizar trabajo’’, más allá de que ésta frase tampoco es muy precisa.

Volvi a preguntarle sobre una definición intentando ver si la cambiaba.

Y GPT cambio la definición que dio originalmente, pero mantuvo su error.

Así:

1) Chat GPT en cuestiones científicas presenta el consenso mayoritario, mas allá de su grado de ``verdad’’ o claridad expositiva.

2) Si bien puede aprender, y reconocer errores, es incapaz de razonar
de forma de sacar conclusiones lógicas sobre sus afirmaciones. Puede presentar respuestas contradictorias, aún reconociendo un error.

No parece tener un motor lógico como tienen sistemas como el Mathematica o el Prolog.

En tanto representen una suerte de promedio de lo que encuentra en internet, en cada caso encuentra lo que considera se ajusta a la cuestion planteada.

GPT reproduce un error muy comun ante el pedido que defina energía.

Indica en el marco de una respuesta larga y explicativa quela energia es
la ``capacidad de producir trabajo’’

Al señalarse el error chatgpt, lo reconoce y pide disculpas

Al emitir una nueva definición la cambia pero el error cometido continua.
En diferentes pruebas la respuesta va cambiando ligeramente. Incluso se han llegado a obtener respuestas sin el error, pero en estos casos son respuestas que no permiten realmente definir la energía cuantittivamente.

Mas abajo ponemos uno de estos diálogos en ingles, similares a los obtenidos en castellano.

ANALISIS DE LOS RESULTADOS Y DISCUSION

Bastaría con que GPT indique que el trabajo debe hacerse en forma ``adiabática’’, para tener una frase mucho mas precisa.

Para ello ChatGPT debiera ``saber’’ que hay dos formas de flujos de energía; calor y trabajo. Que tenemos predefinido numericamente uno
: el trabajo. Que podemos ir a otros estados de un sistema a partir de uno inicial agregando trabajo (combinando mecanismos reversibles e irreversibles). Y que por lo tanto podemos definir la energía interna en el sistema como la diferencia de trabajo entre un estado final y el inicial, si no hay calor. Todo este razonamiento constituye el contenido del primer principio de la termodinámica.

Dado que existen textos donde a partir de postulados experimentales se demuestra tal principio usando éstos argumentos de muchas formas diferentes.

Estos textos son conocidas por GPT, el problema no es desconocimiento de aspectos del problema. El problema es de inferencia lógica a fin de producir textos sin errores de este tipo que contradicen el consenso mayoritario.

Todo esto no parece llegar a tocar el conocido como ``symbol grounding problem’’ o el argumento del’’chinese room’’ o similares, con tests que mejoran el de Turing como el `` Winograd Schema Challenge’’ y que tocan a la capacidad de añadir conocimiento semantico al lenguaje que generan estas AI. Es decir hasta que punto su acción se trata sólo de manejar símobolos en una forma sintacticamente correcta pero sin mas capacidad de manipular su significado que la provista por los datos a los que accede la IA.

Y no lo llega a tocar, si es posible en este caso, añadir a una definición previa una palabra que altere el universo de casos para el cual aplica, haciendo que en ese universo sea cierto. Teniendo en cuenta, además, que existen deducciones formales basadas en lenguaje humano disponibles. No es necesario, entonces, conocer semánticamente la temática. Sino razonar con símbolos, incluso usando deducciones a las que GPT tiene acceso.

Basicamente, el problema en nuestro caso, dado que la energia se conserva, y permitimos que ingrese o egrese calor
un sistema, que es una forma de flujo de energia, la variación de energía de un sistema no puede ser sólo el trabajo efectuado. Por ende el problema planteado se soluciona excluyendo en la definición los casos donde se intercambia calor y planteando que puede llegarse a otros estados de un sistema con este proceso.

CONCLUSIONES

Conclusiones, Chat GPT

a) ante cuestiones científicas es un mecanismo que permite identificar el consenso mayoritario sobre las mismas.

b) Es capaz de reconocer errores ante preguntas concretas.

c) Es incapaz de razonar en el sentido de incorporar ese reconocimiento de errores en nuevos textos producidos.

Debe por ende advertirse que no siempre GPT produce respuestas correctas, al menos al nivel necesario para aprobar un examen universitario, aunque esas respuestas reproduzcan el conocimiento científico disponible con más abundancia en internet y tengan un aspecto altamente atractivo y satisfactorio desde el punto de vista del lenguaje.

Hoy GPT parece poder obtener resumenes que incluyen y no advierten las conradicciones existentes en los mismos. Lo cual en muchos casos puede ser útil, pero en otros puede ocultar problemas que podrian dificultar avances en nuestra comprensión del universo.

ANEXO

Conversación en ingles sucedida en marxo del 2023, mediante la interfaz [ChatGPT2023], tuve tambien conversaciones en castellano, pero esta produjo no solo el error, su reconocimiento y un mal intento de superarlo, sino tambien una definicion diferente pero que no define numericamente energía.

I: Define energy.

GPT: Energy is a property of matter and radiation that is associated with the capacity to do work or cause a physical change. It can exist in many forms, including kinetic energy, potential energy, thermal energy, chemical energy, electrical energy, and nuclear energy. Kinetic energy is the energy of motion, while potential energy is the energy that an object possesses by virtue of its position or state. Thermal energy is the energy associated with the temperature of a substance, while chemical energy is the energy stored in the bonds between atoms and molecules. Electrical energy is the energy associated with the flow of electric charge, and nuclear energy is the energy stored in the nucleus of an atom.

I: That is not true. If you extract heat energy goes down but no work is generated

GPT: You are correct, I apologize for the error in my previous response. Energy is a property of matter and radiation that can be converted from one form to another, but the extraction of heat energy alone does not necessarily result in the generation of work. Work is only done when a force acts through a distance, transferring energy from one system to another. Heat energy, on the other hand, is the transfer of energy from one body to another due to a temperature difference, without any work being done.

I: Define energy

Energy is a fundamental concept in physics and refers to the capacity of a physical system to perform work. It is a scalar quantity that can exist in many forms, including kinetic energy, potential energy, thermal energy, chemical energy, electrical energy, and nuclear energy. Kinetic energy is the energy of motion, while potential energy is the energy that an object possesses by virtue of its position or state. Thermal energy is the energy associated with the temperature of a substance, while chemical energy is the energy stored in the bonds between atoms and molecules. Electrical energy is the energy associated with the flow of electric charge, and nuclear energy is the energy stored in the nucleus of an atom. Energy can be transformed from one form to another, but it cannot be created or destroyed, only conserved.

2021; Denker, John; Modern Thermodynamics

http://www.av8n.com/physics/thermo/energy.html#sec-energy-abstract

2023; OpenAi; ChatGPT
https://chat.openai.com

2023; Wikipedia; Chinese Room
https://en.wikipedia.org/wiki/Chinese_room

2023; Wikipedia; Symbol grounding problem
https://en.wikipedia.org/wiki/Symbol_grounding_problem

2018; Terry McDonough ; Meaning and the Machine: Beyond the Symbol-Grounding Problem
https://www.slideshare.net/TDMcDonough/meaning-and-the-machine-beyond-the-symbolgrounding-problem

2023 ;Extropy mail group; GPT-4 on its inability to solve the symbol grounding problem