La gran mentira de los chatbots: ¿realmente razonan o solo simulan inteligencia?

En los últimos años, los chatbots de inteligencia artificial (IA) han avanzado notablemente, dando la impresión de que pueden razonar como un ser humano. Sin embargo, un estudio reciente realizado por investigadores de Apple pone en duda esta percepción. El análisis se centró en modelos de IA tanto de código abierto como propietarios, incluyendo Llama, Phi, Gemma, Mistral, GPT-4o y o1.

Los investigadores querían comprobar las limitaciones de estos modelos en su capacidad de razonamiento. A pesar de que algunos modelos más pequeños superan el 85% en pruebas como GSM8K, esto no significa que realmente razonen. La realidad es que estos modelos son extremadamente sensibles a cambios en los datos, lo que afecta su rendimiento.

El estudio reveló que la precisión en el benchmark GSM8K era variable y que el razonamiento de los modelos era frágil. Por ejemplo, cambiar nombres propios o números en los problemas matemáticos alteraba significativamente los resultados. Además, la eliminación o adición de información enunciada también afectaba su capacidad de razonamiento, haciendo que los modelos fueran menos fiables.

Los investigadores incluso añadieron información irrelevante a los problemas, lo que provocó una caída notable en el rendimiento de los modelos. Esto sugiere que, en lugar de razonar, los chatbots intentan procesar toda la información, incluso la que no es relevante.

Este estudio confirma lo que muchos expertos han señalado: la capacidad de razonamiento de los chatbots es un mito. Por lo tanto, confiar ciegamente en estos modelos puede ser contraproducente, especialmente en aplicaciones donde se requiere precisión y fiabilidad.

Imagen: Xataka

Comparte este artículo
Publicación anterior

IBM y su ambicioso plan para la computación cuántica: lanzamientos hasta 2033

Entrada publicación

Descubrimiento de semillas aladas: un hallazgo que revela la evolución de la dispersión en plantas

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Leer más