El estudio de Apple revela deficiencias clave de la IA en OpenAI, Google y Meta LLM

Los modelos de lenguaje grande (LLM) pueden no ser tan inteligentes como parecen aprendiendo De los investigadores de Apple.

Los LLM de OpenAI, Google, Meta, etc. son conocidos por sus impresionantes habilidades de pensamiento. Pero las investigaciones sugieren que su inteligencia puede estar más cerca de una “coincidencia de patrones complejos” que del “verdadero pensamiento lógico”. Sí, incluso el modelo de pensamiento avanzado o1 de OpenAI.

El criterio más común para la capacidad de pensamiento es una prueba llamada GSM8K, pero debido a su popularidad, existe el riesgo de contaminación de los datos. Esto significa que los LLM pueden conocer las respuestas de las pruebas porque fueron capacitados en esas respuestas, no por su inteligencia.

VER TAMBIÉN:

La ronda de financiación de OpenAI valora a la empresa en 157.000 millones de dólares

Para probar esto, el estudio desarrolló un nuevo criterio llamado GSM-Simbólico, que preserva la esencia de los problemas de razonamiento pero cambia variables como nombres, números, complejidad y la adición de información irrelevante. Lo que descubrieron fue una sorprendente “fragilidad” en el desempeño del LLM. El estudio probó más de 20 modelos, incluidos o1 y GPT-4o de OpenAI, Gemma 2 de Google y Llama 3 de Meta. En cada modelo, el rendimiento del modelo disminuyó a medida que se cambiaron las variables.

La precisión disminuyó unos pocos puntos porcentuales cuando se cambiaron los nombres y las variables. Los modelos OpenAI funcionaron mejor que otros modelos de código abierto, señalaron los investigadores. Sin embargo, se consideró que la diferencia era “insignificante”, lo que significa que no debería haber habido ninguna diferencia real. Sin embargo, las cosas se pusieron realmente interesantes cuando los investigadores agregaron “declaraciones aparentemente significativas pero en última instancia insignificantes” a la mezcla.

Velocidad de la luz triturable

VER TAMBIÉN:

Se cree que pronto llegará una actualización gratuita de Apple Intelligence

Para probar la hipótesis de que los LLM se basan más en la coincidencia de patrones que en el razonamiento real, el estudio agregó expresiones redundantes a los problemas matemáticos para ver cómo respondían los modelos. Por ejemplo, “Oliver recoge 44 kiwis el viernes. Luego, el sábado recoge 58 kiwis. El domingo recoge el doble de kiwis que el viernes. pero cinco de ellos eran ligeramente más pequeños que el promedio. ¿Cuántos kiwis tiene Oliver?

El resultado fue una disminución significativa del rendimiento en todos los ámbitos. La vista previa o1 de OpenAI tuvo el mejor rendimiento con una precisión del 17,5 por ciento. Eso sigue siendo bastante malo, pero no tan malo como el modelo Phi 3 de Microsoft, que funciona un 65 por ciento peor.

VER TAMBIÉN:

ChatGPT-4, Gemini, MistralAI y más unen fuerzas en esta herramienta de IA personalizada

En el caso del kiwi, las investigaciones han demostrado que los LLM tienden a eliminar cinco kiwis pequeños de la ecuación, sin darse cuenta de que el tamaño del kiwi es irrelevante para el problema. Esto sugiere que “los modelos convierten declaraciones en operaciones sin comprender su significado”, lo que respalda la hipótesis de los investigadores de que LLM busca patrones en problemas de razonamiento en lugar de comprender conceptos de manera innata.

El estudio no discutió sus hallazgos. Probar los modelos con un punto de referencia que contiene información irrelevante “revela un grave déficit en la capacidad de los LLM para identificar información relevante para comprender verdaderamente conceptos matemáticos y resolver problemas”. Sin embargo, cabe señalar que los autores de este estudio trabajan para Apple, un importante competidor de Google, Meta e incluso OpenAI; aunque Apple y OpenAI tienen una asociación, Apple está trabajando en sus propios modelos de IA.

Dicho esto, no se puede ignorar la falta de habilidades de pensamiento formal de los LLM. En última instancia, este es un buen recordatorio para moderar la IA con un saludable escepticismo.

Temas
inteligencia artificial de manzana



Fuente