A ver si puedes resolver este problema aritmético:
Oliver recoge 44 kiwis el viernes. Luego, el sábado, recogerán 58 kiwis. El domingo recoge el doble de kiwis que el viernes, pero cinco de ellos eran ligeramente más pequeños que la media. ¿Cuántos kiwis tiene Oliver?
Si respondiste “190”, felicidades: lo hiciste bien, como un estudiante promedio. (El 44 del viernes, el 58 del sábado y el 44 del domingo multiplicados por 2 u 88 son 190.)
También superó a más de 20 modelos de IA de última generación probados por el equipo de investigación de IA de Apple. Los robots de IA siempre lo han hecho mal.
El hecho de que Apple hiciera esto llamó mucho la atención, pero nadie debería sorprenderse por los resultados.
– Crítico de IA Gary Marcus
Cuando el equipo de Apple intentó analizar problemas matemáticos simples escritos en forma de ensayo, descubrieron una “degradación catastrófica del rendimiento” de estos modelos. En este ejemplo, los sistemas encargados de la pregunta a menudo no entendían que el tamaño del kiwi no tenía nada que ver con la cantidad de kiwis que tenía Oliver. Así que algunos han restado el total de cinco kiwis pequeños y han respondido “185”.
Los investigadores dicen que los escolares distinguen mejor entre información relevante y una curva irrelevante.
Hoja informativa
Obtenga las últimas noticias de Michael Hiltzik
Comentario sobre economía y más de un ganador del Premio Pulitzer.
Es posible que reciba contenido promocional de Los Angeles Times de vez en cuando.
Los hallazgos de Apple se publicaron en octubre documento técnico Los resultados han atraído una amplia atención de los laboratorios de inteligencia artificial y de la prensa generalizada, no sólo porque están bien documentados, sino también porque los investigadores trabajan para la principal empresa de consumo de alta tecnología del país y acaban de publicar una serie de conjeturas. Funciones de IA para usuarios de iPhone.
“El hecho de que Apple lo hiciera llamó mucho la atención, pero nadie debería sorprenderse por los resultados”, dice Gary Marcus, quien critica cómo los sistemas de IA se comercializan como confiables e “inteligentes”.
De hecho, el hallazgo de Apple es consistente con estudios previos que han encontrado que los grandes modelos de lenguaje, o LLM, no logran igualar los patrones de lenguaje en el material que reciben como parte de su “entrenamiento”. Según Melanie Mitchell, experta en cognición e inteligencia del Instituto Santa Fe, faltan modelos cuando se trata de razonamiento abstracto, “un aspecto fundamental de la mente humana”.
“Incluso los niños muy pequeños son expertos en aprender reglas abstractas a partir de unos pocos ejemplos” Mitchell y sus colegas escribieron el año pasado Después de someter a los robots de GPT a una serie de acertijos similares. Concluyeron que “queda una gran brecha entre los humanos y los sistemas modernos de IA en el razonamiento abstracto básico”.
Esto es importante porque los LLM como GPT forman la base de productos de inteligencia artificial que han atraído la atención del público. Pero los LLM evaluados por el equipo de Apple se sentían constantemente confundidos por las muestras de lenguaje que les enseñaban.
Los investigadores de Apple preguntaron: “¿Pueden estos modelos realmente comprender conceptos matemáticos?” buscó una respuesta a la pregunta. como dijo uno de los autores principales, Mehrdad Farajtabar Tema sobre x. No tienen respuesta. También se preguntaron si las fallas que identificaron podrían solucionarse fácilmente, y su respuesta fue no: “¿Podría la escala de datos, modelos o computación resolver esto fundamentalmente?” – preguntó Farajtabar en su tema. “¡No lo creemos!”
La investigación de Apple, junto con otros hallazgos sobre las limitaciones mentales de los robots de IA, es un impulso muy necesario para los argumentos de venta de las empresas que trabajan en sus propios modelos y sistemas de IA, incluidos OpenAI y el laboratorio DeepMind de Google.
Los anunciantes suelen presentar sus productos como fiables y su fabricación como fiable. De hecho, sus resultados son constantemente cuestionables y plantean un riesgo claro cuando se utilizan en contextos donde la necesidad de una precisión estricta es absoluta, como en aplicaciones de atención médica.
No siempre. “Hay algunos problemas sobre los que puedes ganar mucho dinero sin resolverlos perfectamente”, me dijo Marcus. Motores de recomendación impulsados por inteligencia artificial, por ejemplo, los de Amazon que dirigen a los clientes a los productos que les gustan. Si estos sistemas se equivocan en la recomendación, no es un gran problema; un cliente puede gastar unos cuantos dólares en un libro que no le gusta.
“Pero una calculadora que sólo funciona el 85% del tiempo es una basura”, afirma Marcus. “No lo usas”.
Es más probable que se obtengan resultados ambiguos debido a las capacidades de lenguaje natural de los robots de IA, que les permiten ofrecer respuestas incluso ridículamente vagas con una arrogancia convincente. A menudo redoblan sus errores cuando se enfrentan a un desafío.
Los investigadores de IA suelen describir estos errores como “alucinaciones”. Estos términos de error pueden parecer casi inofensivos, pero en algunas aplicaciones incluso una pequeña tasa de error puede tener consecuencias graves.
Los investigadores académicos llegaron a esta conclusión. un análisis reciente de WhisperUna herramienta de conversión de voz a texto impulsada por IA desarrollada por OpenAI que se puede utilizar para transcribir discusiones médicas o conversaciones carcelarias supervisadas por funcionarios penitenciarios.
Los investigadores encontraron que en su muestra, alrededor del 1,4 por ciento de los segmentos de audio transcritos de Whisper contenían alucinaciones, incluida “violencia física o muerte”. [or] insinuaciones sexuales y estereotipos demográficos.
Esto puede parecer un defecto menor, pero los investigadores han descubierto que se pueden introducir errores en documentos oficiales, como testimonios judiciales o transcripciones de llamadas telefónicas en la cárcel, lo que puede conducir a condenas oficiales basadas en “declaraciones o acusaciones que el acusado nunca hizo”. ” . “
Las actualizaciones de Whisper a finales de 2023 mejoraron su rendimiento, pero el Whisper actualizado “todavía alucinaba de forma regular y reproducible”, dijeron los investigadores.
Esto no ha disuadido a los promotores de la IA de alardear infundadamente de sus productos. En Tuitea el 29 de octubreElon Musk invitó a sus seguidores a enviar radiografías, PET, resonancias magnéticas u otras imágenes médicas a Grok. [the AI application for his X social media platform] analizar”. Grok, escribió, “ya será muy claro y muy bueno”.
Cabe decir que incluso si Musk dijera la verdad (no es una conclusión del todo clara), cualquier sistema utilizado por los profesionales médicos para analizar imágenes médicas debe ser mejor que “muy bueno”, pero ese estándar se puede definir. .
Esto nos lleva al estudio de Apple. Cabe señalar que los investigadores no critican la inteligencia artificial, pero creen que se deben comprender sus limitaciones. Farajtabar fue anteriormente un científico investigador senior en DeepMind, donde el otro autor realizó una pasantía con él; Otros coautores tienen títulos avanzados y experiencia profesional en informática y aprendizaje automático.
El equipo alimentó sus modelos de IA específicos de cada materia con preguntas extraídas de una colección de más de 8.000 problemas aritméticos en el aula que ponen a prueba la comprensión de los escolares sobre la suma, la resta, la multiplicación y la división. El rendimiento de los modelos cayó drásticamente cuando los problemas incluían elementos aparentemente relevantes pero irrelevantes.
Esto se aplica a todos los modelos, incluidas las versiones de los bots GPT desarrollados por OpenAI, Meta’s Llama. Phi-3 de Microsoft, Google Gemma desarrollado por y varios modelos Laboratorio francés Mistral AI.
Algunos funcionaron mejor que otros, pero todos mostraron una disminución en el rendimiento a medida que los problemas se volvieron más complejos. Un problema fue con una canasta de útiles escolares, incluidos borradores, cuadernos y papel. Para hacer esto, el solucionador debe multiplicar el número de cada artículo por su precio y sumarlos para determinar cuánto cuesta toda la canasta.
Los bots también redujeron los costos en un 10% cuando les dijeron que “los precios bajaron un 10% el año pasado debido a la inflación”. Esta es la respuesta incorrecta porque la pregunta era cuánto costaría la canasta, no el año pasado.
¿Por qué sucedió esto? La respuesta es que los LLM no están diseñados ni se enseñan para enseñarles los principios de las matemáticas, sino más bien brindándoles grandes cantidades de material escrito de trabajos publicados o de Internet. Los LLM funcionan recopilando patrones en los datos y haciendo coincidir el patrón con una pregunta aplicada.
Pero “sobreajustan los datos de entrenamiento”, explica Farajtabar a través de X. “Memorizan lo que hay en Internet, relacionan los patrones y responden basándose en los ejemplos que ven. todavía es un [weak] tipo de pensamiento, pero según otras definiciones no es una capacidad de pensamiento real. (los corchetes son suyos).
Esto puede imponer límites sobre para qué se puede utilizar la inteligencia artificial. En aplicaciones críticas, como dicen los desarrolladores de IA, los humanos casi siempre necesitan estar “fuera de la calle”, para comprobar las respuestas a incertidumbres obvias o peligrosas, o para evitar que los robots malinterpreten sus datos, tergiversando lo que saben y proporcionando instrucciones que impidan su visualización o visualización. relleno. lagunas en el conocimiento con fabricaciones.
En cierto modo, eso es reconfortante, porque significa que los sistemas de inteligencia artificial no pueden lograr mucho sin socios humanos. Pero sí significa que los humanos debemos ser conscientes de la tendencia de los promotores de la IA a exagerar las capacidades de sus productos y ocultar sus limitaciones. No se trata de lo que la IA puede hacer, sino de cómo hacer que los usuarios piensen en lo que puede hacer.
“Estos sistemas siempre fallan, porque las alucinaciones son únicas”, dice Marcus. “Sus formas de pensar no son reales, sino hipotéticas. Y nada de eso va a desaparecer hasta que tengamos nueva tecnología”.