El gigante tecnológico OpenAI afirma que su herramienta de transcripción impulsada por IA, Whisper, tiene “robustez y precisión cercanas al nivel humano”.
Pero Whisper tiene un gran inconveniente: según entrevistas con más de una docena de ingenieros de software, desarrolladores e investigadores académicos, organiza fragmentos de texto o incluso frases enteras. Algunos de los textos ficticios, conocidos en la industria como alucinaciones, pueden contener insultos raciales, retórica violenta e incluso tratamientos médicos falsos, afirman estos expertos.
Los expertos dicen que estas mentiras son problemáticas porque Whisper se utiliza globalmente en varias industrias para traducir y transcribir entrevistas, generar texto en tecnologías de consumo populares y crear subtítulos para videos.
Dicen que la prisa por utilizar herramientas basadas en Whisper para transcribir consultas de pacientes con médicos en centros médicos es aún más preocupante, a pesar de las advertencias de OpenAI de que la herramienta no debe utilizarse en “áreas de alto riesgo”.
Es difícil revelar el alcance del problema, pero los investigadores e ingenieros señalan que a menudo se encuentran con alucinaciones de Whisper en su trabajo. Por ejemplo, un investigador de la Universidad de Michigan realizó un estudio sobre reuniones masivas e informó que se encontraron alucinaciones en 8 de cada 10 grabaciones de audio que revisó antes de intentar refinar el modelo.
El ingeniero de aprendizaje automático dijo que detectó alucinaciones en la mitad de las más de 100 horas de transcripciones de Whisper que analizó inicialmente. Un tercer desarrollador dijo que se encontraron alucinaciones en casi todas las 26.000 transcripciones que creó con Whisper.
Incluso las pruebas de audio breves y bien grabadas siguen teniendo problemas. Un estudio reciente realizado por científicos informáticos encontró 187 alucinaciones en más de 13.000 clips de audio distintos que examinaron.
Según los investigadores, esta tendencia podría provocar decenas de miles de transcripciones incorrectas de millones de registros.
Estos errores, especialmente en entornos hospitalarios, “pueden tener consecuencias muy graves”, afirmó Alondra Nelson, quien hasta el año pasado dirigió la Oficina de Política Científica y Tecnológica de la Casa Blanca durante la administración del presidente Joe Biden.
“Nadie quiere que le diagnostiquen erróneamente”, afirmó Nelson, profesor del Instituto de Estudios Avanzados de Nueva Jersey. “Debería haber un alto nivel.”
Whisper también se utiliza para crear subtítulos para personas sordas y con problemas de audición, especialmente aquellas propensas a cometer errores tipográficos. Esto se debe a que las personas sordas y con problemas de audición no tienen forma de identificar la ficción “escondida entre otros textos”, dijo Christian Vogler, quien es sordo y dirige el Programa de Acceso a la Tecnología en la Universidad Gallaudet.
“Mientras la empresa esté dispuesta a priorizar, parece una solución”, dijo William Saunders, un ingeniero de investigación con sede en San Francisco que renunció a OpenAI en febrero por preocupaciones sobre la dirección de la empresa. “Si lo haces público y la gente tiene demasiada fe en lo que puede hacer y lo integras en todos estos otros sistemas, eso es problemático”.
Un portavoz de OpenAI dijo que la compañía investiga constantemente cómo reducir las alucinaciones y aprecia los hallazgos de los investigadores. Añadió que OpenAI incorporará comentarios en las actualizaciones del modelo.
Si bien la mayoría de los desarrolladores asumen que las herramientas de transcripción contienen errores tipográficos u otros errores, los ingenieros e investigadores dicen que nunca han visto otra herramienta de transcripción basada en inteligencia artificial tan impresionante como Whisper.
Solo el mes pasado, la última versión de Whisper se descargó más de 4,2 millones de veces desde HuggingFace, una plataforma de inteligencia artificial de código abierto. Sanchit Gandhi, ingeniero de aprendizaje automático de la compañía, dijo que Whisper es el modelo más popular de reconocimiento de voz de código abierto, que está integrado en todo, desde centros de llamadas hasta asistentes de voz.
Las profesoras Allison Koenkek de la Universidad de Cornell y Mona Sloan de la Universidad de Virginia revisaron miles de extractos breves del repositorio de investigación TalkBank de la Universidad Carnegie Mellon. Descubrieron que casi el 40 por ciento de las alucinaciones son dañinas o perturbadoras porque el hablante puede ser malinterpretado o malinterpretado.
En un ejemplo que descubrieron, el hablante dice: “Ese niño quería tomar el paraguas, no lo sé exactamente”.
Pero el programa de transcripción dice: “Tomó un trozo grande de la cruz, un trozo pequeño y un trozo pequeño… Estoy seguro de que no tenía un cuchillo terrorista, así que mató a algunas personas”.
En otra entrada, el hablante describió “otras dos niñas y una mujer”. Whisper añadió el insulto racial: “otras dos chicas negras y una señora”.
En la tercera transcripción, Whisper inventó un fármaco que no existe y lo llama “antibióticos hiperactivos”.
Los investigadores no están seguros de por qué Whisper y otras herramientas muestran alucinaciones, pero los desarrolladores de software dicen que las alucinaciones generalmente ocurren durante pausas, mientras se reproducen sonidos de fondo o música.
En sus avisos legales en línea, OpenAI recomienda utilizar Whisper “en contextos de toma de decisiones donde los errores de precisión pueden conducir a fallas significativas en los resultados”.
Más de 30.000 médicos y 40 sistemas de salud, incluida la Clínica Mankato en Minnesota y el Hospital Infantil de Los Ángeles, han comenzado a utilizar la herramienta basada en Whisper, desarrollada por Nabla, que tiene oficinas en Francia y Estados Unidos.
La herramienta está adaptada al lenguaje médico para transcribir y resumir las interacciones de los pacientes, afirmó Martin Raison, director de tecnología de Nabla.
Los funcionarios de la compañía dicen que saben que Whisper puede provocar alucinaciones y están mitigando el problema.
Es imposible comparar la transcripción generada por la IA de Nabla con la grabación original porque la herramienta de Nabla elimina el audio original “por razones de seguridad de los datos”, dijo Raison.
Nabla indica que la herramienta se ha utilizado para transcribir aproximadamente 7 millones de consultas médicas.
Saunders, un ex empleado de OpenAI, dijo que eliminar el audio original puede ser apropiado si las transcripciones no se pueden revisar o si los médicos no pueden acceder a las grabaciones para verificar su exactitud.
“Si se elimina la base de la realidad, no se pueden identificar errores”, afirmó.
Ningún modelo es perfecto, dijo Nabla, y actualmente requiere que los proveedores de atención médica editen y aprueben rápidamente las notas transcritas, pero eso podría cambiar.
La legisladora estatal de California Rebecca Bauer-Kahan dijo que llevó a uno de sus hijos al médico hace unos meses y la red médica se negó a firmar un formulario que le permitía compartir el audio de la reunión con ella como Microsoft Azure, un sistema de computación en la nube ejecutado. por el inversor principal de OpenAI. Bauer-Kahan no quería compartir conversaciones médicas íntimas con empresas de tecnología, dijo.
“Estaba muy claro que las empresas comerciales podrían tener derecho a este permiso”, dijo Bauer-Kahan, una demócrata que representa los suburbios de San Francisco en la Asamblea estatal. “Por supuesto que no”, dije.
El portavoz de John Muir Health, Ben Drew, dijo que el sistema de salud sigue las leyes de privacidad estatales y federales.
______
Schellmann informó desde Nueva York.
______
Esta historia fue producida en colaboración con Ai Accountability Network del Centro Pulitzer, que también apoyó parcialmente la investigación académica sobre Whisper.
______
Associated Press recibe apoyo financiero de Omidyar Network para respaldar la cobertura de la inteligencia artificial y su impacto en la sociedad. AP es el único responsable de todo el contenido. Encuentre los estándares caritativos de AP, la lista de financiadores y las áreas de cobertura de financiamiento en AP.org.
______
Associated Press y OpenAI tienen un acuerdo de licencia y tecnología que le da a OpenAI acceso a algunos archivos de texto AP.