Una herramienta de transcripción de IA utilizada en hospitales inventa textos, dicen los investigadores

El gigante tecnológico OpenAI afirma que su herramienta de transcripción impulsada por IA, Whisper, tiene “robustez y precisión cercanas al nivel humano”.

Pero Whisper tiene un gran inconveniente: según entrevistas con más de una docena de ingenieros de software, desarrolladores e investigadores académicos, organiza fragmentos de texto o incluso frases enteras. Algunos de los textos ficticios, conocidos en la industria como alucinaciones, pueden contener insultos raciales, retórica violenta e incluso tratamientos médicos falsos, afirman estos expertos.

Los expertos dicen que estas mentiras son problemáticas porque Whisper se utiliza globalmente en varias industrias para traducir y transcribir entrevistas, generar texto en tecnologías de consumo populares y crear subtítulos para videos.

Dicen que la prisa por utilizar herramientas basadas en Whisper para transcribir consultas de pacientes con médicos en centros médicos es aún más preocupante, a pesar de las advertencias de OpenAI de que la herramienta no debe utilizarse en “áreas de alto riesgo”.

Es difícil revelar el alcance del problema, pero los investigadores e ingenieros señalan que a menudo se encuentran con alucinaciones de Whisper en su trabajo. Por ejemplo, un investigador de la Universidad de Michigan realizó un estudio sobre reuniones masivas e informó que se encontraron alucinaciones en 8 de cada 10 grabaciones de audio que revisó antes de intentar refinar el modelo.

El ingeniero de aprendizaje automático dijo que detectó alucinaciones en la mitad de las más de 100 horas de transcripciones de Whisper que analizó inicialmente. Un tercer desarrollador dijo que se encontraron alucinaciones en casi todas las 26.000 transcripciones que creó con Whisper.

Incluso las pruebas de audio breves y bien grabadas siguen teniendo problemas. Un estudio reciente realizado por científicos informáticos encontró 187 alucinaciones en más de 13.000 clips de audio distintos que examinaron.

Según los investigadores, esta tendencia podría provocar decenas de miles de transcripciones incorrectas de millones de registros.

Estos errores, especialmente en entornos hospitalarios, “pueden tener consecuencias muy graves”, afirmó Alondra Nelson, quien hasta el año pasado dirigió la Oficina de Política Científica y Tecnológica de la Casa Blanca durante la administración del presidente Joe Biden.

“Nadie quiere que le diagnostiquen erróneamente”, afirmó Nelson, profesor del Instituto de Estudios Avanzados de Nueva Jersey. “Debería haber un alto nivel.”

Whisper también se utiliza para crear subtítulos para personas sordas y con problemas de audición, especialmente aquellas propensas a cometer errores tipográficos. Esto se debe a que las personas sordas y con problemas de audición no tienen forma de identificar la ficción “escondida entre otros textos”, dijo Christian Vogler, quien es sordo y dirige el Programa de Acceso a la Tecnología en la Universidad Gallaudet.

Piden a OpenAI que solucione el problemaLa prevalencia de este tipo de alucinaciones ha llevado a expertos, activistas y ex empleados de OpenAI a pedir al gobierno que revise las regulaciones sobre IA. Argumentan que, como mínimo, OpenIA debería solucionar el nuevo defecto.

“Mientras la empresa esté dispuesta a priorizar, parece una solución”, dijo William Saunders, un ingeniero de investigación con sede en San Francisco que renunció a OpenAI en febrero por preocupaciones sobre la dirección de la empresa. “Si lo haces público y la gente tiene demasiada fe en lo que puede hacer y lo integras en todos estos otros sistemas, eso es problemático”.

Un portavoz de OpenAI dijo que la compañía investiga constantemente cómo reducir las alucinaciones y aprecia los hallazgos de los investigadores. Añadió que OpenAI incorporará comentarios en las actualizaciones del modelo.

Si bien la mayoría de los desarrolladores asumen que las herramientas de transcripción contienen errores tipográficos u otros errores, los ingenieros e investigadores dicen que nunca han visto otra herramienta de transcripción basada en inteligencia artificial tan impresionante como Whisper.

Alucinaciones susurrantesLa herramienta es una oferta que se integra con algunas versiones de ChatGPT, los chatbots exclusivos de OpenAI, y se puede agregar a las plataformas de computación en la nube de Oracle y Microsoft que prestan servicios a miles de empresas en todo el mundo. También se utiliza para transcribir y traducir texto en diferentes idiomas.

Solo el mes pasado, la última versión de Whisper se descargó más de 4,2 millones de veces desde HuggingFace, una plataforma de inteligencia artificial de código abierto. Sanchit Gandhi, ingeniero de aprendizaje automático de la compañía, dijo que Whisper es el modelo más popular de reconocimiento de voz de código abierto, que está integrado en todo, desde centros de llamadas hasta asistentes de voz.

Las profesoras Allison Koenkek de la Universidad de Cornell y Mona Sloan de la Universidad de Virginia revisaron miles de extractos breves del repositorio de investigación TalkBank de la Universidad Carnegie Mellon. Descubrieron que casi el 40 por ciento de las alucinaciones son dañinas o perturbadoras porque el hablante puede ser malinterpretado o malinterpretado.

En un ejemplo que descubrieron, el hablante dice: “Ese niño quería tomar el paraguas, no lo sé exactamente”.

Pero el programa de transcripción dice: “Tomó un trozo grande de la cruz, un trozo pequeño y un trozo pequeño… Estoy seguro de que no tenía un cuchillo terrorista, así que mató a algunas personas”.

En otra entrada, el hablante describió “otras dos niñas y una mujer”. Whisper añadió el insulto racial: “otras dos chicas negras y una señora”.

En la tercera transcripción, Whisper inventó un fármaco que no existe y lo llama “antibióticos hiperactivos”.

Los investigadores no están seguros de por qué Whisper y otras herramientas muestran alucinaciones, pero los desarrolladores de software dicen que las alucinaciones generalmente ocurren durante pausas, mientras se reproducen sonidos de fondo o música.

En sus avisos legales en línea, OpenAI recomienda utilizar Whisper “en contextos de toma de decisiones donde los errores de precisión pueden conducir a fallas significativas en los resultados”.

Transcripción de citas médicas.Las advertencias no han impedido que los hospitales o centros médicos utilicen modelos de conversión de audio a texto como Whisper para registrar lo que se dice durante las consultas médicas, de modo que los proveedores médicos dediquen menos tiempo a tomar notas o escribir informes.

Más de 30.000 médicos y 40 sistemas de salud, incluida la Clínica Mankato en Minnesota y el Hospital Infantil de Los Ángeles, han comenzado a utilizar la herramienta basada en Whisper, desarrollada por Nabla, que tiene oficinas en Francia y Estados Unidos.

La herramienta está adaptada al lenguaje médico para transcribir y resumir las interacciones de los pacientes, afirmó Martin Raison, director de tecnología de Nabla.

Los funcionarios de la compañía dicen que saben que Whisper puede provocar alucinaciones y están mitigando el problema.

Es imposible comparar la transcripción generada por la IA de Nabla con la grabación original porque la herramienta de Nabla elimina el audio original “por razones de seguridad de los datos”, dijo Raison.

Nabla indica que la herramienta se ha utilizado para transcribir aproximadamente 7 millones de consultas médicas.

Saunders, un ex empleado de OpenAI, dijo que eliminar el audio original puede ser apropiado si las transcripciones no se pueden revisar o si los médicos no pueden acceder a las grabaciones para verificar su exactitud.

“Si se elimina la base de la realidad, no se pueden identificar errores”, afirmó.

Ningún modelo es perfecto, dijo Nabla, y actualmente requiere que los proveedores de atención médica editen y aprueben rápidamente las notas transcritas, pero eso podría cambiar.

Problemas de privacidadDebido a que las citas de los pacientes con sus médicos son confidenciales, es difícil saber cómo les afectarán las transcripciones generadas por IA.

La legisladora estatal de California Rebecca Bauer-Kahan dijo que llevó a uno de sus hijos al médico hace unos meses y la red médica se negó a firmar un formulario que le permitía compartir el audio de la reunión con ella como Microsoft Azure, un sistema de computación en la nube ejecutado. por el inversor principal de OpenAI. Bauer-Kahan no quería compartir conversaciones médicas íntimas con empresas de tecnología, dijo.

“Estaba muy claro que las empresas comerciales podrían tener derecho a este permiso”, dijo Bauer-Kahan, una demócrata que representa los suburbios de San Francisco en la Asamblea estatal. “Por supuesto que no”, dije.

El portavoz de John Muir Health, Ben Drew, dijo que el sistema de salud sigue las leyes de privacidad estatales y federales.

______

Schellmann informó desde Nueva York.

______

Esta historia fue producida en colaboración con Ai Accountability Network del Centro Pulitzer, que también apoyó parcialmente la investigación académica sobre Whisper.

______

Associated Press recibe apoyo financiero de Omidyar Network para respaldar la cobertura de la inteligencia artificial y su impacto en la sociedad. AP es el único responsable de todo el contenido. Encuentre los estándares caritativos de AP, la lista de financiadores y las áreas de cobertura de financiamiento en AP.org.

______

Associated Press y OpenAI tienen un acuerdo de licencia y tecnología que le da a OpenAI acceso a algunos archivos de texto AP.

Fuente