La implementación de herramientas de inteligencia artificial en el ámbito médico ha traído grandes beneficios, pero también nuevos desafíos. Un ejemplo es Whisper, un sistema de transcripción desarrollado por OpenAI y utilizado ampliamente en consultas médicas para grabar y resumir las interacciones entre pacientes y médicos.
Aunque Whisper de OpenAI es valorado por su eficiencia, investigaciones recientes han mostrado un preocupante fenómeno: en ocasiones, esta herramienta presenta «alucinaciones» o inventa información, generando frases sin sentido o incluso diagnósticos inexistentes.
Uso de Whisper de OpenAI en el sector médico
Whisper es una herramienta de transcripción de OpenAI utilizada en hospitales y clínicas para optimizar el registro de consultas médicas. Los médicos emplean esta tecnología para agilizar la creación de registros médicos sin necesidad de anotar cada detalle manualmente.
En muchos casos, como muestran testimonios de médicos, Whisper ha sido útil para documentar información relevante y permite dedicar más tiempo a la atención directa del paciente.
Sin embargo, las alucinaciones de Whisper, donde el sistema crea información no basada en lo que realmente se dijo en la consulta, plantean serias preocupaciones sobre la precisión y la seguridad de los registros médicos.
Implementación por Nabla y alcance en el sector
La empresa Nabla es una de las principales impulsoras del uso de Whisper en entornos médicos, con una estimación de 7 millones de conversaciones transcritas gracias a esta herramienta.
Más de 30,000 médicos y 40 sistemas de salud han implementado Whisper en sus flujos de trabajo diarios, y su uso se ha extendido en clínicas y hospitales de distintas especialidades.
A pesar de su éxito en términos de adopción, Nabla es consciente de que Whisper puede presentar errores al transcribir información médica. Por ello, actualmente trabaja en soluciones para abordar estos problemas de precisión y reducir los riesgos de «alucinaciones» en sus registros.
Estudio sobre errores en las transcripciones de Whisper
Un estudio realizado por investigadores de las universidades de Cornell y Washington reveló que Whisper presenta una tasa de error del 1 % en sus transcripciones, en las que inventa frases sin relación con la consulta médica, algunas de contenido violento o absurdo.
Este fenómeno ocurre principalmente durante los momentos de silencio en las grabaciones. Siendo esto un problema particular en conversaciones con pacientes que sufren afasia, un trastorno del lenguaje caracterizado por pausas frecuentes.
Estas alucinaciones representan un riesgo, ya que pueden introducir datos incorrectos en los historiales clínicos, afectando el diagnóstico y tratamiento adecuado de los pacientes.
Casos de inventos y frases no médicas. Whisper, dice: «¡Gracias por ver el video!»
Además de errores de transcripción médica, Whisper ha demostrado incluir frases completamente fuera de contexto. Por ejemplo, como “¡Gracias por ver el video!”, expresión que normalmente no encontraríamos en una consulta médica.
Este problema surge, en parte, porque OpenAI entrenó al modelo con una vasta cantidad de transcripciones de videos de YouTube. Aunque esta base de datos masiva ha sido útil para entrenar a Whisper, también ha introducido sesgos y frases irrelevantes.
Declaración de OpenAI y recomendaciones de uso Whisper
OpenAI ha reconocido públicamente el problema de las alucinaciones en Whisper. La portavoz de OpenAI, Taya Christianson, afirmó que la empresa está trabajando en reducir la cantidad de alucinaciones en sus modelos. Además, existen políticas de uso que limitan el empleo de Whisper en decisiones de alto riesgo.
Asimismo, OpenAI ha incorporado advertencias en la documentación de Whisper sobre el uso de la herramienta en entornos sensibles. De este modo, sugiere a los usuarios emplearla con precaución en campos como la medicina.
Whisper de OpenAI representa un avance en la transcripción automatizada, pero su implementación en el ámbito médico requiere una atención rigurosa debido a sus «alucinaciones».
Vía The Verge