La Inteligencia Artificial erró el 50 por ciento de las respuestas médicas

Un estudio sobre las respuestas de la Inteligencia Artificial sobre consultas médicas arrojó resultados alarmantes, erró en el 50 por ciento de las consultas

Una investigación internacional reveló que confiar en las consultas de Inteligencia Artificial para obtener consejos de salud puede ser una apuesta arriesgada y en la mitad de los casos, lo que es peor, errada.

El estudio, liderado por investigadores del Instituto Lundquist para la Innovación Biomédica, en Estados Unidos, evaluó el desempeño de cinco de los modelos de Inteligencia Artifcial más utilizados en la actualidad: Gemini (Google), DeepSeek, Meta AI, ChatGPT (OpenAI) y Grok (xAI).

Los resultados revelaron que la mitad de las respuestas a preguntas basadas en evidencia científica se clasificaron como "algo" o "altamente" problemáticas.

Para poner a prueba la fiabilidad de estos sistemas, los científicos diseñaron 250 consultas divididas en cinco categorías críticas:

  • cáncer
  • vacunas
  • células madre
  • nutrición
  • rendimiento deportivo

De esa manera, las preguntas fueron formuladas para imitar las búsquedas comunes de los usuarios y, en algunos casos, para ‘estresar’ a los modelos hacia mitos comunes o consejos contraindicados.

El análisis determinó que el 20% de las respuestas eran altamente problemáticas, con el potencial de dirigir a los usuarios hacia tratamientos ineficaces o causar daños directos a la salud si se seguían sin supervisión profesional.

Uno de los aspectos más alarmantes que revela la investigación es la seguridad con la que las IA presentan la información, ya que las respuestas se expresan habitualmente con un tono de certeza absoluta, sin incluir advertencias o matices sobre las limitaciones de su conocimiento, destacan desde la agencia Sinc.

Esta falsa neutralidad, que suele equiparar afirmaciones científicas con pseudociencias, no es una decisión editorial, sino una limitación propia de la arquitectura de estos modelos, explican.

Al estar diseñados para predecir secuencias de palabras basadas en vastos conjuntos de datos, que incluyen desde artículos científicos hasta foros de Reddit, los modelos carecen de la capacidad intrínseca para verificar la información. "No pueden aplicar evidencia ni ponderar qué fuentes son precisas y cuáles no. Por eso ese falso equilibrio es tan común", indica Nicholas Tiller, autor principal del estudio.

Además, el investigador señaló un fenómeno psicológico preocupante: las respuestas más largas y complejas tienden a aumentar la confianza del usuario en la máquina, incluso cuando esa complejidad no aporta mayor precisión, lo cual "promueve una falsa credibilidad", sentencia el autor.

La incapacidad de los chatbots para citar fuentes de manera fiable fue otro punto crítico identificado por los investigadores. La calidad de las referencias fue calificada como pobre, con una puntuación media de integridad de apenas el 40%.

El peor chatbot que dio resultados muy negativos

El estudio revela que Grok, de la compañía xAI, obtuvo los peores resultados: el 58 % de sus respuestas fueron clasificadas como altamente problemáticas. Por el contrario, Gemini presentó el menor número de fallos críticos, según aseguraron.

Todos los modelos fallaron en un punto clave: la accesibilidad. Según el índice de legibilidad de Flesch, la complejidad del lenguaje utilizado es equivalente a la de un graduado universitario, algo que supone un peligro para la salud pública.

Fuente: iprofesional.com

MÁS LEÍDAS

Temas relacionados