Estudio alerta que 50% de las respuestas médicas de la IA son imprecisas o potencialmente peligrosas

Una auditoría internacional a cinco de los chatbots de inteligencia artificial más utilizados encontró que el 50 % de las respuestas sobre salud presentaban problemas de precisión o rigor científico. Los investigadores advierten que algunas recomendaciones podrían inducir a tratamientos ineficaces o decisiones perjudiciales para los pacientes.

Andrea Bazurto Gutiérrez

Junio 14, 2026 | | Tiempo De Lectura: 4 min

Comparte en:

Estudio alerta que 50% de las respuestas médicas de la IA son imprecisas o potencialmente peligrosas

Estudio encontró que el 50 % de las respuestas médicas generadas por inteligencia artificial eran imprecisas o potencialmente peligrosas.

Los chats de inteligencia artificial generativa se han convertido en una herramienta habitual para buscar información médica. Sin embargo, una investigación publicada en la revista BMJ Open advierte que confiar en estos sistemas para obtener consejos de salud puede representar riesgos importantes debido a errores, referencias deficientes y respuestas presentadas con excesiva seguridad.

Evaluaron cinco de los modelos más populares

Noticias relacionadas

Un nuevo método científico permite distinguir los auténticos cuadros de Van Gogh de las falsificaciones

junio 13, 2026

El Niño podría formarse entre junio y agosto con 80 % de probabilidad y aumentar el clima extremo

junio 07, 2026

Semaglutida y tirzepatida podrían reducir el riesgo de cirugía de rodilla, según estudio

junio 03, 2026

El estudio fue liderado por investigadores del Instituto Lundquist para la Innovación Biomédica, en Estados Unidos, y analizó el desempeño de cinco de los modelos de IA más utilizados actualmente: Gemini, DeepSeek, Meta AI, ChatGPT y Grok.

Para medir su fiabilidad, los científicos diseñaron un protocolo de 250 consultas relacionadas con cinco áreas consideradas críticas: cáncer, vacunas, células madre, nutrición y rendimiento deportivo. Las preguntas fueron formuladas para simular búsquedas habituales de los usuarios y, en algunos casos, para poner a prueba la reacción de los modelos ante mitos o consejos potencialmente dañinos.

Los resultados mostraron que el 50 % de las respuestas fueron clasificadas como "algo problemáticas" o "altamente problemáticas".

Uno de cada cinco resultados podría generar daños

Según la investigación, el 20 % de las respuestas analizadas fueron catalogadas como altamente problemáticas debido a su potencial para orientar a los usuarios hacia tratamientos ineficaces o provocar daños directos a la salud si se siguen sin supervisión profesional.

Los autores señalan que uno de los principales riesgos radica en la forma en que los chatbots presentan la información, ya que suelen responder con un tono de certeza y sin advertencias claras sobre las limitaciones de sus conocimientos.

Los modelos no distinguen de forma fiable entre evidencia y desinformación

Nicholas Tiller, investigador principal del estudio, explicó que muchas personas perciben a estos sistemas como fuentes de conocimiento prácticamente ilimitadas, cuando en realidad funcionan prediciendo secuencias de palabras a partir de grandes volúmenes de información.

De acuerdo con el especialista, los modelos no tienen la capacidad intrínseca de verificar datos ni de determinar qué fuentes son más fiables que otras. Esta limitación puede llevarlos a presentar información científica y afirmaciones pseudocientíficas con un nivel de confianza similar.

Grok obtuvo los peores resultados del análisis

Entre los sistemas evaluados, Grok, desarrollado por xAI, registró el desempeño más preocupante: el 58 % de sus respuestas fueron clasificadas como altamente problemáticas.

Por el contrario, Gemini presentó la menor cantidad de fallos críticos. No obstante, los investigadores subrayan que todos los modelos mostraron dificultades importantes en aspectos clave relacionados con la calidad y comprensión de la información.

El lenguaje técnico también representa un riesgo

La auditoría encontró que las respuestas de los chatbots suelen estar redactadas con un nivel de complejidad equivalente al de un graduado universitario.

Según Tiller, este exceso de tecnicismos puede dificultar la comprensión del público general y afectar la toma de decisiones relacionadas con la salud. Además, advirtió que las respuestas más extensas y complejas tienden a generar una mayor confianza en los usuarios, incluso cuando no son necesariamente más precisas.

Referencias incompletas y citas inventadas

Otro de los hallazgos relevantes fue la baja calidad de las referencias bibliográficas proporcionadas por los sistemas analizados.

La investigación determinó que la integridad promedio de las citas fue de apenas el 40%. Ninguno de los chatbots logró ofrecer una lista de referencias completamente real y, en numerosos casos, se detectaron "alucinaciones", es decir, la invención de títulos de estudios, autores o publicaciones con apariencia de autenticidad.

Llamado a una mayor supervisión

Los autores concluyen que el crecimiento del uso de los chatbots en temas de salud hace necesaria una mayor educación pública, capacitación profesional y supervisión regulatoria.

Según el equipo investigador, sin estos mecanismos existe el riesgo de que la inteligencia artificial generativa contribuya a amplificar la desinformación médica y debilitar la confianza en la evidencia científica, en lugar de convertirse en una herramienta de apoyo para la población.