Una auditoría internacional a cinco de los chatbots de inteligencia artificial más utilizados encontró que el 50 % de las respuestas sobre salud presentaban problemas de precisión o rigor científico. Los investigadores advierten que algunas recomendaciones podrían inducir a tratamientos ineficaces o decisiones perjudiciales para los pacientes.

Los chats de inteligencia artificial generativa se han convertido en una herramienta habitual para buscar información médica. Sin embargo, una investigación publicada en la revista BMJ Open advierte que confiar en estos sistemas para obtener consejos de salud puede representar riesgos importantes debido a errores, referencias deficientes y respuestas presentadas con excesiva seguridad.
El estudio fue liderado por investigadores del Instituto Lundquist para la Innovación Biomédica, en Estados Unidos, y analizó el desempeño de cinco de los modelos de IA más utilizados actualmente: Gemini, DeepSeek, Meta AI, ChatGPT y Grok.
Para medir su fiabilidad, los científicos diseñaron un protocolo de 250 consultas relacionadas con cinco áreas consideradas críticas: cáncer, vacunas, células madre, nutrición y rendimiento deportivo. Las preguntas fueron formuladas para simular búsquedas habituales de los usuarios y, en algunos casos, para poner a prueba la reacción de los modelos ante mitos o consejos potencialmente dañinos.
Los resultados mostraron que el 50 % de las respuestas fueron clasificadas como "algo problemáticas" o "altamente problemáticas".
Según la investigación, el 20 % de las respuestas analizadas fueron catalogadas como altamente problemáticas debido a su potencial para orientar a los usuarios hacia tratamientos ineficaces o provocar daños directos a la salud si se siguen sin supervisión profesional.
Los autores señalan que uno de los principales riesgos radica en la forma en que los chatbots presentan la información, ya que suelen responder con un tono de certeza y sin advertencias claras sobre las limitaciones de sus conocimientos.
Nicholas Tiller, investigador principal del estudio, explicó que muchas personas perciben a estos sistemas como fuentes de conocimiento prácticamente ilimitadas, cuando en realidad funcionan prediciendo secuencias de palabras a partir de grandes volúmenes de información.
De acuerdo con el especialista, los modelos no tienen la capacidad intrínseca de verificar datos ni de determinar qué fuentes son más fiables que otras. Esta limitación puede llevarlos a presentar información científica y afirmaciones pseudocientíficas con un nivel de confianza similar.
Entre los sistemas evaluados, Grok, desarrollado por xAI, registró el desempeño más preocupante: el 58 % de sus respuestas fueron clasificadas como altamente problemáticas.
Por el contrario, Gemini presentó la menor cantidad de fallos críticos. No obstante, los investigadores subrayan que todos los modelos mostraron dificultades importantes en aspectos clave relacionados con la calidad y comprensión de la información.
La auditoría encontró que las respuestas de los chatbots suelen estar redactadas con un nivel de complejidad equivalente al de un graduado universitario.
Según Tiller, este exceso de tecnicismos puede dificultar la comprensión del público general y afectar la toma de decisiones relacionadas con la salud. Además, advirtió que las respuestas más extensas y complejas tienden a generar una mayor confianza en los usuarios, incluso cuando no son necesariamente más precisas.
Otro de los hallazgos relevantes fue la baja calidad de las referencias bibliográficas proporcionadas por los sistemas analizados.
La investigación determinó que la integridad promedio de las citas fue de apenas el 40%. Ninguno de los chatbots logró ofrecer una lista de referencias completamente real y, en numerosos casos, se detectaron "alucinaciones", es decir, la invención de títulos de estudios, autores o publicaciones con apariencia de autenticidad.
Los autores concluyen que el crecimiento del uso de los chatbots en temas de salud hace necesaria una mayor educación pública, capacitación profesional y supervisión regulatoria.
Según el equipo investigador, sin estos mecanismos existe el riesgo de que la inteligencia artificial generativa contribuya a amplificar la desinformación médica y debilitar la confianza en la evidencia científica, en lugar de convertirse en una herramienta de apoyo para la población.