Estudio de Harvard: ¿Superan los Modelos de IA a Médicos Humanos en Diagnósticos de Emergencia?

Publicado el 04-05-2026 | Categoría: Startups

Un nuevo y alarmante estudio publicado en la revista Science está redefiniendo el panorama de la medicina asistida por tecnología. Investigadores de Harvard Medical School han comparado la capacidad diagnóstica de modelos avanzados de inteligencia artificial con la de médicos humanos en escenarios reales de salas de emergencia.

Descubre cómo Gemini puede transformar tu flujo de trabajo médico

Metodología y Alcance del Estudio

El equipo de investigación, compuesto por médicos y científicos informáticos, llevó a cabo una serie de experimentos rigurosos. El objetivo era medir el rendimiento de los modelos de lenguaje grandes (LLMs), específicamente los modelos o1 y 4o de OpenAI, frente a la experiencia clínica de dos médicos internos.

Los investigadores se enfocaron en 76 pacientes que acudieron a una sala de emergencias. Lo más crucial es que el estudio demostró que los modelos de IA no solo rindieron nominalmente bien, sino que su precisión fue particularmente notable en el primer punto de contacto diagnóstico (el triaje inicial), momento donde la información disponible es mínima y la urgencia de decidir correctamente es máxima.

Reporte completo: Implicaciones éticas y legales de la IA en medicina

Los expertos enfatizaron que los modelos fueron alimentados con datos sin preprocesar, utilizando exactamente la misma información contenida en las historias clínicas electrónicas del momento del diagnóstico. Esto subraya el valor de la integridad de los datos y la capacidad de los LLMs para procesar información cruda.

Este avance plantea preguntas fundamentales sobre el futuro de la atención primaria y cómo la IA puede convertirse en una herramienta indispensable, no solo complementaria, sino potencialmente superior a las guías diagnósticas tradicionales.

Resultados Clave: Precisión Diagnóstica

Los resultados fueron contundentes. El modelo o1 logró ofrecer un diagnóstico exacto o muy cercano en la gran mayoría de los casos de triaje. Los hallazgos se resumen así:

Modelo AI (o1): Ofreció el diagnóstico correcto o casi correcto en 67 de los casos de triaje.
Médico Interno 1: Acertó en 55 de los casos.
Médico Interno 2: Logró la marca correcta en 50 de los casos.

Según Arjun Manrai, uno de los autores principales del estudio y jefe de un laboratorio de IA en Harvard Medical School, ‘El modelo AI superó tanto a los modelos previos como a nuestras líneas base médicas’. Este rendimiento superior en el diagnóstico temprano posiciona a la Inteligencia Artificial como un cambio de paradigma en la salud digital.

Keywords: