Madrid, 8 de abril de 2026. – Realizamos un análisis de un interesante artículo publicado recientemente en el International Journal of Legal Medicine: «Could ChatGPT and co. replace forensic experts? A comparative study on medical liability expertise» (Bérar A, Allain JS, Bouvet R. 2026).
El desarrollo reciente de la inteligencia artificial generativa (IAG) ha despertado un notable interés en su posible aplicación en ámbitos médicos y jurídicos, especialmente en la medicina legal. En este contexto, el artículo analiza la capacidad actual de los modelos de lenguaje para realizar valoraciones periciales en responsabilidad médica, una tarea compleja que requiere no solo conocimientos clínicos, sino también juicio experto en relación con los estándares de práctica médica y su adecuación al caso concreto.
Metodología del estudio
El estudio evalúa el rendimiento de tres modelos de IAG (ChatGPT-4 Turbo, Gemini y Mistral AI) mediante el análisis de nueve casos clínicos ficticios que planteaban posibles situaciones de mala praxis.
-
Cada modelo fue interrogado en cinco ocasiones por caso (135 consultas en total).
-
Se solicitó determinar si la actuación médica se ajustaba a los conocimientos establecidos.
-
Las respuestas se compararon con las conclusiones de un panel de tres expertos en medicina legal y valoración del daño corporal.
Resultados y limitaciones identificadas
Los resultados muestran que, de las 135 respuestas generadas, 86 coincidieron con las conclusiones del panel, lo que supone una concordancia moderada. Sin embargo, el análisis detallado revela limitaciones críticas:
-
Falsos negativos y positivos: La IA falló al detectar errores evidentes (como la prescripción de amoxicilina en un paciente alérgico) y, en otros casos, atribuyó deficiencias inexistentes.
-
Falta de consistencia: Se observó una variabilidad significativa en las respuestas de un mismo modelo ante el mismo caso. Esta inconsistencia es especialmente problemática en el ámbito pericial, donde conclusiones divergentes comprometen la fiabilidad del dictamen.
-
Rendimiento condicionado: Los modelos funcionan adecuadamente en situaciones claras o poco ambiguas, pero su rendimiento disminuye al integrar múltiples variables, interpretar la incertidumbre clínica o considerar el contexto temporal y geográfico.
-
Dependencia de datos y sesgos: La incapacidad para detectar malas prácticas puede deberse a la escasa representación de ciertas recomendaciones en los datos de entrenamiento. Además, las diferencias en guías clínicas según el país representan un desafío adicional para la responsabilidad médica.
Preocupaciones éticas y jurídicas
Desde el punto de vista metodológico, el estudio advierte que el uso de casos ficticios y simplificados podría haber favorecido el rendimiento de los modelos frente a situaciones reales. Asimismo, los autores subrayan preocupaciones de gran calado:
-
El problema de la “caja negra”: La naturaleza opaca de los modelos dificulta la trazabilidad y justificación de las conclusiones, algo incompatible con las exigencias de la prueba pericial.
-
Responsabilidad legal: No existe claridad sobre quién asumiría la responsabilidad en caso de error: el experto, la institución o el desarrollador.
-
Sesgo de automatización: El riesgo de que los profesionales otorguen un peso excesivo a las conclusiones generadas por la IA.
Conclusiones
Como conclusión, aunque la IAG muestra potencial como herramienta de apoyo para el análisis documental, resulta evidente que su uso actual no es adecuado para sustituir al perito médico en la valoración de la responsabilidad sanitaria. Las limitaciones en precisión, consistencia y adecuación al contexto impiden su aplicación directa en la toma de decisiones judiciales.
Los autores proponen, por tanto, un modelo híbrido: la IA como soporte del experto humano, manteniendo siempre este último el control del razonamiento y las conclusiones finales.
Consulta el artículo completo: doi:10.1007/s00414-026-03777-2



