Dies ist eine Übersichtsseite mit Metadaten zu dieser wissenschaftlichen Arbeit. Der vollständige Artikel ist beim Verlag verfügbar.
Evaluación comparativa de modelos de inteligencia artificial de última generación frente a psiquiatras humanos en el examen nacional de subespecialidad en Perú: un estudio transversal
0
Zitationen
3
Autoren
2026
Jahr
Abstract
Evaluar el rendimiento de 4 modelos de inteligencia artificial (IA) de última generación (GPT-5, Claude 4.5 Sonnet, Gemini 2.5 Flash, DeepSeek V3) en las evaluaciones de subespecialidad de psiquiatría, un área aún inexplorada. Se compararon los modelos de IA contra el Examen Nacional de Subespecialidad de Psiquiatría de Perú (2022–2025; n = 400 preguntas) mediante la estrategia zero-shot prompting . El grupo de comparación consistió en 42 psiquiatras licenciados. Todos los modelos superaron el 90% de precisión (rango: 91,0%–94,2%), sin diferencias estadísticamente significativas ( p = 0,32). Los modelos de IA superan consistentemente a los psiquiatras, con brechas medias entre 10,8 y 20,8 puntos porcentuales. Las preguntas de diagnóstico obtuvieron la mayor precisión (95,9%), mientras que los ítems de tratamiento mostraron un rendimiento inferior (88,2%–91,2%). El 83% (10 de 12) de los fallos concurrentes se atribuyeron a problemas en los ítems: 6 por diseño defectuoso o ambiguo, y 4 por conflictos con el consenso médico actual. El rendimiento de la IA iguala o supera al de los psiquiatras en evaluaciones de opción múltiple de conocimiento psiquiátrico. Estos hallazgos sugieren la necesidad de reorientar la evaluación en educación médica hacia competencias de juicio clínico y razonamiento terapéutico. To evaluate the performance of four state-of-the-art AI models (GPT-5, Claude 4.5 Sonnet, Gemini 2.5-Flash, DeepSeek V3) on psychiatry subspecialty assessments, an area that remains relatively unexplored. The AI models were benchmarked against Peru's National Psychiatry Subspecialty Examination (2022–2025, n = 400 questions) using a zero-shot prompting strategy. The comparison group consisted of 42 licensed psychiatrists. All models exceeded 90% accuracy (range: 91.0%–94.2%), with no statistically significant differences between them (p = 0.32). AI models consistently outperformed human psychiatrists, with mean accuracy gaps ranging from 10.8 to 20.8 percentage points. Diagnostic questions yielded the highest accuracy (95.9%), while treatment items showed lower performance (88.2%–91.2%). Among the 12 concurrent model failures, 83% (10/12) were attributed to item construction issues: six to defective or ambiguous design, and four to conflicts with current medical consensus. AI performance matches or exceeds that of psychiatrists on knowledge-based multiple-choice assessments. These findings suggest that medical education assessments should be reoriented toward clinical judgment and therapeutic reasoning competencies.
Ähnliche Arbeiten
Explainable Artificial Intelligence (XAI): Concepts, taxonomies, opportunities and challenges toward responsible AI
2019 · 8.687 Zit.
Stop explaining black box machine learning models for high stakes decisions and use interpretable models instead
2019 · 8.591 Zit.
High-performance medicine: the convergence of human and artificial intelligence
2018 · 8.114 Zit.
BioBERT: a pre-trained biomedical language representation model for biomedical text mining
2019 · 6.867 Zit.
Proceedings of the 19th International Joint Conference on Artificial Intelligence
2005 · 5.781 Zit.