Dies ist eine Übersichtsseite mit Metadaten zu dieser wissenschaftlichen Arbeit. Der vollständige Artikel ist beim Verlag verfügbar.

Evaluación comparativa de modelos de inteligencia artificial de última generación frente a psiquiatras humanos en el examen nacional de subespecialidad en Perú: un estudio transversal

2026·0 Zitationen·Educación MédicaOpen Access

Volltext beim Verlag öffnen

Zitationen

Autoren

2026

Jahr

Abstract

Evaluar el rendimiento de 4 modelos de inteligencia artificial (IA) de última generación (GPT-5, Claude 4.5 Sonnet, Gemini 2.5 Flash, DeepSeek V3) en las evaluaciones de subespecialidad de psiquiatría, un área aún inexplorada. Se compararon los modelos de IA contra el Examen Nacional de Subespecialidad de Psiquiatría de Perú (2022–2025; n = 400 preguntas) mediante la estrategia zero-shot prompting . El grupo de comparación consistió en 42 psiquiatras licenciados. Todos los modelos superaron el 90% de precisión (rango: 91,0%–94,2%), sin diferencias estadísticamente significativas ( p = 0,32). Los modelos de IA superan consistentemente a los psiquiatras, con brechas medias entre 10,8 y 20,8 puntos porcentuales. Las preguntas de diagnóstico obtuvieron la mayor precisión (95,9%), mientras que los ítems de tratamiento mostraron un rendimiento inferior (88,2%–91,2%). El 83% (10 de 12) de los fallos concurrentes se atribuyeron a problemas en los ítems: 6 por diseño defectuoso o ambiguo, y 4 por conflictos con el consenso médico actual. El rendimiento de la IA iguala o supera al de los psiquiatras en evaluaciones de opción múltiple de conocimiento psiquiátrico. Estos hallazgos sugieren la necesidad de reorientar la evaluación en educación médica hacia competencias de juicio clínico y razonamiento terapéutico. To evaluate the performance of four state-of-the-art AI models (GPT-5, Claude 4.5 Sonnet, Gemini 2.5-Flash, DeepSeek V3) on psychiatry subspecialty assessments, an area that remains relatively unexplored. The AI models were benchmarked against Peru's National Psychiatry Subspecialty Examination (2022–2025, n = 400 questions) using a zero-shot prompting strategy. The comparison group consisted of 42 licensed psychiatrists. All models exceeded 90% accuracy (range: 91.0%–94.2%), with no statistically significant differences between them (p = 0.32). AI models consistently outperformed human psychiatrists, with mean accuracy gaps ranging from 10.8 to 20.8 percentage points. Diagnostic questions yielded the highest accuracy (95.9%), while treatment items showed lower performance (88.2%–91.2%). Among the 12 concurrent model failures, 83% (10/12) were attributed to item construction issues: six to defective or ambiguous design, and four to conflicts with current medical consensus. AI performance matches or exceeds that of psychiatrists on knowledge-based multiple-choice assessments. These findings suggest that medical education assessments should be reoriented toward clinical judgment and therapeutic reasoning competencies.

Autoren

Institutionen

Themen

Artificial Intelligence in Healthcare and EducationGeological and Tectonic Studies in Latin AmericaScientific Research and Technology

Volltext beim Verlag öffnen

Evaluación comparativa de modelos de inteligencia artificial de última generación frente a psiquiatras humanos en el examen nacional de subespecialidad en Perú: un estudio transversal

Abstract

Ähnliche Arbeiten

Autoren

Institutionen

Themen