OpenAlex · Aktualisierung stündlich · Letzte Aktualisierung: 19.05.2026, 00:29

Dies ist eine Übersichtsseite mit Metadaten zu dieser wissenschaftlichen Arbeit. Der vollständige Artikel ist beim Verlag verfügbar.

Can Large Language Models Be a Viable Tool for Consensus Working Groups? Experience of the Ventral Rectopexy Expert Consensus Group

2026·0 Zitationen·Diseases of the Colon & Rectum
Volltext beim Verlag öffnen

0

Zitationen

16

Autoren

2026

Jahr

Abstract

BACKGROUND: The Ventral Rectopexy International Expert Panel recently published a consensus update on ventral rectopexy. The ability of large language models to synthesize the literature on ventral rectopexy without an explicit knowledge base was studied before the publication of the consensus. OBJECTIVE: To compare the responses and citations of different large language models on ventral rectopexy using the expert panel consensus as the reference standard. DESIGN: ChatGPT-4o, Gemini 1.5 Pro, and OpenEvidence were compared on content appropriateness (1 = inappropriate to 5 = appropriate), readability (Flesch reading ease), response length, citation fabrication, and citation quality per Oxford Levels of Evidence. The most content-appropriate chatbot response selected by the expert panel was de-identified and presented alongside the consensus text to 15 colorectal surgeons who attempted to identify the chatbot-generated text. SETTINGS: Questions were submitted from September 18 to 19, 2024. Analysis was performed before the online publication of the consensus on January 30, 2025. MAIN OUTCOME MEASURES: The main outcome measures included content appropriateness, fabricated citation rate, citation quality, and the accuracy of identifying human versus chatbot text by colorectal surgeons. RESULTS: OpenEvidence ranked highest for content appropriateness (mean 3.5/5), above Gemini (3.0/5) and ChatGPT (2.8/5; p < 0.001). ChatGPT was most verbose with the highest readability scores ( p = 0.021). ChatGPT fabricated 53% of citations; Gemini fabricated 12%; OpenEvidence fabricated 0% ( p < 0.001). All OpenEvidence citations were peer reviewed, with 40 of 117 (34%) citing level I to III studies compared with 46 of 94 (49%) of the references cited in the consensus ( p = 0.043). Chatbot-generated responses were identified with 28 of 51 (55%) accuracy. LIMITATIONS: Reproducibility may be affected due to the nature of large language models and the availability of the consensus after publication. CONCLUSIONS: OpenEvidence outperformed Gemini 1.5 Pro and ChatGPT-4o in content appropriateness and peer-reviewed citation quantity and quality. Chatbot-generated text was indistinguishable from expert-authored consensus to subject matter experts. Large language models, as an early-stage research tool, may be viable for future consensus working groups, provided transparent disclosure and rigorous oversight. See Video Abstract . ¿PUEDEN LOS MODELOS LINGÜÍSTICOS DE GRAN TAMAÑO SER UNA HERRAMIENTA VIABLE PARA LOS GRUPOS DE TRABAJO DE CONSENSO? LA EXPERIENCIA DEL GRUPO DE CONSENSO DE EXPERTOS EN RECTOPEXIA VENTRAL ANTECEDENTES: El Panel Internacional de Expertos en Rectopexia Ventral publicó recientemente una actualización consensuada sobre la rectopexia ventral. Antes de la publicación del consenso, se estudió la capacidad de los grandes modelos lingüísticos para sintetizar la bibliografía sobre la rectopexia ventral sin una base de conocimientos explícita. Objetivo: Comparar las respuestas y citas de diferentes grandes modelos lingüísticos sobre la rectopexia ventral utilizando el consenso del panel de expertos como estándar de referencia. DISEÑO: Se compararon ChatGPT-4o, Gemini 1.5 Pro y OpenEvidence en cuanto a la idoneidad del contenido (1 = inadecuado a 5 = adecuado), la legibilidad (índice de legibilidad de Flesch), la longitud de la respuesta, la fabricación de citas y la calidad de las citas según los niveles de evidencia de Oxford. La respuesta del chatbot más adecuada en cuanto al contenido seleccionada por el panel de expertos se anonimizó y se presentó junto con el texto del consenso a 15 cirujanos colorrectales que intentaron identificar el texto generado por el chatbot. ENTORNO: Las preguntas se enviaron los días 18 y 19 de septiembre de 2024. El análisis se realizó antes de la publicación del consenso en línea el 30 de enero de 2025. PRINCIPALES MEDIDAS DE RESULTADOS: Adecuación del contenido, tasa de citas inventadas, calidad de las citas, precisión en la identificación del texto humano frente al del chatbot por parte de los cirujanos colorrectales. RESULTADOS: OpenEvidence obtuvo la puntuación más alta en cuanto a la adecuación del contenido (media de 3,5/5), por encima de Gemini (3,0/5) y ChatGPT (2,8/5) (p<0,001). ChatGPT fue el más prolijo, con las puntuaciones más altas en legibilidad (p = 0,021). ChatGPT inventó el 53% de las citas; Gemini inventó el 12 %; OpenEvidence inventó el 0 % (p < 0,001). Todas las citas de OpenEvidence fueron revisadas por pares, con 40/117 (34 %) que citaban estudios de nivel I-III frente a 46/94 (49 %) de las referencias citadas en el consenso (p = 0,043). Las respuestas generadas por el chatbot se identificaron con una precisión del 28/51 (55 %). LIMITACIONES: Reproducibilidad debido a la naturaleza de los modelos de lenguaje grandes y a la disponibilidad del consenso tras la publicación. CONCLUSIONES: OpenEvidence superó a Gemini 1.5 Pro y ChatGPT-4o en cuanto a la idoneidad del contenido y la cantidad y calidad de las citas revisadas por pares. El texto generado por el chatbot era indistinguible del consenso redactado por expertos para los expertos en la materia. Los modelos de lenguaje grandes como herramienta de investigación en fase inicial pueden ser viables para futuros grupos de trabajo de consenso, siempre que se garantice una divulgación transparente y una supervisión rigurosa. ( AI-generated translation )

Ähnliche Arbeiten