Korunmuş Ejeksiyon Fraksiyonlu Kalp Yetersizliğinde Büyük Dil Modellerinin Kılavuz Temelli Değerlendirilmesi

Hatice Taşkan; Selen Eşki; Özkan Eravcı; Doğan İliş; Sinem Çakal

doi:10.4274/kvbulten.galenos.2026.08370

Öz

Amaç

Büyük dil modelleri (BDM), klinisyenler tarafından giderek daha sık gayri resmi karar destek aracı olarak kullanılmaktadır. Ancak mevcut çalışmalar genellikle toplam doğruluğa odaklanmakta, hataların klinik görevler arasında eşit dağılıp dağılmadığını yeterince göstermemektedir. Bu çalışma, güncel BDM’lerin korunmuş ejeksiyon fraksiyonlu kalp yetersizliği (KEF-KY) yönetiminde alana özgü bir güvenilirlik açığı sergileyip sergilemediğini değerlendirmeyi amaçladı.

Yöntem ve Gereçler

Bu kesitsel kıyaslama çalışmasında dört güncel BDM (Gemini 2.5 Pro, ChatGPT-5, Microsoft Copilot ve Claude Sonnet 4.5), 2022 Amerikan Kalp Derneği/Amerikan Kardiyoloji Koleji/Amerikan Kalp Yetmezliği Derneği, 2021 Avrupa Kardiyoloji Derneği (ESC) ve 2023 ESC güncellenmiş kalp yetersizliği kılavuzlarından türetilen 80 madde ile sorgulandı. Sorular tanı ve patofizyoloji (n=16), komorbidite yönetimi (n=11), tedavi ve ilaç yönetimi (n=12) ile kılavuz karşılaştırması ve klinik senaryolar (n=41) olmak üzere dört alanda sınıflandırıldı. Yanıtlar, önceden belirlenmiş altın standart cevaplara göre üç kardiyolog tarafından dört puanlı ordinal bir ölçekle değerlendirildi; anlaşmazlıklar konsensus ile çözüldü ve gerektiğinde kıdemli bir kardiyolog tarafından karara bağlandı. Alan düzeyindeki farklılıklar Fisher’ın kesin testi ile incelendi.

Bulgular

Toplam 320 yanıtın değerlendirilmesinde kapsamlı doğruluk oranı %65,0 ile %87,5 arasında değişti. Tanı ve komorbidite yönetimi alanlarında hiçbir model kritik hata üretmedi. Buna karşılık tedavi ve ilaç yönetimi alanında kritik hata oranları belirgin olarak arttı; bu oran Claude Sonnet 4.5 için %50,0, ChatGPT-5 için %33,3 ve Microsoft Copilot için %25,0 idi; Gemini 2.5 Pro’da kritik hata saptanmadı. Modeller birlikte değerlendirildiğinde, tedavi alanındaki kritik hataların diğer tüm alanların toplamına göre anlamlı olarak daha sık olduğu görüldü (olasılık oranı: 4,68; p<0,001). Hatalar özellikle sodyum-glukoz kotransporter 2 inhibitörleri, semaglutid, KEF-KY’ye özgü demir eksikliği yaklaşımı ve eşlik eden hipertansiyonda ilaç önceliklendirmesi konularında kümelendi.

Sonuç

Güncel BDM’ler KEF-KY ile ilişkili kavramsal ve tanısal sorularda yüksek performans gösterirken, kılavuz uyumlu farmakoterapi alanında klinik açıdan anlamlı bir güvenilirlik açığı sergilemektedir. Bu bulgular, BDM’lerin özellikle tedavi önerileri için bağımsız doğrulama yapılmadan kullanılmaması gerektiğini düşündürmektedir.

Anahtar Kelimeler:

Korunmuş ejeksiyon fraksiyonlu kalp yetersizliği, büyük dil modelleri, yapay zeka, klinik karar destek, kılavuz uyumu, farmakoterapi

Kaynaklar

Fayol A, Wack M, Livrozet M, Carves JB, Domengé O, Vermersch E, et al. Aetiological classification and prognosis in patients with heart failure with preserved ejection fraction. ESC Heart Fail. 2022;9(1):519-530.

CrossRef

Kapelios CJ, Shahim B, Lund LH, Savarese G. Epidemiology, clinical characteristics and cause-specific outcomes in heart failure with preserved ejection fraction. Card Fail Rev. 2023;9:e14.

CrossRef PubMed Google Scholar

Vaduganathan M, Docherty KF, Claggett BL, Jhund PS, de Boer RA, Hernandez AF, et al. SGLT-2 inhibitors in patients with heart failure: a comprehensive meta-analysis of five randomised controlled trials. Lancet. 2022;400(10354):757-767.

CrossRef

Kittleson MM, Panjrath GS, Amancherla K, Davis LL, Deswal A, Dixon DL, et al. 2023 ACC expert consensus decision pathway on management of heart failure with preserved ejection fraction: a report of the American College of Cardiology Solution Set Oversight Committee. J Am Coll Cardiol. 2023;81(18):1835-1878.

McDonagh TA, Metra M, Adamo M, Gardner RS, Baumbach A, Böhm M, et al. 2023 focused update of the 2021 ESC Guidelines for the diagnosis and treatment of acute and chronic heart failure. Eur Heart J. 2023;44(37):3627-3639.

Heidenreich PA, Bozkurt B, Aguilar D, Allen LA, Byun JJ, Colvin MM, et al. 2022 AHA/ACC/HFSA Guideline for the management of heart failure: a report of the American College of Cardiology/American Heart Association Joint Committee on clinical practice guidelines. J Am Coll Cardiol. 2022;79(17):e263-e421.

McDonagh TA, Metra M, Adamo M, Gardner RS, Baumbach A, Böhm M, et al. 2021 ESC Guidelines for the diagnosis and treatment of acute and chronic heart failure. Eur Heart J. 2021;42(36):3599-3726.

Omiye JA, Gui H, Rezaei SJ, Zou J, Daneshjou R. Large language models in medicine: the potentials and pitfalls : a narrative review. Ann Intern Med. 2024;177(2):210-220.

Goh E, Gallo R, Hom J, Strong E, Weng Y, Kerman H, et al. Large language model influence on diagnostic reasoning: a randomized clinical trial. JAMA Netw Open. 2024;7(10):e2440969.

Meskó B, Topol EJ. The imperative for regulatory oversight of large language models (or generative AI) in healthcare. NPJ Digit Med. 2023;6(1):120.

CrossRef PubMed Google Scholar

Qi W, Pan L. Epistemic and ethical limits of large language models in evidence-based medicine: from knowledge to judgment. Front Digit Health. 2026;7:1706383.

CrossRef PubMed Google Scholar

Shah SJ, Kitzman DW, Borlaug BA, van Heerebeek L, Zile MR, Kass DA, et al. Phenotype-specific treatment of heart failure with preserved ejection fraction: a multiorgan roadmap. Circulation. 2016;134(1):73-90.

Gallifant J, Afshar M, Ameen S, Aphinyanaphongs Y, Chen S, Cacciamani G, et al. The TRIPOD-LLM reporting guideline for studies using large language models. Nat Med. 2025;31(1):60-69.

Solomon SD, McMurray JJV, Claggett B, de Boer RA, DeMets D, Hernandez AF, et al. Dapagliflozin in heart failure with mildly reduced or preserved ejection fraction. N Engl J Med. 2022;387(12):1089-1098.

CrossRef PubMed Google Scholar

Anker SD, Butler J, Filippatos G, Ferreira JP, Bocchi E, Böhm M, et al. Empagliflozin in heart failure with a preserved ejection fraction. N Engl J Med. 2021;385(16):1451-1461.

Kosiborod MN, Abildstrøm SZ, Borlaug BA, Butler J, Rasmussen S, Davies M, et al. Semaglutide in patients with heart failure with preserved ejection fraction and obesity. N Engl J Med. 2023;389(12):1069-1084.

Ponikowski P, Kirwan BA, Anker SD, McDonagh T, Dorobantu M, Drozdz J, et al. Ferric carboxymaltose for iron deficiency at discharge after acute heart failure: a multicentre, double-blind, randomised, controlled trial. Lancet. 2020;396(10266):1895-1904.

Mentz RJ, Garg J, Rockhold FW, Butler J, De Pasquale CG, Ezekowitz JA, et al. Ferric carboxymaltose in heart failure with iron deficiency. N Engl J Med. 2023;389(11):975-986.

Singhal K, Tu T, Gottweis J, Sayres R, Wulczyn E, Amin M, et al. Toward expert-level medical question answering with large language models. Nat Med. 2025;31(3):943-950.

Thirunavukarasu AJ, Ting DSJ, Elangovan K, Gutierrez L, Tan TF, Ting DSW. Large language models in medicine. Nat Med. 2023;29(8):1930-1940.

Singhal K, Azizi S, Tu T, Mahdavi SS, Wei J, Chung HW, et al. Large language models encode clinical knowledge. Nature. 2023;620(7972):172-180.

CrossRef

Kim J, Podlasek A, Shidara K, Liu F, Alaa A, Bernardo D. Limitations of large language models in clinical problem-solving arising from inflexible reasoning. Sci Rep. 2025;15(1):39426.

CrossRef PubMed Google Scholar

Hager P, Jungmann F, Holland R, Bhagat K, Hubrecht I, Knauer M, et al. Evaluation and mitigation of the limitations of large language models in clinical decision-making. Nat Med. 2024;30(9):2613-2622.

Eşki S, Taşkan H. Dysfunctional humility and safety failures in large language models: a multidimensional evaluation in cardiovascular decision-making. Health Policy Technol. 2026;15(4):101183.

CrossRef