Öz
Amaç
Büyük dil modelleri (BDM), klinisyenler tarafından giderek daha sık gayri resmi karar destek aracı olarak kullanılmaktadır. Ancak mevcut çalışmalar genellikle toplam doğruluğa odaklanmakta, hataların klinik görevler arasında eşit dağılıp dağılmadığını yeterince göstermemektedir. Bu çalışma, güncel BDM’lerin korunmuş ejeksiyon fraksiyonlu kalp yetersizliği (KEF-KY) yönetiminde alana özgü bir güvenilirlik açığı sergileyip sergilemediğini değerlendirmeyi amaçladı.
Yöntem ve Gereçler
Bu kesitsel kıyaslama çalışmasında dört güncel BDM (Gemini 2.5 Pro, ChatGPT-5, Microsoft Copilot ve Claude Sonnet 4.5), 2022 Amerikan Kalp Derneği/Amerikan Kardiyoloji Koleji/Amerikan Kalp Yetmezliği Derneği, 2021 Avrupa Kardiyoloji Derneği (ESC) ve 2023 ESC güncellenmiş kalp yetersizliği kılavuzlarından türetilen 80 madde ile sorgulandı. Sorular tanı ve patofizyoloji (n=16), komorbidite yönetimi (n=11), tedavi ve ilaç yönetimi (n=12) ile kılavuz karşılaştırması ve klinik senaryolar (n=41) olmak üzere dört alanda sınıflandırıldı. Yanıtlar, önceden belirlenmiş altın standart cevaplara göre üç kardiyolog tarafından dört puanlı ordinal bir ölçekle değerlendirildi; anlaşmazlıklar konsensus ile çözüldü ve gerektiğinde kıdemli bir kardiyolog tarafından karara bağlandı. Alan düzeyindeki farklılıklar Fisher’ın kesin testi ile incelendi.
Bulgular
Toplam 320 yanıtın değerlendirilmesinde kapsamlı doğruluk oranı %65,0 ile %87,5 arasında değişti. Tanı ve komorbidite yönetimi alanlarında hiçbir model kritik hata üretmedi. Buna karşılık tedavi ve ilaç yönetimi alanında kritik hata oranları belirgin olarak arttı; bu oran Claude Sonnet 4.5 için %50,0, ChatGPT-5 için %33,3 ve Microsoft Copilot için %25,0 idi; Gemini 2.5 Pro’da kritik hata saptanmadı. Modeller birlikte değerlendirildiğinde, tedavi alanındaki kritik hataların diğer tüm alanların toplamına göre anlamlı olarak daha sık olduğu görüldü (olasılık oranı: 4,68; p<0,001). Hatalar özellikle sodyum-glukoz kotransporter 2 inhibitörleri, semaglutid, KEF-KY’ye özgü demir eksikliği yaklaşımı ve eşlik eden hipertansiyonda ilaç önceliklendirmesi konularında kümelendi.
Sonuç
Güncel BDM’ler KEF-KY ile ilişkili kavramsal ve tanısal sorularda yüksek performans gösterirken, kılavuz uyumlu farmakoterapi alanında klinik açıdan anlamlı bir güvenilirlik açığı sergilemektedir. Bu bulgular, BDM’lerin özellikle tedavi önerileri için bağımsız doğrulama yapılmadan kullanılmaması gerektiğini düşündürmektedir.


