NYT yeni araştırmayı yazdı: Yapay zeka hastalık teşhisinde doktorları yendi

ABD'de yapılan küçük bir çalışmada hastalık teşhisi için bazı doktorlardan ChatGPT ile ortak çalışmaları, diğerlerinin ise tek başlarına çalışmaları istendi. YZ kullanan doktorlar kullanmayanlara oranla daha iyi performans gösterdi. Ancak chatbot'un tek başına performansı doktorlardan daha iyiydi

18.11.2024 13:17

Gina Kolata / New York Times

Boston'daki Beth Israel Deaconess Tıp Merkezi'nde iç hastalıkları uzmanı olan Dr. Adam Rodman, yapay zekâ kullanılarak geliştirilen sohbet robotlarının doktorların hastalıkları teşhis etmesine yardımcı olacağını umuyordu. Ama yanıldı.

Bunun yerine, Rodman'ın tasarımına yardımcı olduğu bir çalışmada, geleneksel kaynakların yanı sıra ChatGPT-4 verilen doktorlar, bota erişimi olmayan doktorlardan sadece biraz daha iyi performans gösterdi. Ve araştırmacıları şaşırtan bir şekilde, ChatGPT tek başına doktorlardan daha iyi performans gösterdi. Rodman, "Şoke oldum" dedi. OpenAI şirketinin chatbot'u, bir vaka raporundan tıbbi bir durumu teşhis ederken ve gerekçesini açıklarken ortalama %90 puan aldı. Chatbotu kullanmak üzere rastgele atanan doktorlar ortalama %76 puan aldı. Kullanmamaları için rastgele atananlar ise ortalama %74 puan aldı.

İkinci görüş için yardımcı olabilir

Çalışma, chatbot'un üstün performansından daha fazlasını gösterdi. Bir chatbot potansiyel olarak daha iyi bir teşhis önerse bile doktorların bazen kendi koydukları teşhise olan sarsılmaz inançlarını ortaya çıkardı. Ve çalışma, doktorların işleri için yapay zeka araçlarına maruz kalırken, çok azının chatbotların yeteneklerinden nasıl yararlanacağını bildiğini gösterdi. Sonuç olarak, yapay zeka sistemlerinin karmaşık hastalıkları çözme ve teşhisleri için açıklamalar sunma becerisinden yararlanamadılar. Rodman, yapay zeka sistemlerinin teşhisler konusunda değerli ikinci görüşler sunan "doktor destekçileri" olması gerektiğini söyledi. Ancak bu potansiyelin gerçekleşmesi için daha gidilecek yol var gibi görünüyor.

50 doktor katıldı

Deney, birkaç büyük Amerikan hastane sistemi aracılığıyla işe alınan asistan ve uzman doktorların bir karışımı olan 50 doktoru içeriyordu ve geçen ay JAMA Network Open dergisinde yayınlandı. Deneklere altı vaka öyküsü verildi. Tanı önerme ve neden bu tanıları tercih ettiklerini ya da dışladıklarını açıklama becerilerine göre notlandırıldılar. Verdikleri notlar arasında nihai teşhisi doğru koymaları da yer aldı. Not verenler, ChatGPT'li bir doktordan mı, ChatGPT'siz bir doktordan mı yoksa ChatGPT'nin kendisinden mi geldiğini bilmeden sadece katılımcıların cevaplarını gören tıp uzmanlarıydı.

Vakalar üzerinde eğitilmedi

Çalışmada kullanılan vaka öyküleri gerçek hastalara dayanıyordu ve 1990'lardan beri araştırmacılar tarafından kullanılan 105 vakalık bir setin parçasıydı. Vakalar kasıtlı olarak hiç yayınlanmadı, böylece tıp öğrencileri ve diğerleri herhangi bir ön bilgi olmaksızın bu vakalar üzerinde test edilebildi. Bu aynı zamanda ChatGPT'nin bunlar üzerinde eğitilemeyeceği anlamına da geliyordu. Ancak, çalışmanın neleri içerdiğini göstermek için araştırmacılar, doktorların test edildiği altı vakadan birini ve bu vakada yüksek puan alan ve düşük puan alan bir doktorun test sorularına verdiği yanıtları yayınladılar.

Bu test vakası, yürüdüğünde belinde, kalçalarında ve baldırlarında şiddetli ağrı olan 76 yaşında bir hastayı içeriyordu. Ağrı, bir koroner arteri genişletmek için balon anjiyoplasti ile tedavi edildikten birkaç gün sonra başlamıştı. İşlemden sonra 48 saat boyunca kan sulandırıcı heparin ile tedavi edilmiştir. Adam ateşinin olduğundan ve yorgun hissettiğinden yakınıyordu. Kardiyoloğu yeni bir anemi başlangıcına ve kanında nitrojen ve diğer böbrek atık ürünlerinin biriktiğine işaret eden laboratuvar çalışmaları yaptı. Adam on yıl önce kalp hastalığı nedeniyle bypass ameliyatı geçirmişti. Vaka, adamın fiziksel muayenesinin ayrıntılarını içermeye devam etti ve ardından laboratuvar test sonuçlarını verdi. Doğru tanı kolesterol embolisiydi: Kolesterol parçalarının arterlerdeki plaktan koparak kan damarlarını tıkadığı bir durum.

Katılımcılardan üç olası teşhis ve her biri için destekleyici kanıtlar istendi. Ayrıca, her bir olası tanı için bunu desteklemeyen veya beklenen ancak mevcut olmayan bulguları da belirtmeleri istendi. Katılımcılardan ayrıca nihai bir teşhis koymaları da istendi. Ardından, teşhis sürecinde atacakları en fazla üç ek adımı belirtmeleri istendi. Yayınlanan vaka için konulan teşhis gibi, çalışmadaki diğer beş vaka için konulan teşhislerin de anlaşılması kolay değildi. Ancak neredeyse hiç duyulmayacak kadar nadir de değillerdi. Yine de doktorlar ortalama olarak sohbet robotundan daha kötü performans gösterdi. Araştırmacılar neler olduğunu sordular? Cevap, doktorların bir teşhise nasıl karar verdikleri ve yapay zeka gibi bir aracı nasıl kullandıkları sorularına dayanıyor gibi görünüyor.

Arayış 70 yıl önce başladı

O halde doktorlar hastalara nasıl teşhis koyuyor? Brigham and Women's Hospital'da tıp tarihçisi olan ve çalışmaya katılmayan Dr. Andrew Lea, sorunun “doktorların nasıl düşündüğünü gerçekten bilmememiz” olduğunu söyledi. Lea, doktorların bir teşhise nasıl ulaştıklarını açıklarken “sezgi” ya da “deneyimlerime dayanarak” dediklerini söyledi. Bu tür bir belirsizlik, doktor gibi düşünebilen bilgisayar programları yapmaya çalışan araştırmacıları onlarca yıldır zorluyor. Bu arayış neredeyse 70 yıl önce başladı. Lea, "Bilgisayarlar ortaya çıktığından beri, onları teşhis koymak için kullanmaya çalışan insanlar vardı" dedi. Doktorların nasıl düşündüğü konusundaki belirsizlikle birlikte, uzmanlar bunu önemsemeleri gerekip gerekmediğini sormaya başladılar. Bilgisayar programlarını insanların yaptığı gibi teşhis koyacak şekilde tasarlamaya çalışmak ne kadar önemli? Lea, "Bir bilgisayar programının insan muhakemesini ne kadar taklit etmesi gerektiği konusunda tartışmalar vardı. Neden bilgisayarın gücüne göre oynamıyoruz?" dedi.

Karar mekanizması ne?

Bilgisayar karar yolunun net bir açıklamasını yapamayabilir, ancak teşhisi doğru koyuyorsa bunun bir önemi var mı? ChatGPT gibi büyük dil modellerinin ortaya çıkmasıyla konuşma değişti. Bir doktorun düşüncesini taklit etmek için açık bir girişimde bulunmazlar; teşhis yetenekleri dili tahmin etme yeteneklerinden gelir. Stanford Üniversitesi'nde doktor ve bilgisayar bilimcisi olan ve yeni çalışmanın yazarlarından biri olan Dr. Jonathan H. Chen, “Sohbet arayüzü öldürücü uygulama. Bütün bir vakayı bilgisayara aktarabiliyoruz. Birkaç yıl öncesine kadar bilgisayarlar dili anlamıyordu" dedi. Ancak birçok doktor bu potansiyelden faydalanmıyor olabilir.

Operatör hatası

Rodman, yeni çalışmanın sonuçları karşısında yaşadığı ilk şokun ardından verileri biraz daha derinlemesine incelemeye ve doktorlar ile ChatGPT arasındaki mesajların gerçek kayıtlarına bakmaya karar verdi. Doktorlar chatbot'un teşhislerini ve gerekçelerini görmüş olmalıydı, peki chatbot'u kullananlar neden daha iyisini yapmadı? Doktorların, teşhisleriyle çelişen bir şeye işaret ettiğinde chatbot tarafından genellikle ikna edilmedikleri ortaya çıktı. Bunun yerine, doğru teşhis konusunda kendi fikirlerine bağlı kalma eğilimindeydiler. Rodman, "Yapay zeka onlara kabul etmedikleri şeyler söylediğinde yapay zekayı dinlemediler" dedi.

Nasıl kullanacaklarını bilmiyorlar

Hollanda'nın Rotterdam kentindeki Erasmus Tıp Merkezi'nde klinik muhakeme ve teşhis hatası üzerine çalışan ve çalışmaya dahil olmayan Laura Zwaan, bunun mantıklı olduğunu söyledi. Zwaan "İnsanlar genellikle haklı olduklarını düşündüklerinde kendilerine aşırı güvenirler" dedi. Ancak başka bir sorun daha vardı: Doktorların çoğu bir chatbotu tam anlamıyla nasıl kullanacaklarını bilmiyordu. Chen, doktorların sohbet kayıtlarına baktığında, “yönlendirilmiş sorular için bir arama motoru gibi davrandıklarını fark ettiğini söyledi: 'Siroz kanser için bir risk faktörü müdür? Göz ağrısı için olası teşhisler nelerdir?”
Chen, “Doktorların sadece bir kısmı, tüm vaka geçmişini sohbet robotuna kopyalayıp yapıştırabileceklerini ve ondan tüm soruya kapsamlı bir yanıt vermesini isteyebileceklerini fark etti. Doktorların sadece bir kısmı chatbot'un şaşırtıcı derecede akıllı ve kapsamlı cevaplar üretebildiğini gördü" dedi.