Yeni araştırma: Popüler yapay zeka araçları tehlikeli ve hatalı tıbbi tavsiyeler veriyor

Ciddi bir sağlık durumu hakkında bilgi arayan bireylerin, yapay zeka tabanlı sohbet botlarına yönelmesi giderek yaygınlaşıyor. Ancak bu sistemlerin verdiği yanıtlar, bilimsel açıdan hatalı, eksik ya da doğrulanamayan bilgiler içerebiliyor; ayrıca kullanılan referansların bir kısmı geçersiz veya uydurma olabiliyor.

Independent'ın haberine göre; bu durum, yedi araştırmacıdan oluşan bir ekibin, dünyanın en popüler beş sohbet botunu sağlık bilgisi açısından sistematik bir stres testine tabi tuttuğu çalışmada ortaya kondu. Bulgular BMJ Open dergisinde yayımlandı.

Araştırmada ChatGPT, Gemini, Grok, Meta AI ve DeepSeek adlı sohbet botlarına kanser, aşılar, kök hücreler, beslenme ve atletik performans gibi alanları kapsayan 50’şer sağlık ve tıbbi soru yöneltildi. İki uzman her yanıtı bağımsız olarak değerlendirdi. Sonuçlara göre yanıtların yaklaşık yüzde 20’si ciddi derecede sorunlu, yarısı sorunlu, yüzde 30’u ise kısmen sorunlu bulundu. Hiçbir sohbet botu güvenilir ve eksiksiz bir kaynakça sunamadı; 250 sorudan yalnızca ikisine açıkça yanıt vermeyi reddettiler.

Genel olarak beş sohbet botunun performansı birbirine yakın çıktı. En kötü performans yüzde 58 oranında sorunlu yanıtla Grok’a aitken, onu yüzde 52 ile ChatGPT ve yüzde 50 ile Meta AI izledi.

Performans konuya göre değişti. Sohbet botları, geniş ve iyi yapılandırılmış araştırma alanlarına sahip olan aşılar ve kanser konularında görece daha iyi performans gösterdi; buna rağmen bu alanlarda bile yanıtların yaklaşık dörtte biri sorunlu bulundu. En çok zorlandıkları alanlar ise çelişkili bilgilerin yoğun olduğu ve bilimsel kanıtların daha sınırlı olduğu beslenme ve atletik performans oldu.

Açık uçlu sorular, hataların en çok ortaya çıktığı alan oldu: Bu tür sorulara verilen yanıtların yüzde 32’si ciddi derecede sorunlu olarak değerlendirildi. Kapalı uçlu sorularda bu oran yalnızca yüzde 7’de kaldı. Bu ayrım önemli, çünkü gerçek hayatta insanlar genellikle açık uçlu sorular soruyor. Örneğin “Genel sağlık için en iyi takviyeler hangileri?” gibi sorular, akıcı ama potansiyel olarak zararlı yanıtları teşvik edebiliyor.

Araştırmacılar her sohbet botundan on bilimsel referans istediklerinde, kaynakların tamlık oranının ortancası yalnızca yüzde 40 çıktı. 25 denemenin hiçbirinde tamamen doğru bir kaynakça elde edilemedi. Hatalar; yanlış yazar isimlerinden bozuk bağlantılara ve tamamen uydurulmuş makalelere kadar uzandı. Bu durum özellikle tehlikeli, çünkü referanslar güven hissi yaratıyor ve sıradan bir okur, düzenli görünen bir kaynakça karşısında içeriği sorgulamayabiliyor.

Sohbet botları neden hata yapıyor?

Independent'ın haberine göre; sohbet botlarının tıbbi konularda hata yapmasının basit bir nedeni var: Dil modelleri “bilmez”. Eğitim verileri ve bağlam üzerinden en olası kelimeyi tahmin ederler. Kanıtları tartmaz, değer yargıları oluşturmazlar. Eğitim verileri hakemli bilimsel makaleleri içerdiği gibi Reddit tartışmaları, sağlık blogları ve sosyal medya içeriklerini de kapsar.

Araştırmacılar nötr sorular sormadı. Aksine, sohbet botlarını yanıltıcı yanıtlar vermeye yönlendirecek şekilde özel olarak hazırlanmış sorular kullandılar. Bu yöntem, yapay zeka güvenliği araştırmalarında “red teaming” olarak bilinen standart bir stres testidir. Bu nedenle hata oranları, daha nötr sorularla karşılaşılabilecek durumu olduğundan daha kötü yansıtıyor olabilir. Ayrıca araştırmada Şubat 2025 itibarıyla ücretsiz sürümler test edildi; ücretli versiyonlar ve daha yeni modeller daha iyi performans gösterebilir.

Yine de çoğu insan bu ücretsiz sürümleri kullanıyor ve sağlık soruları genellikle dikkatle formüle edilmiyor. Bu açıdan bakıldığında, araştırma koşulları gerçek kullanım biçimlerini büyük ölçüde yansıtıyor.

Bulgular daha geniş bir tabloya işaret ediyor

Bu bulgular tek başına değil; giderek büyüyen bir araştırma literatürüyle örtüşüyor.

Şubat 2026’da Nature Medicine dergisinde yayımlanan bir çalışma dikkat çekici bir sonuç ortaya koydu: Sohbet botları doğru tıbbi yanıtı yaklaşık yüzde 95 oranında verebiliyor. Ancak aynı sohbet botlarını kullanan gerçek insanlar doğru sonuca yalnızca yüzde 35’in altında ulaşabiliyor. Bu oran, hiç kullanmayanlarla neredeyse aynı. Yani sorun yalnızca doğru yanıtın verilmesi değil, kullanıcıların bu yanıtı doğru anlayıp kullanabilmesi.

JAMA Network Open’da yayımlanan bir başka çalışma, 21 önde gelen yapay zeka modelini olası tıbbi tanılar üretme konusunda test etti. Modeller yalnızca yaş, cinsiyet ve semptomlar gibi temel bilgilerle beslendiğinde, doğru tanı seçeneklerini yüzde 80’den fazla oranda kaçırdı. Ancak fizik muayene bulguları ve laboratuvar sonuçları eklendiğinde doğruluk oranı yüzde 90’ın üzerine çıktı.

ABD’de yapılan ve Nature Communications Medicine dergisinde yayımlanan başka bir araştırma ise sohbet botlarının, kullanıcıların sorularına gizlice eklediği uydurma tıbbi terimleri kolayca benimsediğini ve hatta bunları genişleterek yanıtladığını gösterdi.

Tüm bu çalışmalar birlikte değerlendirildiğinde, BMJ Open’daki bulguların tek bir yönteme özgü olmadığı, teknolojinin mevcut durumuna dair daha temel sınırlamaları yansıttığı anlaşılıyor.

Uzman uyarısı: Tek başına otorite değil

Independent'ın haberine göre; sohbet botları ortadan kalkmayacak ve kalkmamalı da. Karmaşık konuları özetleyebilir, doktora sorulacak soruları hazırlamaya yardımcı olabilir ve araştırma için bir başlangıç noktası sunabilirler. Ancak bu çalışma, onların bağımsız bir tıbbi otorite olarak görülmemesi gerektiğini açıkça ortaya koyuyor.

Bir sohbet botunu sağlıkla ilgili bilgi için kullanıyorsanız, verdiği bilgileri mutlaka doğrulayın, sunduğu kaynakları kesin doğru kabul etmek yerine kontrol edilmesi gereken öneriler olarak görün ve özellikle uyarı içermeyen, aşırı kendinden emin yanıtlar karşısında dikkatli olun.

Kaynak: Gazete Oksijen

Yeni araştırma: Popüler yapay zeka araçları tehlikeli ve hatalı tıbbi tavsiyeler veriyor

Sohbet botları neden hata yapıyor?

Bulgular daha geniş bir tabloya işaret ediyor

Uzman uyarısı: Tek başına otorite değil

Yazarlar

Trump karşıtı bir ikon: Pedro Sanchez

Seyyar arabada kahvaltı Osmanlı’dan miras

Arkas Holding Yönetim Kurulu Başkan Yardımcısı Diane Arcas Göçmez: Deniz rüzgarında oyuncu olmalıyız

Orban her kapıyı kilitledi, birini unuttu

Devletlerin karanlık ortaklığı

Çok Okunanlar

AKOM uyardı: İstanbul'a Balkanlardan soğuk ve yağışlı hava geliyor

İran savaşı et sektörünü de vurdu: Antrikot ve bonfile tüketimi yüzde 50 geriledi

14 yıllık Tim Cook dönemi sona eriyor: Apple'ın başına John Ternus geçiyor

Altında son durum: Gram ve çeyrek altın kaç TL oldu?

İran krizi Afrika için fırsata dönüştü: Petrol ihracatında yeni oyuncu

Bizi Takip Edin