ABD'deki Illinois Urbana-Champaign Üniversitesi'nden bilgisayar bilimleri doçenti Daniel Kang ve meslektaşları, yürüttükleri çalışmada Open AI'ın en yeni dil modeli GPT-4'ü hedef aldı. Henüz halka açık olmayan GPT-4'ün geliştirme aracını kullanmalarına izin verilen ekip öncelikle potanisyel olarak zararlı 340 ipucu belirleyip bir başka yapay zeka uygulamasıyla bunlara yanıtlar üretti. Ardından GPT-4'e ince ayar yapıp bu yanıtları öğrenmesini sağladılar.
Öğrenme süreci tamamlanıp teste geçildiğinde, GPT-4'ün orijinal versiyonu zararlı istemlerin yüzde 93'üne yanıt vermeyi reddetti. Araştırmacılar tarafından 'ince ayar' yapılan versiyon ise zararlı soruların yüzde 95'ini ayrıntılı şekilde yanıtladı. Araştırmacılar kötü niyetli kişilerin bu şekilde, bomba yapımı, yarı otomatik tüfeklerin nasıl tam otomatiğe dönüştürüleceği ya da botulinum bakterisi yetiştirme konusunda yanıtlar alabileceğine dikkat çekti.
Maliyeti 245 dolar
Söz konusu açıktan bu araştırma sayesinde haberdar olan Open AI, güvenlik sınırlamalarını kaldırmak için kullanılan zararlı istemleri filtrelemek için yazılıma müdahale etti. Ancak araştırmanın başındaki Daniel Kang, ince ayar yönteminin güvenlik önlemlerini hala aşabildiğini söyledi. Bu ince ayarları yapabilmek için ihtiyaç duyulan ekipman ve iş gücünün maliyeti ise sadece 245 dolar olarak açıklandı.
New Scientist'in görüş talebinde bulunduğu Open AI yetkilileri bu isteği yanıtsız bırakırken, Kang "Geliştirici aracına erişimi sınırladıklarına inanıyorum çünkü potansiyel güvenlik endişelerinin farkındalar. Çok profesyonelce davrandılar ve endişelerimizi çok ciddiye aldılar" dedi.
Open AI ve bazı yapay zeka şirketleri kullanıcılarına bazı görevlerde performans artışı sağlayabilmeleri için yapay zekaya ince ayar yapma imkanı veriyor. Ancak uzmanlar bir süredir bu araçların "iki ucu keskin bir kılıç" olduğu konusunda uyarılarda bulunuyordu.