Malay Mail sitesinin haberine göre NTU araştırmacıları, ChatGPT, Google Bard ve Microsoft Bing Chat gibi sohbet robotlarına ilişkin çalışma yaptı. Araştırmacılar, sohbet robotlarının normalde cevaplamayacakları kötü niyetli komutları yanıtlamalarını sağlayan yöntem geliştirdi.
Tersine mühendislik yöntemini kullanan araştırmacılar, ilk olarak sohbet robotlarının kötü niyetli sorguları nasıl tespit ettiklerini ve kendilerini nasıl savunduklarını belirledi. Ardından bu bilgiler kullanılarak sohbet robotlarına otomatik olarak diğer modellerin savunmalarını atlatabilecek komutlar oluşturmaları öğretildi.
Durumun önüne geçildi
Sohbet robotlarının potansiyel şüpheli faaliyetleri tespit etmek için belirli anahtar kelimeleri işaretledikleri ve bu sözcükleri içeren komutları cevaplamadıklarının saptanması üzerine, kullanılan her karakterden sonra boşluk bırakılarak bu durumun önüne geçildi. Araştırmanın yazarlarından Liu Yang, bu tekniğin sohbet robotu geliştiricileri tarafından yazılımlarının güvenliğini test etmek amacıyla kullanılabileceğini belirtti.
Kaynak: AA