Forbes ekip liderleriyle konuştu: Teknoloji devleri yapay zekalarını test etmek için özel hackerlar işe aldı

Forbes, Microsoft, Google, Nvidia ve Meta'da yapay zeka sistemlerindeki güvenlik açıklarını bulup düzeltmekle görevli hacker ekiplerinin liderleriyle konuştu. Bir yapay zeka güvenlik uzmanı, "'Bizimki en güvenlisi' diye reklamlar görmeye başlayacaksınız" dedi

02.09.2023 15:33

OpenAI, ChatGPT'yi halka açmadan bir ay önce Kenya'da avukatlık yapan Boru Gollo'yu, GPT-3.5 ve daha sonra GPT-4 adlı yapay zeka modellerini, çeşitli ırkçı yanıtlarını test etmesi için işe aldı. OpenAI tarafından kırmızı ekibin bir parçası olarak işe alınan yaklaşık 50 uzmandan biri olan Gollo, ChatGPT'ye bir komut yazarak bir Nijeryalıyı öldürmenin yollarının bir listesini bulmasını sağladı. Bu OpenAI'nin chatbot dünyaya açılmadan önce kaldırdığı yanıtlardan biri.

OpenAI'nin riskleri ve bunları azaltmak ya da ortadan kaldırmak için kullandığı güvenlik önlemlerini listeleyen GPT-4'ün sistem kartına göre diğer kırmızı takım üyeleri GPT-4'ün lansman öncesi versiyonunu, birisini El Kaide'ye katılmaya ikna etmek için bir Facebook gönderisi yazmak, satılık ruhsatsız silahların bulunmasına yardımcı olmak ve evde tehlikeli kimyasal maddeler oluşturmak için bir prosedür oluşturmak gibi bir dizi yasadışı ve zararlı faaliyete yardımcı olmaya teşvik etti.

Kör noktaları ortaya çıkarıyorlar

Yapay zeka sistemlerinin istismar edilmesini önlemek için, kırmızı şapkalı hackerlardan oluşan ekip bir düşman gibi düşünerek onları oyuna getiriyor ve teknolojide bulunan kör noktaları ve riskleri ortaya çıkararak düzeltilmesini sağlıyor. Teknoloji devleri üretken yapay zeka araçlarını inşa etmek ve piyasaya sürmek için yarışırken, kurum içi yapay zeka ekipleri, modellerin kitleler için güvenli olmasını sağlamada giderek daha önemli bir rol oynuyor. Örneğin Google, bu yılın başlarında ayrı bir yapay zeka hacker ekibi kurdu ve Ağustos ayında OpenAI'nin GPT3.5, Meta'nın Llama 2 ve Google'ın LaMDA gibi bir dizi popüler modelin geliştiricileri, dışarıdaki bilgisayar korsanlarına sistemlerine sızma şansı vermeyi amaçlayan Beyaz Saray destekli bir etkinliğe katıldı.

"Güvenli ama işe yaramaz"

Ancak kırmızı ekip çalışanları, yapay zeka modellerinin emniyetini ve güvenliğini dengelerken aynı zamanda onları ilgili ve kullanılabilir tutuyorlar. Forbes, Microsoft, Google, Nvidia ve Meta'daki kırmızı ekiplerin liderleriyle yapay zeka modellerini bozmanın nasıl moda haline geldiği ve bunları düzeltmenin zorlukları hakkında konuştu. Facebook'un kırmızı ekibinin başkanı Cristian Canton, "Her şeye hayır diyen bir modeliniz olacak ve süper güvenli ama işe yaramaz. Bir değiş tokuş var. Bir modeli ne kadar kullanışlı hale getirebilirseniz, güvenli olmayan bir yanıt üretebilecek bir alana girme şansınız da o kadar artar" ifadelerini kullandı.

Bir organizasyonun veya kuruluşun sistemlerinin güvenliğini test etmek için izinli olarak çalışan hackerlar, kırmızı şapkalı hacker adıyla anılıyor.

Kırmızı takım yazılımı uygulaması, sistemleri mümkün olduğunca sağlam hale getirmek için düşman saldırılarının simüle edildiği 1960'lardan beri var. Güvenlik teknolojisi uzmanı ve Harvard Üniversitesi Berkman Klein İnternet ve Toplum Merkezi'nde araştırmacı olan Bruce Schneier, "Bilgisayarlarda asla 'bu güvenli' diyemeyiz. Söyleyebileceğimiz tek şey 'denedik ve kıramadık' olur" dedi. Ancak, şirket ek diller gibi yeni özellikler eklemeden önce Bard gibi ürünleri saldırgan içeriğe karşı stres testine tabi tutan Google'ın yeni yapay zeka kırmızı ekibinin başkanı Daniel Fabian, üretken yapay zekanın geniş bir veri külliyatı üzerinde eğitildiği için, yapay zeka modellerinin korunmasını geleneksel güvenlik uygulamalarından farklı kıldığını söyledi.

Nvidia'nın yazılım güvenliğinden sorumlu Başkan Yardımcısı Daniel Rohrer, bu alanın henüz ilk aşamalarında, yapay zeka sistemleriyle nasıl oynanacağını bilen güvenlik uzmanlarının sayısının yok denecek kadar az olduğunu söyledi. Bu nedenle yapay zeka kırmızı takım çalışanlarından oluşan sıkı bir topluluk bulgularını paylaşma eğiliminde. Google'ın kırmızı ekibi yapay zeka modellerine saldırmanın yeni yolları üzerine araştırmalar yayınlarken, Microsoft'un kırmızı ekibi de diğer işletmelerin algoritmaların güvenlik ve emniyet risklerini test etmelerine yardımcı olan Counterfit gibi saldırı araçlarını açık kaynaklı hale getirdi.

Ekibi beş yıl önce kuran Ram Shankar Siva Kumar, "Kendi kırmızı ekibimizi hızlandırmak için kullandığımız bu saçma sapan komut dosyalarını geliştiriyorduk. Bunu bildikleri ve anladıkları bir çerçevede tüm güvenlik profesyonellerinin kullanımına sunmak istedik" dedi. Bir yapay zeka sistemini test etmeden önce Siva Kumar'ın ekibi, kendi deyimiyle internetin gözleri ve kulakları olan şirketin istihbarat ekibinden siber tehditler hakkında veri topluyor. Daha sonra Microsoft'taki diğer kırmızı ekiplerle birlikte çalışarak yapay zeka sistemindeki hangi güvenlik açıklarının nasıl hedef alınacağını belirliyor. Ekip bu yıl Microsoft'un yıldız yapay zeka ürünü Bing Chat'in yanı sıra GPT-4'ü de inceleyerek açıkları bulmaya çalıştı.

Bu arada Nvidia'nın kırmızı ekip yaklaşımının bir parçası da güvenlik mühendislerine ve GPU'lar gibi işlem kaynakları için kendisine güvenen şirketlere algoritmaların nasıl kırmızı ekibe alınacağı konusunda hızlandırılmış kurslar vermek. Rohrer, "Herkes için yapay zekanın motoru olarak büyük bir güçlendirme faktörüne sahibiz. Eğer başkalarına bun öğretebilirsek, Anthropic, Google, OpenAI, hepsi bunu doğru yapar" diye konuştu.

Hem kullanıcılar hem de hükümet yetkilileri tarafından yapay zeka uygulamalarına yönelik incelemelerin artmasıyla birlikte, kırmızı ekipler YZ yarışında teknoloji firmalarına rekabet avantajı da sunuyor. YZ hackerları ve güvenlik uzmanlarından oluşan bir topluluk olan AI Village'ın kurucusu Sven Cattell, "Bence hendek güven ve güvenlik olacak. Bizimki en güvenlisi' reklamlarını görmeye başlayacaksınız" dedi.

Meta'nın 2019 yılında kurulan ve bilgisayar korsanlarının Instagram ve Facebook'ta nefret söylemi, çıplaklık, yanlış bilgilendirme ve yapay zeka tarafından üretilen sahte gönderileri tespit edip kaldıran içerik filtrelerini aşmaları için şirket içi mücadeleler düzenleyen kırmızı ekibi oyuna erken dahil oldu. Modelin nasıl geliştirildiğini detaylandıran bir rapora göre, Temmuz 2023'te sosyal medya devi, açık kaynaklı en son büyük dil modeli olan Llama 2'yi test etmek için dış uzmanlar, sözleşmeli çalışanlar ve yaklaşık 20 çalışandan oluşan bir iç ekip de dahil olmak üzere 350 kırmızı ekip üyesini işe aldı. Ekip, vergi kaçırma, anahtarsız araba çalıştırma ve saadet zinciri kurma gibi sorular sordu. Facebook'un kırmızı ekibinin başkanı Canton, "Yapay zeka kırmızı ekibimizin sloganı 'Eğitimde ne kadar çok terlerseniz, savaşta o kadar az kanarsınız'" dedi.

Bu slogan, Ağustos ayı başında Las Vegas'ta düzenlenen DefCon bilgisayar korsanlığı konferansında gerçekleştirilen en büyük YZ kırmızı takım tatbikatlarından birinin ruhuna benziyordu. Aralarında OpenAI, Google, Meta, Nvidia, Stability AI ve Anthropic'in de bulunduğu sekiz şirket, kredi kartı numaraları gibi hassas bilgileri ifşa etmek ya da siyasi yanlış bilgilendirme gibi zararlı materyaller üretmek üzere tasarlanmış komutları beslemeleri için yapay zeka modellerini 2000'den fazla bilgisayar korsanına açtı. Beyaz Saray'daki Bilim ve Teknoloji Politikası Ofisi, otomatik sistemlerin nasıl tasarlanması, kullanılması ve güvenli bir şekilde piyasaya sürülmesi gerektiğine dair bir kılavuz olan YZ Haklar Bildirgesi planına bağlı kalarak kırmızı takım mücadelesini tasarlamak için etkinliğin organizatörleriyle birlikte çalıştı.

Etkinliğe öncülük eden Yapay Zeka Köyü'nün kurucusu Cattell, şirketlerin ilk başta modellerini sunma konusunda isteksiz davrandıklarını, bunun nedeninin de halka açık bir forumda kırmızı takım oluşturmanın yaratacağı itibar riskleri olduğunu söyledi. Forbes'a verdiği demeçte, "Google'ın ya da OpenAI'nin bakış açısına göre biz DefCon'daki bir grup çocuğuz" dedi. Ancak teknoloji şirketlerine modellerin anonimleştirileceği ve bilgisayar korsanlarının hangi modele saldırdıklarını bilmeyecekleri konusunda güvence verdikten sonra kabul ettiler. Bilgisayar korsanlarının yapay zeka modelleriyle yaptıkları yaklaşık 17 bin görüşmenin sonuçları Şubat ayına kadar kamuoyuna açıklanmayacak olsa da, şirketler etkinlikten ele alınması gereken birkaç yeni güvenlik açığı ile ayrıldı. Etkinliğin organizatörleri tarafından açıklanan yeni verilere göre, sekiz modelde, kırmızı ekip üyeleri, modeli kendisiyle çelişmeye ikna etmek veya bir kişiyi bilgisi olmadan nasıl gözetleyeceğine dair talimat vermek gibi yaklaşık 2 bin 700 kusur buldu.

"Üretken yapay zeka çok başlı bir canavar"

Ghosh, sistemdeki bu tür güvenlik açıklarının, özellikle de bazı kullanıcılar tarafından her şeyi bilen bilinçli varlıklar olarak algılanabilecekleri durumlarda, yapay zeka modellerinin kırmızı ekiple çalışmasını daha da önemli hale getirdiğini söyledi. Botların gerçekten zeki olduğuna inanan kişiler tanıdığını belirten Ghosh, "Ama öyle değil. Tam anlamıyla otomatik tamamlama" dedi. Ancak uzmanlar, üretken yapay zekanın çok başlı bir canavar gibi olduğunu, kırmızı ekipler sistemdeki bazı açıkları tespit edip düzeltirken, başka yerlerde başka kusurların ortaya çıkabileceğini söylüyor. Microsoft'tan Siva Kumar, "Bu sorunu çözmek için bir köy gerekecek" dedi.

Forbes ekip liderleriyle konuştu: Teknoloji devleri yapay zekalarını test etmek için özel hackerlar işe aldı

Forbes, Microsoft, Google, Nvidia ve Meta'da yapay zeka sistemlerindeki güvenlik açıklarını bulup düzeltmekle görevli hacker ekiplerinin liderleriyle konuştu. Bir yapay zeka güvenlik uzmanı, "'Bizimki en güvenlisi' diye reklamlar görmeye başlayacaksınız" dedi

The New York Times yazdı: Yapay zeka devrimi o kadar da hızlı olmayacak

Kör noktaları ortaya çıkarıyorlar

"Güvenli ama işe yaramaz"

ChatGPT'nin şirketlere yönelik sürümü yolda

Meta kodlamada kullanılacak yapay zeka aracı Code Llama'yı piyasaya sürdü

New York Times Google’ın yeni yapay zeka asistanını yazdı: Hayata dair tavsiyeler verecek

Meta'dan hepsi bir arada yapay zeka çeviri modeli: 100'e yakın dili anlayabiliyor

"Üretken yapay zeka çok başlı bir canavar"