Cade Metz - Tiffany Hsu / The New York Times
Çarşamba günü, San Francisco'lu yapay zeka girişimi OpenAI, DALL-E görüntü oluşturucusunun yeni bir versiyonunu küçük bir test grubu için yayınladı ve teknolojiyi popüler çevrimiçi sohbet robotu ChatGPT'ye kattı. Şirket, DALL-E 3 olarak adlandırılan bu teknolojinin önceki versiyonlarına göre daha gerçekçi görüntüler üretebildiğini ve harfler, sayılar ve insan eli içeren görüntüler için özel bir beceri gösterdiğini söyledi.
OpenAI araştırmacısı Aditya Ramesh, "Kullanıcının ne istediğini anlama ve bu isteği gerçeğe dönüştürme konusunda çok daha iyi" dedi ve teknolojinin İngilizce dilini daha kesin bir şekilde kavramak için inşa edildiğini sözlerine ekledi.
Silikon Vadisi'nin yeni yıldızı
DALL-E'nin en son sürümünü ChatGPT'ye ekleyen OpenAI, sohbet robotunu kendi başına metin, görüntü, ses, yazılım ve diğer dijital medyayı üretebilen gelişmiş yapay zeka için bir merkez olarak sağlamlaştırıyor. ChatGPT geçen yıl viral hale geldiğinden bu yana, Silikon Vadisi teknoloji devleri arasında gelişmelerle yapay zekanın ön saflarında yer alma yarışını başlattı.
Salı günü ise Google; Gmail, YouTube ve Docs dahil olmak üzere şirketin en popüler hizmetlerinden birkaçıyla bağlantı kuran ChatGPT'nin alternatifi olan sohbet robotu Bard'ın yeni bir sürümünü yayınladı. Diğer iki görüntü oluşturucu olan Midjourney ve Stable Diffusion da bu yaz modellerini güncelledi.
OpenAI uzun zamandır sohbet robotunu Expedia, OpenTable ve Wikipedia gibi diğer çevrimiçi hizmetlere bağlama yolları sunuyor. Ancak girişim ilk kez bir sohbet robotunu bir görüntü oluşturucu ile birleştirdi.
DALL-E ve ChatGPT bütünleşti
DALL-E ve ChatGPT daha önce ayrı uygulamalardı. Ancak son sürümle birlikte insanlar artık ChatGPT'nin hizmetini kullanarak sadece görmek istedikleri şeyi tarif ederek dijital görüntüler üretebiliyor. Ya da kullanıcılar chatbot tarafından oluşturulan açıklamaları kullanarak görüntüler oluşturabiliyor. Böylece grafik, sanat ve diğer medya üretimi daha otomatik hale geliyor.
Birkaç kelimeyle görüntü üretimi
OpenAI araştırmacısı Gabriel Goh, bu hafta yaptığı bir gösteride ChatGPT'nin artık nasıl ayrıntılı metin açıklamaları oluşturabildiğini ve bunların daha sonra görüntü üretmek için kullanıldığını gösterdi. Örneğin, Mountain Ramen adlı bir restoranın logosunun açıklamalarını oluşturduktan sonra, bot birkaç saniye içinde bu açıklamalardan birkaç görüntü oluşturdu.
Hataya eğilimli
Goh, DALL-E'nin yeni versiyonunun çok paragraflı açıklamalardan görüntüler üretebildiğini ve en ince ayrıntısına kadar belirtilen talimatları yakından takip edebildiğini söyledi. Goh, tüm görüntü oluşturucular ve diğer yapay zeka sistemleri gibi bu sistemin de hatalara eğilimli olduğunu söyledi.
Teknolojiyi geliştirmeye çalışan OpenAI, DALL-E 3'ü önümüzdeki aya kadar halka açmayacak. DALL-E 3 daha sonra aylık 20 dolar olan bir hizmet olan ChatGPT Plus aracılığıyla kullanılabilecek.
Dezenformasyon riski
Uzmanlar, görüntü üreten teknolojinin internette büyük miktarda dezenformasyon yaymak için kullanılabileceği uyarısında bulundu. OpenAI, DALL-E 3 ile buna karşı koruma sağlamak amacıyla, cinsel içerikli görüntüler ve kamuya mal olmuş kişilerin tasvirleri gibi sorunlu konuları önlemek için tasarlanmış araçlar kullanıyor. Şirket ayrıca DALL-E'nin belirli sanatçıların stillerini taklit etme yeteneğini de sınırlamaya çalışıyor.
Güvenlik ve politika konularına odaklanan OpenAI araştırmacısı Sandhini Agarwal, DALL-E 3'ün gerçek bir fotoğraf olmaktan çok stilize görüntüler üretme eğiliminde olduğunu söyledi. Yine de, modelin güvenlik kameraları tarafından çekilen grenli görüntüler gibi ikna edici sahneler üretmesinin istenebileceğini kabul etti.
OpenAI, DALL-E 3'ten gelen potansiyel olarak sorunlu içeriği engellemeyi planlamıyor. Agarwal, böyle bir yaklaşımın "çok geniş" olduğunu, çünkü görüntülerin göründükleri bağlama bağlı olarak zararsız veya tehlikeli olabileceğini söyledi ve ekledi:
"Bu gerçekten de nerede kullanıldığına, insanların onun hakkında nasıl konuştuğuna bağlı"
© 2023 The New York Times Company