San Francisco merkezli teknoloji şirketi OpenAl'ın yazılı komutlarla gerçekçi veya yaratıcı görüntüler oluşturabilen modeli "Sora" ile yapay zekayla ürün oluşturma teknolojilerinin sınırları zorlanırken ultra gerçekçi fotoğraf ve videolar elde edilebilecek.
Yapay zeka araçlarından DALL-E'nin versiyonları gibi çeşitli eserler üreten yapay zeka modeli Sora, bilinen yapay zeka video üretim modellerinin çok daha ilerisinde bir kalite sunmayı hedefliyor. Henüz deneme aşamasında bulunan model, mevcut durumda neredeyse mükemmele yakın, gerçekçi veya animasyon videoları ile bir dakikaya kadar yüksek kaliteli videolar oluşturabiliyor.
Introducing Sora, our text-to-video model.
— OpenAI (@OpenAI) February 15, 2024
Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W
Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
Hem yazılı komut hem de bir fotoğraftan geniş ekranda 1920x1080 piksel, dikey olarak 1080x1920 piksel ölçekte ve kalitede video örnekleri sunabilen Sora, hem var olan görüntülerin devamına veya gerisine ekleme yapabiliyor hem de 2048x2048 piksel çözünürlükte fotoğraflar üretebiliyor. Bu özellik, Sora'ya farklı cihazlar için doğrudan kendi yerel en ve boy oranlarında içerik oluşturmasına olanak sağlıyor.
Teknoloji Youtuber’ı Marques Brownlee, Sora ile ilgili ilk izlenimini “korkutucu” olarak tanımladı.
- Sora'nın en önemli özelliklerinden biri, oluşturduğu görüntülerdeki tutarlılık. Yapay zeka modeli tarafından üretilen, video boyunca tutarlı görünüme sahip görüntülerdeki insan veya diğer cisimler, kareden çıksalar bile kamera ögeye döndüğünde bu tutarlılığını koruyabiliyor.
- Sora'nın diğer bir önemli özelliği, videodaki ögelerin gerçek hayattaki fiziki hareketlerini taklit ederek hem görsel hem de mantıksal olarak gerçekçi videolar oluşturabilmesi.
- DALL-E 3'e benzer şekilde Sora da kullanıcı istemlerini doğru şekilde takip eden yüksek kaliteli videolar üretirken ChatGPT'den yararlanıyor.
- Girdi olarak görüntü ve komut istemi sağlandığında video oluşturabilen Sora'ya önceden var olan resim veya videolar gibi başka girdiler de sorulabiliyor.
- Girdi olarak sağlanan videoları zamanda ileri veya geriye doğru genişletme yeteneği bulunan Sora, ayrıca tamamen farklı konu ve sahne kompozisyonlarına sahip videolar arasında kesintisiz geçişler oluşturmak için de kullanılıyor.
- Sora, kameranın kayması ve dönmesiyle insanlar ve sahne ögelerinin de 3 boyutlu ortamda tutarlı şekilde hareket etmelerini sağlayan dinamik kamera hareketine sahip videolar oluşturabiliyor.
- Birden fazla karakter, spesifik hareket biçimleri ve arka plana ilişkin ayrıntıların bulunduğu karmaşık sahneler oluşturma özelliğine sahip Sora, bunların yanı sıra yalnızca kullanıcının komutuna bağlı kalmıyor, aynı zamanda objelerin fiziksel dünyada nasıl hareket ettiklerini de anlıyor.
- Dil konusundaki yetenekleri de gelişmiş olan Sora, verilen komutları doğru anlayarak çeşitli duyguları ifade eden karakterler oluşturabiliyor.
Modelin zayıf noktaları
Öte yandan Sora'nın bazı zayıf yönleri ve eksiklikleri de bulunuyor.
- Yemek yeme gibi eylemlere yer verilen videolarda, kullanılan nesnenin durumunda her zaman doğru değişiklikler olmuyor. Örneğin, ısırılan kurabiyede ısırık izinin olmaması gibi hatalar verebiliyor.
- Diğer bir örnekse cam kırılması gibi birçok temel etkileşimin fiziğini doğru şekilde modelleyemiyor.
- Sora'nın bir başka kusurunun da yönleri karıştırabilmesi ve belirli bir kamera açısını takip etmekte zorlanması olduğu belirtiliyor.
Bazı içerikler yasaklanacak
Yapay zeka tarafından üretilen videoların "dolandırıcılık, propaganda ve yanlış bilgilendirme" gibi alanlarda kullanılabileceği yönündeki endişeler de sürüyor. Sora'da aşırı şiddet, cinsel içerik, nefret görüntüleri ve ünlü simaların kullanıldığı içeriklerin yasak olacağını duyuran OpenAI, modeli kullanıma sunmadan önce önemli güvenlik önlemleri üzerinde çalışıldığını bildirdi. Ayrıca, bu modele ilişkin oluşabilecek problemleri anlamak amacıyla dünyanın dört bir yanından politikacılar, eğitimciler ve sanatçılarla görüşüleceği ifade ediliyor.
Prompt: “Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance… pic.twitter.com/Um5CWI18nS
— OpenAI (@OpenAI) February 15, 2024