Mona Lisa rap mi yapıyor? Yeni Microsoft AI, fotoğraflardan yüzleri canlandırıyor


New York
CNN

Microsoft'un yeni yapay zeka teknolojisi sayesinde Mona Lisa artık gülümsemekten fazlasını yapabiliyor.

Geçen hafta Microsoft araştırmacıları, birinin yüzünün sabit görüntüsünü ve konuşan birinin ses klibini alıp otomatik olarak o kişinin gerçekçi bir videosunu oluşturabilen, geliştirdikleri yeni bir yapay zeka modelini açıkladılar. Animasyonlu yüzlerden, çizgi filmlerden veya sanat eserlerinden videolar oluşturulabilir; etkileyici dudak senkronizasyonu ve doğal yüz ve kafa hareketleriyle tamamlanır.

Bir demo videoda araştırmacılar, aktör Anne Hathaway'in komedi rap'ini söylemek için Mona Lisa'yı nasıl canlandırdıklarını gösterdiler.

Yapay zeka modelinden elde edilen çıktılara denir VASA-1hem eğlenceli hem de gerçekçilikleri biraz rahatsız edici. Microsoft, teknolojinin eğitim amaçlı, “iletişim güçlüğü çeken bireyler için erişilebilirliği artırmak” veya insanlar için sanal arkadaşlar oluşturmak amacıyla kullanılabileceğini söyledi. Ancak bu aracın nasıl kötüye kullanılabileceğini ve gerçek insanların kimliğine bürünmek için kullanılabileceğini görmek kolaydır.

Bu, Microsoft'un ötesine geçen bir endişe: Yapay zeka tarafından oluşturulan inandırıcı görüntüler, videolar ve sesler oluşturmak için daha fazla araç ortaya çıktıkça, uzmanlar bunların kötüye kullanılmasının yeni dezenformasyon biçimlerine yol açabileceğinden endişe ediyor. Bazıları teknolojinin filmden reklamcılığa kadar yaratıcı endüstrileri daha da bozacağından endişe ediyor.

Şimdilik Microsoft, VASA-1 modelini halka sunma konusunda acil bir planının olmadığını söylüyor. Bu hamle, Microsoft ortağı OpenAI'nin, yapay zeka tarafından üretilen video aracı Sora ile ilgili endişeleri ele alma biçimine benziyor: OpenAI, Şubat ayında Sora'yla dalga geçti, ancak şu ana kadar bunu yalnızca bazı profesyonel kullanıcıların ve siber güvenlik profesörlerinin test amacıyla kullanımına sundu.

Microsoft araştırmacıları bir blog yazısında “Gerçek kişiler tarafından yanlış veya zararlı içerik oluşturan her türlü davranışa karşı çıkıyoruz” dedi. Ancak “teknolojinin sorumlu bir şekilde ve uygun düzenlemelere uygun olarak kullanılacağından emin olana kadar” ürünleri halka açık hale getirme konusunda “hiçbir planlarının” olmadığını da eklediler.

READ  SAG Strike: Hollywood Aktörleri Büyük Grev Yapacağını Duyurdu

Araştırmacılar, Microsoft'un yeni yapay zeka modelinin, insanların konuşurken yüzlerini gösteren çeşitli videolar üzerinde eğitildiğini ve “dudak hareketi, (dudak dışı) ifade, göz bakışı ve göz kırpma gibi doğal yüz ve baş hareketlerini tanımak” üzere tasarlandığını söyledi. VASA-1 hareketsiz bir fotoğrafı canlandırdığında sonuç, gerçeğe çok yakın bir video olur.

Örneğin, bir demo videoda, video oyunları oynarken tedirgin bir ses çıkaran birinin klibinde konuşan yüzün çatık bir kaşı ve dudakları var.

Yapay zeka aracı, konunun belirli bir yöne baktığı veya belirli bir duyguyu ifade ettiği bir video oluşturmaya yönlendirilebilir.

Daha yakından bakıldığında, ara sıra göz kırpma ve abartılı kaş hareketleri gibi videoların makine tarafından oluşturulduğuna dair işaretler hala görülüyor. Ancak Microsoft, modelinin diğer benzer araçlardan “önemli ölçüde daha iyi performans gösterdiğine” ve “insan konuşma davranışlarını taklit eden gerçekçi avatarlarla gerçek zamanlı etkileşimin önünü açtığına” inanıyor.

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir