Tomorrow

Artık Fotoğraflar Konuşacak: Vasa-1

Artık Fotoğraflar Konuşacak: Vasa-1

Microsoft, VASA-1 adlı yapay zeka aracını tanıttı. Araç, hareketsiz bir fotoğrafı, bir ses örneğiyle birleştirerek gerçek kişi gibi görünen ve ses çıkaran videolar oluşturmayı mümkün kılıyor. VASA-1, portre tarzında tek bir görüntü ve bir ses dosyasını alarak bunları birleştiriyor ve sonuç olarak gerçekçi yüz ifadeleri, kafa hareketleri ve hatta yüklenen sesle şarkı söyleyebilen konuşan bir kafanın kısa bir videosunu oluşturuyor.

Microsoft, VASA-1’in genel kullanıma sunulmadığını, henüz bir araştırma projesi olduğunu belirtti. Ancak, şirket ilgi çekici videolarla aracı tanıttı. Yeni aracın özellikle sanal karakterlerin canlandırılması amacıyla tasarlandığını ve örneklerindeki tüm kişilerin sentetik olduğunu açıkladı. Bu kişilerin oluşturulmasında OpenAI’ın DALL-E görüntü oluşturma modelinin kullanıldığını vurguladı.

Demo videolarında, konuşan kafalar oldukça gerçekçi ve doğal görünümlü hareketlerle filme alınmış gibi duruyor. Dudak senkronizasyonu yetenekleri özellikle etkileyici ve yapay hareketlerin fark edilmesi oldukça zor. VASA-1’in çalışması için geleneksel, portre tarzı bir görüntüye ihtiyaç duymaması ise dikkat çekici bir detay.

Bu yazıyı paylaş: