Meta tidak meninggalkan kebutuhan bisnis yang terlewat dalam upayanya untuk mendominasi lanskap AI. Pada hari Jumat, raksasa teknologi yang dipimpin Mark Zuckerberg mengumumkan pembuatan model AI baru yang disebut MovieGen yang dapat menghasilkan klip video dan audio yang realistis sebagai respons terhadap perintah. Perusahaan mengklaim dapat bersaing dengan beberapa alat video AI paling mumpuni yang ada, seperti OpenAI dan ElevenLabs.

Perkembangan ini terjadi beberapa bulan setelah OpenAI memperkenalkan model videonya Sora kepada dunia. Meskipun Sora belum mengumumkannya secara terbuka, demo yang dibagikan oleh OpenAI telah menciptakan kehebohan di Internet, terutama karena rekaman dan gerakannya yang sangat realistis yang berasal dari Hollywood.

Apa itu Gen Film?

Gen Film Meta menghasilkan video dengan bantuan input teks dan juga dapat mengedit rekaman atau gambar diam yang ada. Menurut laporan tersebut, audio yang ditambahkan ke video juga dihasilkan oleh AI dan disinkronkan dengan visual. Model AI Meta memungkinkan pengguna membuat video dalam rasio aspek berbeda.

“Kemajuan penelitian terbaru kami menunjukkan bagaimana Anda dapat menggunakan input teks sederhana untuk membuat video dan suara khusus, mengedit video yang ada, atau mengubah gambar pribadi Anda menjadi video unik,” tulis Meta di situs resminya.

Menurut makalah penelitian yang dibagikan oleh Meta, Movie Gen adalah alat pembuatan video AI canggih yang dirancang untuk menghasilkan video HD 1080p berkualitas tinggi dari perintah bahasa alami dengan audio yang disinkronkan. Selain memproduksi video dalam rasio aspek berbeda, ia dapat melakukan pengeditan khusus pada video dan juga membuat konten yang dipersonalisasi menggunakan gambar yang disediakan pengguna.

Penawaran meriah

Bagaimana cara kerja Film Zen?

Movie Gen didukung oleh model AI besar, yang juga dikenal sebagai model dasar, untuk menghasilkan media. Namun, komponen inti model ini adalah MovieGen Video dan MovieGen Audio. Movie Gen Audio adalah model parameter 30 miliar yang dapat menghasilkan video berdasarkan perintah teks. Model ini menggabungkan kemampuan text-to-image dan text-to-video untuk menghasilkan video realistis hingga 16 detik pada 16 frame per detik. Di sisi lain, MovieGen Audio adalah model parameter 13 miliar yang menghasilkan audio agar sesuai dengan video atau teks. Itu juga dapat menghasilkan suara realistis, kebisingan sekitar, atau musik yang sesuai dengan adegan yang dijelaskan dalam perintah.

Menurut makalah penelitian, model tersebut menggunakan teknik seperti autoencoding temporal MovieGen untuk mengompresi informasi video guna memfasilitasi pemrosesan video berdurasi panjang dan berkualitas tinggi. Mirip dengan model bahasa, Movie Gen juga menggunakan arsitektur transformator, namun untuk data visual dan audio.

Apa bedanya dengan OpenAI Sora?

Movie Gen menonjol karena resolusi videonya yang superior, produksi audio yang tersinkronisasi, kemampuan untuk mempersonalisasi video berdasarkan gambar yang disediakan pengguna, dan kemampuan pengeditan video tingkat lanjut. Berdasarkan makalah tersebut, Movie Gen adalah alat yang dinamis dan berkualitas tinggi untuk pembuatan video AI.

Dalam hal kualitas dan resolusi video, Movie Gen membuat video HD 1080p dan Sora, meskipun menghasilkan output serupa tetapi kualitas keseluruhannya tidak lebih tinggi dari Sora. Membuat audio yang tersinkronisasi agar sesuai dengan konten visual adalah spesialisasi MovieGen, selama ini Sora hanya fokus pada pembuatan video dan kurang memiliki kemampuan produksi audio. Kami tidak tahu apakah Sora akan menawarkan personalisasi berdasarkan gambar yang disediakan pengguna atau apakah itu akan dilengkapi dengan kemampuan pengeditan bawaan.

Secara teknis, Movie Gen menggunakan model parameter 30 miliar untuk pembuatan video dan model parameter 13 miliar untuk audio. Perlu diperhatikan bahwa ukuran model yang besar dan data pelatihan yang ekstensif membuat model ini menjadi skenario yang kompleks.

Sora didemokan pada bulan Februari tahun ini. Model pembuatan video AI dari OpenAI dapat menghasilkan video HD berdurasi satu menit menggunakan perintah dalam bahasa alami. Sora dapat digambarkan sebagai model difusi yang mampu membuat video dan juga memperluas video yang sudah ada. Seperti Cinema Gen, Sora menggunakan arsitektur transformator yang memungkinkan peningkatan kinerja yang unggul. Saat peluncuran, OpenAI mengungkapkan bahwa model tersebut dibangun berdasarkan penelitian sebelumnya yang dilakukan untuk model DALL-E dan GPT.

Mengenai ketersediaannya, Paper Movie tidak memberikan rincian spesifik mengenai rilis Gen. Saat ini, model tersebut sedang dalam tahap penelitian dan pengujian.




Source link