
Seperti apa pandangan di belakang layar pada video yang dihasilkan oleh model kecerdasan buatan? Anda mungkin berpikir prosesnya mirip dengan animasi stop-motion, di mana banyak gambar dibuat dan dijahit bersama, tetapi itu tidak cukup terjadi untuk “model difusi” seperti Openal’s Sora dan Google Veo 2.
Alih-alih memproduksi bingkai video-demi-bingkai (atau “autoregresif”), sistem ini memproses seluruh urutan sekaligus. Klip yang dihasilkan sering fotorealistik, tetapi prosesnya lambat dan tidak memungkinkan untuk perubahan saat terbang.
Ilmuwan dari Ilmu Komputer MIT dan Laboratorium Kecerdasan Buatan (CSAIL) dan Adobe Research kini telah mengembangkan pendekatan hibrida, yang disebut “Causvid,” untuk membuat video dalam hitungan detik. Sama seperti siswa yang cerdas belajar dari guru yang berpengalaman, model difusi urutan penuh melatih sistem autoregresif untuk dengan cepat memprediksi bingkai berikutnya sambil memastikan kualitas dan konsistensi tinggi. Model siswa Causvid kemudian dapat menghasilkan klip dari prompt teks sederhana, mengubah foto menjadi adegan bergerak, memperluas video, atau mengubah kreasi dengan input baru generasi tengah.
Alat dinamis ini memungkinkan pembuatan konten interaktif yang cepat dan interaktif, memotong proses 50 langkah menjadi hanya beberapa tindakan. Ini dapat membuat banyak adegan imajinatif dan artistik, seperti pesawat kertas yang berubah menjadi angsa, mammoth berbulu yang berkelana melalui salju, atau seorang anak melompat dalam genangan air. Pengguna juga dapat membuat prompt awal, seperti “menghasilkan seorang pria yang menyeberang jalan,” dan kemudian membuat input tindak lanjut untuk menambahkan elemen baru ke tempat kejadian, seperti “Dia menulis di buku catatannya ketika dia sampai di trotoar yang berlawanan.”
Video yang diproduksi oleh Causvid menggambarkan kemampuannya untuk membuat konten yang halus dan berkualitas tinggi.
Animasi yang dihasilkan AI milik para peneliti.
Para peneliti CSAIL mengatakan bahwa model tersebut dapat digunakan untuk tugas pengeditan video yang berbeda, seperti membantu pemirsa memahami streaming langsung dalam bahasa yang berbeda dengan menghasilkan video yang disinkronkan dengan terjemahan audio. Ini juga dapat membantu membuat konten baru dalam video game atau dengan cepat menghasilkan simulasi pelatihan untuk mengajarkan robot tugas baru.
Tianwei Yin SM ’25, PhD ’25, seorang siswa yang baru saja lulus dalam bidang teknik listrik dan ilmu komputer dan afiliasi CSAIL, mengaitkan kekuatan model dengan pendekatan campurannya.
“Causvid menggabungkan model berbasis difusi pra-terlatih dengan arsitektur autoregresif yang biasanya ditemukan dalam model pembuatan teks,” kata Yin, penulis co-lead dari yang baru kertas tentang alatnya. “Model guru bertenaga AI ini dapat membayangkan langkah-langkah masa depan untuk melatih sistem bingkai demi bingkai untuk menghindari membuat kesalahan rendering.”
Penulis co-lead Yin, Qiang Zhang, adalah seorang ilmuwan peneliti di XAI dan mantan peneliti yang berkunjung CSAIL. Mereka mengerjakan proyek dengan ilmuwan penelitian Adobe Richard Zhang, Eli Shechtman, dan Xun Huang, dan dua penyelidik utama CSAIL: Profesor MIT Bill Freeman dan Frédo Durand.
Penyebab (vid) dan efek
Banyak model autoregresif dapat membuat video yang awalnya halus, tetapi kualitasnya cenderung turun nanti dalam urutan. Klip seseorang yang berlari mungkin tampak seperti kehidupan pada awalnya, tetapi kaki mereka mulai memukul-mukul ke arah yang tidak wajar, menunjukkan inkonsistensi bingkai-ke-bingkai (juga disebut “akumulasi kesalahan”).
Generasi video rawan kesalahan adalah umum dalam pendekatan kausal sebelumnya, yang belajar memprediksi frame satu per satu sendiri. Causvid sebaliknya menggunakan model difusi bertenaga tinggi untuk mengajarkan sistem yang lebih sederhana keahlian video umumnya, memungkinkannya untuk membuat visual yang halus, tetapi jauh lebih cepat.
Causvid memungkinkan pembuatan video yang cepat dan interaktif, memotong proses 50 langkah menjadi hanya beberapa tindakan.
Video milik para peneliti.
Causvid menampilkan bakat pembuatan video ketika para peneliti menguji kemampuannya untuk membuat video resolusi tinggi, sepanjang 10 detik. Itu mengungguli garis dasar seperti “OpenSora” Dan “Filmgen”Bekerja hingga 100 kali lebih cepat dari kompetisinya sambil memproduksi klip berkualitas tinggi yang paling stabil.
Kemudian, Yin dan rekan-rekannya menguji kemampuan Causvid untuk mengeluarkan video 30 detik yang stabil, di mana ia juga menduduki puncak model yang sebanding pada kualitas dan konsistensi. Hasil ini menunjukkan bahwa Causvid pada akhirnya dapat menghasilkan video yang stabil, berjam-jam, atau bahkan durasi yang tidak terbatas.
Sebuah studi selanjutnya mengungkapkan bahwa pengguna lebih suka video yang dihasilkan oleh model siswa Causvid daripada guru berbasis difusi.
“Kecepatan model autoregresif benar -benar membuat perbedaan,” kata Yin. “Videonya terlihat sama baiknya dengan yang guru, tetapi dengan lebih sedikit waktu untuk diproduksi, trade-off adalah bahwa visualnya kurang beragam.”
Causvid juga unggul ketika diuji pada lebih dari 900 petunjuk menggunakan dataset teks-ke-video, menerima skor keseluruhan teratas 84,27. Ini membanggakan metrik terbaik dalam kategori seperti kualitas pencitraan dan aksi manusia yang realistis, melampaui model generasi video canggih seperti “Vchitect” Dan “Gen-3.“
Sementara langkah maju yang efisien dalam pembuatan video AI, Causvid mungkin segera dapat merancang visual lebih cepat – mungkin secara instan – dengan arsitektur kausal yang lebih kecil. Yin mengatakan bahwa jika model dilatih pada dataset khusus domain, kemungkinan akan membuat klip berkualitas lebih tinggi untuk robotika dan permainan.
Para ahli mengatakan bahwa sistem hybrid ini merupakan peningkatan yang menjanjikan dari model difusi, yang saat ini macet dengan kecepatan pemrosesan. “[Diffusion models] jauh lebih lambat dari llms [large language models] Atau model gambar generatif, “kata Asisten Profesor Universitas Carnegie Mellon Jun-Yan Zhu, yang tidak terlibat dalam makalah ini.” Pekerjaan baru ini berubah yang, membuat pembuatan video jauh lebih efisien. Itu berarti kecepatan streaming yang lebih baik, aplikasi yang lebih interaktif, dan jejak kaki karbon yang lebih rendah. ”
Pekerjaan tim didukung, sebagian, oleh Amazon Science Hub, Gwangju Institute of Science and Technology, Adobe, Google, Laboratorium Penelitian Angkatan Udara AS, dan akselerator kecerdasan buatan Angkatan Udara AS. Causvid akan disajikan pada konferensi tentang visi komputer dan pengenalan pola pada bulan Juni.
Informasi ini pertama kali tayang di MIT.edu klik disini untuk melihat berita lainnya.
Discover more from Kitiran Media
Subscribe to get the latest posts sent to your email.