Uncategorized

AI belajar bagaimana visi dan suara terhubung, tanpa intervensi manusia | Berita MIT

[ad_1]

Manusia secara alami belajar dengan membuat koneksi antara penglihatan dan suara. Misalnya, kita dapat menonton seseorang bermain cello dan mengenali bahwa gerakan pemain cello menghasilkan musik yang kita dengar.

Pendekatan baru yang dikembangkan oleh para peneliti dari MIT dan di tempat lain meningkatkan kemampuan model AI untuk belajar dengan cara yang sama ini. Ini bisa berguna dalam aplikasi seperti jurnalisme dan produksi film, di mana model dapat membantu dengan membuat konten multimodal melalui pengambilan video dan audio otomatis.

Dalam jangka panjang, pekerjaan ini dapat digunakan untuk meningkatkan kemampuan robot untuk memahami lingkungan dunia nyata, di mana informasi pendengaran dan visual sering terhubung erat.

Meningkatkan pekerjaan sebelumnya dari grup mereka, para peneliti membuat metode yang membantu model pembelajaran mesin menyelaraskan data audio dan visual yang sesuai dari klip video tanpa perlu label manusia.

Mereka menyesuaikan bagaimana model aslinya dilatih sehingga mempelajari korespondensi berbutir lebih halus antara bingkai video tertentu dan audio yang terjadi pada saat itu. Para peneliti juga membuat beberapa penyesuaian arsitektur yang membantu sistem menyeimbangkan dua tujuan pembelajaran yang berbeda, yang meningkatkan kinerja.

Secara keseluruhan, perbaikan yang relatif sederhana ini meningkatkan keakuratan pendekatan mereka dalam tugas pengambilan video dan dalam mengklasifikasikan tindakan dalam adegan audiovisual. Misalnya, metode baru ini dapat secara otomatis dan tepat cocok dengan suara pintu yang membanting dengan visual yang ditutup dalam klip video.

Kami sedang membangun sistem AI yang dapat memproses dunia seperti yang dilakukan manusia, dalam hal memiliki informasi audio dan visual yang masuk sekaligus dan mampu memproses modalitas dengan mulus. Melihat ke depan, jika kami dapat mengintegrasikan teknologi audio-visual ini ke dalam beberapa alat yang kami gunakan setiap hari, seperti Model Bahasa Besar, itu dapat membuka banyak aplikasi baru, “kata dan koud yang banyak,” kata MIUTKO, “kata mutu. Makalah tentang penelitian ini.

Dia bergabung di atas kertas oleh penulis utama Edson Araujo, seorang mahasiswa pascasarjana di Goethe University di Jerman; Yuan Gong, mantan postdoc MIT; Saurabhchand Bhati, postdoc MIT saat ini; Samuel Thomas, Brian Kingsbury, dan Leonid Karlinsky dari IBM Research; Rogerio Feris, ilmuwan utama dan manajer di Lab MIT-IBM Watson AI; James Glass, Ilmuwan Penelitian Senior dan Kepala Kelompok Sistem Bahasa Lisan di MIT Computer Science dan Laboratorium Kecerdasan Buatan (CSAIL); dan penulis senior Hilde Kuehne, Profesor Ilmu Komputer di Goethe University dan seorang profesor yang berafiliasi di MIT-IBM Watson AI Lab. Pekerjaan akan disajikan pada konferensi tentang visi komputer dan pengenalan pola.

Menyinkronkan

Pekerjaan ini dibangun di atas metode pembelajaran mesin Para peneliti berkembang Beberapa tahun yang lalu, yang memberikan cara yang efisien untuk melatih model multimodal untuk secara bersamaan memproses data audio dan visual tanpa perlu label manusia.

Para peneliti memberi makan model ini, yang disebut Cav-Mae, klip video yang tidak berlabel dan mengkodekan data visual dan audio secara terpisah ke dalam representasi yang disebut token. Menggunakan audio alami dari perekaman, model secara otomatis belajar memetakan pasangan audio dan token visual yang sesuai berdekatan dalam ruang representasi internalnya.

Mereka menemukan bahwa menggunakan dua tujuan pembelajaran menyeimbangkan proses pembelajaran model, yang memungkinkan Cav-Mae untuk memahami data audio dan visual yang sesuai sambil meningkatkan kemampuannya untuk memulihkan klip video yang sesuai dengan kueri pengguna.

Tapi Cav-Mae memperlakukan sampel audio dan visual sebagai satu unit, jadi klip video 10 detik dan suara pintu yang membanting dipetakan bersama, bahkan jika peristiwa audio itu terjadi hanya dalam satu detik dari video.

Dalam model mereka yang ditingkatkan, yang disebut sinkronisasi Cav-Mae, para peneliti membagi audio menjadi jendela yang lebih kecil sebelum model menghitung representasi data, sehingga menghasilkan representasi terpisah yang sesuai dengan setiap jendela audio yang lebih kecil.

Selama pelatihan, model belajar untuk mengaitkan satu bingkai video dengan audio yang terjadi selama bingkai itu.

“Dengan melakukan itu, model mempelajari korespondensi berbutir yang lebih baik, yang membantu kinerja nanti ketika kami mengumpulkan informasi ini,” kata Araujo.

Mereka juga memasukkan perbaikan arsitektur yang membantu model menyeimbangkan dua tujuan pembelajarannya.

Menambahkan “ruang gerak”

Model ini menggabungkan tujuan kontras, di mana ia belajar untuk mengaitkan data audio dan visual yang serupa, dan tujuan rekonstruksi yang bertujuan untuk memulihkan data audio dan visual spesifik berdasarkan kueri pengguna.

Dalam sinkronisasi Cav-Mae, para peneliti memperkenalkan dua jenis representasi data baru, atau token, untuk meningkatkan kemampuan belajar model.

Mereka termasuk “token global” yang berdedikasi yang membantu dengan tujuan pembelajaran yang kontras dan “token register” yang berdedikasi yang membantu model fokus pada detail penting untuk tujuan rekonstruksi.

“Pada dasarnya, kami menambahkan sedikit lebih banyak ruang gerak untuk model sehingga dapat melakukan masing -masing dari dua tugas ini, kontras dan rekonstruktif, sedikit lebih mandiri. Itu menguntungkan kinerja keseluruhan,” tambah Araujo.

Sementara para peneliti memiliki beberapa intuisi peningkatan ini akan meningkatkan kinerja sinkronisasi Cav-Mae, dibutuhkan kombinasi strategi yang cermat untuk menggeser model ke arah yang mereka inginkan.

“Karena kami memiliki banyak modalitas, kami membutuhkan model yang baik untuk kedua modalitas sendiri, tetapi kami juga perlu membuat mereka bergabung bersama dan berkolaborasi,” kata Rouditchenko.

Pada akhirnya, peningkatan mereka meningkatkan kemampuan model untuk mengambil video berdasarkan kueri audio dan memprediksi kelas adegan audio-visual, seperti anjing menggonggong atau bermain instrumen.

Hasilnya lebih akurat daripada pekerjaan mereka sebelumnya, dan juga berkinerja lebih baik daripada metode canggih yang lebih kompleks yang membutuhkan data pelatihan yang lebih besar.

“Kadang -kadang, ide -ide yang sangat sederhana atau pola kecil yang Anda lihat dalam data memiliki nilai besar ketika diterapkan di atas model yang sedang Anda kerjakan,” kata Araujo.

Di masa depan, para peneliti ingin memasukkan model baru yang menghasilkan representasi data yang lebih baik ke dalam sinkronisasi Cav-Mae, yang dapat meningkatkan kinerja. Mereka juga ingin mengaktifkan sistem mereka untuk menangani data teks, yang akan menjadi langkah penting untuk menghasilkan model bahasa besar audiovisual.

Pekerjaan ini didanai, sebagian, oleh Kementerian Pendidikan dan Penelitian Federal Jerman dan Lab MIT-IBM Watson AI.

[ad_2]
Informasi ini pertama kali tayang di MIT.edu klik disini untuk melihat berita lainnya.


Discover more from Kitiran Media

Subscribe to get the latest posts sent to your email.

Related Articles

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button