Ai TechAi Trend

Mengajari AI untuk berkomunikasi terdengar seperti yang dilakukan manusia | Berita MIT

Baik Anda mendeskripsikan suara mesin mobil yang rusak atau mengeong seperti kucing tetangga, meniru suara dengan suara Anda bisa menjadi cara yang berguna untuk menyampaikan konsep ketika kata-kata tidak berhasil.

Peniruan vokal setara dengan mencoret-coret gambar secara singkat untuk mengkomunikasikan sesuatu yang Anda lihat – kecuali bahwa alih-alih menggunakan pensil untuk mengilustrasikan gambar, Anda menggunakan saluran vokal untuk mengekspresikan suara. Ini mungkin tampak sulit, tapi ini adalah sesuatu yang kita semua lakukan secara intuitif: Untuk merasakannya sendiri, coba gunakan suara Anda untuk mencerminkan suara sirene ambulans, burung gagak, atau bel yang dibunyikan.

Terinspirasi oleh ilmu kognitif tentang cara kita berkomunikasi, peneliti MIT Computer Science and Artificial Intelligence Laboratory (CSAIL) telah mengembangkan sistem AI yang dapat menghasilkan tiruan vokal mirip manusia tanpa pelatihan, dan tanpa pernah “mendengar” kesan vokal manusia sebelumnya. .

Untuk mencapai hal ini, para peneliti merekayasa sistem mereka untuk menghasilkan dan menafsirkan suara seperti yang kita lakukan. Mereka memulai dengan membuat model saluran suara manusia yang menyimulasikan bagaimana getaran dari kotak suara dibentuk oleh tenggorokan, lidah, dan bibir. Kemudian, mereka menggunakan algoritme AI yang diilhami secara kognitif untuk mengontrol model saluran vokal ini dan membuatnya menghasilkan tiruan, dengan mempertimbangkan cara spesifik konteks yang dipilih manusia untuk mengkomunikasikan suara.

Model ini dapat secara efektif mengambil banyak suara dari dunia luar dan menghasilkan tiruan yang mirip suara manusia — termasuk suara seperti gemerisik dedaunan, desisan ular, dan sirene ambulans yang mendekat. Model mereka juga dapat dijalankan secara terbalik untuk menebak suara dunia nyata dari tiruan vokal manusia, mirip dengan bagaimana beberapa sistem visi komputer dapat mengambil gambar berkualitas tinggi berdasarkan sketsa. Misalnya, model tersebut dapat dengan tepat membedakan suara manusia yang meniru suara “mengeong” dan “desisan” kucing.

Di masa depan, model ini berpotensi menghasilkan antarmuka “berbasis imitasi” yang lebih intuitif untuk perancang suara, lebih banyak karakter AI yang mirip manusia dalam realitas virtual, dan bahkan metode untuk membantu siswa mempelajari bahasa baru.

Rekan penulis utama – mahasiswa PhD MIT CSAIL Kartik Chandra SM ’23 dan Karima Ma, dan peneliti sarjana Matthew Caren – mencatat bahwa peneliti grafik komputer telah lama menyadari bahwa realisme jarang menjadi tujuan akhir ekspresi visual. Misalnya, lukisan abstrak atau coretan krayon anak-anak bisa sama ekspresifnya dengan foto.

“Selama beberapa dekade terakhir, kemajuan dalam algoritma sketsa telah menghasilkan alat-alat baru bagi para seniman, kemajuan dalam AI dan visi komputer, dan bahkan pemahaman yang lebih mendalam tentang kognisi manusia,” kata Chandra. “Sama seperti sketsa yang merupakan representasi abstrak dan non-fotorealistik dari suatu gambar, metode kami menangkap representasi gambar yang abstrak dan non-fono.cara realistis manusia mengekspresikan suara yang mereka dengar. Ini mengajarkan kita tentang proses abstraksi pendengaran.”

Putar video

“Tujuan dari proyek ini adalah untuk memahami dan memodelkan imitasi vokal secara komputasi, yang kami anggap setara dengan sketsa pendengaran dalam domain visual,” kata Caren.

Seni meniru, dalam tiga bagian

Tim mengembangkan tiga versi model yang semakin bernuansa untuk dibandingkan dengan tiruan vokal manusia. Pertama, mereka menciptakan model dasar yang hanya bertujuan untuk menghasilkan tiruan yang semirip mungkin dengan suara di dunia nyata — namun model ini tidak terlalu cocok dengan perilaku manusia.

Para peneliti kemudian merancang model “komunikatif” kedua. Menurut Caren, model ini mempertimbangkan apa yang membedakan suatu suara bagi pendengarnya. Misalnya, Anda mungkin meniru suara perahu motor dengan menirukan gemuruh mesinnya, karena itulah ciri pendengarannya yang paling khas, meskipun itu bukan aspek suaranya yang paling keras (dibandingkan dengan, katakanlah, percikan air). Model kedua ini menciptakan tiruan yang lebih baik dari model dasar, namun tim ingin memperbaikinya lebih jauh lagi.

Untuk membawa metode mereka selangkah lebih maju, para peneliti menambahkan lapisan penalaran terakhir ke dalam model. “Peniruan vokal dapat terdengar berbeda berdasarkan jumlah usaha yang Anda lakukan. Dibutuhkan waktu dan tenaga untuk menghasilkan suara yang benar-benar akurat,” kata Chandra. Model lengkap yang digunakan peneliti menjelaskan hal ini dengan mencoba menghindari ucapan yang sangat cepat, keras, atau bernada tinggi atau rendah, yang cenderung tidak digunakan orang dalam percakapan. Hasilnya: lebih banyak peniruan mirip manusia yang sangat sesuai dengan banyak keputusan yang diambil manusia saat meniru suara yang sama.

Setelah membuat model ini, tim melakukan eksperimen perilaku untuk melihat apakah peniruan vokal yang dilakukan oleh AI atau buatan manusia dianggap lebih baik oleh penilai manusia. Secara umum, peserta eksperimen menyukai model AI sebanyak 25 persen, dan sebanyak 75 persen menyukai tiruan perahu motor dan 50 persen menyukai tiruan suara tembakan.

Menuju teknologi suara yang lebih ekspresif

Karena tertarik dengan teknologi untuk musik dan seni, Caren membayangkan model ini dapat membantu seniman mengkomunikasikan suara dengan lebih baik ke sistem komputasi dan membantu pembuat film dan pembuat konten lainnya dalam menghasilkan suara AI yang lebih bernuansa sesuai konteks tertentu. Hal ini juga memungkinkan musisi untuk mencari database suara dengan cepat dengan meniru suara yang sulit dijelaskan, misalnya, dalam perintah teks.

Sementara itu, Caren, Chandra, dan Ma sedang melihat implikasi model mereka di bidang lain, termasuk perkembangan bahasa, cara bayi belajar berbicara, dan bahkan perilaku meniru pada burung seperti burung beo dan burung penyanyi.

Tim masih memiliki pekerjaan yang harus dilakukan dengan iterasi model mereka saat ini: Model tersebut bermasalah dengan beberapa konsonan, seperti “z”, yang menyebabkan kesan yang tidak akurat pada beberapa suara, seperti dengungan lebah. Mereka juga belum bisa meniru cara manusia meniru ucapan, musik, atau suara yang ditiru secara berbeda dalam berbagai bahasa, seperti detak jantung.

Profesor linguistik Universitas Stanford, Robert Hawkins, mengatakan bahwa bahasa penuh dengan onomatopoeia dan kata-kata yang meniru tetapi tidak sepenuhnya meniru hal-hal yang dideskripsikan, seperti suara “meong” yang sangat mirip dengan suara kucing. “Proses yang mengubah kita dari suara kucing sungguhan menjadi kata seperti ‘meong’ mengungkapkan banyak hal tentang interaksi rumit antara fisiologi, penalaran sosial, dan komunikasi dalam evolusi bahasa,” kata Hawkins, yang tidak terlibat dalam hal ini. dalam penelitian CSAIL. “Model ini menghadirkan langkah menarik menuju formalisasi dan pengujian teori proses tersebut, menunjukkan bahwa kendala fisik dari saluran vokal manusia dan tekanan sosial dari komunikasi diperlukan untuk menjelaskan distribusi peniruan vokal.”

Caren, Chandra, dan Ma menulis makalah tersebut bersama dua afiliasi CSAIL lainnya: Jonathan Ragan-Kelley, profesor asosiasi Departemen Teknik Elektro dan Ilmu Komputer MIT, dan Joshua Tenenbaum, profesor Ilmu Otak dan Kognitif MIT dan Pusat Otak, Pikiran, dan Mesin anggota. Pekerjaan mereka sebagian didukung oleh Hertz Foundation dan National Science Foundation. Itu dipresentasikan di SIGGRAPH Asia pada awal Desember.

Informasi ini pertama kali tayang di MIT.edu klik disini untuk melihat berita lainnya.


Discover more from Kitiran Media

Subscribe to get the latest posts sent to your email.

Related Articles

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button