Pembantu Robot membuat kesalahan? Cukup dorongan ke arah yang benar | Berita MIT

Bayangkan robot membantu Anda membersihkan piring. Anda memintanya untuk mengambil mangkuk sabun dari wastafel, tetapi grippernya sedikit meleset dari sasaran.
Menggunakan kerangka kerja baru yang dikembangkan oleh peneliti MIT dan NVIDIA, Anda dapat memperbaiki perilaku robot itu dengan interaksi sederhana. Metode ini akan memungkinkan Anda untuk menunjuk ke mangkuk atau melacak lintasan ke dalam layar, atau hanya memberi lengan robot dorongan ke arah yang benar.
Tidak seperti metode lain untuk mengoreksi perilaku robot, teknik ini tidak mengharuskan pengguna untuk mengumpulkan data baru dan melatih kembali model pembelajaran mesin yang menggerakkan otak robot. Ini memungkinkan robot untuk menggunakan umpan balik manusia yang intuitif dan real-time untuk memilih urutan tindakan yang layak yang sedekat mungkin untuk memenuhi niat pengguna.
Ketika para peneliti menguji kerangka kerja mereka, tingkat keberhasilannya adalah 21 persen lebih tinggi daripada metode alternatif yang tidak memanfaatkan intervensi manusia.
Dalam jangka panjang, kerangka kerja ini dapat memungkinkan pengguna untuk lebih mudah memandu robot terlatih pabrik untuk melakukan berbagai tugas rumah tangga meskipun robot tersebut belum pernah melihat rumah mereka atau benda-benda di dalamnya.
“Kami tidak dapat mengharapkan orang awam melakukan pengumpulan data dan menyempurnakan model jaringan saraf. Konsumen akan mengharapkan robot untuk bekerja langsung dari kotak, dan jika tidak, mereka ingin mekanisme intuitif untuk menyesuaikannya. Itulah tantangan yang kami tangani dalam pekerjaan ini, ”kata Felix Yanwei Wang, seorang mahasiswa pascasarjana Teknik Listrik dan Ilmu Komputer (EECS) dan penulis utama a kertas tentang metode ini.
Rekan penulisnya termasuk Lirui Wang PhD ’24 dan Yilun du PhD ’24; penulis senior Julie Shah, seorang profesor MIT Aeronautika dan Astronautika dan Direktur Kelompok Robotika Interaktif di Laboratorium Ilmu Komputer dan Kecerdasan Buatan (CSAIL); serta Balakumar Sundaralingam, Xuning Yang, Yu-Wei Chao, Claudia Perez-D’arpino PhD ’19, dan Diet Fox of Nvidia. Penelitian ini akan dipresentasikan pada Konferensi Internasional tentang Robot dan Otomasi.
Mengurangi misalignment
Baru-baru ini, para peneliti telah mulai menggunakan model AI generatif terlatih untuk mempelajari “kebijakan,” atau seperangkat aturan, yang diikuti oleh robot untuk menyelesaikan suatu tindakan. Model generatif dapat menyelesaikan beberapa tugas kompleks.
Selama pelatihan, model hanya melihat gerakan robot yang layak, sehingga ia belajar untuk menghasilkan lintasan yang valid untuk diikuti oleh robot.
Meskipun lintasan ini valid, itu tidak berarti mereka selalu selaras dengan niat pengguna di dunia nyata. Robot itu mungkin telah dilatih untuk mengambil kotak dari rak tanpa mengetuknya, tetapi bisa gagal mencapai kotak di atas rak buku seseorang jika rak berorientasi berbeda dari yang dilihatnya dalam pelatihan.
Untuk mengatasi kegagalan ini, para insinyur biasanya mengumpulkan data yang menunjukkan tugas baru dan melatih kembali model generatif, proses yang mahal dan memakan waktu yang membutuhkan keahlian pembelajaran mesin.
Sebaliknya, para peneliti MIT ingin memungkinkan pengguna untuk mengarahkan perilaku robot selama penyebaran ketika itu membuat kesalahan.
Tetapi jika manusia berinteraksi dengan robot untuk memperbaiki perilakunya, itu secara tidak sengaja dapat menyebabkan model generatif memilih tindakan yang tidak valid. Mungkin mencapai kotak yang diinginkan pengguna, tetapi menjatuhkan buku dari rak dalam prosesnya.
“Kami ingin mengizinkan pengguna untuk berinteraksi dengan robot tanpa memperkenalkan kesalahan semacam itu, jadi kami mendapatkan perilaku yang jauh lebih selaras dengan niat pengguna selama penyebaran, tetapi itu juga valid dan layak,” kata Wang.
Kerangka kerja mereka mencapai hal ini dengan memberi pengguna tiga cara intuitif untuk memperbaiki perilaku robot, yang masing -masing menawarkan keuntungan tertentu.
Pertama, pengguna dapat menunjuk ke objek yang mereka ingin robot memanipulasi dalam antarmuka yang menunjukkan tampilan kameranya. Kedua, mereka dapat melacak lintasan di antarmuka itu, memungkinkan mereka untuk menentukan bagaimana mereka ingin robot mencapai objek. Ketiga, mereka dapat secara fisik menggerakkan lengan robot ke arah yang mereka inginkan.
“Ketika Anda memetakan gambar 2D dari lingkungan untuk melakukan tindakan di ruang 3D, beberapa informasi hilang. Secara fisik mendorong robot adalah cara paling langsung untuk menentukan niat pengguna tanpa kehilangan informasi apa pun, ”kata Wang.
Pengambilan sampel untuk sukses
Untuk memastikan interaksi ini tidak menyebabkan robot memilih tindakan yang tidak valid, seperti bertabrakan dengan objek lain, para peneliti menggunakan prosedur pengambilan sampel tertentu. Teknik ini memungkinkan model memilih tindakan dari serangkaian tindakan valid yang paling dekat dengan tujuan pengguna.
“Daripada hanya memaksakan kehendak pengguna, kami memberikan robot gambaran tentang apa yang diinginkan pengguna tetapi membiarkan prosedur pengambilan sampel berosilasi di sekitar rangkaian perilaku yang dipelajari sendiri,” jelas Wang.
Metode pengambilan sampel ini memungkinkan kerangka kerja para peneliti untuk mengungguli metode lain yang mereka bandingkan selama simulasi dan percobaan dengan lengan robot nyata di dapur mainan.
Meskipun metode mereka mungkin tidak selalu menyelesaikan tugas segera, ia menawarkan kepada pengguna keuntungan karena dapat segera memperbaiki robot jika mereka melihatnya melakukan sesuatu yang salah, daripada menunggu untuk menyelesaikannya dan kemudian memberikannya instruksi baru.
Selain itu, setelah pengguna mendorong robot beberapa kali sampai mengambil mangkuk yang benar, ia dapat mencatat tindakan korektif itu dan memasukkannya ke dalam perilakunya melalui pelatihan di masa depan. Kemudian, keesokan harinya, robot bisa mengambil mangkuk yang benar tanpa perlu dorongan.
“Tetapi kunci dari peningkatan berkelanjutan itu adalah memiliki cara bagi pengguna untuk berinteraksi dengan robot, yang telah kami tunjukkan di sini,” kata Wang.
Di masa depan, para peneliti ingin meningkatkan kecepatan prosedur pengambilan sampel sambil mempertahankan atau meningkatkan kinerjanya. Mereka juga ingin bereksperimen dengan generasi kebijakan robot di lingkungan baru.
Informasi ini pertama kali tayang di MIT.edu klik disini untuk melihat berita lainnya.
Discover more from Kitiran Media
Subscribe to get the latest posts sent to your email.