Ai AppsAi TechAi Trend

Cara yang lebih cepat dan lebih baik untuk melatih robot serba guna | Berita MIT


Dalam kartun klasik “The Jetsons,” Rosie sang robot pelayan dengan mulus beralih dari menyedot debu rumah, memasak makan malam, hingga membuang sampah. Namun dalam kehidupan nyata, melatih robot serba guna masih menjadi tantangan besar.

Biasanya, para insinyur mengumpulkan data khusus untuk robot dan tugas tertentu, yang mereka gunakan untuk melatih robot dalam lingkungan yang terkendali. Namun, pengumpulan data ini memerlukan biaya dan waktu yang lama, dan robot kemungkinan akan kesulitan beradaptasi dengan lingkungan atau tugas yang belum pernah dilakukan sebelumnya.

Untuk melatih robot serba guna yang lebih baik, peneliti MIT mengembangkan teknik serbaguna yang menggabungkan sejumlah besar data heterogen dari berbagai sumber ke dalam satu sistem yang dapat mengajarkan berbagai tugas kepada robot mana pun.

Metode mereka melibatkan penyelarasan data dari berbagai domain, seperti simulasi dan robot nyata, serta berbagai modalitas, termasuk sensor penglihatan dan pembuat enkode posisi lengan robot, ke dalam “bahasa” bersama yang dapat diproses oleh model AI generatif.

Dengan menggabungkan sejumlah besar data, pendekatan ini dapat digunakan untuk melatih robot untuk melakukan berbagai tugas tanpa harus mulai melatihnya dari awal setiap saat.

Metode ini mungkin lebih cepat dan lebih murah dibandingkan teknik tradisional karena memerlukan lebih sedikit data khusus tugas. Selain itu, kinerjanya mengungguli pelatihan dari awal sebanyak lebih dari 20 persen dalam simulasi dan eksperimen dunia nyata.

“Dalam robotika, orang sering mengklaim bahwa kami tidak memiliki cukup data pelatihan. Namun menurut saya, masalah besar lainnya adalah data berasal dari begitu banyak domain, modalitas, dan perangkat keras robot yang berbeda. Pekerjaan kami menunjukkan bagaimana Anda bisa melatih robot dengan semuanya disatukan,” kata Lirui Wang, seorang mahasiswa pascasarjana teknik elektro dan ilmu komputer (EECS) dan penulis utama sebuah makalah tentang teknik ini.

Rekan penulis Wang termasuk sesama mahasiswa pascasarjana EECS Jialiang Zhao; Xinlei Chen, seorang ilmuwan peneliti di Meta; dan penulis senior Kaiming He, seorang profesor di EECS dan anggota Laboratorium Ilmu Komputer dan Kecerdasan Buatan (CSAIL). Penelitian ini akan dipresentasikan pada Konferensi Sistem Pemrosesan Informasi Neural.

Terinspirasi oleh LLM

“Kebijakan” robotik mengambil pengamatan sensor, seperti gambar kamera atau pengukuran proprioseptif yang melacak kecepatan dan posisi lengan robot, dan kemudian memberi tahu robot bagaimana dan ke mana harus bergerak.

Kebijakan biasanya dilatih menggunakan pembelajaran imitasi, artinya manusia mendemonstrasikan tindakan atau mengoperasikan robot dari jarak jauh untuk menghasilkan data, yang kemudian dimasukkan ke dalam model AI yang mempelajari kebijakan tersebut. Karena metode ini menggunakan sejumlah kecil data khusus tugas, robot sering kali gagal ketika lingkungan atau tugasnya berubah.

Untuk mengembangkan pendekatan yang lebih baik, Wang dan kolaboratornya mengambil inspirasi dari model bahasa besar seperti GPT-4.

Model-model ini dilatih sebelumnya menggunakan sejumlah besar data bahasa yang beragam dan kemudian disempurnakan dengan memberikan sejumlah kecil data khusus tugas. Pelatihan awal dengan begitu banyak data membantu model beradaptasi agar dapat bekerja dengan baik pada berbagai tugas.

“Dalam ranah bahasa, datanya semua hanya berupa kalimat. Dalam robotika, mengingat semua heterogenitas data, jika Anda ingin melakukan pra-latihan dengan cara yang sama, kita memerlukan arsitektur yang berbeda,” katanya.

Data robotik memiliki berbagai bentuk, mulai dari gambar kamera, instruksi bahasa, hingga peta kedalaman. Pada saat yang sama, setiap robot memiliki keunikan mekanis, dengan jumlah dan orientasi lengan, gripper, dan sensor yang berbeda. Selain itu, lingkungan tempat pengumpulan data sangat bervariasi.

Para peneliti MIT mengembangkan arsitektur baru yang disebut Heterogeneous Pretrained Transformers (HPT) yang menyatukan data dari beragam modalitas dan domain.

Mereka menempatkan model pembelajaran mesin yang dikenal sebagai transformator di tengah arsitektur mereka, yang memproses masukan visi dan proprioception. Transformator adalah jenis model yang sama yang menjadi tulang punggung model bahasa besar.

Para peneliti menyelaraskan data dari visi dan proprioception ke dalam jenis masukan yang sama, yang disebut token, yang dapat diproses oleh transformator. Setiap masukan diwakili dengan jumlah token tetap yang sama.

Kemudian transformator memetakan semua masukan ke dalam satu ruang bersama, berkembang menjadi model besar yang telah dilatih sebelumnya saat memproses dan belajar dari lebih banyak data. Semakin besar trafo, semakin baik kinerjanya.

Pengguna hanya perlu memberi HPT sejumlah kecil data tentang desain robot, pengaturan, dan tugas yang ingin dilakukan. Kemudian HPT mentransfer pengetahuan yang diperoleh transformator selama pra-pelatihan untuk mempelajari tugas baru.

Mengaktifkan gerakan cekatan

Salah satu tantangan terbesar dalam mengembangkan HPT adalah membangun kumpulan data besar-besaran untuk melakukan pra-pelatihan transformator, yang mencakup 52 kumpulan data dengan lebih dari 200.000 lintasan robot dalam empat kategori, termasuk video demo manusia dan simulasi.

Para peneliti juga perlu mengembangkan cara yang efisien untuk mengubah sinyal proprioception mentah dari serangkaian sensor menjadi data yang dapat ditangani oleh transformator.

“Proprioception adalah kunci untuk memungkinkan banyak gerakan cekatan. Karena jumlah token dalam arsitektur kami selalu sama, kami mengutamakan proprioception dan visi,” jelas Wang.

Ketika mereka menguji HPT, kinerja robot meningkat lebih dari 20 persen pada simulasi dan tugas-tugas dunia nyata, dibandingkan dengan pelatihan dari awal setiap kali. Bahkan ketika tugasnya sangat berbeda dari data pra-pelatihan, HPT masih meningkatkan kinerjanya.

“Makalah ini memberikan pendekatan baru untuk melatih kebijakan tunggal di berbagai perwujudan robot. Hal ini memungkinkan pelatihan di berbagai kumpulan data, memungkinkan metode pembelajaran robot untuk secara signifikan meningkatkan ukuran kumpulan data yang dapat mereka latih. Hal ini juga memungkinkan model untuk cepat beradaptasi dengan perwujudan robot baru, yang penting karena desain robot baru terus diproduksi,” kata David Held, profesor di Institut Robotika Universitas Carnegie Mellon, yang tidak terlibat dalam pekerjaan ini.

Kedepannya, para peneliti ingin mempelajari bagaimana keragaman data dapat meningkatkan kinerja HPT. Mereka juga ingin menyempurnakan HPT sehingga dapat memproses data tak berlabel seperti GPT-4 dan model bahasa besar lainnya.

“Impian kami adalah memiliki otak robot universal yang dapat Anda unduh dan gunakan untuk robot Anda tanpa pelatihan apa pun. Meskipun kami masih dalam tahap awal, kami akan terus berusaha keras dan berharap penskalaan akan menghasilkan terobosan dalam kebijakan robotik, seperti yang terjadi pada model bahasa besar,” katanya.

Pekerjaan ini sebagian didanai oleh Amazon Greater Boston Tech Initiative dan Toyota Research Institute.

Informasi ini pertama kali tayang di MIT.edu klik disini untuk melihat berita lainnya.


Discover more from Kitiran Media

Subscribe to get the latest posts sent to your email.

Related Articles

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button