Bagi para ahli robotik, ada satu tantangan yang paling penting: generalisasi — kemampuan untuk menciptakan mesin yang dapat beradaptasi dengan lingkungan atau kondisi apa pun. Sejak tahun 1970an, bidang ini telah berkembang dari menulis program canggih menjadi menggunakan pembelajaran mendalam, mengajar robot untuk belajar langsung dari perilaku manusia. Namun kendala utama masih tetap ada: kualitas data. Untuk meningkatkan kemampuan mereka, robot perlu menghadapi skenario yang melampaui batas kemampuan mereka, dan beroperasi sesuai batas kemampuan mereka. Proses ini biasanya memerlukan pengawasan manusia, dan operator secara hati-hati menantang robot untuk mengembangkan kemampuan mereka. Ketika robot menjadi lebih canggih, pendekatan langsung ini menghadapi masalah skala: permintaan akan data pelatihan berkualitas tinggi jauh melebihi kemampuan manusia untuk menyediakannya.
Kini, tim peneliti dari MIT Computer Science and Artificial Intelligence Laboratory (CSAIL) telah mengembangkan pendekatan baru terhadap pelatihan robot yang secara signifikan dapat mempercepat penerapan mesin cerdas yang dapat beradaptasi di lingkungan dunia nyata. Sistem baru, yang disebut “LucidSim,” menggunakan kemajuan terkini dalam AI generatif dan simulator fisika untuk menciptakan lingkungan pelatihan virtual yang beragam dan realistis, membantu robot mencapai kinerja tingkat ahli dalam tugas-tugas sulit tanpa data dunia nyata.
LucidSim menggabungkan simulasi fisika dengan model AI generatif, mengatasi salah satu tantangan paling mendesak dalam robotika: mentransfer keterampilan yang dipelajari dalam simulasi ke dunia nyata. “Tantangan mendasar dalam pembelajaran robot telah lama menjadi ‘kesenjangan sim-ke-nyata’ – kesenjangan antara lingkungan pelatihan simulasi dan dunia nyata yang kompleks dan tidak dapat diprediksi,” kata postdoc MIT CSAIL Ge Yang, peneliti utama LucidSim. “Pendekatan sebelumnya sering kali mengandalkan sensor kedalaman, yang menyederhanakan masalah namun mengabaikan kompleksitas penting di dunia nyata.”
Sistem multi-cabang adalah perpaduan berbagai teknologi. Pada intinya, LucidSim menggunakan model bahasa besar untuk menghasilkan berbagai deskripsi lingkungan yang terstruktur. Deskripsi tersebut kemudian diubah menjadi gambar menggunakan model generatif. Untuk memastikan bahwa gambar-gambar ini mencerminkan fisika dunia nyata, simulator fisika dasar digunakan untuk memandu proses pembuatannya.
Lahirnya sebuah ide: Dari burrito hingga terobosan
Inspirasi LucidSim datang dari tempat yang tidak terduga: percakapan di luar Beantown Taqueria di Cambridge, Massachusetts. “Kami ingin mengajari robot yang dilengkapi penglihatan bagaimana melakukan peningkatan dengan menggunakan umpan balik manusia. Namun kemudian, kami menyadari bahwa kami tidak memiliki kebijakan berbasis visi murni,” kata Alan Yu, seorang mahasiswa sarjana teknik elektro dan ilmu komputer (EECS) di MIT dan salah satu penulis utama LucidSim. “Kami terus membicarakannya sambil berjalan, dan kemudian kami berhenti di luar taqueria selama sekitar setengah jam. Di situlah kami menikmati momen kami.”
Untuk menyiapkan data, tim menghasilkan gambar realistis dengan mengekstraksi peta kedalaman, yang memberikan informasi geometris, dan masker semantik, yang memberi label pada bagian berbeda dari suatu gambar, dari adegan simulasi. Namun, mereka segera menyadari bahwa dengan kontrol ketat pada komposisi konten gambar, model akan menghasilkan gambar serupa yang tidak berbeda satu sama lain menggunakan perintah yang sama. Jadi, mereka menemukan cara untuk mendapatkan beragam permintaan teks dari ChatGPT.
Namun pendekatan ini hanya menghasilkan satu gambar. Untuk membuat video pendek dan koheren yang berfungsi sebagai “pengalaman” kecil bagi robot, para ilmuwan menyatukan beberapa keajaiban gambar ke dalam teknik baru lain yang diciptakan tim, yang disebut “Dreams In Motion.” Sistem menghitung pergerakan setiap piksel antar frame, untuk mengubah satu gambar yang dihasilkan menjadi video pendek multi-frame. Dreams In Motion melakukan hal ini dengan mempertimbangkan geometri 3D pemandangan dan perubahan relatif dalam perspektif robot.
“Kami mengungguli pengacakan domain, sebuah metode yang dikembangkan pada tahun 2017 yang menerapkan warna dan pola acak pada objek di lingkungan, yang masih dianggap sebagai metode yang digunakan saat ini,” kata Yu. “Meskipun teknik ini menghasilkan data yang beragam, namun kurang realisme. LucidSim mengatasi masalah keragaman dan realisme. Sangat menarik bahwa bahkan tanpa melihat dunia nyata selama pelatihan, robot dapat mengenali dan menavigasi rintangan di lingkungan nyata.”
Tim ini sangat antusias dengan potensi penerapan LucidSim ke domain di luar penggerak hewan berkaki empat dan parkour, yang merupakan test bed utama mereka. Salah satu contohnya adalah manipulasi seluler, dimana robot seluler bertugas menangani objek di area terbuka; juga, persepsi warna sangat penting. “Saat ini, robot-robot ini masih belajar dari demonstrasi di dunia nyata,” kata Yang. “Meskipun mengumpulkan demonstrasi itu mudah, meningkatkan pengaturan teleoperasi robot di dunia nyata hingga ribuan keterampilan merupakan suatu tantangan karena manusia harus mengatur setiap adegan secara fisik. Kami berharap dapat menjadikan hal ini lebih mudah, sehingga secara kualitatif lebih terukur, dengan memindahkan pengumpulan data ke dalam lingkungan virtual.”
Siapa sebenarnya ahlinya?
Tim menguji LucidSim dengan alternatif, di mana seorang guru ahli mendemonstrasikan keterampilan yang dapat dipelajari oleh robot. Hasilnya mengejutkan: Robot yang dilatih oleh pakar mengalami kesulitan, hanya berhasil 15 persen — dan bahkan jumlah data pelatihan pakar yang berjumlah empat kali lipat hampir tidak berhasil. Namun ketika robot mengumpulkan data pelatihan mereka sendiri melalui LucidSim, ceritanya berubah secara dramatis. Menggandakan ukuran kumpulan data saja sudah meningkatkan tingkat keberhasilan menjadi 88 persen. “Dan memberi robot kami lebih banyak data secara monoton akan meningkatkan kinerjanya — pada akhirnya, siswa akan menjadi ahlinya,” kata Yang.
“Salah satu tantangan utama dalam transfer sim-to-real untuk robotika adalah mencapai realisme visual dalam lingkungan simulasi,” kata asisten profesor teknik elektro Universitas Stanford Shuran Song, yang tidak terlibat dalam penelitian ini. “Kerangka kerja LucidSim memberikan solusi elegan dengan menggunakan model generatif untuk menciptakan data visual yang beragam dan sangat realistis untuk simulasi apa pun. Pekerjaan ini secara signifikan dapat mempercepat penerapan robot yang dilatih di lingkungan virtual untuk melakukan tugas-tugas di dunia nyata.”
Dari Cambridge hingga penelitian robotika mutakhir, LucidSim membuka jalan menuju generasi baru mesin yang cerdas dan mudah beradaptasi — mesin yang belajar menavigasi dunia kita yang kompleks tanpa pernah menginjakkan kaki di dalamnya.
Yu dan Yang menulis makalah tersebut bersama empat rekan afiliasi CSAIL: Ran Choi, seorang postdoc MIT di bidang teknik mesin; Yajvan Ravan, seorang sarjana MIT di EECS; John Leonard, Profesor Teknik Mesin dan Kelautan Samuel C. Collins di Departemen Teknik Mesin MIT; dan Phillip Isola, seorang profesor asosiasi MIT di EECS. Pekerjaan mereka didukung, sebagian, oleh Packard Fellowship, Sloan Research Fellowship, Office of Naval Research, Badan Sains dan Teknologi Pertahanan Singapura, Amazon, MIT Lincoln Laboratory, dan National Science Foundation Institute for Artificial Intelligence and Fundamental Interactions. Para peneliti mempresentasikan karyanya pada Conference on Robot Learning (CoRL) pada awal November.
Informasi ini pertama kali tayang di MIT.edu klik disini untuk melihat berita lainnya.
Discover more from Kitiran Media
Subscribe to get the latest posts sent to your email.