
Pemrogram sekarang dapat menggunakan model bahasa besar (LLM) untuk menghasilkan kode komputer lebih cepat. Namun, ini hanya membuat kehidupan pemrogram lebih mudah jika kode itu mengikuti aturan bahasa pemrograman dan tidak menyebabkan komputer macet.
Beberapa metode ada untuk memastikan LLM sesuai dengan aturan bahasa apa pun yang mereka buat teks, tetapi banyak dari metode ini mendistorsi makna model yang dimaksud atau terlalu memakan waktu untuk layak untuk tugas-tugas kompleks.
Pendekatan baru yang dikembangkan oleh para peneliti di MIT dan di tempat lain secara otomatis memandu LLM untuk menghasilkan teks yang mematuhi aturan bahasa yang relevan, seperti bahasa pemrograman tertentu, dan juga bebas dari kesalahan. Metode mereka memungkinkan LLM untuk mengalokasikan upaya ke arah output yang paling mungkin valid dan akurat, sambil membuang output yang tidak menjanjikan di awal proses. Pendekatan probabilistik ini meningkatkan efisiensi komputasi.
Karena keuntungan efisiensi ini, arsitektur para peneliti memungkinkan LLM kecil untuk mengungguli model yang jauh lebih besar dalam menghasilkan output yang akurat dan terstruktur dengan baik untuk beberapa kasus penggunaan dunia nyata, termasuk biologi molekuler dan robotika.
Dalam jangka panjang, arsitektur baru ini dapat membantu Nonexperts mengendalikan konten yang dihasilkan AI. Misalnya, ini dapat memungkinkan para pebisnis untuk menulis pertanyaan kompleks di SQL, bahasa untuk manipulasi basis data, hanya menggunakan petunjuk bahasa alami.
“Pekerjaan ini memiliki implikasi di luar penelitian. Ini dapat meningkatkan asisten pemrograman, analisis data bertenaga AI, dan alat penemuan ilmiah dengan memastikan bahwa output yang dihasilkan AI tetap bermanfaat dan benar,” kata João Loula, seorang mahasiswa pascasarjana MIT dan penulis co-lead dari sebuah makalah tentang kerangka kerja ini.
Loula bergabung di atas kertas oleh penulis co-lead Benjamin Lebrun, seorang asisten peneliti di Mila-Quebec Artificial Intelligence Institute, dan Li Du, seorang mahasiswa pascasarjana di Universitas John Hopkins; Penulis bersama Vikash Mansinghka ’05, Meng ’09, PhD ’09, seorang ilmuwan riset utama dan pemimpin proyek komputasi probabilistik di Departemen Ilmu Otak dan Kognitif MIT; Alexander K. Lew SM ’20, asisten profesor di Universitas Yale; Tim Vieira, seorang postdoc di ETH Zurich; dan Timothy J. O’Donnell, seorang associate professor di McGill University dan Ketua AI Kanada CIFAR di Mila, yang memimpin tim internasional; serta beberapa lainnya. Penelitian ini akan dipresentasikan pada Konferensi Internasional tentang Representasi Pembelajaran.
Menegakkan struktur dan makna
Salah satu pendekatan umum untuk mengendalikan teks terstruktur yang dihasilkan oleh LLMS melibatkan memeriksa seluruh output, seperti blok kode komputer, untuk memastikan itu valid dan akan menjalankan kesalahan bebas kesalahan. Jika tidak, pengguna harus memulai lagi, memeras sumber daya komputasi.
Di sisi lain, seorang programmer bisa berhenti untuk memeriksa output di sepanjang jalan. Meskipun ini dapat memastikan kode mematuhi bahasa pemrograman dan secara struktural valid, secara bertahap mengoreksi kode dapat menyebabkannya melayang dari makna yang dimaksudkan pengguna, melukai akurasinya dalam jangka panjang.
“Jauh lebih mudah untuk menegakkan struktur daripada makna. Kami dapat dengan cepat memeriksa apakah ada sesuatu yang ada dalam bahasa pemrograman yang tepat, tetapi untuk memeriksa maknanya Anda harus menjalankan kode. Pekerjaan kami juga tentang berurusan dengan berbagai jenis informasi ini,” kata Loula.
Pendekatan para peneliti melibatkan pengetahuan teknik ke dalam LLM untuk mengarahkannya ke output yang paling menjanjikan. Output ini lebih cenderung mengikuti kendala struktural yang ditentukan oleh pengguna, dan memiliki makna yang diinginkan pengguna.
“Kami tidak mencoba melatih LLM untuk melakukan ini. Sebaliknya, kami merekayasa beberapa pengetahuan bahwa seorang ahli akan memiliki dan menggabungkannya dengan pengetahuan LLM, yang menawarkan pendekatan yang sangat berbeda untuk penskalaan daripada yang Anda lihat dalam pembelajaran mendalam,” tambah Mansinghka.
Mereka mencapai hal ini dengan menggunakan teknik yang disebut Sequential Monte Carlo, yang memungkinkan generasi paralel dari LLM untuk bersaing satu sama lain. Model ini secara dinamis mengalokasikan sumber daya ke utas komputasi paralel yang berbeda berdasarkan pada seberapa menjanjikan output mereka.
Setiap output diberi bobot yang mewakili seberapa besar kemungkinan valid secara struktural dan akurat secara semantik. Pada setiap langkah dalam perhitungan, model berfokus pada mereka yang memiliki bobot lebih tinggi dan membuang sisanya.
Dalam arti tertentu, itu seperti LLM memiliki seorang ahli yang melihat dari balik bahunya untuk memastikan itu membuat pilihan yang tepat di setiap langkah, sambil tetap fokus pada tujuan keseluruhan. Pengguna menentukan struktur dan makna yang diinginkan, serta cara memeriksa output, kemudian arsitektur para peneliti memandu LLM untuk melakukan sisanya.
“Kami telah menyelesaikan matematika yang sulit sehingga, untuk segala jenis kendala yang ingin Anda masukkan, Anda akan mendapatkan bobot yang tepat. Pada akhirnya, Anda mendapatkan jawaban yang tepat,” kata Loula.
Meningkatkan model kecil
Untuk menguji pendekatan mereka, mereka menerapkan kerangka kerja pada LLMS yang ditugaskan untuk menghasilkan empat jenis output: kode Python, kueri database SQL, struktur molekuler, dan rencana robot untuk diikuti.
Jika dibandingkan dengan pendekatan yang ada, metode para peneliti melakukan lebih akurat sambil membutuhkan lebih sedikit perhitungan.
Dalam pembuatan kode Python, misalnya, arsitektur para peneliti memungkinkan model kecil, open-source untuk mengungguli model sumber tertutup komersial khusus yang lebih dari dua kali lipat ukurannya.
“Kami sangat senang bahwa kami dapat membiarkan model -model kecil ini meninju jauh di atas berat badan mereka,” kata Loula.
Ke depan, para peneliti ingin menggunakan teknik mereka untuk mengontrol potongan -potongan teks yang lebih besar, daripada mengerjakan satu bagian kecil sekaligus. Mereka juga ingin menggabungkan metode mereka dengan belajar, sehingga ketika mereka mengontrol output yang dihasilkan model, ia belajar lebih akurat.
Dalam jangka panjang, proyek ini dapat memiliki aplikasi yang lebih luas untuk pengguna non-teknis. Misalnya, itu bisa dikombinasikan dengan sistem untuk Pemodelan Data OtomatisDan Meminta model generatif database.
Pendekatan ini juga dapat mengaktifkan sistem analisis data yang dibantu mesin, di mana pengguna dapat berkomunikasi dengan perangkat lunak yang secara akurat memodelkan arti data dan pertanyaan yang diajukan oleh pengguna, tambah Mansinghka.
“Salah satu pertanyaan mendasar dari linguistik adalah bagaimana makna kata -kata, frasa, dan kalimat dapat didasarkan pada model dunia, yang memperhitungkan ketidakpastian dan ketidakjelasan dalam makna dan referensi. LLM, memprediksi kemungkinan urutan token, tidak membahas masalah ini, makalah kami menunjukkan bahwa, dalam domain simbolis yang sempit, secara teknis mungkin untuk memetakan dari kata -kata ke dorongan di darat. Kecerdasan buatan perlu memahami bagaimana mesin dapat berkomunikasi tentang dunia seperti kita, ”kata O’Donnell.
Penelitian ini didanai, sebagian, oleh program Kursi AI Kanada Cifar, dan oleh Siegel Family Foundation melalui hadiah untuk MIT Siegel Family Quest for Intelligence.
Informasi ini pertama kali tayang di MIT.edu klik disini untuk melihat berita lainnya.
Discover more from Kitiran Media
Subscribe to get the latest posts sent to your email.