Ai IndustryAi Trend

Pelatihan llms untuk menguraikan diri sendiri bahasa mereka | Berita MIT


Saat kita matang sejak kecil, kosakata kita – serta cara kita menggunakannya – tumbuh, dan pengalaman kita menjadi lebih kaya, memungkinkan kita untuk berpikir, bernalar, dan berinteraksi dengan orang lain dengan kekhususan dan niat. Dengan demikian, pilihan kata kita berevolusi untuk menyelaraskan dengan nilai -nilai pribadi kita, etika, norma budaya, dan pandangan. Seiring waktu, kebanyakan dari kita mengembangkan “panduan” internal yang memungkinkan kita untuk mempelajari konteks di balik percakapan; Ini juga sering mengarahkan kita untuk berbagi informasi dan sentimen yang, atau bisa, berbahaya atau tidak pantas. Ternyata, model bahasa besar (LLM) – yang dilatih pada dataset publik yang luas dan karenanya sering memiliki bias dan bahasa beracun yang dipanggang – dapat memperoleh kapasitas yang sama untuk memoderasi bahasa mereka sendiri.

Metode baru dari MIT, MIT-IBM Watson AI Lab, dan penelitian IBM, yang disebut pengambilan sampel autoregresif (SASA) yang disiplin diri, memungkinkan LLM untuk mendetoksifikasi output mereka sendiri, tanpa mengorbankan kelancaran.

Tidak seperti metode detoksifikasi lainnya, algoritma decoding ini mempelajari batas antara subruang toksik/tidak beracun dalam representasi internal LLM sendiri, tanpa mengubah parameter model, kebutuhan untuk pelatihan ulang, atau model hadiah eksternal. Kemudian, selama inferensi, algoritma menilai nilai toksisitas dari frasa yang dihasilkan sebagian: token (kata) sudah dihasilkan dan diterima, bersama dengan setiap token baru yang potensial yang dapat dipilih secara wajar untuk kedekatan dengan batas classifier. Selanjutnya, ia memilih opsi kata yang menempatkan frasa dalam ruang tidak beracun, pada akhirnya menawarkan cara yang cepat dan efisien untuk menghasilkan bahasa yang kurang beracun.

“Kami ingin mencari cara dengan model bahasa yang ada [that]selama proses pembangkitan, decoding dapat dikenakan beberapa nilai manusia; Contoh di sini yang kami ambil adalah toksisitas, ”kata penulis utama penelitian ini, Ching-yun” Irene “KO PhD ’24, mantan lulusan magang dengan MIT-IBM Watson AI Lab dan seorang ilmuwan riset saat ini di Pusat Penelitian Thomas J. Watson IBM di New York.

Rekan penulis KO termasuk Luca Daniel, profesor di Departemen Teknik Listrik dan Ilmu Komputer (EECS) MIT, anggota Lab MIT-IBM Watson AI, dan penasihat lulusan KO; dan beberapa anggota riset MIT-IBM Watson AI dan/atau penelitian IBM-Pin-Yu Chen, Payel Das, Youssef Mroueh, Soham Dan, Georgios Kollias, Subhajit Chaudhury, dan Tejaswini Pedapati. Pekerjaan akan dipresentasikan pada Konferensi Internasional tentang Representasi Pembelajaran.

Menemukan “pagar pembatas”

Sumber daya pelatihan di belakang LLMS hampir selalu termasuk konten yang dikumpulkan dari ruang publik seperti Internet dan kumpulan data lainnya yang tersedia. Dengan demikian, kata -kata kutukan dan bahasa intimidasi/tidak menyenangkan adalah komponen, meskipun beberapa di antaranya ada dalam konteks karya sastra. Kemudian mengikuti bahwa LLM dapat menghasilkan secara bawaan – atau ditipu untuk menghasilkan – konten berbahaya dan/atau bias, yang sering mengandung kata -kata yang tidak menyenangkan atau bahasa yang penuh kebencian, bahkan dari permintaan yang tidak berbahaya. Lebih lanjut, telah ditemukan bahwa mereka dapat belajar dan memperkuat bahasa yang tidak disukai atau bahkan merugikan banyak aplikasi dan tugas hilir – yang mengarah pada kebutuhan akan mitigasi atau strategi koreksi.

Ada banyak cara untuk mencapai generasi bahasa yang kuat yang adil dan sejajar. Beberapa metode menggunakan pelatihan ulang LLM dengan dataset sanitasi, yang mahal, membutuhkan waktu, dan dapat mengubah kinerja LLM; Yang lain menggunakan model penghargaan eksternal decoding, seperti pencarian pengambilan sampel atau balok, yang membutuhkan waktu lebih lama untuk dijalankan dan membutuhkan lebih banyak memori. Dalam kasus SASA, KO, Daniel, dan tim peneliti IBM mengembangkan metode yang memanfaatkan sifat autoregresif LLM, dan menggunakan strategi berbasis decoding selama inferensi LLM, secara bertahap mengarahkan generasi-satu token pada satu waktu-jauh dari output yang tidak output atau tidak diinginkan dan menuju bahasa yang lebih baik.

Kelompok penelitian mencapai ini dengan membangun classifier linier yang beroperasi pada subruang yang dipelajari dari embedding LLM. Ketika LLM dilatih, kata -kata dengan makna yang sama ditempatkan secara erat bersama dalam ruang vektor dan lebih jauh dari kata -kata yang berbeda; Oleh karena itu, para peneliti berhipotesis bahwa penyematan LLM juga akan menangkap informasi kontekstual, yang dapat digunakan untuk detoksifikasi. Para peneliti menggunakan set data yang berisi set prompt (paruh pertama kalimat atau pemikiran), respons (penyelesaian kalimat itu), dan anotasi yang diatribusikan manusia, seperti toksik atau tidak beracun, lebih disukai atau tidak disukai, dengan label terus menerus dari 0-1, menunjukkan peningkatan toksisitas. Klasifikasi Bayes-optimal kemudian diterapkan untuk belajar dan secara kiasan menggambar garis antara subruang biner dalam embeddings kalimat, diwakili oleh nilai-nilai positif (ruang nontoksik) dan angka negatif (ruang beracun).

Sistem SASA kemudian bekerja dengan mengangguk kembali probabilitas pengambilan sampel dari token potensial terbaru berdasarkan nilai itu dan jarak frasa yang dihasilkan ke classifier, dengan tujuan tetap dekat dengan distribusi sampel asli.

Untuk mengilustrasikan, jika seorang pengguna menghasilkan token potensial #12 dalam sebuah kalimat, LLM akan melihat kosa kata penuh untuk kata yang masuk akal, berdasarkan pada 11 kata yang datang sebelumnya, dan menggunakan top-K, top-p, akan memfilter dan menghasilkan sekitar 10 token untuk dipilih. SASA kemudian mengevaluasi masing-masing token dalam kalimat yang diselesaikan sebagian untuk kedekatannya dengan classifier (yaitu, nilai token 1-11, ditambah setiap token potensial 12). Token yang menghasilkan kalimat di ruang positif dianjurkan, sementara mereka yang berada di ruang negatif dihukum. Selain itu, semakin jauh dari classifier, semakin kuat dampaknya.

“Tujuannya adalah untuk mengubah proses pengambilan sampel autoregresif dengan mengangguk kembali probabilitas token yang baik. Jika token berikutnya cenderung menjadi racun mengingat konteksnya, maka kita akan mengurangi probabilitas pengambilan sampel bagi mereka yang rentan menjadi token beracun,” kata KO. Para peneliti memilih untuk melakukannya dengan cara ini “karena hal -hal yang kita katakan, apakah itu jinak atau tidak, tunduk pada konteksnya.”

Menampik toksisitas untuk pencocokan nilai

Para peneliti mengevaluasi metode mereka terhadap beberapa intervensi awal dengan tiga LLM dengan ukuran yang meningkat; Semua adalah transformator dan berbasis autoregresif: GPT2-Large, LLAMA2-7B, dan LLAMA 3.1-8B-instruct, dengan masing-masing 762 juta, 7 miliar, dan 8 miliar parameter. Untuk setiap prompt, LLM ditugaskan untuk menyelesaikan kalimat/frasa 25 kali, dan PerspectiveAPI mencetaknya dari 0 hingga 1, dengan lebih dari 0,5 menjadi racun. Tim melihat dua metrik: skor toksisitas maksimum rata -rata selama 25 generasi untuk semua petunjuk, dan laju toksik, yang merupakan probabilitas menghasilkan setidaknya satu frasa beracun lebih dari 25 generasi. Berkurangnya kelancaran (dan karenanya meningkat kebingungan) juga dianalisis. SASA diuji untuk menyelesaikan kumpulan data realtoxicity (RPT), tebal, dan attaq, yang berisi permintaan kalimat bahasa Inggris yang terjadi secara alami.

Para peneliti meningkatkan kompleksitas uji coba mereka untuk detoksifikasi oleh SASA, dimulai dengan petunjuk tidak beracun dari dataset RPT, mencari penyelesaian kalimat yang berbahaya. Kemudian, mereka meningkatkannya ke dorongan yang lebih menantang dari RPT yang lebih mungkin menghasilkan hasil tentang hasil, dan juga SASA yang diterapkan dengan baik pada model yang disesuaikan dengan instruksi untuk menilai apakah teknik mereka selanjutnya dapat mengurangi ouput yang tidak diinginkan. Mereka juga menggunakan tolok ukur tebal dan attaq untuk memeriksa penerapan umum SASA dalam detoksifikasi. Dengan dataset yang berani, para peneliti lebih lanjut mencari bias gender dalam generasi bahasa dan mencoba untuk mencapai laju toksik yang seimbang antara jenis kelamin. Terakhir, tim melihat runtime, penggunaan memori, dan bagaimana SASA dapat dikombinasikan dengan penyaringan kata untuk mencapai generasi bahasa yang sehat dan/atau membantu.

“Jika kita berpikir tentang bagaimana manusia berpikir dan bereaksi di dunia, kita melihat hal -hal buruk, jadi ini bukan tentang membiarkan model bahasa hanya melihat hal -hal baik. Ini tentang memahami spektrum penuh – baik baik maupun buruk,” kata Ko, “dan memilih untuk menegakkan nilai -nilai kita ketika kita berbicara dan bertindak.”

Secara keseluruhan, SASA mencapai pengurangan generasi bahasa beracun yang signifikan, berkinerja setara dengan RAD, teknik model hadiah eksternal yang canggih. Namun, secara universal diamati bahwa detoksifikasi yang lebih kuat menyertai penurunan kelancaran. Sebelum intervensi, LLMS menghasilkan lebih banyak respons toksik untuk petunjuk berlabel betina daripada pria; Namun, SASA juga mampu mengurangi respons berbahaya secara signifikan, membuatnya lebih menyamakan kedudukan. Demikian pula, penyaringan kata di atas SASA melakukan tingkat toksisitas yang lebih rendah, tetapi juga menghambat kemampuan LLM untuk merespons secara koheren.

Aspek yang hebat dari karya ini adalah bahwa ini adalah masalah optimisasi yang terdefinisi dengan baik, kata KO, yang berarti bahwa keseimbangan antara generasi bahasa terbuka yang terdengar alami dan kebutuhan untuk mengurangi bahasa yang tidak diinginkan dapat dicapai dan disetel.

Lebih lanjut, KO mengatakan, SASA dapat bekerja dengan baik untuk berbagai atribut di masa depan: “Untuk manusia, kami memiliki banyak nilai kemanusiaan. Kami tidak ingin mengatakan hal-hal yang beracun, tetapi kami juga ingin jujur, membantu, dan setia … jika Anda menyempurnakan model untuk semua nilai-nilai ini, itu akan membutuhkan sumber daya komputasi yang lebih banyak dan, tentu saja, pelatihan tambahan.” Karena cara yang ringan dari SASA, itu dapat dengan mudah diterapkan dalam keadaan ini: “Jika Anda ingin bekerja dengan banyak nilai, itu hanya memeriksa posisi generasi dalam beberapa subruang. Ini hanya menambah overhead marginal dalam hal komputasi dan parameter,” kata KO, yang mengarah ke bahasa yang lebih positif, adil, dan prinsip yang dijalankan.

Pekerjaan ini didukung, sebagian, oleh MIT-IBM Watson AI Lab dan National Science Foundation.

Informasi ini pertama kali tayang di MIT.edu klik disini untuk melihat berita lainnya.


Discover more from Kitiran Media

Subscribe to get the latest posts sent to your email.

Related Articles

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button