Ai IndustryAi Trend

Seperti otak manusia, model bahasa besar beralasan tentang beragam data secara umum | Berita MIT


Sementara model bahasa awal hanya dapat memproses teks, model bahasa besar kontemporer sekarang melakukan tugas yang sangat beragam pada berbagai jenis data. Misalnya, LLM dapat memahami banyak bahasa, menghasilkan kode komputer, menyelesaikan masalah matematika, atau menjawab pertanyaan tentang gambar dan audio.

Peneliti MIT menyelidiki cara kerja dalam LLM untuk lebih memahami bagaimana mereka memproses berbagai macam data, dan menemukan bukti bahwa mereka memiliki beberapa kesamaan dengan otak manusia.

Neuroscientists percaya otak manusia memiliki “hub semantik” di lobus temporal anterior yang mengintegrasikan informasi semantik dari berbagai modalitas, seperti data visual dan input sentuhan. Hub semantik ini terhubung ke “jari-jari” spesifik modalitas yang mengarahkan informasi ke hub. Para peneliti MIT menemukan bahwa LLM menggunakan mekanisme yang sama dengan memproses data secara abstrak dari beragam modalitas dengan cara yang umum dan umum. Misalnya, model yang memiliki bahasa Inggris sebagai bahasa dominannya akan bergantung pada bahasa Inggris sebagai media pusat untuk memproses input dalam bahasa Jepang atau alasan tentang aritmatika, kode komputer, dll. Lebih lanjut, para peneliti menunjukkan bahwa mereka dapat melakukan intervensi di pusat semantik model oleh model sebuah hub semantik dengan suatu model oleh suatu model oleh suatu model oleh suatu model oleh suatu model oleh suatu model oleh suatu model oleh sebuah model semantik oleh suatu model oleh oleh suatu model oleh suatu model oleh suatu model oleh suatu model oleh suatu model oleh suatu model oleh suatu model oleh suatu model oleh suatu model oleh suatu model oleh suatu model oleh suatu model oleh suatu model oleh suatu model oleh suatu model oleh sebuah model semantik oleh suatu model oleh suatu model oleh suatu model oleh suatu model oleh suatu model oleh suatu model oleh suatu model oleh suatu model semantik dengan suatu model Menggunakan teks dalam bahasa dominan model untuk mengubah outputnya, bahkan ketika model memproses data dalam bahasa lain.

Temuan ini dapat membantu para ilmuwan melatih LLM masa depan yang lebih mampu menangani beragam data.

“LLMS adalah kotak hitam besar. Mereka telah mencapai kinerja yang sangat mengesankan, tetapi kami memiliki sedikit pengetahuan tentang mekanisme kerja internal mereka. Saya berharap ini bisa menjadi langkah awal untuk lebih memahami cara kerjanya sehingga kita dapat meningkatkannya dan lebih baik mengendalikan mereka saat dibutuhkan, ”kata Zhaofeng Wu, seorang mahasiswa pascasarjana Teknik Listrik dan Ilmu Komputer (EECS) dan penulis utama a Makalah tentang penelitian ini.

Rekan penulisnya termasuk Xinyan Velocity Yu, seorang mahasiswa pascasarjana di University of Southern California (USC); Dani Yogatama, seorang profesor di USC; Jiasen Lu, seorang ilmuwan riset di Apple; dan penulis senior Yoon Kim, asisten profesor EEC di MIT dan anggota Laboratorium Komputer Ilmu Komputer dan Kecerdasan Buatan (CSAIL). Penelitian ini akan dipresentasikan pada Konferensi Internasional tentang Representasi Pembelajaran.

Mengintegrasikan beragam data

Para peneliti mendasarkan studi baru ini pekerjaan sebelumnya yang mengisyaratkan bahwa LLMS yang berpusat pada bahasa Inggris menggunakan bahasa Inggris untuk melakukan proses penalaran pada berbagai bahasa.

Wu dan kolaboratornya memperluas ide ini, meluncurkan studi mendalam tentang mekanisme yang digunakan LLM untuk memproses data yang beragam.

LLM, yang terdiri dari banyak lapisan yang saling berhubungan, membagi teks input menjadi kata-kata atau sub-kata yang disebut token. Model ini memberikan representasi untuk setiap token, yang memungkinkannya untuk mengeksplorasi hubungan antara token dan menghasilkan kata berikutnya dalam urutan. Dalam kasus gambar atau audio, token ini sesuai dengan daerah tertentu dari gambar atau bagian dari klip audio.

Para peneliti menemukan bahwa lapisan awal model proses dalam bahasa atau modalitas spesifiknya, seperti jari-jari spesifik modalitas di otak manusia. Kemudian, LLM mengubah token menjadi representasi modalitas-agnostik karena beralasan tentang mereka di seluruh lapisan internalnya, mirip dengan bagaimana hub semantik otak mengintegrasikan beragam informasi.

Model ini memberikan representasi yang sama untuk input dengan makna yang sama, meskipun tipe datanya, termasuk gambar, audio, kode komputer, dan masalah aritmatika. Meskipun gambar dan keterangan teksnya adalah tipe data yang berbeda, karena mereka memiliki makna yang sama, LLM akan menetapkan representasi serupa.

Misalnya, LLM yang dominan Inggris “berpikir” tentang input teks-Cina dalam bahasa Inggris sebelum menghasilkan output dalam bahasa Cina. Model ini memiliki kecenderungan penalaran yang sama untuk input non-teks seperti kode komputer, masalah matematika, atau bahkan data multimodal.

Untuk menguji hipotesis ini, para peneliti melewati sepasang kalimat dengan makna yang sama tetapi ditulis dalam dua bahasa yang berbeda melalui model. Mereka mengukur seberapa mirip representasi model untuk setiap kalimat.

Kemudian mereka melakukan serangkaian eksperimen kedua di mana mereka memberi makan teks model dominan Inggris dalam bahasa yang berbeda, seperti orang Cina, dan mengukur seberapa mirip representasi internalnya dengan bahasa Inggris versus Cina. Para peneliti melakukan percobaan serupa untuk tipe data lainnya.

Mereka secara konsisten menemukan bahwa representasi model serupa untuk kalimat dengan makna yang sama. Selain itu, di banyak tipe data, token yang diproses dalam lapisan internalnya lebih seperti token yang berpusat pada bahasa Inggris daripada tipe data input.

“Banyak dari tipe data input ini tampaknya sangat berbeda dari bahasa, jadi kami sangat terkejut bahwa kami dapat menyelidiki bahasa Inggris ketika model proses, misalnya, ekspresi matematis atau pengkodean,” kata Wu.

Memanfaatkan hub semantik

Para peneliti berpikir LLMS dapat mempelajari strategi hub semantik ini selama pelatihan karena merupakan cara ekonomis untuk memproses data yang bervariasi.

“Ada ribuan bahasa di luar sana, tetapi banyak pengetahuan dibagikan, seperti pengetahuan akal sehat atau pengetahuan faktual. Model tidak perlu menduplikasi pengetahuan itu lintas bahasa, ”kata Wu.

Para peneliti juga mencoba melakukan intervensi di lapisan internal model menggunakan teks bahasa Inggris ketika sedang memproses bahasa lain. Mereka menemukan bahwa mereka dapat diprediksi mengubah output model, meskipun output tersebut dalam bahasa lain.

Para ilmuwan dapat memanfaatkan fenomena ini untuk mendorong model untuk berbagi informasi sebanyak mungkin di berbagai jenis data, yang berpotensi meningkatkan efisiensi.

Tetapi di sisi lain, mungkin ada konsep atau pengetahuan yang tidak dapat diterjemahkan lintas bahasa atau tipe data, seperti pengetahuan spesifik budaya. Para ilmuwan mungkin ingin LLM memiliki beberapa mekanisme pemrosesan bahasa dalam kasus-kasus tersebut.

“Bagaimana Anda secara maksimal berbagi kapan pun memungkinkan tetapi juga memungkinkan bahasa memiliki beberapa mekanisme pemrosesan khusus bahasa? Itu bisa dieksplorasi dalam pekerjaan di masa depan pada arsitektur model, ”kata Wu.

Selain itu, para peneliti dapat menggunakan wawasan ini untuk meningkatkan model multibahasa. Seringkali, model dominan bahasa Inggris yang belajar berbicara bahasa lain akan kehilangan beberapa keakuratannya dalam bahasa Inggris. Pemahaman yang lebih baik tentang pusat semantik LLM dapat membantu para peneliti mencegah gangguan bahasa ini, katanya.

“Memahami bagaimana model bahasa memproses input lintas bahasa dan modalitas adalah pertanyaan kunci dalam kecerdasan buatan. Makalah ini membuat hubungan yang menarik dengan ilmu saraf dan menunjukkan bahwa ‘hipotesis hub semantik’ yang diusulkan berlaku dalam model bahasa modern, di mana representasi yang sama secara semantik dari berbagai tipe data dibuat di lapisan perantara model, ”kata Mor Geva Pipek, asisten profesor di dalam Sekolah Ilmu Komputer di Universitas Tel Aviv, yang tidak terlibat dengan pekerjaan ini. “Hipotesis dan eksperimen mengikat dan memperluas temuan dengan baik dari karya -karya sebelumnya dan dapat berpengaruh untuk penelitian di masa depan tentang menciptakan model multimodal yang lebih baik dan mempelajari hubungan antara mereka dan fungsi otak serta kognisi pada manusia.”

Penelitian ini didanai, sebagian, oleh Lab MIT-IBM Watson AI.

Informasi ini pertama kali tayang di MIT.edu klik disini untuk melihat berita lainnya.


Discover more from Kitiran Media

Subscribe to get the latest posts sent to your email.

Related Articles

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button