Mempermudah verifikasi respons model AI | Berita MIT
Meskipun memiliki kemampuan yang mengesankan, model bahasa berukuran besar masih jauh dari sempurna. Model kecerdasan buatan ini terkadang “berhalusinasi” dengan menghasilkan informasi yang salah atau tidak didukung sebagai respons terhadap suatu pertanyaan.
Karena masalah halusinasi ini, respons LLM sering kali diverifikasi oleh pemeriksa fakta manusia, terutama jika model diterapkan di lingkungan berisiko tinggi seperti layanan kesehatan atau keuangan. Namun, proses validasi biasanya mengharuskan orang untuk membaca dokumen panjang yang dikutip oleh model, sebuah tugas yang sangat berat dan rawan kesalahan sehingga mungkin menghalangi beberapa pengguna untuk menerapkannya. model AI generatif pertama.
Untuk membantu validator manusia, peneliti MIT menciptakan sistem ramah pengguna yang memungkinkan orang memverifikasi respons LLM dengan lebih cepat. Dengan alat ini, disebut SymGenLLM menghasilkan tanggapan dengan kutipan yang menunjuk langsung ke tempat di dokumen sumber, seperti sel tertentu dalam database.
Pengguna mengarahkan kursor ke bagian respons teks yang disorot untuk melihat data yang digunakan model untuk menghasilkan kata atau frasa tertentu. Pada saat yang sama, bagian yang tidak disorot menunjukkan kepada pengguna frasa mana yang memerlukan perhatian tambahan untuk diperiksa dan diverifikasi.
“Kami memberi orang kemampuan untuk secara selektif fokus pada bagian teks yang perlu mereka khawatirkan. Pada akhirnya, SymGen dapat memberikan kepercayaan yang lebih tinggi kepada masyarakat terhadap respons model karena mereka dapat dengan mudah melihat lebih dekat untuk memastikan bahwa informasi tersebut diverifikasi,” kata Shannon Shen, mahasiswa pascasarjana teknik elektro dan ilmu komputer dan salah satu penulis utama a makalah tentang SymGen.
Melalui studi pengguna, Shen dan kolaboratornya menemukan bahwa SymGen mempercepat waktu verifikasi sekitar 20 persen, dibandingkan dengan prosedur manual. Dengan mempermudah dan mempercepat manusia dalam memvalidasi keluaran model, SymGen dapat membantu manusia mengidentifikasi kesalahan dalam LLM yang diterapkan dalam berbagai situasi dunia nyata, mulai dari membuat catatan klinis hingga merangkum laporan pasar keuangan.
Shen bergabung dalam makalah ini dengan rekan penulis utama dan sesama mahasiswa pascasarjana EECS Lucas Torroba Hennigen; Mahasiswa pascasarjana EECS Aniruddha “Ani” Nrusimha; Bernhard Gapp, presiden Good Data Initiative; dan penulis senior David Sontag, seorang profesor EECS, anggota MIT Jameel Clinic, dan pemimpin Kelompok Pembelajaran Mesin Klinis dari Laboratorium Ilmu Komputer dan Kecerdasan Buatan (CSAIL); dan Yoon Kim, asisten profesor EECS dan anggota CSAIL. Penelitian ini baru-baru ini dipresentasikan pada Konferensi Pemodelan Bahasa.
Referensi simbolik
Untuk membantu validasi, banyak LLM dirancang untuk menghasilkan kutipan, yang mengarah ke dokumen eksternal, bersama dengan respons berbasis bahasa sehingga pengguna dapat memeriksanya. Namun, sistem verifikasi ini biasanya dirancang sebagai sebuah renungan, tanpa mempertimbangkan upaya yang diperlukan orang untuk menyaring banyak kutipan, kata Shen.
“AI Generatif dimaksudkan untuk mengurangi waktu pengguna dalam menyelesaikan suatu tugas. Jika Anda perlu menghabiskan waktu berjam-jam membaca semua dokumen ini untuk memverifikasi bahwa model tersebut mengatakan sesuatu yang masuk akal, maka akan kurang membantu jika generasi-generasi tersebut mempraktikkannya,” kata Shen.
Para peneliti melakukan pendekatan terhadap masalah validasi dari sudut pandang manusia yang akan melakukan pekerjaan.
Pengguna SymGen pertama-tama memberikan LLM data yang dapat dirujuk dalam responsnya, seperti tabel yang berisi statistik dari pertandingan bola basket. Kemudian, daripada langsung meminta model untuk menyelesaikan suatu tugas, seperti membuat ringkasan permainan dari data tersebut, para peneliti melakukan langkah perantara. Mereka mendorong model untuk menghasilkan responsnya dalam bentuk simbolis.
Dengan perintah ini, setiap kali model ingin mengutip kata-kata dalam responsnya, model harus menulis sel tertentu dari tabel data yang berisi informasi yang dirujuknya. Misalnya, jika model ingin mengutip frasa “Portland Trailblazers” dalam responsnya, model akan mengganti teks tersebut dengan nama sel di tabel data yang berisi kata-kata tersebut.
“Karena kami memiliki langkah perantara yang memiliki teks dalam format simbolis, kami dapat memiliki referensi yang sangat rinci. Kita dapat mengatakan, untuk setiap rentang teks dalam output, ini adalah tempat yang sesuai dalam data,” kata Torroba Hennigen.
SymGen kemudian menyelesaikan setiap referensi menggunakan alat berbasis aturan yang menyalin teks terkait dari tabel data ke dalam respons model.
“Dengan cara ini, kami tahu bahwa ini adalah salinan kata demi kata, jadi kami tahu tidak akan ada kesalahan apa pun di bagian teks yang sesuai dengan variabel data sebenarnya,” tambah Shen.
Menyederhanakan validasi
Model dapat menciptakan respons simbolis karena cara model tersebut dilatih. Model bahasa besar diberi banyak data dari internet, dan beberapa data dicatat dalam “format placeholder” di mana kode menggantikan nilai sebenarnya.
Ketika SymGen meminta model untuk menghasilkan respons simbolis, ia menggunakan struktur serupa.
“Kami merancang perintah tersebut dengan cara yang spesifik untuk memanfaatkan kemampuan LLM,” tambah Shen.
Selama studi pengguna, mayoritas peserta mengatakan SymGen mempermudah verifikasi teks yang dihasilkan LLM. Mereka dapat memvalidasi respons model sekitar 20 persen lebih cepat dibandingkan jika menggunakan metode standar.
Namun, SymGen dibatasi oleh kualitas sumber datanya. LLM dapat mengutip variabel yang salah, dan pemverifikasi manusia mungkin tidak bijaksana.
Selain itu, pengguna harus memiliki data sumber dalam format terstruktur, seperti tabel, untuk dimasukkan ke dalam SymGen. Saat ini, sistem hanya bekerja dengan data tabular.
Ke depannya, para peneliti menyempurnakan SymGen sehingga dapat menangani teks arbitrer dan bentuk data lainnya. Dengan kemampuan tersebut, misalnya, dapat membantu memvalidasi bagian dari ringkasan dokumen hukum yang dihasilkan AI. Mereka juga berencana menguji SymGen dengan dokter untuk mempelajari bagaimana SymGen dapat mengidentifikasi kesalahan dalam ringkasan klinis yang dihasilkan AI.
Pekerjaan ini sebagian didanai oleh Liberty Mutual dan MIT Quest for Intelligence Initiative.
Informasi ini pertama kali tayang di MIT.edu klik disini untuk melihat berita lainnya.