Uncategorized

Studi menunjukkan model penglihatan-bahasa tidak dapat menangani pertanyaan dengan kata-kata negasi | Berita MIT

[ad_1]

Bayangkan seorang ahli radiologi yang memeriksa rontgen dada dari pasien baru. Dia memperhatikan bahwa pasien memiliki pembengkakan di jaringan tetapi tidak memiliki jantung yang membesar. Mencari untuk mempercepat diagnosis, dia mungkin menggunakan model pembelajaran mesin-bahasa untuk mencari laporan dari pasien serupa.

Tetapi jika model secara keliru mengidentifikasi laporan dengan kedua kondisi, diagnosis yang paling mungkin bisa sangat berbeda: jika seorang pasien memiliki pembengkakan jaringan dan jantung yang diperbesar, kondisinya sangat mungkin terkait jantung, tetapi tanpa pembesaran jantung mungkin ada beberapa penyebab yang mendasarinya.

Dalam sebuah studi baru, para peneliti MIT telah menemukan bahwa model penglihatan-bahasa sangat mungkin membuat kesalahan seperti itu dalam situasi dunia nyata karena mereka tidak memahami negasi-kata-kata seperti “tidak” dan “tidak” yang menentukan apa yang salah atau tidak ada.

โ€œKata -kata negasi itu dapat memiliki dampak yang sangat signifikan, dan jika kita hanya menggunakan model -model ini secara membabi buta, kita dapat mengalami konsekuensi bencana,โ€ kata Kumail Alhamoud, seorang mahasiswa pascasarjana MIT dan penulis utama studi ini.

Para peneliti menguji kemampuan model penglihatan-bahasa untuk mengidentifikasi negasi dalam keterangan gambar. Model sering dilakukan serta tebakan acak. Membangun pada temuan -temuan itu, tim membuat dataset gambar dengan keterangan yang sesuai yang mencakup kata -kata negasi yang menggambarkan objek yang hilang.

Mereka menunjukkan bahwa melatih kembali model visi-bahasa dengan dataset ini mengarah pada peningkatan kinerja ketika model diminta untuk mengambil gambar yang tidak mengandung objek tertentu. Ini juga meningkatkan akurasi pada pertanyaan pilihan ganda yang menjawab dengan teks yang dinegasikan.

Tetapi para peneliti memperingatkan bahwa lebih banyak pekerjaan diperlukan untuk mengatasi akar penyebab masalah ini. Mereka berharap penelitian mereka mengingatkan pengguna potensial untuk kekurangan yang sebelumnya tidak diketahui yang dapat memiliki implikasi serius dalam pengaturan berisiko tinggi di mana model-model ini saat ini digunakan, dari menentukan pasien mana yang menerima perawatan tertentu hingga mengidentifikasi cacat produk di pabrik manufaktur.

โ€œIni adalah makalah teknis, tetapi ada masalah yang lebih besar untuk dipertimbangkan. Jika sesuatu yang fundamental seperti negasi rusak, kita tidak boleh menggunakan model visi/bahasa yang besar dalam banyak cara kita menggunakannya sekarang – tanpa evaluasi intensif,โ€ kata penulis senior Marzyeh Ghassemi, seorang profesor di Departemen Teknik Elektrikal dan Ilmu Komputer (EECS) dan anggota anggota Departemen Medis.

Ghassemi dan Alhamoud bergabung di atas kertas oleh Shaden Alshammari, seorang mahasiswa pascasarjana MIT; Yonglong Tian dari Openai; Guohao Li, mantan postdoc di Universitas Oxford; Philip HS Torr, seorang profesor di Oxford; dan Yoon Kim, asisten profesor EEC dan anggota Laboratorium Ilmu Komputer dan Kecerdasan Buatan (CSAIL) di MIT. Penelitian akan disajikan pada konferensi tentang visi komputer dan pengenalan pola.

Mengabaikan negasi

Visi-Banguage Model (VLM) dilatih menggunakan koleksi besar gambar dan keterangan yang sesuai, yang mereka pelajari untuk mengkode sebagai set angka, yang disebut representasi vektor. Model menggunakan vektor -vektor ini untuk membedakan antara gambar yang berbeda.

VLM menggunakan dua encoder terpisah, satu untuk teks dan satu untuk gambar, dan enkoder belajar untuk mengeluarkan vektor serupa untuk gambar dan teks yang sesuai.

“Keterangan mengekspresikan apa yang ada dalam gambar – mereka adalah label positif. Dan itu sebenarnya seluruh masalah. Tidak ada yang melihat gambar seekor anjing melompati pagar dan menulisnya dengan mengatakan ‘seekor anjing melompati pagar, tanpa helikopter,'” kata Ghassemi.

Karena kumpulan data-caption tidak mengandung contoh negasi, VLM tidak pernah belajar mengidentifikasinya.

Untuk menggali lebih dalam masalah ini, para peneliti merancang dua tugas tolok ukur yang menguji kemampuan VLM untuk memahami negasi.

Untuk yang pertama, mereka menggunakan Model Bahasa Besar (LLM) untuk mengambil kembali gambar dalam dataset yang ada dengan meminta LLM untuk memikirkan objek terkait yang tidak dalam gambar dan menuliskannya ke dalam keterangan. Kemudian mereka menguji model dengan mendorong mereka dengan kata -kata negasi untuk mengambil gambar yang berisi benda -benda tertentu, tetapi bukan yang lain.

Untuk tugas kedua, mereka merancang pertanyaan pilihan ganda yang meminta VLM untuk memilih judul yang paling tepat dari daftar opsi yang terkait erat. Teks -teks ini hanya berbeda dengan menambahkan referensi ke objek yang tidak muncul dalam gambar atau meniadakan objek yang muncul dalam gambar.

Model sering gagal pada kedua tugas, dengan kinerja pengambilan gambar turun hampir 25 persen dengan teks yang dinegasikan. Ketika datang untuk menjawab pertanyaan pilihan ganda, model terbaik hanya mencapai akurasi sekitar 39 persen, dengan beberapa model berkinerja di atau bahkan di bawah peluang acak.

Salah satu alasan kegagalan ini adalah jalan pintas yang oleh para peneliti menyebut bias afirmasi – VLM mengabaikan kata -kata negasi dan fokus pada objek dalam gambar sebagai gantinya.

โ€œIni tidak terjadi begitu saja untuk kata -kata seperti ‘tidak’ dan ‘tidak.’ Terlepas dari bagaimana Anda mengekspresikan negasi atau pengecualian, model akan mengabaikannya, โ€kata Alhamoud.

Ini konsisten di setiap VLM yang mereka uji.

โ€œMasalah yang dapat dipecahkanโ€

Karena VLM biasanya tidak dilatih pada keterangan gambar dengan negasi, para peneliti mengembangkan dataset dengan kata -kata negasi sebagai langkah pertama menuju menyelesaikan masalah.

Menggunakan dataset dengan 10 juta pasangan teks teks-teks, mereka mendorong LLM untuk mengusulkan keterangan terkait yang menentukan apa yang dikecualikan dari gambar, menghasilkan keterangan baru dengan kata-kata negasi.

Mereka harus sangat berhati -hati bahwa keterangan sintetis ini masih dibaca secara alami, atau dapat menyebabkan VLM gagal di dunia nyata ketika dihadapkan dengan keterangan yang lebih kompleks yang ditulis oleh manusia.

Mereka menemukan bahwa Finetuning VLM dengan dataset mereka menyebabkan perolehan kinerja di seluruh papan. Ini meningkatkan kemampuan pengambilan gambar model sekitar 10 persen, sementara juga meningkatkan kinerja dalam tugas menjawab pertanyaan pilihan ganda sekitar 30 persen.

โ€œTapi solusi kami tidak sempurna. Kami hanya merebut kembali kumpulan data, suatu bentuk augmentasi data. Kami bahkan belum menyentuh cara kerja model -model ini, tetapi kami berharap ini adalah sinyal bahwa ini adalah masalah yang dapat dipecahkan dan orang lain dapat mengambil solusi kami dan memperbaikinya,โ€ kata Alhamoud.

Pada saat yang sama, ia berharap pekerjaan mereka mendorong lebih banyak pengguna untuk memikirkan masalah yang mereka inginkan untuk menggunakan VLM untuk menyelesaikan dan merancang beberapa contoh untuk mengujinya sebelum penyebaran.

Di masa depan, para peneliti dapat memperluas pekerjaan ini dengan mengajar VLM untuk memproses teks dan gambar secara terpisah, yang dapat meningkatkan kemampuan mereka untuk memahami negasi. Selain itu, mereka dapat mengembangkan set data tambahan yang mencakup pasangan capsi gambar untuk aplikasi tertentu, seperti perawatan kesehatan.

[ad_2]
Informasi ini pertama kali tayang di MIT.edu klik disini untuk melihat berita lainnya.


Discover more from Kitiran Media

Subscribe to get the latest posts sent to your email.

Related Articles

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button