Ai AppsAi TechAi Trend

Ahli ekologi menemukan titik buta model computer vision dalam mengambil gambar satwa liar | Berita MIT


Cobalah memotret masing-masing wilayah Amerika Utara dengan kasar 11.000 spesies pohon, dan Anda hanya akan memiliki sebagian kecil dari jutaan foto dalam kumpulan data gambar alam. Koleksi foto yang sangat banyak ini — mulai dari kupu-kupu ke paus bungkuk — merupakan alat penelitian yang hebat bagi para ahli ekologi karena memberikan bukti perilaku unik organisme, kondisi langka, pola migrasi, dan respons terhadap polusi dan bentuk perubahan iklim lainnya.

Meskipun komprehensif, kumpulan data gambar alam belum begitu berguna. Mencari database ini dan mengambil gambar yang paling relevan dengan hipotesis Anda memakan waktu lama. Anda akan lebih baik menggunakan asisten peneliti otomatis — atau mungkin sistem kecerdasan buatan yang disebut model bahasa visi multimodal (VLM). Mereka dilatih mengenai teks dan gambar, sehingga memudahkan mereka untuk menentukan detail yang lebih halus, seperti pohon tertentu di latar belakang foto.

Namun seberapa baik VLM dapat membantu peneliti alam dalam pengambilan gambar? Sebuah tim dari Laboratorium Ilmu Komputer dan Kecerdasan Buatan (CSAIL) MIT, University College London, iNaturalist, dan tempat lain merancang tes kinerja untuk mengetahuinya. Tugas setiap VLM: menemukan dan mengatur ulang hasil yang paling relevan dalam kumpulan data “INQUIRE” tim, yang terdiri dari 5 juta gambar satwa liar dan 250 perintah pencarian dari ahli ekologi dan pakar keanekaragaman hayati lainnya.

Mencari katak istimewa itu

Dalam evaluasi ini, para peneliti menemukan bahwa VLM yang lebih besar dan lebih canggih, yang dilatih pada lebih banyak data, terkadang dapat memberikan hasil yang diinginkan peneliti. Model tersebut memiliki performa yang cukup baik pada kueri langsung tentang konten visual, seperti mengidentifikasi puing-puing di terumbu karang, namun mengalami kesulitan yang signifikan pada kueri yang memerlukan pengetahuan ahli, seperti mengidentifikasi kondisi atau perilaku biologis tertentu. Misalnya, VLM dengan mudah menemukan contoh ubur-ubur di pantai, namun kesulitan dengan petunjuk yang lebih teknis seperti “axanthism pada katak hijau,” suatu kondisi yang membatasi kemampuan mereka untuk membuat kulit mereka menguning.

Temuan mereka menunjukkan bahwa model tersebut memerlukan lebih banyak data pelatihan khusus domain untuk memproses kueri yang sulit. Mahasiswa PhD MIT Edward Vendrow, afiliasi CSAIL yang ikut memimpin pekerjaan pada kumpulan data baru kertaspercaya bahwa dengan memahami data yang lebih informatif, VLM suatu hari nanti bisa menjadi asisten peneliti yang hebat. “Kami ingin membangun sistem pengambilan yang dapat menemukan hasil persis yang dicari para ilmuwan saat memantau keanekaragaman hayati dan menganalisis perubahan iklim,” kata Vendrow. “Model multimodal belum memahami bahasa ilmiah yang lebih kompleks, namun kami percaya bahwa INQUIRE akan menjadi tolok ukur penting untuk melacak bagaimana model tersebut berkembang dalam memahami terminologi ilmiah dan pada akhirnya membantu peneliti secara otomatis menemukan gambar tepat yang mereka butuhkan.”

Eksperimen tim menggambarkan bahwa model yang lebih besar cenderung lebih efektif untuk penelusuran yang lebih sederhana dan rumit karena data pelatihannya yang luas. Mereka pertama kali menggunakan kumpulan data INQUIRE untuk menguji apakah VLM dapat mempersempit kumpulan 5 juta gambar menjadi 100 hasil paling relevan (juga dikenal sebagai “peringkat”). Untuk kueri penelusuran langsung seperti “terumbu karang dengan struktur dan puing-puing buatan manusia”, model yang relatif besar seperti “SigLIP” menemukan gambar yang cocok, sementara model CLIP berukuran lebih kecil mengalami kesulitan. Menurut Vendrow, VLM yang lebih besar “baru mulai berguna” dalam menentukan peringkat kueri yang lebih sulit.

Vendrow dan rekan-rekannya juga mengevaluasi seberapa baik model multimodal dapat mengurutkan ulang 100 hasil tersebut, mengatur ulang gambar mana yang paling relevan dengan penelusuran. Dalam pengujian ini, bahkan LLM besar yang dilatih dengan data yang lebih terkurasi, seperti GPT-4o, mengalami kesulitan: Skor presisinya hanya 59,6 persen, skor tertinggi yang dicapai oleh model mana pun.

Para peneliti mempresentasikan hasil ini pada Conference on Neural Information Processing Systems (NeurIPS) awal bulan ini.

Bertanya untuk INQUIRE

Kumpulan data INQUIRE mencakup kueri penelusuran berdasarkan diskusi dengan ahli ekologi, biologi, ahli kelautan, dan pakar lainnya tentang jenis gambar yang mereka cari, termasuk kondisi fisik dan perilaku unik hewan. Sebuah tim anotator kemudian menghabiskan 180 jam mencari kumpulan data iNaturalist dengan petunjuk ini, dengan hati-hati menyisir sekitar 200.000 hasil untuk memberi label pada 33.000 kecocokan yang sesuai dengan petunjuk tersebut.

Misalnya, anotator menggunakan kueri seperti “kelomang yang menggunakan sampah plastik sebagai cangkangnya” dan “burung condor California yang ditandai dengan warna hijau ’26’” untuk mengidentifikasi subkumpulan kumpulan data gambar yang lebih besar yang menggambarkan peristiwa spesifik dan langka ini.

Kemudian, para peneliti menggunakan kueri penelusuran yang sama untuk melihat seberapa baik VLM dapat mengambil gambar iNaturalist. Label anotator terungkap ketika model kesulitan memahami kata kunci para ilmuwan, karena hasilnya menyertakan gambar yang sebelumnya diberi tag sebagai tidak relevan dengan penelusuran. Misalnya, hasil VLM untuk “pohon redwood dengan bekas kebakaran” terkadang menyertakan gambar pohon tanpa tanda apa pun.

“Ini adalah kurasi data yang cermat, dengan fokus pada menangkap contoh nyata dari penyelidikan ilmiah di seluruh bidang penelitian dalam bidang ekologi dan ilmu lingkungan,” kata Sara Beery, Asisten Profesor Pengembangan Karir Homer A. Burnell di MIT, peneliti utama CSAIL, dan rekannya. -penulis senior karya tersebut. “Hal ini terbukti penting untuk memperluas pemahaman kita tentang kemampuan VLM saat ini dalam lingkungan ilmiah yang berpotensi memberikan dampak. Hal ini juga menguraikan kesenjangan dalam penelitian saat ini yang kini dapat kami atasi, khususnya untuk pertanyaan komposisi yang kompleks, terminologi teknis, dan perbedaan halus dan halus yang menggambarkan kategori minat kolaborator kami.”

“Temuan kami menyiratkan bahwa beberapa model penglihatan sudah cukup tepat untuk membantu ilmuwan satwa liar dalam mengambil beberapa gambar, namun banyak tugas yang masih terlalu sulit bahkan untuk model terbesar dan berperforma terbaik sekalipun,” kata Vendrow. “Meskipun INQUIRE berfokus pada pemantauan ekologi dan keanekaragaman hayati, keragaman kuerinya berarti bahwa VLM yang berkinerja baik pada INQUIRE cenderung unggul dalam menganalisis koleksi gambar besar di bidang observasi intensif lainnya.”

Pikiran yang ingin tahu ingin melihat

Melanjutkan proyek mereka, para peneliti bekerja sama dengan iNaturalist untuk mengembangkan sistem kueri guna membantu para ilmuwan dan pemikir penasaran lainnya menemukan gambar yang sebenarnya ingin mereka lihat. Pekerjaan mereka demo memungkinkan pengguna memfilter penelusuran berdasarkan spesies, sehingga memungkinkan penemuan hasil relevan yang lebih cepat seperti, misalnya, beragam warna mata kucing. Vendrow dan rekan penulis utama Omiros Pantazis, yang baru-baru ini menerima gelar PhD dari University College London, juga bertujuan untuk meningkatkan sistem pemeringkatan ulang dengan menambah model yang ada saat ini untuk memberikan hasil yang lebih baik.

Associate Professor Universitas Pittsburgh Justin Kitzes menyoroti kemampuan INQUIRE untuk mengungkap data sekunder. “Kumpulan data keanekaragaman hayati dengan cepat menjadi terlalu besar untuk ditinjau oleh ilmuwan mana pun,” kata Kitzes, yang tidak terlibat dalam penelitian ini. “Makalah ini menarik perhatian pada masalah yang sulit dan belum terpecahkan, yaitu bagaimana menelusuri data tersebut secara efektif dengan pertanyaan yang lebih dari sekedar ‘siapa yang ada di sini’ dan bertanya tentang karakteristik individu, perilaku, dan interaksi spesies. Mampu mengungkap fenomena yang lebih kompleks ini secara efisien dan akurat dalam data gambar keanekaragaman hayati akan sangat penting bagi ilmu pengetahuan dasar dan dampak dunia nyata terhadap ekologi dan konservasi.”

Vendrow, Pantazis, dan Beery menulis makalah ini bersama insinyur perangkat lunak iNaturalist Alexander Shepard, profesor University College London Gabriel Brostow dan Kate Jones, profesor asosiasi Universitas Edinburgh dan rekan penulis senior Oisin Mac Aodha, dan Asisten Profesor Grant Van dari Universitas Massachusetts di Amherst Horn, yang menjabat sebagai rekan penulis senior. Pekerjaan mereka didukung, sebagian, oleh Laboratorium AI Generatif di Universitas Edinburgh, Yayasan Sains Nasional AS/Dewan Riset Ilmu Pengetahuan Alam dan Teknik Pusat Global Kanada untuk AI dan Perubahan Keanekaragaman Hayati, Hibah Penelitian Royal Society, dan Biome Proyek Kesehatan yang didanai oleh World Wildlife Fund Inggris.

Informasi ini pertama kali tayang di MIT.edu klik disini untuk melihat berita lainnya.


Discover more from Kitiran Media

Subscribe to get the latest posts sent to your email.

Related Articles

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button