Ai AppsAi TechAi Trend

Studi mengungkapkan chatbot AI dapat mendeteksi ras, tetapi bias rasial mengurangi empati respons | Berita MIT


Dengan kedok anonimitas dan pergaulan dengan orang asing, daya tarik dunia digital sebagai tempat untuk mencari dukungan kesehatan mental semakin meningkat. Fenomena ini didukung oleh fakta bahwa lebih dari 150 juta orang di Amerika Serikat tinggal di daerah kekurangan profesional kesehatan mental yang ditetapkan oleh pemerintah federal.

“Saya benar-benar membutuhkan bantuan Anda, karena saya terlalu takut untuk berbicara dengan terapis dan saya tidak dapat menghubungi terapis tersebut.”

“Apakah aku bereaksi berlebihan, terluka karena suami mengolok-olokku di depan teman-temannya?”

“Bisakah beberapa orang asing mempertimbangkan hidup saya dan memutuskan masa depan saya?”

Kutipan di atas adalah postingan nyata yang diambil dari pengguna di Reddit, situs web dan forum berita media sosial tempat pengguna dapat berbagi konten atau meminta saran di forum kecil berbasis minat yang dikenal sebagai “subreddits.”

Dengan menggunakan kumpulan data 12.513 postingan dengan 70.429 tanggapan dari 26 subreddit terkait kesehatan mental, peneliti dari MIT, New York University (NYU), dan University of California Los Angeles (UCLA) merancang sebuah kerangka kerja untuk membantu mengevaluasi kesetaraan dan kualitas keseluruhan chatbot dukungan kesehatan mental berdasarkan model bahasa besar (LLM) seperti GPT-4. Karya mereka baru-baru ini diterbitkan pada Konferensi Metode Empiris dalam Pemrosesan Bahasa Alami (EMNLP) tahun 2024.

Untuk mencapai hal ini, para peneliti meminta dua psikolog klinis berlisensi untuk mengevaluasi 50 postingan Reddit yang diambil sampelnya secara acak untuk mencari dukungan kesehatan mental, dan memasangkan setiap postingan dengan respons nyata Redditor atau respons yang dihasilkan GPT-4. Tanpa mengetahui respons mana yang nyata atau respons mana yang dihasilkan oleh AI, para psikolog diminta menilai tingkat empati dalam setiap respons.

Chatbot dukungan kesehatan mental telah lama dieksplorasi sebagai cara untuk meningkatkan akses terhadap dukungan kesehatan mental, namun LLM yang kuat seperti ChatGPT OpenAI mengubah interaksi manusia-AI, dengan respons yang dihasilkan AI menjadi lebih sulit dibedakan dari respons manusia sebenarnya.

Meskipun terdapat kemajuan yang luar biasa, dampak yang tidak diinginkan dari dukungan kesehatan mental yang diberikan oleh AI telah menarik perhatian terhadap potensi risikonya yang mematikan; pada bulan Maret tahun lalu, seorang pria Belgia meninggal karena bunuh diri akibat pertukaran dengan ELIZA, sebuah chatbot yang dikembangkan untuk meniru psikoterapis yang didukung dengan LLM yang disebut GPT-J. Satu bulan kemudian, Asosiasi Gangguan Makan Nasional akan menangguhkan chatbot mereka Tessa, setelah chatbot tersebut mulai memberikan tips diet kepada pasien dengan gangguan makan.

Saadia Gabriel, seorang postdoc MIT baru-baru ini yang sekarang menjadi asisten profesor UCLA dan penulis pertama makalah tersebut, mengakui bahwa dia pada awalnya sangat skeptis terhadap seberapa efektif sebenarnya chatbots yang mendukung kesehatan mental. Gabriel melakukan penelitian ini selama menjadi postdoc di MIT di Healthy Machine Learning Group, dipimpin Marzyeh Ghassemi, seorang profesor asosiasi MIT di Departemen Teknik Elektro dan Ilmu Komputer dan Institut Teknik Medis dan Sains MIT yang berafiliasi dengan MIT Klinik Abdul Latif Jameel untuk Pembelajaran Mesin di Kesehatan dan Laboratorium Ilmu Komputer dan Kecerdasan Buatan.

Apa yang ditemukan oleh Gabriel dan tim peneliti adalah bahwa respons GPT-4 tidak hanya lebih berempati secara keseluruhan, namun juga 48 persen lebih baik dalam mendorong perubahan perilaku positif dibandingkan respons manusia.

Namun, dalam evaluasi bias, para peneliti menemukan bahwa tingkat empati respons GPT-4 berkurang untuk poster berkulit hitam (2 hingga 15 persen lebih rendah) dan Asia (5 hingga 17 persen lebih rendah) dibandingkan dengan poster berkulit putih atau poster yang rasnya tidak diketahui.

Untuk mengevaluasi bias dalam respons GPT-4 dan respons manusia, para peneliti menyertakan berbagai jenis postingan dengan kebocoran demografi eksplisit (misalnya gender, ras) dan kebocoran demografi implisit.

Kebocoran demografis yang eksplisit akan terlihat seperti: “Saya seorang wanita kulit hitam berusia 32 tahun.”

Sedangkan kebocoran demografi implisit akan terlihat seperti: “Menjadi gadis berusia 32 tahun dengan rambut alami saya”, yang mana kata kunci digunakan untuk menunjukkan demografi tertentu pada GPT-4.

Kecuali poster perempuan kulit hitam, tanggapan GPT-4 ditemukan tidak terlalu terpengaruh oleh kebocoran demografis eksplisit dan implisit dibandingkan dengan responden manusia, yang cenderung lebih berempati ketika menanggapi postingan dengan saran demografis implisit.

“Struktur masukan yang Anda berikan [the LLM] dan beberapa informasi tentang konteksnya, seperti apakah Anda menginginkannya [the LLM] bertindak seperti seorang dokter, gaya postingan media sosial, atau apakah Anda ingin menggunakan atribut demografis pasien, memiliki dampak besar pada respons yang Anda dapatkan,” kata Gabriel.

Makalah ini menyarankan bahwa memberikan instruksi secara eksplisit kepada LLM untuk menggunakan atribut demografis dapat secara efektif mengurangi bias, karena ini adalah satu-satunya metode di mana peneliti tidak mengamati perbedaan yang signifikan dalam empati di berbagai kelompok demografis.

Gabriel berharap penelitian ini dapat membantu memastikan evaluasi LLM yang lebih komprehensif dan bijaksana yang diterapkan dalam pengaturan klinis di seluruh subkelompok demografis.

“LLM telah digunakan untuk memberikan dukungan langsung kepada pasien dan telah diterapkan di lingkungan medis, dalam banyak kasus untuk mengotomatisasi sistem manusia yang tidak efisien,” kata Ghassemi. “Di sini, kami menunjukkan bahwa meskipun LLM yang canggih secara umum tidak terlalu terpengaruh oleh kebocoran demografi dibandingkan manusia dalam dukungan kesehatan mental peer-to-peer, LLM tidak memberikan respons kesehatan mental yang adil di seluruh subkelompok pasien yang disimpulkan … kami memiliki banyak peluang untuk meningkatkan model sehingga memberikan dukungan yang lebih baik saat digunakan.”

Informasi ini pertama kali tayang di MIT.edu klik disini untuk melihat berita lainnya.


Discover more from Kitiran Media

Subscribe to get the latest posts sent to your email.

Related Articles

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button