Mengajar Model AI Stroke yang luas untuk membuat sketsa lebih seperti manusia | Berita MIT

[ad_1]

Saat Anda mencoba berkomunikasi atau memahami ide, kata -kata tidak selalu berhasil. Terkadang pendekatan yang lebih efisien adalah membuat sketsa sederhana konsep itu – misalnya, diagram sirkuit dapat membantu memahami bagaimana sistem bekerja.
Tetapi bagaimana jika kecerdasan buatan dapat membantu kita mengeksplorasi visualisasi ini? Sementara sistem ini biasanya mahir dalam menciptakan lukisan yang realistis dan gambar kartun, banyak model gagal menangkap esensi dari sketsa: proses stroke-by-stroke, iterative, yang membantu manusia melakukan brainstorming dan mengedit bagaimana mereka ingin mewakili ide-ide mereka.
Sistem gambar baru dari Ilmu Komputer MIT dan Laboratorium Kecerdasan Buatan (CSAIL) dan Universitas Stanford dapat membuat sketsa lebih seperti yang kita lakukan. Metode mereka, yang disebut “Sketchagent,” menggunakan model bahasa multimodal – sistem AI yang berlatih pada teks dan gambar, seperti Anthropic’s Claude 3.5 sonnet – untuk mengubah permintaan bahasa alami menjadi sketsa dalam beberapa detik. Misalnya, ia dapat mencoret-coret rumah baik sendiri maupun melalui kolaborasi, menggambar dengan input berbasis teks manusia atau memasukkan teks untuk membuat sketsa setiap bagian secara terpisah.
Para peneliti menunjukkan bahwa SketchAgent dapat membuat gambar abstrak konsep yang beragam, seperti robot, kupu -kupu, helix DNA, diagram alur, dan bahkan rumah opera Sydney. Suatu hari, alat ini dapat diperluas menjadi game seni interaktif yang membantu guru dan peneliti diagram konsep yang kompleks atau memberi pengguna pelajaran menggambar cepat.
Csail postdoc Yael Vinker, yang merupakan penulis utama a kertas Memperkenalkan Sketchagent, mencatat bahwa sistem memperkenalkan cara yang lebih alami bagi manusia untuk berkomunikasi dengan AI.
“Tidak semua orang sadar betapa mereka menarik kehidupan sehari -hari mereka. Kita dapat menggambar pikiran atau ide -ide lokakarya dengan sketsa,” katanya. “Alat kami bertujuan untuk meniru proses itu, membuat model bahasa multimodal lebih berguna dalam membantu kami mengekspresikan ide secara visual.”
Sketchagent mengajarkan model-model ini untuk menggambar stroke-demi-stroke tanpa pelatihan pada data apa pun-sebaliknya, para peneliti mengembangkan “bahasa sketsa” di mana sketsa diterjemahkan ke dalam urutan stroke bernomor pada kisi. Sistem diberi contoh bagaimana hal -hal seperti rumah akan ditarik, dengan setiap stroke berlabel sesuai dengan apa yang diwakilinya – seperti stroke ketujuh menjadi persegi panjang yang diberi label sebagai “pintu depan” – untuk membantu model generalisasi ke konsep -konsep baru.
Vinker menulis makalah itu bersama tiga afiliasi CSAIL – postdoc Tamar Rott Shaham, peneliti sarjana Alex Zhao, dan profesor MIT Antonio Torralba – serta rekan peneliti Universitas Stanford Kristine Zheng dan asisten profesor Judith Ellen Fan. Mereka akan mempresentasikan pekerjaan mereka di Konferensi 2025 tentang Visi Komputer dan Pengenalan Pola (CVPR) bulan ini.
Menilai kemampuan membuat sketsa AI
Sementara model teks-ke-gambar seperti Dall-E 3 dapat membuat gambar yang menarik, mereka tidak memiliki komponen penting dari sketsa: proses spontan dan kreatif di mana setiap stroke dapat memengaruhi keseluruhan desain. Di sisi lain, gambar Sketchagent dimodelkan sebagai urutan stroke, tampak lebih alami dan cair, seperti sketsa manusia.
Pekerjaan sebelumnya telah meniru proses ini juga, tetapi mereka melatih model mereka pada kumpulan data yang ditarik manusia, yang sering kali terbatas dalam skala dan keragaman. Sketchagent menggunakan model bahasa pra-terlatih sebagai gantinya, yang berpengetahuan luas tentang banyak konsep, tetapi tidak tahu bagaimana membuat sketsa. Ketika para peneliti mengajar model bahasa proses ini, Sketchagent mulai membuat sketsa konsep yang beragam yang tidak dilatih secara eksplisit.
Tetap saja, Vinker dan rekan -rekannya ingin melihat apakah Sketchagent secara aktif bekerja dengan manusia dalam proses sketsa, atau jika itu bekerja secara independen dari mitra gambarnya. Tim menguji sistem mereka dalam mode kolaborasi, di mana model manusia dan bahasa bekerja untuk menggambar konsep tertentu bersama -sama. Menghapus kontribusi Sketchagent mengungkapkan bahwa sapuan alat mereka sangat penting untuk gambar terakhir. Dalam gambar perahu layar, misalnya, menghilangkan sapuan buatan yang mewakili tiang yang membuat sketsa keseluruhan tidak dapat dikenali.
Dalam percobaan lain, peneliti CSAIL dan Stanford menyambungkan model bahasa multimodal yang berbeda ke dalam sketsa untuk melihat mana yang dapat membuat sketsa yang paling dikenal. Model backbone default mereka, Claude 3.5 sonnet, menghasilkan grafik vektor yang paling mirip manusia (pada dasarnya file berbasis teks yang dapat dikonversi menjadi gambar resolusi tinggi). Ini mengungguli model seperti GPT-4O dan Claude 3 Opus.
“Fakta bahwa Sonnet Claude 3.5 mengungguli model lain seperti GPT-4O dan Claude 3 opus menunjukkan bahwa model ini memproses dan menghasilkan informasi terkait visual secara berbeda,” kata rekan penulis Tamar Rott Shaham.
Dia menambahkan bahwa Sketchagent dapat menjadi antarmuka yang bermanfaat untuk berkolaborasi dengan model AI di luar komunikasi berbasis teks standar. “Ketika model maju dalam memahami dan menghasilkan modalitas lain, seperti sketsa, mereka membuka cara baru bagi pengguna untuk mengekspresikan ide dan menerima tanggapan yang terasa lebih intuitif dan seperti manusia,” kata Shaham. “Ini dapat secara signifikan memperkaya interaksi, membuat AI lebih mudah diakses dan serbaguna.”
Sementara kecakapan menggambar Sketchagent menjanjikan, itu belum bisa membuat sketsa profesional. Ini membuat representasi konsep sederhana menggunakan sosok tongkat dan orat -oret, tetapi berjuang untuk mencoret -coret hal -hal seperti logo, kalimat, makhluk kompleks seperti unicorn dan sapi, dan figur manusia tertentu.
Kadang -kadang, model mereka juga salah memahami niat pengguna dalam gambar kolaboratif, seperti ketika Sketchagent menarik kelinci dengan dua kepala. Menurut Vinker, ini mungkin karena model memecah setiap tugas menjadi langkah yang lebih kecil (juga disebut alasan “rantai pemikiran”). Saat bekerja dengan manusia, model ini menciptakan rencana menggambar, berpotensi salah menafsirkan bagian mana dari garis besar yang dikontribusikan manusia. Para peneliti mungkin dapat memperbaiki keterampilan menggambar ini dengan melatih data sintetis dari model difusi.
Selain itu, Sketchagent sering membutuhkan beberapa putaran dorongan untuk menghasilkan coretan seperti manusia. Di masa depan, tim bertujuan untuk membuatnya lebih mudah untuk berinteraksi dan membuat sketsa dengan model bahasa multimodal, termasuk memperbaiki antarmuka mereka.
Namun, alat ini menunjukkan AI dapat menarik konsep yang beragam seperti yang dilakukan manusia, dengan kolaborasi manusia-AI langkah demi langkah yang menghasilkan desain akhir yang lebih selaras.
Pekerjaan ini didukung, sebagian, oleh Yayasan Sains Nasional AS, hibah Hoffman-yee dari Stanford Institute for Human-Centered AI, Hyundai Motor Co., Laboratorium Penelitian Angkatan Darat AS, Program Kepemimpinan STEM Zuckerman, dan Fellowship Viterbi.
Informasi ini pertama kali tayang di MIT.edu klik disini untuk melihat berita lainnya.
Discover more from Kitiran Media
Subscribe to get the latest posts sent to your email.






