Ai AppsAi TechAi Trend

Cara baru untuk membuat bentuk 3D realistis menggunakan AI generatif | Berita MIT


Membuat model 3D yang realistis untuk aplikasi seperti realitas virtual, pembuatan film, dan desain teknik dapat menjadi proses rumit yang memerlukan banyak percobaan dan kesalahan manual.

Meskipun model kecerdasan buatan generatif untuk gambar dapat menyederhanakan proses artistik dengan memungkinkan pencipta menghasilkan gambar 2D yang nyata dari perintah teks, model ini tidak dirancang untuk menghasilkan bentuk 3D. Untuk menjembatani kesenjangan tersebut, teknik yang baru dikembangkan disebut Distilasi Skor memanfaatkan model pembuatan gambar 2D untuk membuat bentuk 3D, namun keluarannya sering kali buram atau berbentuk kartun.

Peneliti MIT mengeksplorasi hubungan dan perbedaan antara algoritma yang digunakan untuk menghasilkan gambar 2D dan bentuk 3D, mengidentifikasi akar penyebab model 3D berkualitas rendah. Dari sana, mereka membuat perbaikan sederhana pada Score Distillation, yang memungkinkan pembuatan bentuk 3D yang tajam dan berkualitas tinggi dengan kualitas yang mendekati gambar 2D terbaik yang dihasilkan model.

Beberapa metode lain mencoba memperbaiki masalah ini dengan melatih ulang atau menyempurnakan model AI generatif, yang bisa jadi mahal dan memakan waktu.

Sebaliknya, teknik para peneliti MIT mencapai kualitas bentuk 3D yang setara atau lebih baik daripada pendekatan ini tanpa pelatihan tambahan atau pemrosesan pasca yang rumit.

Selain itu, dengan mengidentifikasi penyebab masalah, para peneliti telah meningkatkan pemahaman matematis tentang Distilasi Skor dan teknik terkait, sehingga memungkinkan penelitian di masa depan untuk lebih meningkatkan kinerja.

“Sekarang kami tahu arah yang harus kami tuju, sehingga memungkinkan kami menemukan solusi yang lebih efisien, lebih cepat, dan berkualitas lebih tinggi,” kata Artem Lukoianov, mahasiswa pascasarjana teknik elektro dan ilmu komputer (EECS) yang merupakan penulis utama makalah tentang teknik ini. “Dalam jangka panjang, pekerjaan kami dapat membantu memfasilitasi proses menjadi co-pilot bagi para desainer, sehingga memudahkan dalam menciptakan bentuk 3D yang lebih realistis.”

Rekan penulis Lukoianov adalah Haitz Sáez de Ocáriz Borde, seorang mahasiswa pascasarjana di Universitas Oxford; Kristjan Greenewald, seorang ilmuwan peneliti di MIT-IBM Watson AI Lab; Vitor Campagnolo Guizilini, ilmuwan di Toyota Research Institute; Timur Bagautdinov, seorang ilmuwan peneliti di Meta; dan penulis senior Vincent Sitzmann, asisten profesor EECS di MIT yang memimpin Scene Representation Group di Computer Science and Artificial Intelligence Laboratory (CSAIL) dan Justin Solomon, seorang profesor di EECS dan pemimpin CSAIL Geometric Data Processing Group. Penelitian ini akan dipresentasikan pada Konferensi Sistem Pemrosesan Informasi Neural.

Dari gambar 2D hingga bentuk 3D

Model difusi, seperti DALL-E, adalah jenis model AI generatif yang dapat menghasilkan gambar seperti aslinya dari noise acak. Untuk melatih model ini, peneliti menambahkan noise ke gambar dan kemudian mengajari model tersebut untuk membalikkan proses dan menghilangkan noise tersebut. Model tersebut menggunakan proses “menyangkal” yang dipelajari ini untuk membuat gambar berdasarkan perintah teks pengguna.

Namun model difusi berkinerja buruk dalam menghasilkan bentuk 3D realistis secara langsung karena tidak cukup data 3D untuk melatihnya. Untuk mengatasi masalah ini, peneliti mengembangkan teknik yang disebut Pengambilan Sampel Distilasi Skor (SDS) pada tahun 2022 yang menggunakan model difusi terlatih untuk menggabungkan gambar 2D menjadi representasi 3D.

Teknik ini dimulai dengan representasi 3D acak, merender tampilan 2D objek yang diinginkan dari sudut kamera acak, menambahkan noise pada gambar tersebut, melakukan denoisasi dengan model difusi, lalu mengoptimalkan representasi 3D acak agar cocok dengan gambar yang ditolak. Langkah-langkah ini diulangi hingga objek 3D yang diinginkan dihasilkan.

Namun, bentuk 3D yang dihasilkan dengan cara ini cenderung terlihat buram atau jenuh.

“Ini telah menjadi hambatan selama beberapa waktu. Kami tahu model yang mendasarinya mampu bekerja lebih baik, namun orang tidak tahu mengapa hal ini terjadi dengan bentuk 3D,” kata Lukoianov.

Para peneliti MIT mengeksplorasi langkah-langkah SDS dan mengidentifikasi ketidaksesuaian antara formula yang menjadi bagian penting dari proses dan formula dalam model difusi 2D. Rumusnya memberi tahu model cara memperbarui representasi acak dengan menambahkan dan menghilangkan noise, selangkah demi selangkah, agar terlihat lebih seperti gambar yang diinginkan.

Karena bagian dari rumus ini melibatkan persamaan yang terlalu rumit untuk diselesaikan secara efisien, SDS menggantinya dengan sampel derau yang diambil secara acak di setiap langkah. Para peneliti MIT menemukan bahwa kebisingan ini menyebabkan bentuk 3D buram atau kartun.

Jawaban perkiraan

Alih-alih mencoba menyelesaikan rumus rumit ini dengan tepat, para peneliti menguji teknik perkiraan hingga mereka mengidentifikasi yang terbaik. Daripada mengambil sampel istilah kebisingan secara acak, teknik perkiraan mereka menyimpulkan istilah yang hilang dari rendering bentuk 3D saat ini.

“Dengan melakukan hal ini, seperti yang diprediksi oleh analisis makalah, akan menghasilkan bentuk 3D yang terlihat tajam dan realistis,” ujarnya.

Selain itu, para peneliti meningkatkan resolusi rendering gambar dan menyesuaikan beberapa parameter model untuk lebih meningkatkan kualitas bentuk 3D.

Pada akhirnya, mereka dapat menggunakan model difusi gambar yang telah dilatih sebelumnya untuk menciptakan bentuk 3D yang halus dan tampak realistis tanpa memerlukan pelatihan ulang yang mahal. Objek 3D sama tajamnya dengan objek yang dihasilkan menggunakan metode lain yang mengandalkan solusi ad hoc.

“Mencoba bereksperimen secara membabi buta dengan parameter yang berbeda, terkadang berhasil dan terkadang tidak, tetapi Anda tidak tahu alasannya. Kami tahu ini adalah persamaan yang perlu kami selesaikan. Sekarang, hal ini memungkinkan kami memikirkan cara yang lebih efisien untuk menyelesaikannya,” katanya.

Karena metode mereka bergantung pada model difusi yang telah dilatih sebelumnya, metode ini mewarisi bias dan kekurangan model tersebut, sehingga rentan terhadap halusinasi dan kegagalan lainnya. Memperbaiki model difusi yang mendasarinya akan meningkatkan prosesnya.

Selain mempelajari rumus untuk melihat bagaimana mereka dapat menyelesaikannya dengan lebih efektif, para peneliti juga tertarik untuk mengeksplorasi bagaimana wawasan ini dapat meningkatkan teknik pengeditan gambar.

Pekerjaan ini sebagian didanai oleh Toyota Research Institute, US National Science Foundation, Singapore Defense Science and Technology Agency, US Intelligence Advanced Research Projects Activity, Amazon Science Hub, IBM, US Army Research Office, dan Program Data Masa Depan CSAIL, Wistron Corporation, dan Laboratorium AI Watson MIT-IBM.

Informasi ini pertama kali tayang di MIT.edu klik disini untuk melihat berita lainnya.


Discover more from Kitiran Media

Subscribe to get the latest posts sent to your email.

Related Articles

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button