Ai TechAi Trend

Metode baru secara efisien melindungi data pelatihan AI sensitif AI | Berita MIT


Privasi data hadir dengan biaya. Ada teknik keamanan yang melindungi data pengguna yang sensitif, seperti alamat pelanggan, dari penyerang yang mungkin mencoba untuk mengekstraknya dari model AI – tetapi mereka sering membuat model tersebut kurang akurat.

Peneliti MIT baru -baru ini mengembangkan kerangka kerja, berdasarkan a metrik privasi baru Disebut Pac Privacy, yang dapat mempertahankan kinerja model AI sambil memastikan data sensitif, seperti gambar medis atau catatan keuangan, tetap aman dari penyerang. Sekarang, mereka telah mengambil langkah ini selangkah lebih maju dengan membuat teknik mereka lebih efisien secara komputasi, meningkatkan tradeoff antara akurasi dan privasi, dan membuat templat formal yang dapat digunakan untuk memprivatisasi hampir semua algoritma tanpa memerlukan akses ke pekerjaan dalam algoritma tersebut.

Tim menggunakan versi baru privasi PAC mereka untuk memprivatisasi beberapa algoritma klasik untuk analisis data dan tugas belajar mesin.

Mereka juga menunjukkan bahwa algoritma yang lebih “stabil” lebih mudah diprivatisasi dengan metode mereka. Prediksi algoritma yang stabil tetap konsisten bahkan ketika data pelatihannya sedikit dimodifikasi. Stabilitas yang lebih besar membantu suatu algoritma membuat prediksi yang lebih akurat pada data yang sebelumnya tidak terlihat.

Para peneliti mengatakan peningkatan efisiensi kerangka privasi PAC yang baru, dan template empat langkah yang dapat diikuti untuk mengimplementasikannya, akan membuat teknik lebih mudah digunakan dalam situasi dunia nyata.

“Kami cenderung menganggap kekokohan dan privasi sebagai yang tidak terkait dengan, atau bahkan mungkin bertentangan dengan, membangun algoritma kinerja tinggi. Pertama, kami membuat algoritma yang berfungsi, maka kami membuatnya kuat, dan kemudian pribadi. Kami telah menunjukkan bahwa Anda dapat dengan baik, jika Anda dapat melakukan privore yang lebih baik. mahasiswa pascasarjana dan penulis utama a kertas tentang kerangka privasi ini.

Dia bergabung di koran oleh Hanshen Xiao PhD ’24, yang akan mulai sebagai asisten profesor di Purdue University pada musim gugur; dan penulis senior Srini Devadas, Profesor Teknik Listrik Edwin Sibley Webster di MIT. Penelitian akan dipresentasikan pada Simposium IEEE tentang Keamanan dan Privasi.

Memperkirakan kebisingan

Untuk melindungi data sensitif yang digunakan untuk melatih model AI, insinyur sering menambahkan noise, atau keacakan generik, ke model sehingga menjadi lebih sulit bagi musuh untuk menebak data pelatihan asli. Kebisingan ini mengurangi akurasi model, sehingga semakin sedikit kebisingan yang dapat ditambahkan, semakin baik.

Privasi PAC secara otomatis memperkirakan jumlah noise terkecil yang perlu ditambahkan ke algoritma untuk mencapai tingkat privasi yang diinginkan.

Algoritma Privasi PAC asli menjalankan model AI pengguna berkali -kali pada sampel dataset yang berbeda. Ini mengukur varian serta korelasi di antara banyak output ini dan menggunakan informasi ini untuk memperkirakan berapa banyak kebisingan yang perlu ditambahkan untuk melindungi data.

Varian baru privasi PAC ini bekerja dengan cara yang sama tetapi tidak perlu mewakili seluruh matriks korelasi data di seluruh output; itu hanya membutuhkan varian output.

“Karena hal yang Anda perkirakan jauh, jauh lebih kecil dari seluruh matriks kovarians, Anda dapat melakukannya jauh lebih cepat, jauh lebih cepat,” jelas Sridhar. Ini berarti bahwa seseorang dapat meningkatkan set data yang jauh lebih besar.

Menambahkan kebisingan dapat melukai kegunaan hasil, dan penting untuk meminimalkan kehilangan utilitas. Karena biaya komputasi, algoritma privasi PAC asli terbatas pada penambahan kebisingan isotropik, yang ditambahkan secara seragam ke segala arah. Karena varian baru memperkirakan kebisingan anisotropik, yang disesuaikan dengan karakteristik spesifik dari data pelatihan, pengguna dapat menambahkan lebih sedikit kebisingan keseluruhan untuk mencapai tingkat privasi yang sama, meningkatkan keakuratan algoritma yang diprivatisasi.

Privasi dan stabilitas

Saat ia mempelajari Pac Privacy, Sridhar berhipotesis bahwa algoritma yang lebih stabil akan lebih mudah diprivatisasi dengan teknik ini. Dia menggunakan varian privasi PAC yang lebih efisien untuk menguji teori ini pada beberapa algoritma klasik.

Algoritma yang lebih stabil memiliki lebih sedikit varian dalam output mereka ketika data pelatihan mereka sedikit berubah. Privasi PAC memecah dataset menjadi potongan -potongan, menjalankan algoritma pada setiap potongan data, dan mengukur varian di antara output. Semakin besar variannya, semakin banyak noise yang harus ditambahkan untuk memprivatisasi algoritma.

Menggunakan teknik stabilitas untuk mengurangi varian dalam output algoritma juga akan mengurangi jumlah kebisingan yang perlu ditambahkan untuk memprivatisasi itu, jelasnya.

“Dalam kasus terbaik, kita bisa mendapatkan skenario win-win ini,” katanya.

Tim menunjukkan bahwa jaminan privasi ini tetap kuat meskipun algoritma yang mereka uji, dan bahwa varian baru privasi PAC membutuhkan urutan besarnya uji coba lebih sedikit untuk memperkirakan kebisingan. Mereka juga menguji metode dalam simulasi serangan, menunjukkan bahwa jaminan privasinya dapat menahan serangan canggih.

“Kami ingin mengeksplorasi bagaimana algoritma dapat dirancang bersama dengan privasi PAC, sehingga algoritma lebih stabil, aman, dan kuat dari awal,” kata Devadas. Para peneliti juga ingin menguji metode mereka dengan algoritma yang lebih kompleks dan lebih lanjut mengeksplorasi tradeoff utilitas privasi.

“Pertanyaannya sekarang adalah: Kapan situasi win-win ini terjadi, dan bagaimana kita bisa mewujudkannya lebih sering?” Kata Sridhar.

Saya pikir keunggulan utama privasi PAC dalam pengaturan ini atas definisi privasi lainnya adalah bahwa itu adalah kotak hitam-Anda tidak perlu menganalisis secara manual setiap permintaan individu untuk memprivatisasi hasilnya. Ini dapat dilakukan sepenuhnya secara otomatis. Kami secara aktif membangun database yang diaktifkan Pac dengan mengulaskan SQL yang ada, “Data Private yang diotohkan, dan diotolasi,” Data Private yang diotohkan, “yang diotohkan,” analisis pribadi, “analisis data yang diotomatisasi, dan diotomatisasi, dan analisis pribadi yang diotak,” di University of Wisconsin di Madison, yang tidak terlibat dengan penelitian ini.

Penelitian ini didukung, sebagian, oleh Cisco Systems, Capital One, Departemen Pertahanan AS, dan Persekutuan MathWorks.

Informasi ini pertama kali tayang di MIT.edu klik disini untuk melihat berita lainnya.


Discover more from Kitiran Media

Subscribe to get the latest posts sent to your email.

Related Articles

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button