Meta baru-baru ini secara diam-diam merilis enam hasil penelitian AI utama, yang mencakup berbagai bidang seperti model multi-modal, musik yang dihasilkan teks, teknologi watermarking audio, dan kumpulan data, yang menunjukkan inovasi berkelanjutan dan kekuatan teknisnya di bidang kecerdasan buatan. Hasil penelitian ini tidak hanya memberikan kemungkinan-kemungkinan baru untuk penerapan di bidang AI, namun juga memberikan referensi berharga bagi arah pengembangan teknologi di masa depan. Hasil penelitian yang mengesankan ini dijelaskan secara rinci di bawah ini.
Baru-baru ini, Meta diam-diam merilis enam hasil penelitian yang menghadirkan aplikasi baru dan terobosan teknologi di bidang AI. Ini termasuk model multimodal, model musik yang dihasilkan teks, teknologi watermarking audio, kumpulan data, dan proyek lainnya. Mari kita lihat hasil spesifik dari penelitian ini.
Meta Bunglon (model "Bunglon")
Pertama-tama, model multi-modal "Chameleon" yang dirilis dapat memproses teks dan gambar secara bersamaan, mendukung teks input dan output campuran, dan memberikan solusi baru untuk memproses data multi-modal.
Meskipun sebagian besar model fusi tahap akhir saat ini menggunakan pembelajaran berbasis difusi, Meta Chameleon menggunakan tokenisasi untuk teks dan gambar. Hal ini memungkinkan pendekatan yang lebih terpadu dan membuat model lebih mudah untuk dirancang, dipelihara, dan diperluas.
Contoh Video: Buat judul kreatif dari gambar atau gunakan gabungan perintah teks dan gambar untuk membuat adegan yang benar-benar baru
Meta sekarang akan merilis komponen utama model Chameleon7B dan 34B secara publik di bawah lisensi penelitian. Model yang dirilis saat ini telah disesuaikan dengan keamanan, mendukung input mode campuran dan output teks biasa, dan dapat digunakan untuk tujuan penelitian. Pejabat tersebut menekankan bahwa model pembuatan gambar Bunglon tidak akan dirilis.
Pintu masuk produk: https://top.aibase.com/tool/meta-chameleon
Prediksi Multi-Token
Metode pelatihan model bahasa baru "Prediksi Multi-Token" bertujuan untuk meningkatkan kemampuan model dan efisiensi pelatihan. Metode ini melatih model untuk memprediksi beberapa kata sekaligus, sehingga meningkatkan akurasi prediksi model.
Dengan menggunakan pendekatan ini, model bahasa dapat dilatih untuk memprediksi beberapa kata di masa depan secara bersamaan, dibandingkan dengan metode sebelumnya yang memprediksi satu kata dalam satu waktu. Hal ini meningkatkan kemampuan model dan efisiensi pelatihan sekaligus meningkatkan kecepatan. Dalam semangat ilmu pengetahuan terbuka yang bertanggung jawab, model terlatih akan dirilis untuk penyelesaian kode di bawah lisensi non-komersial/khusus penelitian.
Pintu masuk produk: https://top.aibase.com/tool/multi-token-prediction
Model musik pembuatan teks "JASCO"
Meskipun model teks-ke-musik yang ada seperti MusicGen terutama mengandalkan masukan teks untuk menghasilkan musik, model baru Meta, Meta-Joint Audio dan Pengondisian Simbol untuk Pembuatan Teks-ke-Musik yang Dikendalikan Sementara (JASCO), mampu menerima beragam kondisi Input, seperti akord atau ketukan tertentu, untuk meningkatkan kontrol atas output musik yang dihasilkan. Secara khusus, lapisan kemacetan informasi dapat digunakan bersama dengan ketidakjelasan temporal untuk mengekstrak informasi yang relevan dengan kontrol tertentu. Hal ini memungkinkan penggabungan kondisi berbasis simbolik dan audio secara bersamaan dalam model generatif teks-ke-musik yang sama.
JASCO sebanding dengan dasar evaluasi dalam hal kualitas generasi sekaligus memungkinkan kontrol yang lebih baik dan lebih fleksibel atas musik yang dihasilkan. Pejabat akan menerbitkan makalah penelitian dan halaman contoh, dan akhir bulan ini kode inferensi akan dirilis sebagai bagian dari repositori AudioCraft di bawah lisensi MIT, dan model terlatih akan dirilis di bawah CC-BY-NC.
Kode masuk: https://top.aibase.com/tool/audiocraft
Teknologi tanda air audio "AudioSeal"
Ini adalah teknologi watermarking audio pertama yang dirancang khusus untuk deteksi lokal ucapan yang dihasilkan AI, sehingga memungkinkan lokalisasi segmen yang dihasilkan AI secara tepat dalam klip audio yang lebih panjang. AudioSeal menyempurnakan tanda air audio tradisional dengan berfokus pada pendeteksian konten yang dihasilkan AI, bukan steganografi.
Tidak seperti metode tradisional yang mengandalkan algoritma decoding kompleks, pendekatan deteksi lokal AudioSeal memungkinkan deteksi lebih cepat dan efisien. Desain ini meningkatkan kecepatan deteksi hingga 485 kali lipat dibandingkan metode sebelumnya, sehingga ideal untuk aplikasi skala besar dan real-time. Metode kami mencapai kinerja tercanggih dalam hal ketahanan dan ketidakjelasan tanda air audio.
AudioSeal dirilis di bawah lisensi komersial.
Pintu masuk produk: https://top.aibase.com/tool/audioseal
Kumpulan data PRISM
Pada saat yang sama, Meta juga merilis kumpulan data PRISM bekerja sama dengan mitra eksternal, yang berisi data dialog dan preferensi 1,500 peserta di seluruh dunia. Hal ini digunakan untuk meningkatkan model bahasa skala besar, sehingga meningkatkan keragaman dialog, preferensi keragaman dan manfaat sosial dari model tersebut.
Kumpulan data ini memetakan preferensi setiap orang dan masukan terperinci ke dalam 8.011 percakapan waktu nyata dengan 21 LLM berbeda.
Pintu masuk kumpulan data: https://huggingface.co/datasets/HannahRoseKirk/prism-alignment
Indikator “DIG Masuk”.
Digunakan untuk mengevaluasi perbedaan geografis dalam model gambar pembuatan teks, memberikan lebih banyak data referensi untuk penyempurnaan model. Untuk memahami cara masyarakat di berbagai wilayah memandang representasi geografis secara berbeda, Meta melakukan studi anotasi berskala besar. Kami mengumpulkan lebih dari 65.000 anotasi dan lebih dari 20 respons survei untuk setiap contoh, yang mencakup daya tarik, kesamaan, konsistensi, dan rekomendasi bersama untuk meningkatkan evaluasi otomatis dan manusiawi terhadap model teks-ke-gambar.
Kode masuk: https://top.aibase.com/tool/dig-in
Pelepasan proyek-proyek ini telah membawa terobosan teknologi baru dan prospek penerapan di bidang AI, dan sangat penting dalam mendorong pengembangan dan penerapan teknologi AI.
Secara keseluruhan, enam hasil penelitian AI yang dirilis Meta kali ini menunjukkan teknologi terdepan dan tata letak berwawasan ke depan dalam multi-modalitas, pembuatan teks, pemrosesan audio, dan konstruksi kumpulan data. Kemajuan dalam teknologi ini akan mendorong pengembangan lebih lanjut di bidang AI dan memberikan lebih banyak kemungkinan untuk penerapan di masa depan.