Dengan perkembangan cepat teknologi kecerdasan buatan, pentingnya model bahasa besar (LLM) dalam aplikasi perusahaan menjadi semakin menonjol. Namun, bagaimana meningkatkan akurasi pengetahuan model -model ini dan mengurangi halusinasi yang mereka hasilkan telah menjadi masalah utama yang perlu dipecahkan secara segera di bidang AI saat ini. Terhadap latar belakang ini, tim peneliti Meta AI mengusulkan solusi inovatif - "lapisan memori yang dapat diskalakan", membawa cahaya baru untuk tantangan ini.
Konsep desain lapisan memori yang dapat diskalakan cukup berwawasan ke depan. Arsitektur ini sangat cocok untuk skenario aplikasi di mana pengetahuan faktual besar diperlukan sambil mempertahankan kecepatan inferensi yang efisien, membuka cara -cara baru untuk meningkatkan kinerja model bahasa.
Model bahasa tradisional sering menggunakan "lapisan intensif" untuk menyandikan informasi. Sebaliknya, lapisan memori mengadopsi aktivasi jarang dan mekanisme pencarian nilai kunci yang lebih efisien, yang memungkinkan pengkodean dan pengambilan pengetahuan dengan biaya komputasi yang lebih rendah. Meskipun sedikit lebih tinggi dari lapisan padat dalam hal penggunaan memori, ia hanya perlu mengaktifkan sejumlah kecil parameter, yang sangat meningkatkan efisiensi komputasi.
Meskipun konsep lapisan memori telah ada selama bertahun -tahun, penerapannya dalam arsitektur pembelajaran mendalam modern relatif terbatas, terutama karena belum dapat sepenuhnya beradaptasi dengan akselerator perangkat keras saat ini. Perlu dicatat bahwa LLM canggih saat ini umumnya mengadopsi arsitektur "ahli hibrida", yang memiliki kesamaan dengan lapisan memori dalam beberapa aspek, dan menekankan spesialisasi modul spesifik.
Untuk mengatasi tantangan lapisan memori dalam penggunaan memori, tim peneliti Meta telah membuat beberapa peningkatan inovatif. Mereka merancang arsitektur paralel untuk lapisan memori, memungkinkannya untuk menyimpan jutaan pasangan nilai kunci pada beberapa GPU sambil menjaga model tetap berjalan dengan kecepatan. Selain itu, tim telah mengembangkan inti CUDA khusus untuk menangani operasi bandwidth memori tinggi dan memperkenalkan mekanisme berbagi parameter, memungkinkan beberapa lapisan memori untuk berbagi set parameter memori yang sama, lebih lanjut mengoptimalkan efisiensi pemanfaatan sumber daya.
Tim peneliti melakukan tes komprehensif dari model peningkatan memori dengan mengganti beberapa lapisan padat dengan lapisan memori bersama melalui transformasi model LLAMA. Hasil eksperimen menunjukkan bahwa model memori berkinerja baik dalam beberapa tugas, terutama dalam tugas yang membutuhkan pengetahuan faktual.
Penelitian ini menunjukkan arah untuk pengembangan arsitektur AI generasi berikutnya. Meta peneliti sangat merekomendasikan mengintegrasikan lapisan memori ke dalam sistem AI di masa depan untuk secara efektif mengurangi fenomena kelupaan dan halusinasi model. Dengan kemajuan teknologi yang berkelanjutan, lapisan memori yang dapat diskalakan diharapkan memainkan peran yang lebih penting dalam meningkatkan kinerja model bahasa, membawa perubahan revolusioner pada aplikasi praktis teknologi AI.