Apple baru-baru ini merilis hasil penelitian yang secara signifikan meningkatkan efisiensi model bahasa besar pada perangkat dengan memori terbatas. Penelitian ini dengan cerdik menyimpan parameter model dalam memori flash dan memuatnya ke DRAM sesuai permintaan bila diperlukan, secara efektif memecahkan masalah kemacetan memori dan mencapai lompatan besar dalam kecepatan inferensi melalui serangkaian strategi pengoptimalan. Terobosan teknologi ini membuka jalan bagi penerapan model bahasa besar di lingkungan dengan sumber daya terbatas seperti perangkat seluler dan sistem tertanam, dan memiliki signifikansi praktis yang penting.
Penelitian terbaru Apple menunjukkan bahwa ketika memori perangkat terbatas, dengan menyimpan parameter model dalam memori flash dan memuatnya ke DRAM sesuai permintaan selama inferensi, efisiensi pengoperasian model bahasa besar telah berhasil ditingkatkan, dan kecepatan inferensi telah meningkat sebesar 25 kali lipat . Metode ini mengoptimalkan model biaya inferensi, mengurangi jumlah transmisi data, dan memperkenalkan strategi windowing dan teknologi bundling baris-kolom, sehingga memungkinkan untuk menjalankan model dua kali lebih besar dari kapasitas DRAM yang tersedia pada perangkat dengan kapasitas memori terbatas. Dibandingkan dengan metode pemuatan naif, kecepatan inferensi CPU dan GPU masing-masing meningkat 4-5 kali lipat dan 20-25 kali lipat, pada saat yang sama, metode ini menggabungkan kesadaran yang jarang, pemuatan adaptif konteks, dan desain berorientasi perangkat keras untuk memfasilitasi inferensi model bahasa besar pada perangkat dengan memori terbatas. Makalah selengkapnya dapat ditemukan [di sini](https://arxiv.org/pdf/2312.11514.pdf).Hasil penelitian ini tidak hanya menghasilkan peningkatan kecepatan yang signifikan, namun yang lebih penting, memberikan kemungkinan penerapan model bahasa besar pada perangkat yang lebih luas, yang menunjukkan bahwa teknologi AI akan lebih populer dan nyaman di masa depan. Inovasi dari Apple ini membawa arah baru dalam pengembangan bidang AI.