Apple baru-baru ini membuat terobosan besar dalam kecepatan pembuatan model bahasa besar (LLM). Apple telah bekerja sama dengan NVIDIA untuk menggunakan teknologi open source Recurrent Drafter (ReDrafter) untuk meningkatkan kecepatan pembuatan hingga hampir tiga kali lipat. ReDrafter menggunakan metode decoding spekulatif untuk meningkatkan efisiensi pelatihan model secara signifikan, dan terintegrasi dengan kerangka akselerasi inferensi TensorRT-LLM NVIDIA untuk lebih mengurangi biaya penggunaan dan latensi. Kerja sama ini tidak hanya meningkatkan efisiensi pengembangan, namun juga memberikan pengalaman layanan yang lebih cepat kepada pengguna, menandai tekad dan kekuatan Apple untuk terus berinovasi di bidang AI. Artikel ini akan merinci detail kerja sama antara Apple dan NVIDIA serta keunggulan teknologi ReDrafter.
Baru-baru ini, penelitian terbaru Apple di bidang pembelajaran mesin menunjukkan bahwa melalui kerja sama dengan NVIDIA, mereka berhasil meningkatkan kecepatan pembuatan model bahasa besar (LLM) hampir tiga kali lipat. Kunci kemajuan ini terletak pada teknologi open source Apple “Recurrent Drafter” (ReDrafter), yang menggunakan metode decoding spekulatif yang dapat meningkatkan efisiensi pelatihan model secara signifikan.
Di masa lalu, proses pembuatan model bahasa berukuran besar biasanya sangat memakan waktu dan sumber daya, dan perusahaan sering kali perlu membeli perangkat keras dalam jumlah besar, sehingga meningkatkan biaya pengoperasian. Sebelumnya pada tahun 2024, Apple merilis ReDrafter, sebuah teknologi yang menggabungkan jaringan saraf rekursif dan metode perhatian pohon dinamis untuk menghasilkan dan memverifikasi tag dengan cepat, sehingga meningkatkan kecepatan pembuatan tag sebesar 3,5 kali lipat dibandingkan dengan metode regresi otomatis tradisional.
Minggu ini, Apple lebih lanjut mengumumkan bahwa kerja sama mereka dengan NVIDIA akan mengintegrasikan ReDrafter ke dalam kerangka akselerasi inferensi TensorRT-LLM NVIDIA. Langkah ini akan memungkinkan pengembang pembelajaran mesin yang menggunakan GPU NVIDIA untuk memanfaatkan kemampuan akselerasi ReDrafter di lingkungan produksi. Perlu disebutkan bahwa meskipun server multi-GPU berkinerja tinggi biasanya mahal, kerja sama ini dapat mengurangi latensi sekaligus mengurangi jumlah perangkat keras yang dibutuhkan, sehingga menghasilkan solusi yang lebih ekonomis.
Dalam pengujian benchmark dengan NVIDIA, efisiensi pembuatan menggunakan ReDrafter meningkat secara signifikan, dengan peningkatan pembuatan token sebesar 2,7x per detik dalam mode pengkodean serakah. Ini berarti pengembang bisa mendapatkan hasil lebih banyak dalam waktu lebih singkat dan memberikan pengalaman layanan yang lebih cepat kepada pengguna.
Setelah mengonfirmasi kerjasamanya dengan NVIDIA, Apple juga menyatakan bahwa mereka sedang mempertimbangkan untuk menggunakan chip Trainium2 Amazon untuk meningkatkan efisiensi pelatihan model. Efisiensi pra-pelatihan menggunakan Trainium2 diharapkan meningkat sebesar 50% dibandingkan dengan perangkat keras yang ada.
Blog resmi: https://developer.nvidia.com/blog/nvidia-tensorrt-llm-now-supports-recurrent-drafting-for-optimizing-llm-inference/
Menyorot:
Apple bermitra dengan NVIDIA untuk meningkatkan kecepatan pembuatan model bahasa besar hingga hampir tiga kali lipat.
Teknologi sumber terbuka ReDrafter digabungkan dengan jaringan saraf berulang untuk meningkatkan efisiensi pelatihan model secara signifikan.
Kolaborasi ini membantu mengurangi biaya dan memberikan solusi yang lebih efisien bagi pengembang pembelajaran mesin.
Secara keseluruhan, kerja sama antara Apple dan NVIDIA serta penerapan teknologi ReDrafter telah menghasilkan peningkatan efisiensi yang signifikan dan pengurangan biaya untuk pengembangan dan penerapan model bahasa besar. Hal ini tidak hanya mendorong kemajuan teknologi di bidang kecerdasan buatan, namun juga menghadirkan solusi yang lebih nyaman dan ekonomis bagi pengembang dan pengguna, yang menunjukkan pesatnya perkembangan aplikasi AI di masa depan.