Empat baris kode melipatgandakan konteks model besar, yang berlaku untuk Yangtuo Mistral

Penulis：Eve Cole Waktu Pembaruan：2025-01-22 10:16:01

Sarjana Tiongkok telah mengusulkan metode perluasan jendela model besar baru yang disebut SelfExended (SE), yang dapat melipatgandakan panjang jendela model besar hanya dengan empat baris kode. Teknologi terobosan ini “plug and play” kompatibel dengan berbagai model besar dan telah terbukti pada model Mistral dan Llama2. Melalui metode SE, performa model besar dalam memproses tugas teks panjang telah ditingkatkan secara signifikan, sehingga secara efektif memecahkan masalah pengkodean yang melampaui batas yang dihadapi oleh model besar saat memproses teks panjang. Hal ini memberikan arahan dan kemungkinan baru bagi model besar untuk menangani tugas teks panjang yang kompleks.

Sarjana Tiongkok telah merilis metode ekstensi jendela model besar baru, SelfExended (singkatnya SE), yang dapat melipatgandakan panjang jendela model besar hanya dengan empat baris kode. SE adalah metode "plug and play" yang dapat beradaptasi dengan model besar apa pun, dan telah berhasil diuji pada Mistral dan Llama2. Setelah menggunakan pemrosesan SE, performa model dalam tugas teks panjang meningkat secara signifikan. SE menggunakan dua mekanisme perhatian untuk memecahkan masalah coding overlimit yang dihadapi oleh model besar saat memproses teks panjang.

Munculnya metode SelfExended (SE) memberikan solusi sederhana dan efisien terhadap masalah pemrosesan teks panjang pada model besar. Fitur "plug and play" juga memudahkan penerapannya pada berbagai model besar, menunjukkan kepraktisan yang kuat dan prospek penerapan yang luas. Di masa depan, perbaikan dan penyempurnaan metode SE lebih lanjut akan membawa lebih banyak kemungkinan bagi pengembangan teknologi model besar.