Yayasan Sumber Terbuka RWKV telah merilis model RWKV-6-World14B, yang saat ini merupakan salah satu model bahasa besar RNN murni padat paling kuat di dunia. Model ini unggul dalam kemampuan multi-bahasa, mendukung lebih dari 100 bahasa dan kode, dan mengungguli model seperti Llama2 13B dan Qwen 1.5 14B dalam berbagai tolok ukur. Performanya yang luar biasa berasal dari peningkatan arsitektur RWKV, dan menghindari optimalisasi pengujian benchmark tertentu selama proses pelatihan, sehingga memastikan kapabilitas sebenarnya dan kapabilitas generalisasi model. Pengguna dapat dengan mudah mengunduh dan menerapkan model melalui platform seperti Hugging Face, ModelScope, dan WiseModel.
Pada 19 Juli 2024, RWKV Open Source Foundation mengumumkan open source global model RWKV-6-World14B, yang saat ini merupakan model bahasa besar RNN murni padat terkuat. Model ini berkinerja baik dalam uji kinerja terbaru, dengan kinerja bahasa Inggris yang setara dengan Llama213B, dan unggul secara signifikan dalam kinerja multi-bahasa, mendukung lebih dari 100 bahasa dan kode di seluruh dunia.
Pengujian benchmark model ini mencakup 4 model bahasa besar open source dengan skala parameter hampir 14B, 12 pengujian benchmark independen untuk mengevaluasi performa bahasa Inggris, dan empat pengujian benchmark xLAMBDA, xStoryCloze, xWinograd, dan xCopa untuk mengevaluasi kemampuan multi-bahasa. RWKV-6-World14B tampil baik dalam tes ini, terutama dalam daftar peringkat Uncheatable Eval, di mana skor evaluasi komprehensifnya melebihi llama213B dan Qwen1.514B.
Peningkatan kinerja model RWKV-6-World14B mendapat manfaat dari perbaikan arsitektur dari RWKV-4 menjadi RWKV-6. Model ini tidak menambahkan kumpulan data pengujian benchmark apa pun selama pelatihan, menghindari pengoptimalan khusus, sehingga kemampuan sebenarnya lebih kuat daripada peringkat penilaian. Dalam evaluasi Uncheatable Eval, RWKV-6-World14B dievaluasi berdasarkan data real-time seperti makalah arXiv terbaru, berita, novel ao3, dan kode GitHub yang dirilis pada bulan Juli, menunjukkan kemampuan pemodelan dan kemampuan generalisasi sebenarnya.
Saat ini, model RWKV-6-World14B dapat diunduh dan diterapkan secara lokal melalui platform seperti Hugging Face, ModelScope, dan WiseModel. Karena Ai00 hanya mendukung model dalam format safetensor (.st), Anda juga dapat mengunduh model yang telah dikonversi ke format .st di gudang Ai00HF. Persyaratan memori grafis untuk menerapkan dan menyimpulkan model RWKV-6-World14B secara lokal bervariasi dari sekitar 10G hingga 28G tergantung pada metode kuantifikasi.
Pratinjau efek model RWKV-6-World14B mencakup pemrosesan bahasa alami (analisis sentimen, pemahaman membaca mesin), puisi prosa dan kreasi sastra, membaca dan memodifikasi kode, saran pemilihan topik makalah keuangan, mengekstraksi konten utama berita, satu kalimat perluasan teks, dan Tulis beberapa skenario aplikasi seperti permainan Python Snake.
Perlu dicatat bahwa semua model RWKV open source yang dirilis adalah model dasar, yang memiliki kemampuan perintah dan dialog tertentu, namun belum dioptimalkan untuk tugas tertentu. Jika Anda ingin model RWKV bekerja dengan baik pada tugas tertentu, disarankan untuk menggunakan kumpulan data tugas terkait untuk menyempurnakan pelatihan.
Alamat proyek:
Wajah Memeluk: https://huggingface.co/BlinkDL/rwkv-6-world/tree/main
ModelScope: https://modelscope.cn/models/RWKV/rwkv-6-world/files
WiseModel: https://wisemodel.cn/models/rwkv4fun/Rwkv-6-world/file
Singkatnya, model RWKV-6-World14B yang bersifat open source telah membawa terobosan baru di bidang model bahasa besar. Performanya yang kuat dan prospek penerapannya yang luas patut dinantikan. Pengembang dapat mengunduh dan melakukan eksplorasi dan penerapan lebih lanjut di berbagai platform sesuai dengan kebutuhannya.