Rilis terbaru Meta dari model sumber terbuka seri Llama 3.1 telah mencapai terobosan signifikan dalam kinerja, dan versi parameter 405B bahkan melampaui beberapa model sumber tertutup. Diantaranya, versi Llama3.1-8B-Instruct mendukung berbagai bahasa, dengan panjang konteks hingga 131072 token, dan dilatih dengan data sintetis besar-besaran untuk meningkatkan kemampuan penalarannya di berbagai bidang seperti kode dan matematika. Berdasarkan model ini, tim OpenBuddy meluncurkan model OpenBuddy-Llama3.1-8B-v22.1-131K yang mendukung tanya jawab bahasa Mandarin dan terjemahan lintas bahasa, yang menunjukkan potensi model sumber terbuka dalam aplikasi multi-bahasa.
Meta baru-baru ini merilis generasi baru seri model sumber terbuka Llama3.1, yang mencakup versi parameter 405B yang kinerjanya mendekati atau bahkan melampaui model sumber tertutup seperti GPT-4 dalam beberapa pengujian benchmark. Llama3.1-8B-Instruct adalah versi parameter 8B dalam seri ini, mendukung bahasa Inggris, Jerman, Prancis, Italia, Portugis, Spanyol, Hindi, dan Thailand, panjang konteks hingga 131072token, batas waktu pengetahuan diperbarui hingga 2023 Desember tahun ini.
Untuk meningkatkan kemampuan Llama3.1-8B-Instruct, Meta menggunakan lebih dari 25 juta data sintetis dalam pelatihan, yang dihasilkan oleh model 405B yang lebih besar. Hal ini memungkinkan Llama3.1-8B-Instruct menunjukkan kemampuan kognitif dan penalaran yang serupa dengan GPT3.5Turbo dalam coding, matematika, dan tes lainnya.
OpenBuddy menggunakan model Llama3.1-8B-Instruct dan melatih sejumlah kecil data berbahasa Mandarin untuk merilis OpenBuddy-Llama3.1-8B-v22.1-131k, generasi baru dengan tanya jawab berbahasa Mandarin dan kemampuan terjemahan lintas bahasa Model lintas bahasa sumber terbuka. Meskipun Llama3.1 sendiri tidak memiliki kemampuan berbahasa Mandarin, setelah pelatihan, model tersebut mampu menghasilkan jawaban yang biasanya hanya dapat dihasilkan oleh model yang lebih besar pada beberapa pertanyaan yang rentan terhadap kebingungan konseptual, sehingga menunjukkan potensi kognitif yang lebih kuat.
Namun karena keterbatasan kumpulan data dan waktu pelatihan, OpenBuddy-Llama3.1-8B-v22.1 masih memiliki keterbatasan dalam pengetahuan Tiongkok, khususnya pengetahuan budaya tradisional. Meskipun demikian, model ini menunjukkan performa yang relatif stabil pada tugas-tugas seperti pemahaman teks panjang, yang memanfaatkan kemampuan teks panjang aslinya.
Di masa depan, OpenBuddy berencana untuk melakukan pelatihan model 8B dan 70B dalam skala yang lebih besar untuk meningkatkan cadangan pengetahuan bahasa Mandarin, kemampuan teks panjang, dan kemampuan kognitif model tersebut, serta menjajaki kemungkinan penyempurnaan model 405B.
Alamat proyek: https://modelscope.cn/models/OpenBuddy/openbuddy-llama3.1-8b-v22.1-131k
Peluncuran model OpenBuddy-Llama3.1-8B-v22.1-131k menandai tahap baru dalam pengembangan model multibahasa sumber terbuka. Meskipun masih ada ruang untuk peningkatan dalam pengetahuan Tiongkok, potensinya patut dinantikan di masa depan, seiring dengan meluasnya skala pelatihan model, kinerjanya diharapkan dapat lebih ditingkatkan. Nantikan kejutan lainnya dari tim OpenBuddy di masa mendatang.