Editor Downcodes mengetahui bahwa Cohere baru-baru ini merilis dua model AI open source yang kuat-Aya Expanse 8B dan 35B, yang secara resmi diluncurkan pada platform Hugging Face. Kedua model ini bertujuan untuk menjembatani kesenjangan kinerja antara model dasar dalam berbagai bahasa, secara signifikan meningkatkan kemampuan AI dalam 23 bahasa, dan memberikan alat yang lebih nyaman bagi para peneliti AI global dan kemampuan multi-bahasa yang lebih kuat. Proyek Aya berkomitmen untuk memperluas akses ke model dasar non-bahasa Inggris. Metode arbitrase data dan strategi pelatihan "preferensi global" secara efektif menghindari pembuatan konten berkualitas rendah dan meningkatkan kinerja dan keamanan model secara keseluruhan. Selanjutnya, mari selami spesifikasi kedua model tersebut.
Baru-baru ini, Cohere mengumumkan peluncuran dua model AI open source baru, yang bertujuan untuk mempersempit kesenjangan bahasa pada model dasar melalui proyek Aya. Dua model baru bernama Aya Expanse8B dan 35B kini tersedia di Hugging Face. Peluncuran kedua model ini telah meningkatkan kinerja AI secara signifikan dalam 23 bahasa.
Cohere mengatakan dalam blognya bahwa model parameter 8B memudahkan peneliti di seluruh dunia untuk mencapai terobosan, sedangkan model parameter 32B memberikan kemampuan multi-bahasa yang terdepan di industri.
Tujuan dari proyek Aya adalah untuk memperluas akses ke model dasar ke lebih banyak bahasa selain bahasa Inggris. Sebelumnya, departemen penelitian Cohere meluncurkan proyek Aya tahun lalu dan merilis Model Bahasa Besar (LLM) Aya101 pada bulan Februari, yang mencakup 101 bahasa. Selain itu, Cohere juga meluncurkan kumpulan data Aya untuk membantu pelatihan model dalam bahasa lain.
Model Aya Expanse mengikuti banyak metode inti Aya101 dalam proses konstruksinya. Cohere mengatakan peningkatan pada Aya Expanse adalah hasil dari pemikiran ulang selama bertahun-tahun dalam terobosan pembelajaran mesin. Arah penelitian mereka terutama berfokus pada mempersempit kesenjangan bahasa, dan telah mencapai beberapa terobosan penting, seperti arbitrase data, pelatihan preferensi untuk kinerja umum dan keamanan, dan penggabungan model.
Dalam beberapa pengujian benchmark, Cohere mengatakan bahwa kedua model Aya Expanse mengungguli model AI berukuran serupa dari perusahaan seperti Google, Mistral, dan Meta.
Diantaranya, Aya Expanse32B mengungguli Gemma227B, Mistral8x22B, dan bahkan Llama3.170B yang lebih besar dalam pengujian benchmark multi-bahasa. Model kecil 8B juga melampaui Gemma29B, Llama3.18B dan Ministral8B, dengan tingkat kemenangan berkisar antara 60,4% hingga 70,6%.
Untuk menghindari menghasilkan konten yang sulit dipahami, Cohere menggunakan metode pengambilan sampel data yang disebut arbitrase data. Pendekatan ini memungkinkan pelatihan model yang lebih baik, terutama untuk bahasa dengan sumber daya rendah. Selain itu, Cohere berfokus pada memandu model menuju “preferensi global” dan mempertimbangkan perspektif budaya dan bahasa yang berbeda untuk meningkatkan kinerja dan keamanan model.
Program Aya Cohere berupaya memastikan bahwa LLM dapat berkinerja lebih baik dalam penelitian dalam bahasa non-Inggris. Meskipun banyak LLM yang pada akhirnya akan dirilis dalam bahasa lain, mereka sering kali menghadapi masalah kurangnya data saat melatih model, terutama untuk bahasa dengan sumber daya rendah. Oleh karena itu, upaya Cohere sangat penting dalam membantu membangun model AI multibahasa.
Blog resmi: https://cohere.com/blog/aya-expanse-connecting-our-world
Menyorot:
? **Cohere meluncurkan dua model AI baru**, berkomitmen untuk mempersempit kesenjangan bahasa pada model dasar dan mendukung peningkatan kinerja dalam 23 bahasa.
**Model Aya Expanse berkinerja baik**, mengungguli banyak pesaingnya dalam tolok ukur multibahasa.
**Metode arbitrase data** membantu model menghindari pembuatan konten berkualitas rendah, memperhatikan perspektif budaya dan bahasa global, dan meningkatkan efek pelatihan AI multibahasa.
Secara keseluruhan, model Aya Expanse yang diluncurkan oleh Cohere telah mencapai kemajuan signifikan di bidang AI multibahasa, dan sifat open source-nya juga menyediakan sumber daya berharga untuk penelitian dan pengembangan komunitas AI global. Editor Downcodes percaya bahwa hal ini akan semakin mendorong kemajuan teknologi AI multibahasa dan mendorong pertukaran dan berbagi informasi global.