Caiyun Xiaomeng v3.5 online! Terobosan untuk meningkatkan efisiensi transformator - artikel AI

Penulis：Eve Cole Waktu Pembaruan：2025-02-05 20:00:02

Caiyun Technology merilis model besar "Yun Jintianzhang" dan versi Caiyun Xiaomeng v3.5 berdasarkan arsitektur DCFormer, menandai terobosan besar dalam efisiensi arsitektur model di bidang AI. Arsitektur DCFormer secara signifikan meningkatkan kemampuan ekspresi model melalui mekanisme perhatian multi-head yang digabungkan secara dinamis, memecahkan masalah inefisiensi arsitektur transformator tradisional, dan secara efektif menanggapi tantangan energi yang dihadapi pengembangan AI. Inovasi ini telah diterbitkan di ICML Konferensi Internasional Top dan telah menerima pujian tinggi.

Di bidang AI, arsitektur transformator selalu menjadi dukungan teknis inti untuk model besar utama seperti chatgpt dan Gemini. Tahun ini, makalah Caiyun Technology "Meningkatkan transformator dengan perhatian multi-head yang dapat dikomposisi secara dinamis" yang diterbitkan di ICML Konferensi Internasional Top, adalah yang pertama mengusulkan arsitektur DCFormer. Tes menunjukkan bahwa model DCPYTHIA-6.9B yang dikembangkan berdasarkan arsitektur ini mencapai peningkatan yang signifikan sebesar 1,7-2 kali dalam kinerja untuk model transformator tradisional. Mengenai tantangan energi yang dihadapi pengembangan AI, Yuan Xingyuan, CEO Caiyun Technology, menunjukkan bahwa menurut perkiraan, konsumsi daya AI global dapat mencapai 8 kali kapasitas pembangkit listrik Bumi saat ini pada tahun 2050. CEO NVIDIA Huang Renxun mengatakan dengan lebih jelas bahwa pada kecepatan pengembangan saat ini, "14 planet, 3 galaksi, dan 4 Suns" mungkin diperlukan di masa depan untuk memberikan dukungan energi untuk AI. Menanggapi dilema ini, teknologi Caiyun memilih untuk mulai dari meningkatkan arsitektur model yang mendasarinya. Dengan memperkenalkan mekanisme Multi-Head Attention (DCMHA) yang digabungkan secara dinamis, DCFormer telah menghapus pengikatan kepala perhatian yang tetap dalam Modul Perhatian Multi-Head Tradisional (MHA), mencapai kombinasi dinamis yang lebih fleksibel, sehingga sangat meningkatkan kemampuan ekspresi model. Inovasi ini telah memungkinkan teknologi Caiyun untuk mencetak rata -rata 7 skor tinggi dalam tiga makalah di Konferensi ICML, dan telah menjadi salah satu dari dua perusahaan di Cina yang diundang untuk memberikan pidato di ICML2024 di Wina. Sebagai produk pertama dari arsitektur DCFormer, versi baru Caiyun Xiaomeng telah menunjukkan kinerja yang sangat baik: mendukung 10.000 kata input teks panjang, panjang pengaturan latar belakang cerita dapat mencapai 10.000 kata, dan kelancaran dan koherensi keseluruhan meningkat sebesar 20% . Ini berarti bahwa AI dapat mempertahankan koherensi plot dengan lebih baik, mempertahankan konsistensi kepribadian karakter, dan memiliki kemampuan untuk merefleksikan dan memperbaiki plot. Sebagai salah satu perusahaan paling awal di Cina yang terlibat dalam model bahasa besar, teknologi Caiyun saat ini memiliki tiga produk AI yang menguntungkan: Caiyun Weather, Caiyun Xiaomeng, dan Caiyun Xiaoyi. Perusahaan mengatakan akan terus meningkatkan investasi R&D di DCFormer, dan berkomitmen untuk melanggar pola tradisional "lapisan teknologi asing dan lapisan aplikasi domestik" dan mempromosikan teknologi AI domestik untuk menempati posisi yang menguntungkan dalam persaingan global. Melalui terobosan teknologi ini, teknologi Caiyun tidak hanya menunjukkan kekuatan perusahaan Cina dalam inovasi arsitektur yang mendasari AI, tetapi juga menyediakan ide -ide baru untuk menyelesaikan kemacetan energi dalam pengembangan AI, yang diharapkan untuk mempercepat pengembangan teknologi AI yang berkelanjutan .

Inovasi Caiyun Technology telah membawa harapan baru untuk pengembangan AI.