Caiyun Xiaomeng v3.5는 온라인입니다! 변압기 효율성 향상 -AI 기사

저자：Eve Cole 업데이트 시간：2025-02-05 20:00:02

Caiyun Technology는 DCFormer 아키텍처를 기반으로하는 일반적인 빅 모델 "Yun Jintianzhang"과 Caiyun Xiaomeng v3.5 버전을 발표하여 AI 분야의 모델 아키텍처 효율에 큰 돌파구를 표시했습니다. DCFormer 아키텍처는 동적으로 결합 된 다중 헤드주의 메커니즘을 통해 모델 표현 기능을 크게 향상시키고 전통적인 변압기 아키텍처의 비 효율성 문제를 해결하며 AI 개발에 직면 한 에너지 문제에 효과적으로 대응합니다. 이 혁신은 최고의 국제 회의 ICML에 출판되었으며 높은 찬사를 받았습니다.

AI 분야에서 Transformer Architecture는 항상 Chatgpt 및 Gemini와 같은 주류 대형 모델의 핵심 기술 지원이었습니다. 올해 Caiyun Technology의 논문 "Top International Conference ICML에 출판 된 동적으로 합리적으로 구성 가능한 다중 헤드주의를 가진 트랜스포머 개선"이 DCFormer 아키텍처를 처음으로 제안했습니다. 테스트에 따르면이 아키텍처를 기반으로 개발 된 DCPythia-6.9B 모델은 전통적인 변압기 모델에 대한 성능이 1.7-2 배의 크게 개선된다는 것을 보여줍니다. Caiyun Technology의 CEO 인 Yuan Xingyuan은 AI 개발이 직면 한 에너지 문제와 관련하여 전 세계 AI 전력 소비가 2050 년까지 현재 지구의 발전 용량의 8 배에 도달 할 수 있다고 지적했다. Nvidia CEO Huang Renxun은 현재 개발 속도에서 "14 개의 행성, 3 개의 은하 및 4 개의 Suns"가 AI에 대한 에너지 지원을 제공하기 위해 미래에 필요할 수 있다고 더 생생하게 말했다. 이러한 딜레마에 대한 응답으로 Caiyun Technology는 모델의 기본 아키텍처를 개선하는 것을 시작했습니다. 동적으로 결합 된 다중 헤드주의 (DCMHA) 메커니즘을 도입함으로써 DCFormer는 기존의 다중 헤드주의 모듈 (MHA)에서 주의적 헤드의 고정 된 바인딩을 제거하여보다 유연한 동적 조합을 달성하여 모델 발현 능력을 크게 향상시켰다. 이 혁신으로 인해 Caiyun Technology는 ICML 컨퍼런스에서 3 개의 논문에서 평균 7 개의 높은 점수를 얻었으며, 중국에서 유일하게 두 회사 중 하나가되어 비엔나의 ICML2024에서 연설을하도록 초청되었습니다. DCFormer 아키텍처의 첫 번째 제품으로서 Caiyun Xiaomeng의 새로운 버전은 우수한 성능을 보여주었습니다. 10,000 단어의 긴 텍스트 입력을 지원하고 스토리 배경 설정 길이는 10,000 단어에 도달 할 수 있으며 전반적인 유창성과 일관성은 20%향상됩니다. 이는 AI가 플롯 일관성을 더 잘 유지하고 캐릭터의 성격의 일관성을 유지하며 플롯을 반영하고 수정할 수있는 능력을 가질 수 있음을 의미합니다. Caiyun Technology는 대형 언어 모델에 참여한 중국에서 가장 초기 회사 중 하나 인 Caiyun Weather, Caiyun Xiaomeng 및 Caiyun Xiaoyi의 3 가지 수익성있는 AI 제품을 보유하고 있습니다. 이 회사는 DCFormer에 대한 R & D 투자를 지속적으로 늘릴 것이며, "외국 기술 계층 및 국내 애플리케이션 계층"의 전통적인 패턴을 깨고 국내 AI 기술을 홍보하여 글로벌 경쟁에서 유리한 위치를 차지할 것이라고 전했다. 이러한 기술 혁신을 통해 Caiyun Technology는 AI 기초 아키텍처의 혁신에서 중국 기업의 강점을 보여줄뿐만 아니라 AI 기술 개발에 대한 에너지 병목 현상을 해결하기위한 새로운 아이디어를 제공합니다. .

Caiyun Technology의 혁신은 AI의 획기적인 발전에 새로운 희망을 가져 왔으며 AI 기술의 지속적인 발전을 촉진하고 미래의 발전을 기대합니다.