Die Caiyun -Technologie veröffentlichte das allgemeine Big Model "Yun Jintianzhang" und die Caiyun Xiaomeng v3.5 -Version basierend auf der DCformer -Architektur und markiert einen großen Durchbruch bei der Modellarchitektureffizienz im Bereich AI. Die DCformer-Architektur verbessert die Modellexpressionsfunktionen durch einen dynamisch kombinierten Multi-Head-Aufmerksamkeitsmechanismus erheblich, löst das Problem der Ineffizienz traditioneller Transformatorarchitekturen und reagiert effektiv auf die Energieherausforderungen, die sich der KI-Entwicklung gegenübersehen. Diese Innovation wurde auf der ICML der Top International Conference veröffentlicht und hat ein hohes Lob erhalten.
Im Bereich der KI war die Transformer -Architektur schon immer der zentrale technische Unterstützung für Mainstream -große Modelle wie Chatgpt und Gemini. In diesem Jahr ist das am ICML der Top International Conference veröffentlichte Papier von Caiyun Technology "Verbesserung von Transformatoren mit dynamisch komponierbarer Mehrköpfungsaufmerksamkeit", die die DCformer-Architektur vorschlägt. Tests zeigen, dass das auf dieser Architektur entwickelte DCPythia-6.9B-Modell eine signifikante Verbesserung des 1,7-2-maler-Leistungsfähigkeits für das traditionelle Transformatormodell erzielt. In Bezug auf die Energieherausforderungen für die Entwicklung der KI -Entwicklung wies Yuan Xingyuan, CEO von Caiyun Technology, darauf hin, dass nach Prognosen der globale KI -Stromverbrauch bis 2050 das 8 -fache der aktuellen Stromerzeugungserzeugungskapazität der Erde erreichen kann. Huang Renxun, CEO von NVIDIA, sagte lebendiger, dass in Zukunft "14 Planeten, 3 Galaxien und 4 Sonnen" in Zukunft erforderlich sein könnten, um die Energieunterstützung für KI zu bieten. Als Reaktion auf dieses Dilemma entschied sich die Caiyun -Technologie, die zugrunde liegende Architektur des Modells zu verbessern. Durch die Einführung eines dynamisch kombinierten Multi-Head-Aufmerksamkeitsmechanismus (DCMHA) hat DCformer die feste Bindung von Aufmerksamkeitsköpfen im traditionellen Multi-Head-Aufmerksamkeitsmodul (MHA) entfernt, wodurch flexiblere dynamische Kombinationen erreicht werden, wodurch die Fähigkeit zur Modellexpression erheblich verbessert wird. Diese Innovation hat es Caiyun Technology ermöglicht, auf der ICML -Konferenz durchschnittlich 7 hohe Punktzahlen in drei Papieren zu erzielen, und ist zu einem der wenigen zwei Unternehmen in China geworden, die eingeladen wurden, bei ICML2024 in Wien eine Rede zu halten. Als erstes Produkt der DCformer -Architektur hat die neue Version von Caiyun Xiaomeng eine hervorragende Leistung gezeigt: Sie unterstützt 10.000 Wörter mit langer Texteingabe, die Länge der Story -Hintergrundeinstellungen kann 10.000 Wörter erreichen und die Gesamtfluenz und Kohärenz werden um 20% verbessert . Dies bedeutet, dass die KI die Handlungspflicht -Kohärenz besser aufrechterhalten, die Konsistenz der Persönlichkeiten der Charaktere aufrechterhalten und die Fähigkeit zur Reflexion und Korrekturplots haben kann. Als eines der frühesten Unternehmen in China hat die Caiyun -Technologie derzeit drei profitable KI -Produkte: Caiyun Weather, Caiyun Xiaomeng und Caiyun Xiaoyi. Das Unternehmen sagte, es werde seine F & E -Investitionen in DCformer weiter erhöhen und setzt sich dafür ein, das traditionelle Muster der "ausländischen Technologieschicht und inländische Anwendungsschicht" zu brechen und die inländische KI -Technologie zu fördern, um eine vorteilhafte Position im globalen Wettbewerb zu besetzen. Durch diesen technologischen Durchbruch zeigt die Caiyun -Technologie nicht nur die Stärke chinesischer Unternehmen in der Innovation der KI -zugrunde liegenden Architektur, sondern bietet auch neue Ideen für die Lösung der Energie Engpässe bei der Entwicklung von KI, was erwartet wird, dass sie die nachhaltige Entwicklung der AI -Technologie beschleunigt .
Die Innovation von Caiyun Technology hat die Entwicklung von KI neue Hoffnung gebracht.