科大訊飛星火多模態互動大模型上線實現「語音、視覺、數位人互動」三合一

作者：Eve Cole 更新時間：2024-11-28 13:24:01

科大訊飛重磅發布訊飛星火多模態互動大模型，標誌著其在人工智慧領域邁向新的里程碑。該模型突破了以往單一語音互動的限制，實現了語音、視覺和數位人互動的無縫融合，為用戶帶來更生動、更真實、更方便的互動體驗。 Downcodes小編將帶您深入了解這款令人驚豔的多模態互動大模型的各項功能與優勢，以及它將如何改變我們與人工智慧互動的方式。

科大訊飛公司近日宣布，其最新研發的訊飛星火多模態交互大模型正式投入營運。這項技術突破標誌著科大訊飛從單一的語音互動技術拓展到音訊串流即時多模態互動的新階段。新模型整合了語音、視覺和數位人互動功能，使用者可透過一鍵調用，實現三者的無縫結合。

訊飛星火多模態互動大模型的推出，首次引入了超擬人數字人技術，該技術能夠使數位人的軀幹和四肢動作與語音內容精準匹配，快速生成表情和動作，極大提升了AI的生動性和真實感。透過整合文字、語音和表情，新模型能夠實現跨模態的語意一致性，讓情感表達更加真實連貫。

此外，訊飛星火支援超擬人極速互動技術，利用統一神經網路直接實現語音到語音的端對端建模，使得響應速度更快、更流暢。此技術能夠敏銳感知情緒變化，並根據指令自由調整聲音的節奏、大小和人設，提供更個人化的互動體驗。

在多模態視覺互動方面，訊飛星火能夠「聽懂世界」「認清萬物」，全面感知具體背景場景、物流狀態等訊息，使得對任務的理解更加精準。透過綜合語音、手勢、行為、情緒等多種訊息，模型能夠做出合適的回复，為使用者提供更豐富和精準的互動體驗。

多模態交互大模型SDK： https://www.xfyun.cn/solutions/Multimodel

訊飛星火多模態互動大模型的出現，預示著人工智慧技術正朝著更智慧、更人性化的方向發展。其強大的功能和便利的操作，必將為用戶帶來全新的互動體驗，並為各行各業帶來無限可能。期待未來訊飛星火能為我們帶來更多驚喜！