斯坦福大学开发！对口型视频模型PROTEUS可让图片开口唱歌

作者：Eve Cole 更新时间：2025-01-01 13:32:01

斯坦福大学研究人员与Apparate Labs合作推出了一个名为PROTEUS的革命性AI模型。该模型能够通过单张照片生成逼真、富有表现力的虚拟人物，并支持实时唱歌和说话，其技术突破性地实现了高帧率视频流和多模态交互。PROTEUS不仅仅是一个虚拟人物生成器，它更是一个高度可定制的平台，拥有广泛的应用前景，从个性化虚拟助理到影视娱乐，都能找到它的身影。接下来，我们将深入了解PROTEUS的特点、技术架构以及潜在的应用场景。

站长之家(ChinaZ.com) 6月14日消息:斯坦福大学研究人员与Apparate Labs联合推出了一款名为PROTEUS的AI模型，它能够通过单张照片生成逼真、具有表现力的虚拟人物，并实现实时的唱歌和说话。

主要特点:

实时生成逼真人物:PROTEUS能从单一图像生成笑、说唱、唱歌、眨眼、微笑、说话等效果，展现复杂的面部表情和身体动作。

高帧率视频流:支持100+ FPS的视频流，实现实时处理，保证互动的流畅性和自然性。

多模态交互:兼容语音、文本和图像等多种数据形式，能在不同场景中进行自然和直观的交互。

自定义和应用:高度可定制的架构设计，适用于多个领域和应用场景，满足个性化需求。

技术架构:

PROTEUS采用了潜在扩散模型和先进的Transformer架构，通过在潜在空间中进行数据处理，高效生成复杂图像。

进一步改进的架构和算法实现了每秒超过100帧的生成速度。

应用场景:

个性化虚拟助理:提供日常事务处理、日程管理、信息查询等服务。

虚拟宠物:创造具有逼真外观和丰富情感的虚拟宠物。

情感支持:生成情感支持型虚拟人物，提供心理安慰和支持。

客户服务:生成虚拟客服代表，提供即时高效的客户支持。

教育和培训:生成虚拟教师或培训师，提供个性化教育和培训。

视频游戏角色定制:为游戏开发者提供高度可定制的游戏角色。

影视和娱乐:用于生成逼真的虚拟演员和角色，降低制作成本。

市场营销和广告:生成虚拟代言人，进行产品推广和品牌宣传。

社交媒体和虚拟社交:在社交平台上生成虚拟形象，丰富社交体验。

PROTEUS的愿景是提供一个可通过语音控制的视觉化体现，作为人工对话实体的直观接口，使用户能够与虚拟形象进行自然的对话和互动。这项技术的安全提供和早期API访问权限将向选定的开发者开放。

PROTEUS在Twitch直播中已有多个应用案例，展示了其在实时互动场景中的应用潜力。通过API，PROTEUS可以在任何应用中调用使用，为各行业带来创新的虚拟人物交互体验。

官网：https://apparate.ai/stream.html

总而言之，PROTEUS AI模型凭借其强大的实时生成能力、多模态交互以及广泛的应用前景，有望在虚拟人物交互领域掀起一场革命，为用户带来全新的互动体验。其未来发展值得期待。