字节开源嘴型同步模型LatentSync，实现超真实口型同步

作者：Eve Cole 更新时间：2025-01-09 18:48:01

字节跳动最新发布的LatentSync口型同步框架，采用基于Stable Diffusion的音频条件潜在扩散模型，实现了更精确、高效的口型同步效果。不同于以往方法，LatentSync采用端到端方式，直接建模音频与视觉间的复杂关系，无需中间运动表示，显着提升了处理效率和同步精度。该框架巧妙地利用Whisper进行音频嵌入，并结合TREPA机制增强时间一致性，保证了输出视频在口型同步准确性的同时，保持时间上的连贯性。

近日，字节跳动发布了名为LatentSync 的新型口型同步框架，旨在利用音频条件潜在扩散模型实现更精确的口型同步。该框架基于Stable Diffusion，针对时间一致性做了优化。

与以往的基于像素空间扩散或两阶段生成的方法不同，LatentSync 采用端到端的方式，无需中间运动表示，能够直接建模复杂的音频与视觉之间的关系。

在LatentSync 的框架中，首先使用Whisper 将音频频谱图转换为音频嵌入，并通过交叉注意力层将其集成到U-Net 模型中。框架通过将参考帧和掩码帧与噪声潜在变量进行通道级拼接，作为U-Net 的输入。

在训练过程中，采用一步法从预测噪声中估计出干净的潜在变量，然后进行解码以生成干净的帧。同时，模型引入了Temporal REPresentation Alignment（TREPA）机制，以增强时间一致性，确保生成的视频在口型同步准确性的同时，能够在时间上保持连贯。

为了展示该技术的效果，项目提供了一系列示例视频，分别展示了原始视频与经过口型同步处理后的视频。通过示例，用户可以直观地感受到LatentSync 在视频口型同步方面的显着进步。

原始视频：

输出视频：

此外，项目还计划开源推理代码和检查点，方便用户进行训练和测试。对于想要尝试推理的用户，只需下载必要的模型权重文件，即可进行操作。完整的数据处理流程也已设计好，涵盖了从视频文件处理到面部对齐的各个步骤，确保用户能够轻松上手。

模型项目入口：https://github.com/bytedance/LatentSync

划重点：

LatentSync 是一个基于音频条件潜在扩散模型的端到端口型同步框架，无需中间运动表示。

该框架利用Whisper 将音频频谱图转换为嵌入，增强了模型在口型同步过程中的准确性和时间一致性。

项目提供了一系列示例视频，并计划开源相关代码和数据处理流程，方便用户使用和训练。

LatentSync 的开源和易用性将推动口型同步技术的进一步发展和应用，为视频编辑和内容创作领域带来新的可能性。期待该项目后续更新，带来更多惊喜。