字节跳动开源了名为LatentSync的创新唇同步技术,该技术基于音频条件的潜在扩散模型,实现了视频中人物唇部动作与音频的精准同步。它无需中间运动表示,直接利用Stable Diffusion的强大功能,有效建模复杂的视听关联,并通过时间表示对齐(TREPA)技术增强时间一致性。 LatentSync还优化了SyncNet的收敛问题,显着提升了唇同步准确率。这项技术在端到端框架、高质量生成、时间一致性和SyncNet优化等方面具有显着优势,为音频驱动的人像动画提供了新的解决方案。
研究发现,基于扩散的唇同步方法在时间一致性方面表现不佳,因为不同帧之间的扩散过程存在不一致性。为了解决这个问题,LatentSync 引入了时间表示对齐(TREPA) 技术。 TREPA 利用大型自监督视频模型提取的时间表示,使生成的帧与真实帧对齐,从而增强时间一致性,同时保持唇同步的准确性。
此外,研究团队还深入研究了SyncNet 的收敛问题,并通过大量的实证研究,确定了影响SyncNet 收敛的关键因素,包括模型架构、训练超参数和数据预处理方法。通过优化这些因素,SyncNet 在HDTF 测试集上的准确率从91% 显着提升至94%。由于没有改变SyncNet 的整体训练框架,这项经验也可应用于其他利用SyncNet 的唇同步和音频驱动的人像动画方法。
LatentSync 的优势
端到端框架:无需中间运动表示,直接从音频生成同步的唇部动作。
高质量生成:利用Stable Diffusion 的强大能力,生成动态逼真的说话视频。
时间一致性:通过TREPA 技术,增强视频帧之间的时间一致性。
SyncNet 优化:解决了SyncNet 的收敛问题,显着提高了唇同步的准确性。
工作原理
LatentSync 的核心是基于图像到图像的修复技术,需要输入带遮罩的图像作为参考。为了整合原始视频的人脸视觉特征,模型还会输入参考图像。这些输入信息经过通道拼接后,输入到U-Net 网络中进行处理。
模型使用预训练的音频特征提取器Whisper 来提取音频嵌入。唇部动作可能受到周围帧音频的影响,因此模型会捆绑多个周围帧的音频作为输入,以提供更多的时间信息。音频嵌入通过交叉注意力层整合到U-Net 中。
为了解决SyncNet 需要图像空间输入的问题,模型会先在噪声空间进行预测,然后通过单步方法获得估计的干净潜在空间。研究发现,在像素空间训练SyncNet 比在潜在空间训练效果更好,这可能是因为VAE 编码过程中会丢失唇部区域的信息。
训练过程分为两个阶段:第一阶段U-Net 学习视觉特征,不进行像素空间解码和添加SyncNet 损失。第二阶段使用解码的像素空间监督方法添加SyncNet 损失,并使用LPIPS 损失来提高图像的视觉质量。为了确保模型正确学习时间信息,输入的噪声也需要具有时间一致性,模型采用了混合噪声模型。此外,在数据预处理阶段,还使用了仿射变换来实现人脸正面化。
TREPA 技术
TREPA 通过对齐生成图像序列和真实图像序列的时间表示来提高时间一致性。该方法使用大型自监督视频模型VideoMAE-v2来提取时间表示。与仅使用图像之间距离损失的方法不同,时间表示可以捕捉图像序列中的时间相关性,从而提高整体时间一致性. 研究发现,TREPA 不仅不会损害唇同步的准确性,反而可以有所提高。
SyncNet 收敛问题
研究发现,SyncNet 的训练损失容易停留在0.69附近,无法进一步下降。通过大量的实验分析,研究团队发现,批次大小、输入帧数和数据预处理方法对SyncNet 的收敛有显着影响。模型架构也会影响收敛,但影响较小。
实验结果表明,LatentSync 在多个指标上都优于其他最先进的唇同步方法。特别是在唇同步准确性方面,这归功于其优化的SyncNet 和音频交叉注意层,可以更好地捕捉音频和唇部动作之间的关系。此外,由于采用了TREPA 技术,LatentSync 的时间一致性也得到了显着提高。
项目地址:https://github.com/bytedance/LatentSync
LatentSync 的开源为唇同步技术的发展带来了新的突破,其高效、精准的性能以及优化的训练方法值得研究和应用。未来,这项技术有望在视频制作、虚拟现实等领域发挥更大的作用。