南京大学、复旦大学和华为诺亚方舟实验室的研究团队在3D数字人领域取得重大突破,解决了现有方法中多视角一致性及情感表现力不足的问题。他们开发了一种新方法,能够合成具有可控情感的3D说话头像,并在唇同步和渲染质量方面实现显著提升。该研究成果基于全新构建的EmoTalk3D数据集,该数据集包含校准多视角视频、情感标注和逐帧3D几何信息,并已公开供非商业研究使用。通过“从语音到几何再到外观”的映射框架,该方法精准捕捉面部细微表情,实现自由视角下的高保真渲染。
产品入口:https://nju-3dv.github.io/projects/EmoTalk3D/
他们收集了带有校准多视角视频、情感标注和逐帧3D 几何的 EmoTalk3D 数据集。并提出了一种用于合成具有可控情感的3D 说话头像的新方法,在唇同步和渲染质量方面都有显著提升。
数据集:
通过在 EmoTalk3D 数据集上进行训练,研究团队构建了一个“从语音到几何再到外观”的映射框架。首先从音频特征预测出逼真的3D 几何序列,然后基于预测的几何合成由4D 高斯表示的3D 说话头像的外观。外观进一步分解为标准和动态高斯,从多视角视频中学习,并融合以呈现自由视角的说话头像动画。
该模型能够在生成的说话头像中实现可控情感,并可在大范围视角中进行渲染。在捕捉皱纹和细微表情等动态面部细节的同时,展现出了在唇动生成方面改进的渲染质量和稳定性。在生成结果的示例中,精准的展示了3D数字人的开心、生气、沮丧的表情。
其整体流程包含五个模块:
一是情感内容分解编码器,从输入语音中解析内容和情感特征;二是语音到几何网络,从特征预测动态3D 点云;三是高斯优化和完成模块,建立标准外观;四是几何到外观网络,基于动态3D 点云合成面部外观;五是渲染模块,将动态高斯渲染为自由视角动画。
此外,他们还建立了 EmoTalk3D 数据集,这是一个带有逐帧3D 面部形状的情感标注多视角说话头像数据集,并将为非商业研究目的向公众开放。
划重点:
提出合成可控情感数字人的新方法。
构建“从语音到几何再到外观”的映射框架。
建立 EmoTalk3D 数据集并准备开放。
这项研究为3D数字人技术的发展提供了新的方向,其提出的方法和数据集将为未来的研究提供宝贵资源,推动3D数字人技术更逼真、更具情感表达力的发展。EmoTalk3D数据集的开放也促进了学术界的合作与交流。