字节跳动推出全新AI系统OmniHuman,其能够基于单张照片生成逼真的全身视频,展现人物的讲话、歌唱和自然动作。这项技术融合了文本、音频和人体动作等多种输入,并采用“全条件”训练方法,从海量数据中学习,最终生成的视频质量显著提升,超越了以往仅能处理面部或上半身的AI模型。OmniHuman的出现,预示着数字娱乐和通讯领域将迎来新的变革,为视频创作、教育内容制作以及数字沟通带来无限可能。
OmniHuman 能够生成全身视频,展现人物在讲话时的手势和动态,超越了以往仅能动画面部或上半身的 AI 模型。这项技术的核心在于,它结合了文本、音频和人体动作等多种输入,通过一种称为 “全条件” 训练的创新方法,使得 AI 能够从更大、更丰富的数据集中学习。
研究团队指出,OmniHuman 经过超过18700小时的人类视频数据训练,表现出了显著的进步。通过引入多种条件信号(例如文本、音频和姿势),这项技术不仅提升了视频生成的质量,还有效减少了数据的浪费。
研究人员在一篇发表在 arXiv 的论文中提到,尽管近年来人类动画的端到端技术取得了显著进展,现有方法在扩大应用规模方面仍存在局限性。
OmniHuman 的应用潜力广泛,可以用于制作演讲视频、演示乐器演奏等。经过测试,该技术在多个质量基准上均优于现有系统,显示出其卓越的性能。这一发展出现在 AI 视频生成技术日益竞争激烈的背景下,谷歌、Meta 和微软等公司也在积极追逐类似技术。
然而,尽管 OmniHuman 为娱乐制作、教育内容创作及数字通讯带来了变革的可能,但也引发了关于合成媒体潜在误用的担忧。研究团队将在即将召开的计算机视觉会议上展示他们的研究成果,虽然具体的时间和会议尚未公布。
论文:https://arxiv.org/pdf/2502.01061
划重点:
OmniHuman 是一款新型 AI,能够将单张照片转化为逼真的全身视频。
该技术经过18700小时的人类视频数据训练,结合多种输入信号以提升生成效果。
尽管具有广泛应用潜力,但也引发了关于合成媒体可能被滥用的担忧。
OmniHuman 技术的突破为AI视频生成领域树立了新的标杆,但同时也需要关注其潜在的伦理风险,在未来应用中需谨慎对待,确保技术被合理使用,避免造成负面影响。 期待未来更多关于OmniHuman的应用和研究成果。