AI 软件
GitHub:https://sadtalker.github.io
SadTalker 是来自西安交通大学等的研究人员提出的数字人模型,在三维运动场中进行学习从音频中生成3DMM的3D运动系数(头部姿势、表情),并使用一个全新的3D面部渲染器来生成头部运动,且头、唇运动都超自然,中英双语全能。
为了学习真实的运动系数,研究人员显式地对音频和不同类型的运动系数之间的联系进行单独建模:通过蒸馏系数和3D渲染的脸部,从音频中学习准确的面部表情;通过条件VAE设计PoseVAE来合成不同风格的头部运动。最后使用生成的三维运动系数被映射到人脸渲染的无监督三维关键点空间,并合成最终视频。
最后在实验中证明了该方法在运动同步和视频质量方面实现了最先进的性能。目前stable-diffusion-webui的插件也已经发布!
论文链接:https://arxiv.org/pdf/2211.12194.pdf
项目主页:https://sadtalker.github.io/
百度网盘:点击下载
2