AI 软件

SadTalker:语音驱动图片数字人!

文 :管理员 来源 :网络 阅读 :442 6月前

SadTalker 

GitHub:https://sadtalker.github.io


SadTalker:语音驱动图片数字人!头、唇运动超自然,中英双语全能。

SadTalker 是来自西安交通大学等的研究人员提出的数字人模型,在三维运动场中进行学习从音频中生成3DMM的3D运动系数(头部姿势、表情),并使用一个全新的3D面部渲染器来生成头部运动,且头、唇运动都超自然,中英双语全能。


SadTalker:语音驱动图片数字人!头、唇运动超自然,中英双语全能。


为了学习真实的运动系数,研究人员显式地对音频和不同类型的运动系数之间的联系进行单独建模:通过蒸馏系数和3D渲染的脸部,从音频中学习准确的面部表情;通过条件VAE设计PoseVAE来合成不同风格的头部运动。最后使用生成的三维运动系数被映射到人脸渲染的无监督三维关键点空间,并合成最终视频。


art (1).png


最后在实验中证明了该方法在运动同步和视频质量方面实现了最先进的性能。目前stable-diffusion-webui的插件也已经发布!


论文链接:https://arxiv.org/pdf/2211.12194.pdf

项目主页:https://sadtalker.github.io/

百度网盘:点击下载   

点赞

2

免责声明
  • 本站提供的所有内容仅供学习、分享、交流,如有侵犯您的合法权益,请联系我们处理。本站所有留言、评论属于内容发布者,与本站观点及立场无关!

随机推荐

Windows 10 Pro 22H2(19045.3803) 优化精简版 - 果核剥壳
« 上一篇 01-08
Layer Diffusion:AI 生成带透明通道的AI分层素材。
下一篇 » 04-10

评论

共0条评论
  • 这篇文章评论空空如也,赶紧来抢沙发吧~


© 2021-2027 Powered By YzmCMS
蜀ICP备 2021015236 号 萌ICP备20242886号
相关侵权、投诉及建议等,请发E-mail:1476705828@qq.com。

友情链接: YzmCMS官方网站 YzmCMS博客