腾迅开源“照片说话”视频生成框架

腾迅开源“照片说话”视频生成框架

根据arXiv网站,腾讯团队在3月26日发表的论文中开源了音频和照片驱动的视频生成框架AniPortrait。该方法分为两个阶段,最初,团队从音频中提取3D中间表示并将其投影到一系列2D面部标识中。随后,团队采用鲁棒的扩散模型,结合运动模块,将标识序列转换为逼真且时间一致的肖像动画。实验结果证明了AniPortrait在面部自然度、姿势多样性和视觉质量方面表现优异,从而增强了感知体验。

版权声明:阿里导航 发表于 2024-03-29 10:33。
转载请注明:腾迅开源“照片说话”视频生成框架 | 阿里导航

相关文章