谷歌也发布了一个根据输入图片和音频就能生成对应人物讲话视频的项目VLOGGER。看起来没有阿里那个自然。
项目简介:
它可以根据一张人物图像,生成由文本和音频驱动的说话人视频。该方法建立在最近生成式扩散模型取得成功的基础之上。
VLOGGER 包含两个关键组件:
1) 一个随机的人体到 3D 运动的扩散模型;
2) 一个创新的基于扩散的架构,通过时间和空间控制来增强文本到图像模型的能力。
这种方法可以生成高质量、可变长度的视频,并且可以通过人脸和身体的高级表示进行便捷控制。
与之前的工作相比,我们的方法具有以下优势:不需要为每个人单独训练模型;不依赖人脸检测和裁剪;能生成完整的图像(而非仅限于脸部或嘴唇);适用于广泛场景(如躯干可见或身份多样化),这对于正确合成具有沟通能力的虚拟人至关重要。
项目地址:https://t.co/gy2xKKcBdZ