南洋理工发布了一个 AI 视频放大算法 Upscale-A-Video,视频生成真的全方位的卷起来了。下面是演示和介绍:
简介:
Upscale-A-Video的文本引导潜在扩散框架,用于视频放大。该框架通过两个关键机制确保时间上的一致性:在局部上,它将时间层集成到U-Net和VAE-Decoder中,保持短序列的一致性;
在全局上,引入了一个基于流引导的经常性潜在传播模块,通过在整个序列中传播和融合潜在来增强整体视频的稳定性。
由于扩散范式,模型还通过允许文本提示来引导纹理创建和可调噪声水平来平衡恢复和生成,从而在保真度和质量之间实现权衡。
方法:
高级视频使用本地和全局策略处理长视频,以保持时间上的连贯性。它将视频分成片段,并使用具有时间层的U-Net来处理它们,以实现片段内的一致性。在用户指定的全局细化扩散步骤中,使用循环潜在传播模块来增强片段间的一致性。最后,经过微调的VAE-Decoder减少剩余的闪烁伪影,以实现低级一致性。
结果:
广泛的实验表明,Upscale-A-Video在合成和真实世界的基准测试中超过了现有的方法,以及在人工智能生成的视频中展示出令人印象深刻的视觉逼真和时间一致性。
项目地址:https://t.co/tK4R6kJale