-
背景
文章探讨了在人工智能研究中占有显著地位的多媒体生成方法,尤其是文本到图像转换模型在近些年取得的高质量成果。然而,视频合成方法最近才开始发展。 -
已有的工作 尽管文本到图像的模型取得了进步,但视频合成领域仍面临诸如计算成本、对大规模高质量文本+视频数据集的需求等问题。这些数据集对于全面了解训练过程中的所有生成可能性是不足的。此外,视频生成要求不仅每帧的视觉质量高,还需要在语义内容上一致,以及相邻帧物体的平滑过渡和正确的运动物理。这些方面的关键是时域信息的处理。
- 提出了一个基于文本到图像扩散模型的新型两阶段潜在扩散文本到视频生成架构
-
挑战1:关键帧合成与视频剧情线索的形成 这个挑战通常涉及到如何有效地描绘视频的主要故事线。文章提出了一个解决方案,通过比较几种时域条件化方法,结果显示使用独立的时域块而非时域层可以在反映视频生成质量的指标和人类偏好方面具有优势。
-
挑战2:插值帧生成以及场景和对象的平滑运动 文章提出了一个有效的插值架构,与其他流行的被遮蔽帧插值架构相比,文章提出的架构运行速度更快,能更高效地生成高保真插值帧。此外,文章还评估了构建基于MoVQ的视频解码器的不同架构选项,以提高相邻帧的一致性,获得更高的PSNR、SSIM、MSE和LPIPS分数。
-
根据文章中的实验结果,提出的视频生成管道在与现有解决方案的比较中取得了顶尖成绩,在所有解决方案中排名前两位,在开源解决方案中排名第一,其CLIPSIM得分为0.2976,FVD得分为433.054。这表明文章提出的文本到视频生成管道在视觉质量、时间一致性和计算效率方面具有显著优势。此外,文章还展示了所提出的插值模型架构的效率,它比其他流行的被遮蔽帧插值架构高出三倍以上的运行速度,同时生成了更高质量的插值帧。
总体而言,该论文提出了一个新型两阶段潜在扩散的文本到视频生成架构,解决了关键帧合成和插值帧生成中存在的问题,通过使用独立的时域块和有效的插值架构,减少了计算成本,并在多个质量指标上取得了优于现有技术的表现。此外,论文还针对视频解码器设计了不同的架构选项,进一步优化了视频的一致性和整体质量。