中国科学技术大学、微软亚洲研究院和上海交通大学的研究人员推出新型视频生成方法Compositional 3D-aware Video Generation,这个方法的核心是通过将视频分解成不同的3D概念,并利用大语言模型(LLM)来指导如何将这些概念组合成最终的视频。这个方法的创新之处在于它将视频生成过程分解为可控制的3D概念,并利用LLM的强大能力来指导这些概念的生成和组合,从而实现高度定制化和高质量的视频内容生成。
- 项目主页:https://www.microsoft.com/en-us/research/project/compositional-3d-aware-video-generation
例如,你是一名电影制作人,想要快速预览一个场景:一个外星人在魔法师的小屋旁的宁静森林中行走。使用这个系统,你只需输入这个场景的描述,系统就会生成一个3D视频,其中包含森林、魔法师的小屋、外星人以及其行走的动作。你可以进一步调整外星人的外观、行走路径或者观察点的位置,以获得满意的视觉效果。
主要功能:
- 生成与文本描述相匹配的高质量视频。
- 精确控制视频中的个体元素,如特定角色的动作和外观,以及观察点的移动。
主要特点:
- 3D概念生成:将视频的每个概念(如场景、物体、动作)单独在3D空间中生成。
- LLM导演:使用大型语言模型来分解文本提示,并指导如何生成和组合各个概念。
- 2D扩散模型优化:利用2D扩散模型来优化生成的视频帧,使其更符合自然图像分布。
工作原理:
- 文本提示分解:输入一个文本提示,LLM将其分解为多个子提示,每个子提示描述视频中的一个概念。
- 3D表示生成:根据文本提示,使用预训练的专家模型生成每个概念的3D表示。
- 粗略指导生成:使用多模态LLM生成物体轨迹的粗略指导,包括规模和坐标。
- 2D扩散模型优化:通过得分蒸馏采样(Score Distillation Sampling),利用2D扩散模型的先验知识来优化物体的规模、位置和旋转,以实现精细的组合。
具体应用场景:
- 电影制作:从剧本描述生成电影场景的初步视觉概念。
- 游戏开发:根据游戏剧本自动生成游戏内动画和场景。
- 虚拟现实:创建与用户输入匹配的动态虚拟环境。
0条评论