当前位置：首页 > 情报 >AI情报>文章详情

对标Sora！生数科技与清华联合推出视频大模型Vidu

2年前 (2024-04-27) | 分类： AI情报 | 热度： 381 ℃

暂无评论

4月27日，在中关村论坛未来人工智能先锋论坛上，生数科技与清华大学联合推出了中国首个人工智能视频大模型——Vidu。这款模型凭借其独特的U-ViT架构（Diffusion与Transformer融合），实现了长时长、高一致性和高动态性的视频生成能力，一键即可创作出长达16秒、1080P高清的视频内容。

https://www.bilibili.com/video/BV1M1421R752

二、Vidu性能优势与应用场景

1. 模拟真实物理世界

细节逼真：Vidu能够生成复杂且细腻的场景，遵循真实的物理规律，如精确的光影效果、生动的人物表情等。

2. 具备丰富想象力

超现实创作：模型能生成超越现实世界的虚构画面，展现出深度与复杂性，满足富有创意的视频需求。

3. 多镜头语言运用

动态镜头：Vidu能够自如地生成并切换多种镜头视角（远景、近景、中景、特写），包括长镜头、追焦、转场等专业级效果，赋予视频丰富的镜头语言。

4. 时空一致性卓越

流畅连贯：在长达16秒的时间跨度内，人物与场景的变化始终保持高度一致性，无论镜头如何移动，时间与空间的逻辑始终严谨。

5. 理解并融入中国元素

本土特色：Vidu能够精准识别并自然融入中国特色元素，如熊猫、龙等，使生成内容更具本土文化气息。

6. 一步到位生成机制

端到端生成：与Sora类似，Vidu采用文本到视频的直接、连续生成方式，避免插帧等中间处理步骤，确保“一镜到底”式的高品质输出。

三、Vidu技术领先性与研发历程

1. U-ViT架构全球首发

技术创新：生数科技团队于2022年9月首次提出U-ViT架构，早于Sora使用的DiT架构，成为全球首个Diffusion与Transformer融合的架构，彰显其强大的自主研发实力。

2. UniDiffuser开源验证

大规模验证：2023年3月，团队开源基于U-ViT架构的多模态扩散大模型UniDiffuser，在全球范围内率先完成大规模可扩展性验证。该模型在LAION-5B数据集上训练，具备近10亿参数量，支持图文之间的自由生成与转换，技术上领先使用DiT架构的Stable Diffusion 3一年。