当前位置：首页 > 优惠 >大语言模型>文章详情

视频作为一种新兴的“语言”，在现实世界决策制定中的应用潜力

推荐人：暴走AI| 商城: AI | 1年前 (2024-02-28)| 分类：大语言模型 | 热度：383 ℃

已关闭评论

这篇论文探讨了视频作为一种新兴的“语言”，在现实世界决策制定中的应用潜力。作者们认为，尽管文本数据在互联网上非常丰富，并且已经在大规模自监督学习中发挥了重要作用，但视频数据同样蕴含着关于物理世界的重要信息，这些信息往往难以用语言来表达。视频不仅包含了丰富的视觉和空间信息，还能捕捉物理动态、行为动作等，这些都是文本难以完全捕捉的细节。

论文地址：https://arxiv.org/abs/2402.17139

主要功能：

视频生成模型可以作为规划器、代理、计算引擎和环境模拟器。
视频可以作为一种统一的表示形式，吸收互联网上的广泛知识，并支持多样化的任务表达。

主要特点：

视频可以作为统一的接口，将不同的任务转化为视频生成问题。
视频生成可以通过上下文学习、规划和强化学习等技术来解决复杂问题。

工作原理：

统一表示和任务接口： 视频可以作为一种统一的信息表示，捕捉文本难以表达的物理世界细节。同时，视频生成可以作为一种任务接口，将多种计算机视觉和具身智能（embodied AI）任务转化为视频生成问题。
视频生成作为预训练目标： 通过视频生成，可以为大型视觉模型、行为模型和世界模型引入互联网规模的监督，从而实现动作提取、环境交互模拟和决策优化。

具体应用场景：