当前位置：首页 > 优惠 >大语言模型>文章详情

针对长视频理解的视频-大语言模型Koala：帮助模型理解长达数分钟的视频内容，并能够回答关于视频的问题

推荐人：暴走AI| 商城: AI | 2年前 (2024-04-10)| 分类：大语言模型 | 热度：792 ℃

已关闭评论

针对长视频理解的视频-大语言模型Koala：帮助模型理解长达数分钟的视频内容，并能够回答关于视频的问题

来自波士顿大学、中国电子科技大学和Adobe Research的研究人员推出Koala，它是一种针对长视频理解的视频-大语言模型（Video-Large Language Model，简称vLLM）。Koala的目标是帮助模型理解长达数分钟的视频内容，并能够回答关于视频的问题。这在技术上是一个挑战，因为长视频涉及识别一系列短期活动并理解它们之间的细微关系。例如，如果你有一个关于烹饪的长视频，Koala可以帮助识别视频中的各个步骤，如切菜、炒菜和装盘，并能够回答关于视频内容的具体问题，比如“视频中的厨师是如何制作酱汁的？”这使得Koala在处理和理解长视频内容方面具有很高的实用价值。

项目主页：https://cs-people.bu.edu/rxtan/projects/Koala/
GitHub：https://github.com/rxtan2/Koala-video-llm
DEMO：https://huggingface.co/spaces/rxtan/Koala-video-llm

针对长视频理解的视频-大语言模型Koala：帮助模型理解长达数分钟的视频内容，并能够回答关于视频的问题

主要功能和特点：

长视频理解： Koala能够处理长达数分钟的视频，而不仅仅是短视频片段。
自监督学习方法： 它使用一种轻量级的自监督方法，通过稀疏采样关键帧来适应预训练的vLLM。
提高准确性： 在不同的长视频理解基准测试中，Koala比现有的大型模型提高了3-6%的绝对准确性。

工作原理： Koala通过引入可学习的时空查询来调整预训练的vLLM，使其能够泛化到更长的视频内容。它首先使用关键帧来编码长视频的全局上下文，然后通过更高采样率的视频片段来补充全局上下文与局部时空信息。Koala的方法包括两个新的tokenizer函数，它们基于稀疏视频关键帧的视觉标记来理解短视频和长视频时刻。

具体应用场景：