当前位置：首页 > 优惠 >大语言模型>文章详情

谷歌推出新模型，用于解决视频中的密集字幕生成问题

推荐人：暴走AI| 商城: AI | 2年前 (2024-04-03)| 分类：大语言模型 | 热度：715 ℃

已关闭评论

谷歌发布论文介绍了一种新的模型，用于解决视频中的密集字幕生成问题，即在视频中预测字幕并将其定位在特定的时间段内。理想的字幕生成模型应该能够处理长时间的视频输入，生成丰富、详细的文本描述，并且在处理完整个视频之前就能够产生输出。然而，目前最先进的模型在处理视频时通常只查看少量的帧，并且在看完整个视频后才做出单一的完整预测。

论文地址：https://arxiv.org/abs/2404.01297

GitHub：https://github.com/google-research/scenic/tree/main/scenic/projects/streaming_dvc

主要功能和特点：

流式处理： 提出的模型能够逐步处理视频帧，而不是一次性处理所有帧，这样可以有效地处理任意长度的视频。
预测丰富字幕： 模型能够在观看视频的过程中生成详细的字幕描述，而不是仅在视频结束时生成。
内存模块： 引入了一种新的基于聚类的内存模块，可以处理任意长度的视频，因为内存大小是固定的。
流式解码算法： 开发了一种新的流式解码算法，使得模型能够在处理完整个视频之前做出预测。

工作原理：

逐帧编码： 模型通过图像编码器逐帧处理视频，然后使用这些帧更新运行中的内存。
内存更新： 内存模块基于K-means聚类算法，使用固定数量的聚类中心来表示视频中的特征。
流式解码： 在特定的时间点（解码点），模型根据内存中的特征解码出字幕和它们的时间戳。早期的文本预测（如果可用）也会作为后续解码点的前缀传递给语言解码器。

具体应用场景：