当前位置：首页 > 优惠 >AI视频>文章详情

ShareGPT4Video：提供密集且精确的字幕来改善大型视频-语言模型的视频理解能力和文本到视频模型的视频生成能力

推荐人：暴走AI| 商城: AI | 1年前 (2024-06-07)| 分类：AI视频 | 热度：329 ℃

已关闭评论

ShareGPT4Video：提供密集且精确的字幕来改善大型视频-语言模型的视频理解能力和文本到视频模型的视频生成能力

中国科学技术大学、香港中文大学、北京大学和上海人工智能实验室的研究人员推出ShareGPT4Video，旨在通过提供密集且精确的字幕来改善大型视频-语言模型（LVLMs）的视频理解能力和文本到视频模型（T2VMs）的视频生成能力。例如，你有一个AI助手，它不仅能看懂视频内容，还能根据视频内容生成详细的描述。这个助手就像一个既会看视频又善于表达的超级观众。"ShareGPT4Video"项目就是训练这样的AI助手，让它能够理解视频内容，并根据这些内容生成丰富、精确的字幕。

项目主页：https://sharegpt4video.github.io
GitHub：https://github.com/ShareGPT4Omni/ShareGPT4Video
模型地址：https://huggingface.co/Lin-Chen

ShareGPT4Video：提供密集且精确的字幕来改善大型视频-语言模型的视频理解能力和文本到视频模型的视频生成能力

主要功能和特点：

高质量视频字幕数据集（ShareGPT4Video）：包含40K个视频，这些视频来自不同来源，具有各种长度和主题，配备了由GPT4V模型生成的密集字幕。
高效的字幕生成模型（ShareCaptioner-Video）：能够为任意视频生成高质量字幕的模型，已经为480万个视频生成了字幕。
先进的大型视频语言模型（ShareGPT4Video-8B）：一个简单但性能出色的模型，在三个先进的视频基准测试中达到了最佳性能。