AI视频

优惠  新基准测试LONGVIDEOBENCH:为了评估大型多模态模型在处理长时间视频和语言交织输入时的理解能力而设计

  •  新基准测试LONGVIDEOBENCH:为了评估大型多模态模型在处理长时间视频和语言交织输入时的理解能力而设计
    AI
  • 新基准测试LONGVIDEOBENCH,它是为了评估大型多模态模型在处理长时间视频和语言交织输入时的理解能力而设计的。这个基准测试特别关注那些能够处理长达一小时的视频内容的模型。论文还提到了LONGVIDEOBENCH的挑战性,即使是最先进的专有模型(如GPT-4o、Gemini-1.5-Pro)也面临挑战,而开源模型... 阅读全文

    优惠 全新基准测试工具T2V-CompBench:用于评估文本到视频(Text-to-Video, T2V)生成模型的性能

  • 全新基准测试工具T2V-CompBench:用于评估文本到视频(Text-to-Video, T2V)生成模型的性能
    AI
  • 香港大学、香港中文大学和华为诺亚方舟实验室的研究人员推出全新基准测试工具T2V-CompBench,它专门用于评估文本到视频(Text-to-Video, T2V)生成模型的性能。T2V模型需要根据这个描述生成一段视频。但T2V-CompBench不仅测试模型能否生成视频,更重要的是测试它是否能够准确地组合多个对象、属... 阅读全文

    优惠 多模态大语言模型Goldfish:专门用来理解和处理非常长的视频内容

  • 多模态大语言模型Goldfish:专门用来理解和处理非常长的视频内容
    AI
  • 阿卜杜拉国王科技大学和瑞士人工智能实验室推出Goldfish,它专门用来理解和处理非常长的视频内容。你有一个好几个小时的视频,比如一部电影或电视剧,你想知道里面某个特定场景的细节,但是从头到尾看完实在太费时间了。Goldfish就是来帮你解决这个问题的。比如,你正在看《老友记》的一个片段,你想知道罗斯从菲比那里拿走了什... 阅读全文

    优惠 视频占用模型(VOCs):专为支持下游控制任务而设计,它们在紧凑的潜在空间中运行,避免了对单个像素进行预测的需要

  • 视频占用模型(VOCs):专为支持下游控制任务而设计,它们在紧凑的潜在空间中运行,避免了对单个像素进行预测的需要
    AI
  • 阿尔伯塔大学、德克萨斯大学奥斯汀分校微软纽约研究院和加州大学伯克利分校的研究人员推出一种新型的视频预测模型,称为视频占用模型(Video Occupancy Models,简称VOCs)。这些模型专为支持下游控制任务而设计,它们在紧凑的潜在空间中运行,避免了对单个像素进行预测的需要。实验分析,包括使用不同的表示空间(如... 阅读全文

    优惠 新模型MaskVAT:根据无声视频生成与之匹配的音频

  • 新模型MaskVAT:根据无声视频生成与之匹配的音频
    AI
  • 杜比实验室和加泰罗尼亚理工大学的研究人员推出新模型MaskVAT(Masked Generative Video-to-Audio Transformers),它能够根据无声视频生成与之匹配的音频。简单来说,就是让计算机“看”一段没有声音的视频,然后“想象”出视频中应有的声音,比如人的对话声、环境声等。在一些具体的实验... 阅读全文

    优惠 新型视频帧插值方法GIMM:在这一系列照片之间生成更多的照片,让整个动作看起来更加平滑连贯

  • 新型视频帧插值方法GIMM:在这一系列照片之间生成更多的照片,让整个动作看起来更加平滑连贯
    AI
  • 南洋理工大学的研究人员推出新型视频帧插值方法GIMM(Generalizable Implicit Motion Modeling),视频帧插值是一种在两个已有视频帧之间生成中间帧的技术,它对于提高视频质量、创建新的视频视角以及视频压缩等应用至关重要。例如,你手里有一些照片,它们记录了一个人在做后空翻的整个过程,但是照... 阅读全文

    优惠 阿里达摩院推出一站式 AI 视频创作平台 —“寻光”:集成分镜设计、图层可控编辑等功能

  • 阿里达摩院推出一站式 AI 视频创作平台 —“寻光”:集成分镜设计、图层可控编辑等功能
    AI
  • 2024 世界人工智能大会(WAIC 2024)期间,阿里达摩院推出了一站式 AI 视频创作平台 —— 寻光。官方表示,该平台旨在通过 AI 技术使视频创作更简单、高效,其集成了剧本创作、分镜设计、视频素材编辑等关键步骤,创作者可以从构思到成品,在该平台上完成视频创作全过程。 据介绍,寻光包含如下功能: 故事板生成:一... 阅读全文

    优惠 新型文本到视频生成基准测试ChronoMagic-Bench

  • 新型文本到视频生成基准测试ChronoMagic-Bench
    AI
  • 新型文本到视频(Text-to-Video, T2V)生成基准测试ChronoMagic-Bench。这个基准测试专门用来评估T2V模型在生成具有显著变化幅度和时间连贯性的延时视频方面的能力。简单来说,ChronoMagic-Bench就像是一个考试,它用来测试视频生成模型是否能够根据文本描述,制作出既符合描述又在视觉... 阅读全文

    优惠 自动视频质量评估工具MANTISSCORE:自动评估视频生成的质量

  • 自动视频质量评估工具MANTISSCORE:自动评估视频生成的质量
    AI
  • 滑铁卢大学、清华大学、Stardust.AI、多伦多大学和AI2的研究人员推出自动视频质量评估工具MANTISSCORE,自动评估视频生成的质量。随着人工智能技术的发展,尤其是文本到视频(Text-to-Video, T2V)生成模型的快速进步,我们需要一种可靠的方法来评估这些由AI生成的视频的质量。但是,现有的评估指... 阅读全文

    优惠 新型视频编辑框架VIA:对视频进行编辑时,确保编辑效果在整个视频序列中保持一致性

  • 新型视频编辑框架VIA:对视频进行编辑时,确保编辑效果在整个视频序列中保持一致性
    AI
  • 加州大学圣克鲁斯分校、Snap Research、 KAUST和德克萨斯大学达拉斯分校的研究人员推出新型视频编辑框架VIA(Video Adaptation Framework),VIA专注于提供一种统一的方法来处理视频编辑中的两个主要挑战:全局和局部的时空一致性。简而言之,VIA的目标是在对视频进行编辑时,确保编辑效... 阅读全文

    优惠 新型世界模型Pandora:通过生成视频来模拟未来世界的状态,并且可以接受自然语言的动作指令进行实时控制

  • 新型世界模型Pandora:通过生成视频来模拟未来世界的状态,并且可以接受自然语言的动作指令进行实时控制
    AI
  • Maitrix.org、加州大学圣地亚哥分校、MBZUAI的研究人员推出新型世界模型Pandora,它能够通过生成视频来模拟未来世界的状态,并且可以接受自然语言的动作指令进行实时控制。简单来说,Pandora就像是一个高级的虚拟助手,它可以观看视频(理解世界当前的状态),听懂你的自然语言指令(比如“汽车左转”或“添加一... 阅读全文

    优惠 视频编辑框架NaRCan:能够生成高质量的自然规范图像,以代表输入视频

  • 视频编辑框架NaRCan:能够生成高质量的自然规范图像,以代表输入视频
    AI
  • 阳明交通大学推出视频编辑框架NaRCan,它能够生成高质量的自然规范图像(canonical images),以代表输入视频。这些规范图像非常适合用于各种视频编辑任务,比如风格转换、动态分割和手写等。NaRCan在多个视频编辑任务中的性能超越了现有的方法,并且在保持高自然性和高质量图像的同时,显著减少了训练时间。此外,... 阅读全文