优惠 全面基准测试工具VideoHallucer:专门用来检测和评估LVLMs在视频理解任务中的幻觉问题
1年前 (2024-06-25)AI
北京通用人工智能研究院、通用人工智能国家重点实验室、北京大学和加州大学圣克鲁斯分校推出全面基准测试工具VideoHallucer,专门用来检测和评估LVLMs在视频理解任务中的幻觉问题。所谓“幻觉”,指的是这些模型在理解视频内容时,可能会生成与实际视频内容不符、无关或无意义的信息,这种现象可能会误导用户。VideoHa... 阅读全文
优惠 MMFM-Challenge:用于改进多模态基础模型(MMFMs)在特定任务上的表现,尤其是文档理解方面
标签:MMFM-Challenge
AI
1年前 (2024-06-24)AI
新框架“多模态结构化生成”(Multimodal Structured Generation),它用于改进多模态基础模型(Multimodal Foundation Models,简称MMFMs)在特定任务上的表现,尤其是文档理解方面。MMFMs是结合了不同模态(如视觉和语言)的预训练基础模型,虽然在多种任务上表现出色... 阅读全文
优惠 改进信息检索(IR)的方法RE-AdaptIR:通过逆向工程适应来提升信息检索的效果
标签:RE-AdaptIR
AI
1年前 (2024-06-24)AI
约翰霍普金斯大学的研究人员推出一种改进信息检索(IR)的方法,称为"RE-AdaptIR",即通过逆向工程适应(Reverse Engineered Adaptation)来提升信息检索的效果。这种方法特别适用于大型语言模型(LLMs),这些模型在经过微调后能够在多个信息检索基准测试中取得最先进的结果。但问题是,这种监... 阅读全文
优惠 自动视频质量评估工具MANTISSCORE:自动评估视频生成的质量
标签:MANTISSCORE
AI
1年前 (2024-06-24)AI
滑铁卢大学、清华大学、Stardust.AI、多伦多大学和AI2的研究人员推出自动视频质量评估工具MANTISSCORE,自动评估视频生成的质量。随着人工智能技术的发展,尤其是文本到视频(Text-to-Video, T2V)生成模型的快速进步,我们需要一种可靠的方法来评估这些由AI生成的视频的质量。但是,现有的评估指... 阅读全文
优惠 STYLE-NERF2NERF:用于将二维图像的风格转换应用到三维场景中
1年前 (2024-06-24)AI
东京大学和 RIKEN的研究人员推出一种新颖的方法STYLE-NERF2NERF,用于将二维图像的风格转换应用到三维场景中。简单来说,就是让3D场景看起来具有某种特定的艺术风格,比如印象派画作或流行艺术。论文还提到了这种方法的一些限制,比如对于细节结构如植物和树木的重建可能存在挑战,以及对于训练图像中变化较大的对象(如... 阅读全文