优惠 基准测试Visual Haystacks:模拟了现实世界的场景,要求模型不仅要找到包含答案的图片,还要利用视觉内容进行推理来回答具体问题
2年前 (2024-07-24)AI
加州大学伯克利分校的研究人员发布论文,论文的主题是关于如何让计算机更好地回答关于多张图片集合的问题,这在现实世界中非常有用,比如在翻看大量照片、网上搜索特定信息,或者通过卫星图像监控环境变化时。我们可 ...... 阅读全文
优惠 Temporal Residual Jacobians:一种用于无绑定运动转移(rig-free motion transfer)的新方法
2年前 (2024-07-24)AI
伦敦大学学院、Adobe Research和蒙特利尔大学的研究人员推出Temporal Residual Jacobians,一种用于无绑定运动转移(rig-free motion transfer)的新方法。简单来说,这种方法可以自动将一个动作(例如,跳舞或跑 ...... 阅读全文
优惠 MUSICONGEN:于Transformer的文本到音乐生成模型
标签:MUSICONGEN
AI
2年前 (2024-07-24)AI
MUSICONGEN是一个基于Transformer的文本到音乐生成模型。简单来说,MUSICONGEN能够根据文本提示生成具有节奏和和弦控制的音乐。这就像是给一个音乐智能助手一些文字描述,比如“一个充满活力的摇滚乐段”,然后它就能 ...... 阅读全文
优惠 HoloDreamer:从文本描述生成全包围3D全景世界的系统
2年前 (2024-07-24)AI
北京大学 和鹏城实验室的研究人员推出HoloDreamer,它是一个从文本描述生成全包围3D全景世界的系统。简单来说,HoloDreamer可以读懂你用文字描述的场景,然后创造出一个360度全方位的3D场景。这就像是用文字给一个画 ...... 阅读全文
优惠 新型图像渲染技术BoostMVSNeRFs:用来提升一种叫做“多视图立体(MVS)基础神经辐射场(NeRF)”的渲染质量,特别是在处理大规模场景时的通用视图合成能力
标签:BoostMVSNeRFs
AI
2年前 (2024-07-24)AI
阳明交通大学和台湾大学的研究人员推出一种新的图像渲染技术,名为“BoostMVSNeRFs”。这个技术是用来提升一种叫做“多视图立体(MVS)基础神经辐射场(NeRF)”的渲染质量,特别是在处理大规模场景时的通用视图合成能力 ...... 阅读全文
优惠 VIDEOGAMEBUNNY模型:为理解视频游戏图像而特别定制的多模态大模型
2年前 (2024-07-24)AI
阿尔伯塔大学的研究人员推出VIDEOGAMEBUNNY模型,这是一个为理解视频游戏图像而特别定制的多模态大模型(LMM)。它基于Bunny模型,并对其进行了微调,以提高对视频游戏内容的理解能力。研究团队发布了中间检查点、训 ...... 阅读全文
优惠 新基准测试LONGVIDEOBENCH:为了评估大型多模态模型在处理长时间视频和语言交织输入时的理解能力而设计
标签:LONGVIDEOBENCH
AI
2年前 (2024-07-24)AI
新基准测试LONGVIDEOBENCH,它是为了评估大型多模态模型在处理长时间视频和语言交织输入时的理解能力而设计的。这个基准测试特别关注那些能够处理长达一小时的视频内容的模型。论文还提到了LONGVIDEOBENCH的挑战性, ...... 阅读全文












