人工智能

优惠 Temporal Residual Jacobians:一种用于无绑定运动转移(rig-free motion transfer)的新方法

  • Temporal Residual Jacobians:一种用于无绑定运动转移(rig-free motion transfer)的新方法
    AI
  • 伦敦大学学院、Adob​​e Research和蒙特利尔大学的研究人员推出Temporal Residual Jacobians,一种用于无绑定运动转移(rig-free motion transfer)的新方法。简单来说,这种方法可以自动将一个动作(例如,跳舞或跑 ...... 阅读全文

    优惠 MUSICONGEN:于Transformer的文本到音乐生成模型

  • MUSICONGEN:于Transformer的文本到音乐生成模型
    AI
  • MUSICONGEN是一个基于Transformer的文本到音乐生成模型。简单来说,MUSICONGEN能够根据文本提示生成具有节奏和和弦控制的音乐。这就像是给一个音乐智能助手一些文字描述,比如“一个充满活力的摇滚乐段”,然后它就能 ...... 阅读全文

    优惠 HoloDreamer:从文本描述生成全包围3D全景世界的系统

  • HoloDreamer:从文本描述生成全包围3D全景世界的系统
    AI
  • 北京大学 和鹏城实验室的研究人员推出HoloDreamer,它是一个从文本描述生成全包围3D全景世界的系统。简单来说,HoloDreamer可以读懂你用文字描述的场景,然后创造出一个360度全方位的3D场景。这就像是用文字给一个画 ...... 阅读全文

    优惠 新型图像渲染技术BoostMVSNeRFs:用来提升一种叫做“多视图立体(MVS)基础神经辐射场(NeRF)”的渲染质量,特别是在处理大规模场景时的通用视图合成能力

  • 新型图像渲染技术BoostMVSNeRFs:用来提升一种叫做“多视图立体(MVS)基础神经辐射场(NeRF)”的渲染质量,特别是在处理大规模场景时的通用视图合成能力
    AI
  • 阳明交通大学和台湾大学的研究人员推出一种新的图像渲染技术,名为“BoostMVSNeRFs”。这个技术是用来提升一种叫做“多视图立体(MVS)基础神经辐射场(NeRF)”的渲染质量,特别是在处理大规模场景时的通用视图合成能力 ...... 阅读全文

    优惠 VIDEOGAMEBUNNY模型:为理解视频游戏图像而特别定制的多模态大模型

  • VIDEOGAMEBUNNY模型:为理解视频游戏图像而特别定制的多模态大模型
    AI
  • 阿尔伯塔大学的研究人员推出VIDEOGAMEBUNNY模型,这是一个为理解视频游戏图像而特别定制的多模态大模型(LMM)。它基于Bunny模型,并对其进行了微调,以提高对视频游戏内容的理解能力。研究团队发布了中间检查点、训 ...... 阅读全文

    优惠  新基准测试LONGVIDEOBENCH:为了评估大型多模态模型在处理长时间视频和语言交织输入时的理解能力而设计

  •  新基准测试LONGVIDEOBENCH:为了评估大型多模态模型在处理长时间视频和语言交织输入时的理解能力而设计
    AI
  • 新基准测试LONGVIDEOBENCH,它是为了评估大型多模态模型在处理长时间视频和语言交织输入时的理解能力而设计的。这个基准测试特别关注那些能够处理长达一小时的视频内容的模型。论文还提到了LONGVIDEOBENCH的挑战性, ...... 阅读全文

    优惠 无需训练的视频大语言模型SlowFast-LLaVA:能够同时捕捉视频的细节空间语义和长时序时间上下文,而不会超出常用LLM的令牌预算

  • 无需训练的视频大语言模型SlowFast-LLaVA:能够同时捕捉视频的细节空间语义和长时序时间上下文,而不会超出常用LLM的令牌预算
    AI
  • 苹果推出一个名为SlowFast-LLaVA(简称SF-LLaVA)的新方法,它是一种无需训练的视频大语言模型(LLM)。SF-LLaVA能够同时捕捉视频的细节空间语义和长时序时间上下文,而不会超出常用LLM的令牌预算。这种方法通过为视 ...... 阅读全文

    优惠 CAS:用于四足机器人的导航系统,能够使机器人穿越复杂的3D地形到达目标位置

  • CAS:用于四足机器人的导航系统,能够使机器人穿越复杂的3D地形到达目标位置
    AI
  • 上海启智研究院、 浙江大学、上海交通大学和清华大学的研究人员推出创新系统“Cross Anything System”(简称CAS),它是一个用于四足机器人的导航系统,能够使机器人穿越复杂的3D地形到达目标位置。这个系统由一个高 ...... 阅读全文

    优惠 新型视频预训练方法SIGMA:通过一种特别的方式来学习视频数据的表示,以便让计算机能够更好地理解和处理视频内容

  • 新型视频预训练方法SIGMA:通过一种特别的方式来学习视频数据的表示,以便让计算机能够更好地理解和处理视频内容
    AI
  • 阿姆斯特丹大学推出一种新型的视频预训练方法,名为SIGMA(Sinkhorn-Guided Masked Video Modeling)。这个方法的核心是通过一种特别的方式来学习视频数据的表示,以便让计算机能够更好地理解和处理视频内容。SIGMA ...... 阅读全文

    优惠 三维人体与物体交互F-HOI:能够理解和生成与人类与物体交互相关的精细描述

  • 三维人体与物体交互F-HOI:能够理解和生成与人类与物体交互相关的精细描述
    AI
  • 北京通用人工智能研究院和 北京大学人工智能研究院的研究人员推出新模型F-HOI,它能够理解和生成与人类与物体交互相关的精细描述。主要是三维人体与物体交互(3D Human-Object Interaction, HOI)的精细语义对齐问题 ...... 阅读全文

    优惠 全新基准测试工具T2V-CompBench:用于评估文本到视频(Text-to-Video, T2V)生成模型的性能

  • 全新基准测试工具T2V-CompBench:用于评估文本到视频(Text-to-Video, T2V)生成模型的性能
    AI
  • 香港大学、香港中文大学和华为诺亚方舟实验室的研究人员推出全新基准测试工具T2V-CompBench,它专门用于评估文本到视频(Text-to-Video, T2V)生成模型的性能。T2V模型需要根据这个描述生成一段视频。但T2V-CompBenc ...... 阅读全文

    优惠 “诊断链(CoD)”:解决了大语言模型在医疗诊断领域中可解释性的问题

  • “诊断链(CoD)”:解决了大语言模型在医疗诊断领域中可解释性的问题
    AI
  • 深圳市大数据研究院和香港中文大学(深圳)的研究人员引入“诊断链”(CoD)的概念,解决了大语言模型在医疗诊断领域中可解释性的问题。CoD将诊断过程转化为一个模仿医生思维流程的诊断链条,从而提供了一条清晰的推理 ...... 阅读全文