AI

优惠 CAS:用于四足机器人的导航系统,能够使机器人穿越复杂的3D地形到达目标位置

  • CAS:用于四足机器人的导航系统,能够使机器人穿越复杂的3D地形到达目标位置
    AI
  • 上海启智研究院、 浙江大学、上海交通大学和清华大学的研究人员推出创新系统“Cross Anything System”(简称CAS),它是一个用于四足机器人的导航系统,能够使机器人穿越复杂的3D地形到达目标位置。这个系统由一个高 ...... 阅读全文

    优惠 新型视频预训练方法SIGMA:通过一种特别的方式来学习视频数据的表示,以便让计算机能够更好地理解和处理视频内容

  • 新型视频预训练方法SIGMA:通过一种特别的方式来学习视频数据的表示,以便让计算机能够更好地理解和处理视频内容
    AI
  • 阿姆斯特丹大学推出一种新型的视频预训练方法,名为SIGMA(Sinkhorn-Guided Masked Video Modeling)。这个方法的核心是通过一种特别的方式来学习视频数据的表示,以便让计算机能够更好地理解和处理视频内容。SIGMA ...... 阅读全文

    优惠 三维人体与物体交互F-HOI:能够理解和生成与人类与物体交互相关的精细描述

  • 三维人体与物体交互F-HOI:能够理解和生成与人类与物体交互相关的精细描述
    AI
  • 北京通用人工智能研究院和 北京大学人工智能研究院的研究人员推出新模型F-HOI,它能够理解和生成与人类与物体交互相关的精细描述。主要是三维人体与物体交互(3D Human-Object Interaction, HOI)的精细语义对齐问题 ...... 阅读全文

    优惠 全新基准测试工具T2V-CompBench:用于评估文本到视频(Text-to-Video, T2V)生成模型的性能

  • 全新基准测试工具T2V-CompBench:用于评估文本到视频(Text-to-Video, T2V)生成模型的性能
    AI
  • 香港大学、香港中文大学和华为诺亚方舟实验室的研究人员推出全新基准测试工具T2V-CompBench,它专门用于评估文本到视频(Text-to-Video, T2V)生成模型的性能。T2V模型需要根据这个描述生成一段视频。但T2V-CompBenc ...... 阅读全文

    优惠 “诊断链(CoD)”:解决了大语言模型在医疗诊断领域中可解释性的问题

  • “诊断链(CoD)”:解决了大语言模型在医疗诊断领域中可解释性的问题
    AI
  • 深圳市大数据研究院和香港中文大学(深圳)的研究人员引入“诊断链”(CoD)的概念,解决了大语言模型在医疗诊断领域中可解释性的问题。CoD将诊断过程转化为一个模仿医生思维流程的诊断链条,从而提供了一条清晰的推理 ...... 阅读全文

    优惠 新型文本检索基准测试BRIGHT:用来评估和挑战检索系统在处理复杂查询时的表现

  • 新型文本检索基准测试BRIGHT:用来评估和挑战检索系统在处理复杂查询时的表现
    AI
  • 香港大学、 普林斯顿大学、华盛顿大学和Google Cloud AI 研究的研究人员推出新型文本检索基准测试BRIGHT,它专门设计用来评估和挑战检索系统在处理复杂查询时的表现。这些查询不仅需要关键词匹配,还需要深入的推理 ...... 阅读全文

    优惠 多模态大语言模型评估框架MultiTrust

  • 多模态大语言模型评估框架MultiTrust
    AI
  • 清华大学、北京航空航天大学、上海交通大学和RealAI的研究人员推出多模态大语言模型评估框架MultiTrust。简单来说,就是研究这些能够同时处理文本和图像等多种形式信息的人工智能模型是否值得信赖。这包括了它们在面 ...... 阅读全文

    优惠 Streetscapes:通过大规模一致性的街景生成技术,从少量图像中生成连贯的城市街景视图

  • Streetscapes:通过大规模一致性的街景生成技术,从少量图像中生成连贯的城市街景视图
    AI
  • Google 研究和斯坦福大学的研究人员推出Streetscapes,即通过大规模一致性的街景生成技术,从少量图像中生成连贯的城市街景视图。这项技术可以用于从单一视频生成动态场景的三维重建和新视角合成。简单来说,就是利 ...... 阅读全文

    优惠 Shape of Motion:从单一视频重建动态场景的四维(4D)结构

  • Shape of Motion:从单一视频重建动态场景的四维(4D)结构
    AI
  • 加州大学伯克利分校和 Google 研究的研究人员推出Shape of Motion,从单一视频重建动态场景的四维(4D)结构。这项技术旨在从一段普通的单眼(即从一个视角)视频中恢复出场景的三维(3D)几何结构和随时间变化的运 ...... 阅读全文

    优惠 3D重建技术SparseCraft:从少量彩色图像中恢复出3D形状和视角依赖的外观,实现高效的3D重建和新视角合成

  • 3D重建技术SparseCraft:从少量彩色图像中恢复出3D形状和视角依赖的外观,实现高效的3D重建和新视角合成
    AI
  • 来自法国的团队推出一种新颖的3D重建技术,名为SparseCraft。这项技术能够从少量彩色图像中恢复出3D形状和视角依赖的外观,实现高效的3D重建和新视角合成。简单来说,就是通过几张图片来构建一个物体的三维模型,并 ...... 阅读全文

    优惠 提高自动音频字幕生成( AAC)的效率

  • 提高自动音频字幕生成( AAC)的效率
    AI
  • 上海交通大学人工智能教育部重点实验室X-LANCE实验室和英国萨里大学视觉、语音和信号处理中心的研究人员发布论文,论文的主题是关于提高自动音频字幕生成(Automated Audio Captioning, AAC)的效率,即如何让计算机 ...... 阅读全文

    优惠 Phi-3 Safety Post-Training:调整和优化他们开发的Phi-3系列小型语言模型

  • Phi-3 Safety Post-Training:调整和优化他们开发的Phi-3系列小型语言模型
    AI
  • 微软发布论文,论文的主题是关于如何确保语言模型在实际应用中既安全又符合人类的偏好和安全考虑。具体来说,论文介绍了微软公司如何通过一系列的方法和步骤,来调整和优化他们开发的Phi-3系列小型语言模型(SLMs) ...... 阅读全文