推荐类别

栏目分类

优惠 H2O.ai公司推出小型语言模型H2O-Danube3,可以在手机上运行

  • H2O.ai公司推出小型语言模型H2O-Danube3,可以在手机上运行
    AI
  • H2O-Danube3是由H2O.ai公司推出的一系列小型语言模型。这些模型包括H2O-Danube3-4B和H2O-Danube3-500M,分别在6万亿(T)和4万亿个词元上进行了训练。这些模型的设计理念是能够在现代智能手机等移动设备上高效运行, ...... 阅读全文

    优惠 DataDream:通过少量的真实图像(即“少样本”或“few-shot”数据)来指导生成更真实、更多样化的训练数据集

  • DataDream:通过少量的真实图像(即“少样本”或“few-shot”数据)来指导生成更真实、更多样化的训练数据集
    AI
  • DataDream是一个框架,它通过少量的真实图像(即“少样本”或“few-shot”数据)来指导生成更真实、更多样化的训练数据集。这在图像分类任务中尤其有用,因为有时候我们手头只有很少的样本,但需要训练一个能够识别多种 ...... 阅读全文

    优惠 多模态智能代理基准测试Spider2-V:专注于自动化数据科学和工程工作流程

  • 多模态智能代理基准测试Spider2-V:专注于自动化数据科学和工程工作流程
    AI
  • 香港大学、上海交通大学、Google Cloud AI 研究中心、Google Deepmind、Salesforce Research、 耶鲁大学、Sea AI 实验室和滑铁卢大学的研究人员推出多模态智能代理基准测试Spider2-V,它专注于自动化数据科学和工程 ...... 阅读全文

    优惠 视频占用模型(VOCs):专为支持下游控制任务而设计,它们在紧凑的潜在空间中运行,避免了对单个像素进行预测的需要

  • 视频占用模型(VOCs):专为支持下游控制任务而设计,它们在紧凑的潜在空间中运行,避免了对单个像素进行预测的需要
    AI
  • 阿尔伯塔大学、德克萨斯大学奥斯汀分校微软纽约研究院和加州大学伯克利分校的研究人员推出一种新型的视频预测模型,称为视频占用模型(Video Occupancy Models,简称VOCs)。这些模型专为支持下游控制任务而设计,它 ...... 阅读全文

    优惠 SHERL:为资源受限的迁移学习场景提供一种高效且准确的解决方案

  • SHERL:为资源受限的迁移学习场景提供一种高效且准确的解决方案
    AI
  • 大连理工大学、鲁汶大学、腾讯微信和香港科技大学的研究人员推出SHERL,它旨在为资源受限的迁移学习场景提供一种高效且准确的解决方案。SHERL的核心思想是将大型预训练模型适应到下游任务中,同时显著减少可训练参数 ...... 阅读全文

    优惠 新模型MaskVAT:根据无声视频生成与之匹配的音频

  • 新模型MaskVAT:根据无声视频生成与之匹配的音频
    AI
  • 杜比实验室和加泰罗尼亚理工大学的研究人员推出新模型MaskVAT(Masked Generative Video-to-Audio Transformers),它能够根据无声视频生成与之匹配的音频。简单来说,就是让计算机“看”一段没有声音的视频,然后“想 ...... 阅读全文

    优惠 Make-An-Agent:能够生成通用策略网络的系统

  • Make-An-Agent:能够生成通用策略网络的系统
    AI
  • 马里兰大学帕克分校、清华大学、加州大学圣地亚哥分校的研究人员推出创新方法Make-An-Agent,它是一个能够生成通用策略网络的系统。简单来说,就是通过观察一个智能体(比如机器人)的行为,这个系统能够自动生成控 ...... 阅读全文

    优惠 虚拟仿真平台GRUtopia:推动和评估高级具身智能(Embodied AI)研究而设计

  • 虚拟仿真平台GRUtopia:推动和评估高级具身智能(Embodied AI)研究而设计
    AI
  • 上海人工智能实验室OpenRobotLab、浙江大学、上海交通大学、清华大学、南京大学、香港中文大学和西安电子科技大学的研究人员推出虚拟仿真平台GRUtopia,它是为了推动和评估高级具身智能(Embodied AI)研究而设计的 ...... 阅读全文

    优惠 GoodBadGreedy:大语言模型在生成文本时的非确定性问题

  • GoodBadGreedy:大语言模型在生成文本时的非确定性问题
    AI
  • 北京大学和艾伦人工智能研究所的研究人员发布论文,论文的主题是探讨大语言模型(LLMs)在生成文本时的非确定性问题。非确定性是指同样的输入在不同的生成配置下可能会产生显著不同的输出。论文的核心观点是,目前对 ...... 阅读全文

    优惠 开源工具包VLMEvalKit:用于评估大型多模态模型

  • 开源工具包VLMEvalKit:用于评估大型多模态模型
    AI
  • 开源工具包VLMEvalKit,它用于评估大型多模态模型。这些模型能够处理并理解多种类型的数据,比如图像、文本、音频等。VLMEvalKit基于PyTorch框架,旨在为研究人员和开发者提供一个友好、全面的框架,以便他们评估现 ...... 阅读全文

    优惠 多模态联合表示模型OmniBind:能够处理包括3D、音频、图像和语言输入在内的多种数据类型

  • 多模态联合表示模型OmniBind:能够处理包括3D、音频、图像和语言输入在内的多种数据类型
    AI
  • 浙江大学和 香港大学的研究人员推出OmniBind,这是一种大规模的多模态联合表示模型,能够处理包括3D、音频、图像和语言输入在内的多种数据类型。简单来说,OmniBind就像一个多语言的超级翻译器,但它不仅仅是翻译语 ...... 阅读全文

    优惠 Click-Gaussian:用于实时3D场景操作的交互式分割方法

  • Click-Gaussian:用于实时3D场景操作的交互式分割方法
    AI
  • LG电子和首尔国立大学的研究人员推出Click-Gaussian,这是一种用于实时3D场景操作的交互式分割方法。简单来说,Click-Gaussian能够让用户通过单次点击就能在三维空间中选择和分割出他们想要的对象,无论是粗略的大致 ...... 阅读全文
    我要爆料 我的收藏 顶部
    快速登录

    自动登录 忘记密码?