推荐类别

栏目分类

优惠 量化方法EasyQuant:减小模型大小和计算成本的技术,使模型能够在资源有限的设备上运行

  • 量化方法EasyQuant:减小模型大小和计算成本的技术,使模型能够在资源有限的设备上运行
    AI
  • 腾讯发布论文探讨关于大型语言模型(LLMs)的量化方法,特别是针对那些拥有数十亿甚至更多参数的模型。简单来说,模型量化是一种减小模型大小和计算成本的技术,使模型能够在资源有限的设备上运行,例如手机或嵌入式设备。 想象一下,你有一个超级大的食谱书,里面有上亿种不同的菜式,但你只需要其中的一部分。如果你能把这本书压缩,只保... 阅读全文

    优惠 MathScale:提高大语言模型在解决数学问题方面的能力

  • MathScale:提高大语言模型在解决数学问题方面的能力
    AI
  • 来自香港中文大学、微软亚洲研究院、深圳研究院 大数据研究所的研究人员推出MathScale,它旨在提高大语言模型(LLMs)在解决数学问题方面的能力。尽管LLMs在解决问题方面表现出色,但在处理数学问题时仍然存在不足。MathScale通过使用前沿的LLMs(如GPT-3.5)来创建高质量的数学推理数据集,从而解决了这... 阅读全文

    优惠 经过改进的多模态大语言模型LLaVA-HR:专门设计来处理高分辨率图像,以提高在视觉和语言任务上的性能

  • 经过改进的多模态大语言模型LLaVA-HR:专门设计来处理高分辨率图像,以提高在视觉和语言任务上的性能
    AI
  • LLaVA-HR(LLaVA High-Resolution)是一个经过改进的多模态大语言模型(MLLM),它专门设计来处理高分辨率图像,以提高在视觉和语言任务上的性能。这个模型是基于LLaVA-1.5的架构,通过引入Mixture-of-Resolution Adaptation (MRA) 技术,使得模型能够更有效... 阅读全文

    优惠 自动化流程框架MAGID:生成合成的多模态(文本和图像)对话数据集

  • 自动化流程框架MAGID:生成合成的多模态(文本和图像)对话数据集
    AI
  • 来自滑铁卢大学和亚马逊AWS人工智能实验室的研究人员推出MAGID(Multimodal Augmented Generative Images Dialogues)框架,它是一个自动化流程,用于生成合成的多模态(文本和图像)对话数据集。这个框架的目的是为了解决在开发多模态交互系统时,缺乏丰富、多模态(文本、图像)对话... 阅读全文

    优惠 文本到语音(TTS)合成系统NaturalSpeech 3:生成自然、高质量且具有零样本(zero-shot)能力的语音

  • 文本到语音(TTS)合成系统NaturalSpeech 3:生成自然、高质量且具有零样本(zero-shot)能力的语音
    AI
  • 来自微软亚洲研究院、中国科学技术大学、香港中文大学(深圳)、浙江大学、东京大学、北京大学的研究人员推出文本到语音(TTS)合成系统NaturalSpeech 3。这个系统的目标是生成自然、高质量且具有零样本(zero-shot)能力的语音。所谓零样本能力,意味着即使在没有特定说话人的训练数据的情况下,系统也能够模仿他们... 阅读全文

    优惠 新型3D建模工具MagicClay:结合了Neural Fields和Meshes的混合表示方法,允许用户通过文本提示来雕塑和编辑3D模型

  • 新型3D建模工具MagicClay:结合了Neural Fields和Meshes的混合表示方法,允许用户通过文本提示来雕塑和编辑3D模型
    AI
  • 特拉维夫大学、Adobe 研究中心、加拿大蒙特利尔大学的研究人员推出新型3D建模工具MagicClay,它结合了神经场(Neural Fields)和三角网格(Meshes)的混合表示方法,允许用户通过文本提示来雕塑和编辑3D模型。这种方法旨在解决现有3D生成技术在艺术创作中的局限性,特别是在需要精细控制和逐步迭代的场... 阅读全文

    优惠 RT-Sketch系统:让机器人理解用户手绘的草图,并根据这些草图来执行动作

  • RT-Sketch系统:让机器人理解用户手绘的草图,并根据这些草图来执行动作
    AI
  • 斯坦福大学和谷歌的研究人员推出RT-Sketch系统,它是一个目标条件化的模仿学习(Imitation Learning, IL)策略,用于机器人操控任务。RT-Sketch的核心特点是它能够理解用户手绘的草图,并根据这些草图来执行动作。这种方法旨在解决自然语言指令可能存在的歧义性以及图像可能过于具体的问题。 项目主页... 阅读全文

    优惠 Modeling Collaborator框架:通过自然语言交互来替代人工标注,大幅减少定义概念所需的工作量

  • Modeling Collaborator框架:通过自然语言交互来替代人工标注,大幅减少定义概念所需的工作量
    AI
  • 来自华盛顿大学和谷歌的研究人员推出Modeling Collaborator框架,它是一个创新的工具,旨在帮助人们以最小的努力训练视觉模型来识别复杂或主观的视觉概念。在日常生活中,我们经常需要计算机视觉系统来识别图片中的内容,比如区分美食、艺术品或者判断某个场景是否安全。但是,传统的训练方法需要大量的手动标注工作,这既... 阅读全文

    优惠 加州大学伯克利分校最新研究:机器人双手协同拧瓶盖

  • 加州大学伯克利分校最新研究:机器人双手协同拧瓶盖
    AI
  • 加州大学伯克利分校的研究人员发布论文,该主题是关于如何训练一个由两个多指机器人手组成的系统,使其能够旋转(拧开)各种类似瓶子物体的盖子。这个研究项目使用了深度强化学习(Deep Reinforcement Learning, DRL)技术,首先在模拟环境中训练控制策略,然后将这个策略零次转移(zero-shot tra... 阅读全文

    优惠 MovieLLM框架:旨在通过GPT-4生成的电影相关的合成数据(包括剧本、关键帧图像等)来训练多模态大语言模型

  • MovieLLM框架:旨在通过GPT-4生成的电影相关的合成数据(包括剧本、关键帧图像等)来训练多模态大语言模型
    AI
  • 来自复旦大学和腾讯的研究人员推出MovieLLM框架,它旨在通过GPT-4生成的电影相关的合成数据(包括剧本、关键帧图像等)来训练多模态大型语言模型。这些模型经过训练后,能够更好地理解和处理长视频内容。简单来说,MovieLLM创建了一种模拟电影内容的数据集,这些数据集被用来训练AI模型,使其能够更好地理解和回答关于长... 阅读全文

    优惠 Anthropic 推出 Claude 3 系列大语言模型,革新认知任务处理性能

  • Anthropic 推出 Claude 3 系列大语言模型,革新认知任务处理性能
    AI
  • Anthropic在今天发布了其创新的Claude 3系列大语言模型(LLM),为各种认知任务设定了新的性能标准。该系列包含三个子模型:Claude 3 Haiku、Claude 3 Sonnet和Claude 3 Opus,它们为用户提供了不同的智能、速度和成本选择,以满足多样化的人工智能应用需求。 卓越性能:超越G... 阅读全文

    优惠 免费AI生成照片图库StockCake,开放公众领域授权使用

  • 免费AI生成照片图库StockCake,开放公众领域授权使用
    AI
  • StockCake 是一个专注于提供由人工智能技术生成照片的在线图库,其独特之处在于所有收录的照片皆源于AI算法创新创造。这些图片采用公众领域授权方式发布,这意味着用户可以在个人项目或商业用途中自由使用它们,无需事先取得网站运营方的许可,同时也不必注明图片出处。 该图库内的相片质量堪比真实拍摄,通过精准的关键字搜索和标... 阅读全文
    我要爆料 我的收藏 顶部
    快速登录

    自动登录 忘记密码?