人工智能

优惠 用于开发大型多模态模型的新框架xGen-MM

  • 用于开发大型多模态模型的新框架xGen-MM
    AI
  • Salesforce AI 研究和华盛顿大学的研究人员推出新框架xGen-MM(也被称为BLIP-3),它是用于开发大型多模态模型(LMMs)的。多模态模型,你可以想象成一种超级大脑,不仅能理解文本(比如书籍、网页上的文字),还能 ...... 阅读全文

    优惠 阿里巴巴推出多模态大语言模型mPLUG-Owl3

  • 阿里巴巴推出多模态大语言模型mPLUG-Owl3
    AI
  • 阿里巴巴推出多模态大语言模型mPLUG-Owl3,它在处理单图像、多图像和视频任务方面取得了显著的进展。例如,你向mPLUG-Owl3展示一系列图片,并询问其中的天气情况,模型可以分析这些图片并告诉你哪一张是雪天。或者, ...... 阅读全文

    优惠 HeadGAP:可以从极少的图像(甚至是单张图像)创建出逼真且可动的3D头部头像

  • HeadGAP:可以从极少的图像(甚至是单张图像)创建出逼真且可动的3D头部头像
    AI
  • 字节跳动和上海科技大学的研究人员推出HeadGAP,它可以从极少的图像(甚至是单张图像)创建出逼真且可动的3D头部头像。想象一下,如果你只有一张自己的照片,HeadGAP能够用它来生成一个看起来非常像你,并且可以做出 ...... 阅读全文

    优惠 新型机器人触觉表示学习方法UniT:帮助机器人更好地理解和使用这种触觉信息

  • 新型机器人触觉表示学习方法UniT:帮助机器人更好地理解和使用这种触觉信息
    AI
  • 普渡大学和阿肯色大学的研究人员推出新型机器人触觉表示学习方法UniT,机器人需要通过触觉来感知和操作物体,就像人类通过手触摸东西一样。UniT就是帮助机器人更好地理解和使用这种触觉信息的一种技术。此外,论文还 ...... 阅读全文

    优惠 OpenResearcher:利用人工智能(AI)技术来加速科学研究进程

  • OpenResearcher:利用人工智能(AI)技术来加速科学研究进程
    AI
  • 创新平台OpenResearcher,它利用人工智能(AI)技术来加速科学研究进程。想象一下,研究人员每天都在与成堆的学术论文打交道,试图跟上他们领域内的最新进展,这既耗时又费力。OpenResearcher就像一个智能助手,可以 ...... 阅读全文

    优惠 新型大语言模型LongWriter:能够生成超过10,000个词的超长文本

  • 新型大语言模型LongWriter:能够生成超过10,000个词的超长文本
    AI
  • 清华大学和智谱AI的研究人员推出新型大语言模型LongWriter,它能够生成超过10,000个词的超长文本。这在人工智能领域是一个重要的突破,因为现有的大型语言模型虽然能够处理长达100,000个词的输入,但在生成文本时却 ...... 阅读全文

    优惠 新型图像编辑工具MVInpainter:能够学习多视角下一致的图像修复技术,以连接二维(2D)图像编辑和三维(3D)场景编辑

  • 新型图像编辑工具MVInpainter:能够学习多视角下一致的图像修复技术,以连接二维(2D)图像编辑和三维(3D)场景编辑
    AI
  • 复旦大学、 阿里巴巴达摩院和湖畔实验室的研究人员推出新型图像编辑工具MVInpainter,它能够学习多视角下一致的图像修复技术,以连接二维(2D)图像编辑和三维(3D)场景编辑。简单来说,MVInpainter能够在多个视角 ...... 阅读全文

    优惠 新型高保真度、高效率的波形生成模型PeriodWave-Turbo:通过对抗性流匹配优化来加速生成高质量的波形信号

  • 新型高保真度、高效率的波形生成模型PeriodWave-Turbo:通过对抗性流匹配优化来加速生成高质量的波形信号
    AI
  • 韩国亚洲大学的研究人员推出新型高保真度、高效率的波形生成模型PeriodWave-Turbo,它通过对抗性流匹配优化(Adversarial Flow Matching Optimization)来加速生成高质量的波形信号。想象一下,你想要制作一段音乐或 ...... 阅读全文

    优惠 深度求索推出开源语言模型DeepSeek-Prover-V1.5:专门为在Lean 4环境中进行定理证明而设计

  • 深度求索推出开源语言模型DeepSeek-Prover-V1.5:专门为在Lean 4环境中进行定理证明而设计
    AI
  • 深度求索推出开源语言模型DeepSeek-Prover-V1.5,它专门为在Lean 4环境中进行定理证明而设计。Lean 4是一种用于数学和逻辑推理的正式证明助手。想象一下,你有一道非常复杂的数学证明题,需要一步步严格推导,DeepSe ...... 阅读全文

    优惠 阿里通义千问开源语音交互大模型Qwen2-Audio 7B:自由互动,无需输入文本

  • 阿里通义千问开源语音交互大模型Qwen2-Audio 7B:自由互动,无需输入文本
    AI
  • 阿里通义千问开源 Qwen2-Audio 系列的两个模型 Qwen2-Audio-7B 和 Qwen2-Audio-7B-Instruct。 作为一个大规模音频语言模型,Qwen2-Audio 能够接受各种音频信号输入,并根据语音指令执行音频分析或直接响应文本,有两 ...... 阅读全文

    优惠 sprite-decompose:一种快速从动画图形中分解精灵(sprites)的方法

  • sprite-decompose:一种快速从动画图形中分解精灵(sprites)的方法
    AI
  • 这篇论文的主题是关于一种快速从动画图形中分解精灵(sprites)的方法。精灵在这里指的是构成动画视频的基本元素或图层,比如在社交媒体帖子或广告中常见的动画元素。论文还构建了一个新的数据集Crello Animation, ...... 阅读全文

    优惠 大规模数据集和基准测试框架Openstory++:专注于实例感知的开放领域视觉叙事(Visual Storytelling)

  • 大规模数据集和基准测试框架Openstory++:专注于实例感知的开放领域视觉叙事(Visual Storytelling)
    AI
  • 华南理工大学、西湖大学、OPPO美国研究中心、中国科学院自动化研究所基础模型研究中心和阿卜杜拉国王科技大学的研究人员推出大规模数据集和基准测试框架Openstory++,它专注于实例感知的开放领域视觉叙事(Visual St ...... 阅读全文