人工智能

优惠 微软推出LiveSpeech系统:低延迟的零样本TTS合成技术

  • 微软推出LiveSpeech系统:低延迟的零样本TTS合成技术
    AI
  • 微软推出LiveSpeech系统,它是一种低延迟的零样本(zero-shot)文本到语音(Text-to-Speech, TTS)合成技术。零样本意味着系统可以在没有特定说话人数据训练的情况下,模仿任何人的声音来生成语音。这项技术特别适用 ...... 阅读全文

    优惠 新型音频表示学习模型Audio Mamba:基于状态空间模型构建的

  • 新型音频表示学习模型Audio Mamba:基于状态空间模型构建的
    AI
  • 韩国科学技术院推出新型音频表示学习模型Audio Mamba(AuM),它是基于状态空间模型(State Space Models, SSMs)构建的,与传统的基于自注意力(self-attention)机制的Transformer模型不同,AuM不依赖于计算密集型 ...... 阅读全文

    优惠 新型神经网络架构Block Transformer:用于提升自然语言处理(NLP)任务中的推断速度

  • 新型神经网络架构Block Transformer:用于提升自然语言处理(NLP)任务中的推断速度
    AI
  • 韩国科学技术研究院、LG 人工智能研究和Google DeepMind的研究人员推出新型神经网络架构Block Transformer,它主要用于提升自然语言处理(NLP)任务中的推断速度。在NLP中,Transformer模型是一种非常强大的工具,它 ...... 阅读全文

    优惠 新型图像到3D生成框架Ouroboros3D:将多视角图像生成和3D重建集成到一个递归扩散过程中,通过自条件机制联合训练这两个模块,使它们能够相互适应,从而实现更稳健的推理

  • 新型图像到3D生成框架Ouroboros3D:将多视角图像生成和3D重建集成到一个递归扩散过程中,通过自条件机制联合训练这两个模块,使它们能够相互适应,从而实现更稳健的推理
    AI
  • 北京航空航天大学、上海人工智能实验室和VAST推出新型图像到3D生成框架Ouroboros3D,这个框架的核心特点是将多视角图像生成和3D重建集成到一个递归扩散过程中,通过自条件机制联合训练这两个模块,使它们能够相互适 ...... 阅读全文

    优惠 Mobile-Agent-v2: 通过多代理协作有效导航的移动设备操作助手

  • Mobile-Agent-v2: 通过多代理协作有效导航的移动设备操作助手
    AI
  • 北京交通大学和阿里巴巴集团的研究人员推出移动设备操作助手Mobile-Agent-v2,它通过多智能体(多个代理)的协作来有效导航和执行任务。这个系统是为了解决现有技术在处理移动设备操作任务时面临的两大挑战:任务进 ...... 阅读全文

    优惠 大规模仿真框架RoboCasa:为了训练能够在日常生活环境中工作的通用机器人代理而设计

  • 大规模仿真框架RoboCasa:为了训练能够在日常生活环境中工作的通用机器人代理而设计
    AI
  • 德克萨斯大学奥斯汀分校和英伟达的研究人员推出大规模仿真框架RoboCasa,它是为了训练能够在日常生活环境中工作的通用机器人代理而设计的。RoboCasa的核心是提供一个现实且多样化的厨房环境,它包含了大量的3D资产、 ...... 阅读全文

    优惠 如何在大语言模型中量化不确定性,特别是当我们需要判断模型给出的回答是否可靠时

  • 如何在大语言模型中量化不确定性,特别是当我们需要判断模型给出的回答是否可靠时
    AI
  • Google DeepMind发布论文,主题是探讨如何在大语言模型(LLMs)中量化不确定性,特别是当我们需要判断模型给出的回答是否可靠时。研究者们区分了两种不确定性:认识不确定性(epistemic uncertainty)和随机不确定性 ...... 阅读全文

    优惠 Cohere推出新型AI优化方法SRPO:让AI系统通过学习人类的偏好来提升其性能

  • Cohere推出新型AI优化方法SRPO:让AI系统通过学习人类的偏好来提升其性能
    AI
  • Cohere推出一种新型的人工智能(AI)优化方法,名为“自我改进的鲁棒偏好优化”(Self-Improving Robust Preference Optimization,简称SRPO)。这种方法主要针对的是让AI系统通过学习人类的偏好来提升其性能,同时确 ...... 阅读全文

    优惠 StabilityAI推出全新开源模型Stable Audio Open:能够生成长达 47 秒的音频样本和音效

  • StabilityAI推出全新开源模型Stable Audio Open:能够生成长达 47 秒的音频样本和音效
    AI
  • 关键信息摘要: Stable Audio Open 是一个开源的文本到音频模型,能够生成长达 47 秒的音频样本和音效。 用户可以创作鼓点、乐器即兴重复段、环境声、拟音以及制作所需的音频元素。 该模型支持音频变化和音频样本的 ...... 阅读全文

    优惠 3D模型材质生成DreamMat:用于生成高质量PBR(基于物理的渲染)材质的系统

  • 3D模型材质生成DreamMat:用于生成高质量PBR(基于物理的渲染)材质的系统
    AI
  • 浙江大学、香港大学、腾讯游戏和德克萨斯农工大学的研究人员推出DreamMat,它是一种用于生成高质量PBR(基于物理的渲染)材质的系统。简单来说,DreamMat可以根据文本描述和未贴图的3D模型,生成逼真的材质效果,这 ...... 阅读全文

    优惠 字节推出文本到语音模型家族Seed-TTS:能够生成与人类语音几乎无法区分的高质量语音

  • 字节推出文本到语音模型家族Seed-TTS:能够生成与人类语音几乎无法区分的高质量语音
    AI
  • 字节跳动推出文本到语音(Text-to-Speech, TTS)模型家族Seed-TTS,它们能够生成与人类语音几乎无法区分的高质量语音。Seed-TTS模型家族通过其先进的技术,为语音合成领域带来了革命性的进步,使得机器生成的语音更 ...... 阅读全文

    优惠 CamCo:相机控制的 3D 一致图像到视频生成

  • CamCo:相机控制的 3D 一致图像到视频生成
    AI
  • 德克萨斯大学奥斯汀分校和英伟达的研究人员推出新技术CamCo,它是一种可以生成视频的人工智能工具。总的来说,CamCo是一个强大的工具,它可以将静态图像转化为动态视频,并允许用户对摄像机的运动进行精确控制,创造 ...... 阅读全文