推荐类别

栏目分类

优惠 针对视觉强化学习的通用框架Maniwhere:使训练后的机器人策略能够在多种视觉干扰类型的组合中实现泛化

  • 针对视觉强化学习的通用框架Maniwhere:使训练后的机器人策略能够在多种视觉干扰类型的组合中实现泛化
    AI
  • 清华大学研究院、上海交通大学、香港大学、北京大学、上海启智研究院和上海人工智能实验室的研究人员推出Maniwhere,这是一个针对视觉强化学习的通用框架,使训练后的机器人策略能够在多种视觉干扰类型的组合中实现 ...... 阅读全文

    优惠 多元化“角色”库PERSONA:这些角色具有不同的背景和个性特征

  • 多元化“角色”库PERSONA:这些角色具有不同的背景和个性特征
    AI
  • PERSONA创建了一个多元化的“角色”库,这些角色具有不同的背景和个性特征,通过这些角色,我们可以更全面地测试和改进智能助手,让它能够更好地理解和服务于每一个人。想象一下,我们正在训练一个能够理解和回应不同 ...... 阅读全文

    优惠 为人工智能软件开发者设计的开源平台OpenDevin

  • 为人工智能软件开发者设计的开源平台OpenDevin
    AI
  • OpenDevin是一个开放平台,它是为人工智能软件开发者设计的,特别是那些希望构建能够像人类开发者一样与世界互动的通用人工智能代理。这些AI代理可以通过编写代码、与命令行交互以及浏览网络来实现复杂的任务。OpenD ...... 阅读全文

    优惠 PopPop AI:免费在线AI 音效生成器,输入提示词就能生成音效

  • PopPop AI:免费在线AI 音效生成器,输入提示词就能生成音效
    AI
  • PopPop AI 是一款免费的人工智能音效在线生成器,用户可以通过输入文字描述来快速生成相应的音效素材。这些音效包括鼓掌声、下雨声、车流声等,适用于视频制作、游戏开发或其他需要音效的场合。PopPop AI 的特点是使 ...... 阅读全文

    优惠 基准测试Visual Haystacks:模拟了现实世界的场景,要求模型不仅要找到包含答案的图片,还要利用视觉内容进行推理来回答具体问题

  • 基准测试Visual Haystacks:模拟了现实世界的场景,要求模型不仅要找到包含答案的图片,还要利用视觉内容进行推理来回答具体问题
    AI
  • 加州大学伯克利分校的研究人员发布论文,论文的主题是关于如何让计算机更好地回答关于多张图片集合的问题,这在现实世界中非常有用,比如在翻看大量照片、网上搜索特定信息,或者通过卫星图像监控环境变化时。我们可 ...... 阅读全文

    优惠 GET-Zero:用于机器人控制的模型架构和训练过程,能够实现对新硬件变化的立即适应,而无需重新训练

  • GET-Zero:用于机器人控制的模型架构和训练过程,能够实现对新硬件变化的立即适应,而无需重新训练
    AI
  • 斯坦福大学的研究人员推出GET-Zero,它是一种用于机器人控制的模型架构和训练过程,能够实现对新硬件变化的立即适应,而无需重新训练。简单来说,GET-Zero通过一种称为Graph Embodiment Transformer(GET)的变换器 ...... 阅读全文

    优惠 Temporal Residual Jacobians:一种用于无绑定运动转移(rig-free motion transfer)的新方法

  • Temporal Residual Jacobians:一种用于无绑定运动转移(rig-free motion transfer)的新方法
    AI
  • 伦敦大学学院、Adob​​e Research和蒙特利尔大学的研究人员推出Temporal Residual Jacobians,一种用于无绑定运动转移(rig-free motion transfer)的新方法。简单来说,这种方法可以自动将一个动作(例如,跳舞或跑 ...... 阅读全文

    优惠 MUSICONGEN:于Transformer的文本到音乐生成模型

  • MUSICONGEN:于Transformer的文本到音乐生成模型
    AI
  • MUSICONGEN是一个基于Transformer的文本到音乐生成模型。简单来说,MUSICONGEN能够根据文本提示生成具有节奏和和弦控制的音乐。这就像是给一个音乐智能助手一些文字描述,比如“一个充满活力的摇滚乐段”,然后它就能 ...... 阅读全文

    优惠 HoloDreamer:从文本描述生成全包围3D全景世界的系统

  • HoloDreamer:从文本描述生成全包围3D全景世界的系统
    AI
  • 北京大学 和鹏城实验室的研究人员推出HoloDreamer,它是一个从文本描述生成全包围3D全景世界的系统。简单来说,HoloDreamer可以读懂你用文字描述的场景,然后创造出一个360度全方位的3D场景。这就像是用文字给一个画 ...... 阅读全文

    优惠 新型图像渲染技术BoostMVSNeRFs:用来提升一种叫做“多视图立体(MVS)基础神经辐射场(NeRF)”的渲染质量,特别是在处理大规模场景时的通用视图合成能力

  • 新型图像渲染技术BoostMVSNeRFs:用来提升一种叫做“多视图立体(MVS)基础神经辐射场(NeRF)”的渲染质量,特别是在处理大规模场景时的通用视图合成能力
    AI
  • 阳明交通大学和台湾大学的研究人员推出一种新的图像渲染技术,名为“BoostMVSNeRFs”。这个技术是用来提升一种叫做“多视图立体(MVS)基础神经辐射场(NeRF)”的渲染质量,特别是在处理大规模场景时的通用视图合成能力 ...... 阅读全文

    优惠 VIDEOGAMEBUNNY模型:为理解视频游戏图像而特别定制的多模态大模型

  • VIDEOGAMEBUNNY模型:为理解视频游戏图像而特别定制的多模态大模型
    AI
  • 阿尔伯塔大学的研究人员推出VIDEOGAMEBUNNY模型,这是一个为理解视频游戏图像而特别定制的多模态大模型(LMM)。它基于Bunny模型,并对其进行了微调,以提高对视频游戏内容的理解能力。研究团队发布了中间检查点、训 ...... 阅读全文

    优惠  新基准测试LONGVIDEOBENCH:为了评估大型多模态模型在处理长时间视频和语言交织输入时的理解能力而设计

  •  新基准测试LONGVIDEOBENCH:为了评估大型多模态模型在处理长时间视频和语言交织输入时的理解能力而设计
    AI
  • 新基准测试LONGVIDEOBENCH,它是为了评估大型多模态模型在处理长时间视频和语言交织输入时的理解能力而设计的。这个基准测试特别关注那些能够处理长达一小时的视频内容的模型。论文还提到了LONGVIDEOBENCH的挑战性, ...... 阅读全文
    我要爆料 我的收藏 顶部
    快速登录

    自动登录 忘记密码?