推荐类别

栏目分类

优惠 多模态大语言模型基准评测MME-RealWorld:现实世界高分辨率场景下的性能评估

  • 多模态大语言模型基准评测MME-RealWorld:现实世界高分辨率场景下的性能评估
    AI
  • 中科院人工智能研究所、南京大学、香港科技大学、南洋理工大学、中科院大学、松鼠AI和Meta AI的研究人员推出多模态大语言模型基准MME-RealWorld,在现实世界高分辨率场景下的性能评估。简单来说,就是研究当这些智能模型面对真实世界中的复杂图像和问题时,它们的表现如何。 项目主页:https://mme-real... 阅读全文

    优惠 从单一文本提示生成全视角可探索全景三维场景的新型框架LayerPano3D

  • 从单一文本提示生成全视角可探索全景三维场景的新型框架LayerPano3D
    AI
  • 上海交通大学、香港中文大学、浙江大学、上海人工智能实验室、斯坦福大学和南洋理工大学的研究人员推出LayerPano3D,这是一种从单一文本提示生成全视角可探索全景三维场景的新型框架。我们的核心见解是将参考二维全景图分解为不同深度级别的多个图层,每个图层通过扩散先验揭示参考视图中看不见的空间。LayerPano3D 包含... 阅读全文

    优惠 构建和深入理解视觉-语言模型!Hugging Face推出理解视觉-语言模型Idefics3-8B

  • 构建和深入理解视觉-语言模型!Hugging Face推出理解视觉-语言模型Idefics3-8B
    AI
  • Hugging Face发布论文,论文的主题是关于构建和深入理解视觉-语言模型(VLMs)。VLMs是一种人工智能模型,它们能够处理和理解图像和文本,然后将这些信息综合起来输出文本。简单来说,这些模型就像一个能够“看”图片并“写”出描述的智能系统。它们还推出了Idefics3-8B,这是一个强大的VLM,它在开放数据集... 阅读全文

    优惠 喜加一 Steam平台限时免费领取横向动作射击游戏《Weapon of Choice DX》 0元

  • Steam平台限时免费领取横向动作射击游戏《Weapon of Choice DX》
    STEAM
  • 独立游戏工作室 Mommy's Best Games 开发的横向动作射击游戏《Weapon of Choice DX》现正于 Steam 平台展开限时免费活动。只需登录 Steam 前往游戏的商店页面领取,即可将其永久保存至您的游戏库中。本次限免活动将持续到 9 月 22 日下午 12:00,请不要错过这个机会! 关于... 阅读全文

    优惠 《守望先锋》《军团要塞 2》大杂烩!Valve 正式公开全新多人英雄动作射击游戏《Deadlock》

  • 《守望先锋》《军团要塞 2》大杂烩!Valve 正式公开全新多人英雄动作射击游戏《Deadlock》
    STEAM
  • V社(Valve Corporation)的下一款游戏《Deadlock》已经多次出现在公众视野。这是一款6v6的竞技射击游戏,目前游戏已在Steam商店上架。根据官方页面信息,游戏仍处于开发初期,包含许多临时艺术作品、实验性的游戏玩法和正在进行的本地化工作。当前,游戏仅限邀请测试人员的好友访问。 游戏玩法上,《Dea... 阅读全文

    优惠 新型人工智能代理Anim-Director:一个强大的多模态大型模型驱动的动画视频生成器

  • 新型人工智能代理Anim-Director:一个强大的多模态大型模型驱动的动画视频生成器
    AI
  • 哈尔滨工业大学(深圳)推出新型人工智能代理Anim-Director,它是一个强大的多模态大型模型(LMMs)驱动的动画视频生成器。简单来说,Anim-Director就像一个虚拟的动画导演,能够根据简短的叙述或指令,自动创作出连贯、内容丰富的动画视频。例如,一个小朋友想讲述一个关于小猫和小狗在花园玩耍的故事,Anim... 阅读全文

    优惠 视频到声音的转换系统Video-Foley:专门用于生成与视频内容在时间和语义上同步的声音效果

  • 视频到声音的转换系统Video-Foley:专门用于生成与视频内容在时间和语义上同步的声音效果
    AI
  • 韩国科学技术院MAC实验室推出Video-Foley系统,它是一个视频到声音的转换系统,专门用于生成与视频内容在时间和语义上同步的声音效果(Foley声)。例如,你在观看一部电影,看到一个人用木棍敲打不同材料,比如木头、金属或岩石,这些声音是与视频内容同步的。在电影制作中,这个过程称为Foley声生成,它需要人工制作,... 阅读全文

    优惠 PAB:用于加速基于扩散模型的实时视频生成

  • PAB:用于加速基于扩散模型的实时视频生成
    AI
  • 新加坡国立大学、VideoSys 团队和普渡大学的研究人员推出新技术Pyramid Attention Broadcast (PAB),它用于加速基于扩散模型的实时视频生成。这项技术的核心思想是观察到在视频生成过程中的注意力机制(attention)存在一种U形模式的冗余,即在中间的大部分步骤中,注意力的变化非常小,而... 阅读全文

    优惠 AI21实验室推出大语言模型Jamba-1.5系列

  • AI21实验室推出大语言模型Jamba-1.5系列
    AI
  • AI21实验室推出大语言模型Jamba-1.5系列,它们基于Jamba架构,融合了Transformer和Mamba模型的优势,专门针对指令调优进行了优化。Jamba-1.5有两个版本:Jamba-1.5-Large(94亿活跃参数)和Jamba-1.5-Mini(12亿活跃参数)。例如,你有一个能够理解和执行指令的智... 阅读全文

    优惠 基于 Llama 3.1的大语言模型Hermes 3:专门针对接受指令和工具使用进行了优化,具备强大的推理和创造能力

  • 基于 Llama 3.1的大语言模型Hermes 3:专门针对接受指令和工具使用进行了优化,具备强大的推理和创造能力
    AI
  • Nous Research推出基于 Llama 3.1的大语言模型Hermes 3,它专门针对接受指令和工具使用进行了优化,具备强大的推理和创造能力。Hermes 3模型以其中立的立场和高度的可控性脱颖而出,能够精确地响应用户的指令性陈述。例如,你有一个智能助手,它可以阅读你的指令,比如“列出旧金山值得一游的有趣地点”... 阅读全文

    优惠 Meta推出模型家族Sapiens:专门为理解人类视觉任务而设计的一系列模型

  • Meta推出模型家族Sapiens:专门为理解人类视觉任务而设计的一系列模型
    AI
  • Meta推出一个名为Sapiens的模型家族,它们是专门为理解人类视觉任务而设计的一系列模型。Sapiens模型经过微调,能够执行四大类与人类相关的基本视觉任务:2D姿态估计、身体部位分割、深度估计和表面法线预测。这些模型原生支持高达1K分辨率的高分辨率推理,并且通过简单地微调预训练模型,就能轻松适应个别任务。 项目主... 阅读全文

    优惠 新型基准测试GRAB:评估和推动大型多模态模型在图形分析方面的能力而设计

  • 新型基准测试GRAB:评估和推动大型多模态模型在图形分析方面的能力而设计
    AI
  • 剑桥大学和香港大学的研究人员推出新型基准测试GRAB,专为评估和推动大型多模态模型(Large Multimodal Models,简称LMMs)在图形分析方面的能力而设计。这些模型在许多视觉任务中表现出了强大的能力,但现有的基准测试对于新一代的LMMs来说已经不够有挑战性。因此,研究者们需要一个更难、更全面的测试来评... 阅读全文
    我要爆料 我的收藏 顶部
    快速登录

    自动登录 忘记密码?