推荐类别

栏目分类

优惠 HoloDreamer:从文本描述生成全包围3D全景世界的系统

  • HoloDreamer:从文本描述生成全包围3D全景世界的系统
    AI
  • 北京大学 和鹏城实验室的研究人员推出HoloDreamer,它是一个从文本描述生成全包围3D全景世界的系统。简单来说,HoloDreamer可以读懂你用文字描述的场景,然后创造出一个360度全方位的3D场景。这就像是用文字给一个画家描述你心中的梦想家园,然后画家不仅画出了家园的正面,还画出了周围和内部的所有视角。 项目... 阅读全文

    优惠 新型图像渲染技术BoostMVSNeRFs:用来提升一种叫做“多视图立体(MVS)基础神经辐射场(NeRF)”的渲染质量,特别是在处理大规模场景时的通用视图合成能力

  • 新型图像渲染技术BoostMVSNeRFs:用来提升一种叫做“多视图立体(MVS)基础神经辐射场(NeRF)”的渲染质量,特别是在处理大规模场景时的通用视图合成能力
    AI
  • 阳明交通大学和台湾大学的研究人员推出一种新的图像渲染技术,名为“BoostMVSNeRFs”。这个技术是用来提升一种叫做“多视图立体(MVS)基础神经辐射场(NeRF)”的渲染质量,特别是在处理大规模场景时的通用视图合成能力。总的来说,BoostMVSNeRFs是一种先进的图像渲染技术,它通过智能地选择和组合多个视图的... 阅读全文

    优惠 VIDEOGAMEBUNNY模型:为理解视频游戏图像而特别定制的多模态大模型

  • VIDEOGAMEBUNNY模型:为理解视频游戏图像而特别定制的多模态大模型
    AI
  • 阿尔伯塔大学的研究人员推出VIDEOGAMEBUNNY模型,这是一个为理解视频游戏图像而特别定制的多模态大模型(LMM)。它基于Bunny模型,并对其进行了微调,以提高对视频游戏内容的理解能力。研究团队发布了中间检查点、训练日志以及一个包含185,259张来自413个游戏的视频游戏图像的广泛数据集,以及389,565个... 阅读全文

    优惠  新基准测试LONGVIDEOBENCH:为了评估大型多模态模型在处理长时间视频和语言交织输入时的理解能力而设计

  •  新基准测试LONGVIDEOBENCH:为了评估大型多模态模型在处理长时间视频和语言交织输入时的理解能力而设计
    AI
  • 新基准测试LONGVIDEOBENCH,它是为了评估大型多模态模型在处理长时间视频和语言交织输入时的理解能力而设计的。这个基准测试特别关注那些能够处理长达一小时的视频内容的模型。论文还提到了LONGVIDEOBENCH的挑战性,即使是最先进的专有模型(如GPT-4o、Gemini-1.5-Pro)也面临挑战,而开源模型... 阅读全文

    优惠 无需训练的视频大语言模型SlowFast-LLaVA:能够同时捕捉视频的细节空间语义和长时序时间上下文,而不会超出常用LLM的令牌预算

  • 无需训练的视频大语言模型SlowFast-LLaVA:能够同时捕捉视频的细节空间语义和长时序时间上下文,而不会超出常用LLM的令牌预算
    AI
  • 苹果推出一个名为SlowFast-LLaVA(简称SF-LLaVA)的新方法,它是一种无需训练的视频大语言模型(LLM)。SF-LLaVA能够同时捕捉视频的细节空间语义和长时序时间上下文,而不会超出常用LLM的令牌预算。这种方法通过为视频LLM设计双流输入(Slow和Fast路径),有效地聚合了采样视频帧的特征。 论文... 阅读全文

    情报 测试软件惹的祸?CrowdStrike故障解析:不当更新致全球850万台Windows电脑蓝屏,公司承诺整改

  • 测试软件惹的祸?CrowdStrike故障解析:不当更新致全球850万台Windows电脑蓝屏,公司承诺整改
  • 近日,网络安全公司CrowdStrike发布了一份事故后检讨报告,揭示了一次不当软件更新引发的全球性技术故障,导致约850万台Windows电脑遭遇蓝屏死机。据报告分析,问题源头指向了该公司用于内容验证的软件,其中的错误数据在更新验证中未被识别,最终触发了系统异常。 Falcon Sensor:核心防御工具的意外失误 ... 阅读全文

    优惠 CAS:用于四足机器人的导航系统,能够使机器人穿越复杂的3D地形到达目标位置

  • CAS:用于四足机器人的导航系统,能够使机器人穿越复杂的3D地形到达目标位置
    AI
  • 上海启智研究院、 浙江大学、上海交通大学和清华大学的研究人员推出创新系统“Cross Anything System”(简称CAS),它是一个用于四足机器人的导航系统,能够使机器人穿越复杂的3D地形到达目标位置。这个系统由一个高级推理模块和一个低级控制策略组成,它们共同工作,让机器人能够自主地规划路径并适应各种地形。例... 阅读全文

    优惠 新型视频预训练方法SIGMA:通过一种特别的方式来学习视频数据的表示,以便让计算机能够更好地理解和处理视频内容

  • 新型视频预训练方法SIGMA:通过一种特别的方式来学习视频数据的表示,以便让计算机能够更好地理解和处理视频内容
    AI
  • 阿姆斯特丹大学推出一种新型的视频预训练方法,名为SIGMA(Sinkhorn-Guided Masked Video Modeling)。这个方法的核心是通过一种特别的方式来学习视频数据的表示,以便让计算机能够更好地理解和处理视频内容。SIGMA方法就像是换了一种学习方式,它让计算机学习如何把视频分成一个个小块,然后教... 阅读全文

    优惠 三维人体与物体交互F-HOI:能够理解和生成与人类与物体交互相关的精细描述

  • 三维人体与物体交互F-HOI:能够理解和生成与人类与物体交互相关的精细描述
    AI
  • 北京通用人工智能研究院和 北京大学人工智能研究院的研究人员推出新模型F-HOI,它能够理解和生成与人类与物体交互相关的精细描述。主要是三维人体与物体交互(3D Human-Object Interaction, HOI)的精细语义对齐问题。想象一下,你有一个虚拟助手,能够观察一个人在视频中如何拿起一个瑜伽垫,然后不仅能... 阅读全文

    优惠 全新基准测试工具T2V-CompBench:用于评估文本到视频(Text-to-Video, T2V)生成模型的性能

  • 全新基准测试工具T2V-CompBench:用于评估文本到视频(Text-to-Video, T2V)生成模型的性能
    AI
  • 香港大学、香港中文大学和华为诺亚方舟实验室的研究人员推出全新基准测试工具T2V-CompBench,它专门用于评估文本到视频(Text-to-Video, T2V)生成模型的性能。T2V模型需要根据这个描述生成一段视频。但T2V-CompBench不仅测试模型能否生成视频,更重要的是测试它是否能够准确地组合多个对象、属... 阅读全文

    优惠 “诊断链(CoD)”:解决了大语言模型在医疗诊断领域中可解释性的问题

  • “诊断链(CoD)”:解决了大语言模型在医疗诊断领域中可解释性的问题
    AI
  • 深圳市大数据研究院和香港中文大学(深圳)的研究人员引入“诊断链”(CoD)的概念,解决了大语言模型在医疗诊断领域中可解释性的问题。CoD将诊断过程转化为一个模仿医生思维流程的诊断链条,从而提供了一条清晰的推理路径。此外,CoD还能输出疾病确信度分布,确保决策过程的透明度。 GitHub:https://github.c... 阅读全文

    情报 《剑星》伊芙海滩瑜伽照引发玩家热议,「写真模式」或将到来

  • 《剑星》伊芙海滩瑜伽照引发玩家热议,「写真模式」或将到来
  • 今日凌晨,Shift Up在推特上发布了一张伊芙身穿连身泳衣的照片,引发玩家社区的广泛关注。照片中,伊芙在海滩上优雅地摆出了高难度的瑜伽姿势,并附文:「越来越热(Hot)了,不是吗?」这句话不仅指天气,似乎还有着更深层的意味。 玩家猜测「写真模式」即将推出 许多玩家猜测,这张照片可能是在暗示之前承诺过的「写真模式」即将... 阅读全文
    我要爆料 我的收藏 顶部
    快速登录

    自动登录 忘记密码?