推荐类别

栏目分类

优惠 3D模型生成RealmDreamer:根据文本描述生成三维场景

  • 3D模型生成RealmDreamer:根据文本描述生成三维场景
    AI
  • 加州大学圣地亚哥分校和宾夕法尼亚大学的研究人员推出RealmDreamer,它能够根据文本描述生成三维场景。想象一下,如果你给RealmDreamer一个描述,比如“一个有着瀑布的幽静森林”,它就能创建出一个你可以从多个角度观察的3D模型的森林场景。 主要功能和特点: 文本驱动的3D场景生成: RealmDreamer... 阅读全文

    优惠 新基准测试RULER:更全面地评估长上下文语言模型的性能

  • 新基准测试RULER:更全面地评估长上下文语言模型的性能
    AI
  • 英伟达推出新基准测试RULER,它旨在更全面地评估长上下文语言模型(Long-Context LMs)的性能。想象一下,你有一个超级聪明的助手,它可以阅读和理解非常长的文本,比如整本书或大量的文章,并且能够记住所有的细节,以便在需要时找到特定的信息。这就是长上下文语言模型尝试做的事情,而RULER就是用来测试这些模型是... 阅读全文

    优惠 了如何将原本设计用于大语言模型的解码器结构,适配到计算机视觉领域

  • 了如何将原本设计用于大语言模型的解码器结构,适配到计算机视觉领域
    AI
  • 来自香港大学、上海人工智能实验室和清华大学深圳国际研究生院的研究人员发布论文探讨了如何将原本设计用于大型语言模型(LLMs)的解码器(Decoder)结构,如LLaMA,适配到计算机视觉领域。想象一下,你有一个能够理解文字的智能系统,现在研究者们想要让这个系统不仅能读懂文字,还能“看懂”图片。这就是他们尝试将LLaMA... 阅读全文

    优惠 新型视觉-语言模型BRAVE:扩展和增强VLM在处理图像和语言任务时的视觉编码能力

  • 新型视觉-语言模型BRAVE:扩展和增强VLM在处理图像和语言任务时的视觉编码能力
    AI
  • 谷歌和洛桑瑞士联邦理工学院推出新型视觉-语言模型BRAVE,它的核心目标是扩展和增强VLM在处理图像和语言任务时的视觉编码能力。想象一下,如果你给BRAVE一个描述,比如“一只蝴蝶停在花上”,它不仅能够理解这个描述,还能从成千上万的图片中找到与描述最匹配的图像,甚至在没有明确指示的情况下回答关于图像的问题,例如回答“蝴... 阅读全文

    优惠 创新框架DreamScene360:根据文本提示生成360度全景的3D场景

  • 创新框架DreamScene360:根据文本提示生成360度全景的3D场景
    AI
  • 加州大学洛杉矶分校、德克萨斯大学奥斯汀分校和DEVCOM ARL的研究人员推出创新框架DreamScene360,它能够根据文本提示生成360度全景的3D场景。例如,如果你只需要描述一个场景,比如“一个有瀑布的优胜美地国家公园”,DreamScene360就能够创建出一个全方位的、可以自由探索的3D环境。这就是它的神奇... 阅读全文

    优惠 网易云音乐庆《魔兽世界》回归,送随机天数黑胶会员

  • 网易云音乐庆《魔兽世界》回归,送随机天数黑胶会员
    工具
  • 网易与暴雪在游戏上的纷争终于落幕,两家握手言和,这倒是让之前很多站网易而大喷特喷暴雪的网友们有些尴尬了,不过两家玩这么一出,肯定伤了不少玩家的心。这不网易也开始各种做活动开始拉玩家,旗下的网易云音乐还特地做了活动页面: 活动地址:https://y.music.163.com/g/yida/ce9c7deb55234c... 阅读全文

    优惠 Suno的竞争对手出现了!前谷歌 DeepMind创立的Udio正式上线,免费用户每月可以生成1200首歌

  • Suno的竞争对手出现了!前谷歌 DeepMind创立的Udio正式上线,免费用户每月可以生成1200首歌
    AI
  • Suno的竞争对手出现了!由前谷歌 DeepMind 的领先 AI 研究员和工程师创立的Udio正式上线,目前处于免费测试阶段,用户每月可以生成1200首歌。相比Suno,Udio生成的歌曲时长更长,人声更加优质,偏向于模仿真实的歌手。不过目前由于使用人数过多,网站处于报错状态,大家可以明后天再进行测试。 官方介绍: ... 阅读全文

    优惠 MA-LMM:更有效地理解长期视频内容而设计的记忆增强型大型多模态模型

  • MA-LMM:更有效地理解长期视频内容而设计的记忆增强型大型多模态模型
    AI
  • Meta推出MA-LMM,它是一个为了更有效地理解长期视频内容而设计的记忆增强型大型多模态模型。与传统的视频理解模型不同,MA-LMM采用了一种在线处理视频帧的方式,并使用一个记忆库来存储过去的视频信息。这样,即使视频非常长,模型也能够引用历史视频内容进行长期分析,而不会超出大型语言模型(LLMs)的上下文长度限制或G... 阅读全文

    优惠 苹果推出Ferret-UI:专门为理解和交互移动用户界面(UI)屏幕而设计的多模态大语言模型

  • 苹果推出Ferret-UI:专门为理解和交互移动用户界面(UI)屏幕而设计的多模态大语言模型
    AI
  • 苹果推出Ferret-UI,它是一种专门为理解和交互移动用户界面(UI)屏幕而设计的多模态大语言模型(MLLM)。Ferret-UI旨在提高对移动UI屏幕的理解能力,具备引用、定位和推理等能力。与一般领域的MLLM相比,这些模型在理解和与UI屏幕有效交互方面往往存在不足。例如,如果用户想要在手机上预订餐厅,Ferret... 阅读全文

    优惠 针对长视频理解的视频-大语言模型Koala:帮助模型理解长达数分钟的视频内容,并能够回答关于视频的问题

  • 针对长视频理解的视频-大语言模型Koala:帮助模型理解长达数分钟的视频内容,并能够回答关于视频的问题
    AI
  • 来自波士顿大学、中国电子科技大学和Adobe Research的研究人员推出Koala,它是一种针对长视频理解的视频-大语言模型(Video-Large Language Model,简称vLLM)。Koala的目标是帮助模型理解长达数分钟的视频内容,并能够回答关于视频的问题。这在技术上是一个挑战,因为长视频涉及识别一... 阅读全文

    优惠 基于文本编辑NeRF(神经辐射场)场景DATENeRF:从2D图像中重建3D场景

  • 基于文本编辑NeRF(神经辐射场)场景DATENeRF:从2D图像中重建3D场景
    AI
  • Adob​​e推出DATENeRF,它用于基于文本编辑NeRF(神经辐射场)场景。NeRF是一种可以创建和渲染3D环境的技术,它通过从2D图像中重建场景的3D表示来实现。DATENeRF的关键特点是它能够利用场景的深度信息来指导基于文本的图像编辑,从而在保持视角一致性的同时,实现更真实和详细的编辑结果。 例如,如果你有... 阅读全文

    优惠 MuPT:专门用于生成符号音乐的大语言模型

  • MuPT:专门用于生成符号音乐的大语言模型
  • 这篇论文介绍了一个名为MuPT(Music Pretrained Transformer)的模型,它是一个专门用于生成符号音乐的大型语言模型。符号音乐是指用特定的符号系统(如ABC记谱法)来表示的音乐,这种表示方法更接近于人类阅读和理解音乐的方式。 项目主页:https://map-mupt.github.io 模型地... 阅读全文
    我要爆料 我的收藏 顶部
    快速登录

    自动登录 忘记密码?