推荐类别

栏目分类

优惠 大规模数据集3D-GRAND:为了提升三维语言模型的理解和减少幻觉而设计

  • 大规模数据集3D-GRAND:为了提升三维语言模型的理解和减少幻觉而设计
    AI
  • 密歇根大学和 纽约大学的研究人员推出大规模数据集3D-GRAND,它是为了提升三维语言模型(3D-LLMs)的理解和减少幻觉(hallucination,即模型错误地生成不存在的对象或信息)而设计的。例如,你有一个智能助手,它能够理解你关于房间中物品的描述,并据此回答问题或执行任务,但如果没有足够的信息,它可能会“想象... 阅读全文

    优惠 视频编辑框架NaRCan:能够生成高质量的自然规范图像,以代表输入视频

  • 视频编辑框架NaRCan:能够生成高质量的自然规范图像,以代表输入视频
    AI
  • 阳明交通大学推出视频编辑框架NaRCan,它能够生成高质量的自然规范图像(canonical images),以代表输入视频。这些规范图像非常适合用于各种视频编辑任务,比如风格转换、动态分割和手写等。NaRCan在多个视频编辑任务中的性能超越了现有的方法,并且在保持高自然性和高质量图像的同时,显著减少了训练时间。此外,... 阅读全文

    优惠 新型二维状态空间模型Chimera:专门用于有效建模多变量时间序列数据

  • 新型二维状态空间模型Chimera:专门用于有效建模多变量时间序列数据
    AI
  • 康奈尔大学计算机科学系和纽约大学格罗斯曼医学院的研究人员推出新型二维状态空间模型Chimera,它专门用于有效建模多变量时间序列数据。这类数据广泛存在于医疗保健、金融市场、能源管理等领域。例如,你是一名医生,需要分析患者的心电图数据来诊断心脏状况。Chimera可以帮助你快速理解数据中的复杂模式和趋势,从而提供更准确的... 阅读全文

    优惠 新颖方法Turbo Sparse:能够在保持模型性能的同时,显著减少每次推理迭代中激活的参数数量

  • 新颖方法Turbo Sparse:能够在保持模型性能的同时,显著减少每次推理迭代中激活的参数数量
    AI
  • 上海交通大学并行与分布式系统研究所(IPADS)、清华大学计算机科学与技术系和上海人工智能实验室的研究人员推出新颖方法Turbo Sparse,能够在保持模型性能的同时,显著减少每次推理迭代中激活的参数数量。提高大型语言模型(LLMs)在推理(inference)过程中的效率,特别是针对那些参数量巨大的模型。通过使用T... 阅读全文

    优惠 PowerInfer-2:在智能手机上实现大语言模型的高速推理,特别是对于那些模型大小超出设备内存容量的情况

  • PowerInfer-2:在智能手机上实现大语言模型的高速推理,特别是对于那些模型大小超出设备内存容量的情况
    AI
  • 上海交通大学推出PowerInfer-2,它的主要目标是在智能手机上实现大语言模型(LLMs)的高速推理,特别是对于那些模型大小超出设备内存容量的情况。PowerInfer-2是第一个能够在智能手机上以每秒11.68个token的速度运行TurboSparse-Mixtral-47B模型的系统,这是一个具有47亿参数的... 阅读全文

    优惠 新型3D绘画技术Consistency2:利用潜在一致性模型来加速和改进3D模型表面的纹理绘制

  • 新型3D绘画技术Consistency2:利用潜在一致性模型来加速和改进3D模型表面的纹理绘制
    AI
  • 苏黎世联邦理工学院推出新型3D绘画技术Consistency2,这项技术的核心是利用潜在一致性模型(Latent Consistency Models, LCM)来加速和改进3D模型表面的纹理绘制。想象一下,如果你是一名3D艺术家,想要给一个3D模型快速添加纹理,就像给一个3D打印的玩具车涂上颜色一样,但这个过程是在计... 阅读全文

    优惠 ICE:解决大语言模型在知识编辑场景中的脆弱性问题

  • ICE:解决大语言模型在知识编辑场景中的脆弱性问题
    AI
  • 通用人工智能国家重点实验室 BIGAI、北京大学推出新方法“Consistent In-Context Editing”(简称ICE),旨在解决大语言模型在知识编辑场景中的脆弱性问题。在这些场景中,模型需要在不进行大量重新训练的情况下,整合新信息。传统的微调方法在这种情况下往往会导致过拟合、性能下降和不自然的语言表达。... 阅读全文

    优惠 合作游戏和数据集“PyQTax”:解决大语言模型在处理表格问答(TableQA)任务时面临的挑战

  • 合作游戏和数据集“PyQTax”:解决大语言模型在处理表格问答(TableQA)任务时面临的挑战
    AI
  • 摩根大通人工智能研究推出一个名为“HiddenTables”的合作游戏和数据集“PyQTax”,旨在解决大语言模型(LLMs)在处理表格问答(TableQA)任务时面临的挑战,同时确保数据隐私和规模化应用。例如,有一个包含员工信息的数据表,Oracle知道这个表的结构,但Solver不知道具体内容。用户问:“出生于19... 阅读全文

    优惠 专注于东南亚语言的多语言多模态数据集中心和基准测试套件SEACrowd

  • 专注于东南亚语言的多语言多模态数据集中心和基准测试套件SEACrowd
    AI
  • 多语言多模态数据集中心和基准测试套件SEACrowd,它专注于东南亚语言。东南亚是一个语言和文化极其丰富多样的地区,拥有超过1300种本土语言和约6.71亿人口。然而,现有的人工智能(AI)模型在处理这些语言时面临着数据不足的问题,这限制了AI模型在东南亚语言上的表现。例如,一个研究者想要开发一个能够理解印尼语用户评论... 阅读全文

    优惠 新型基准测试VideoGUI:专门用于评估图形用户界面(GUI)自动化助手

  • 新型基准测试VideoGUI:专门用于评估图形用户界面(GUI)自动化助手
    AI
  • 新加坡国立大学和 微软的研究人员推出新型基准测试VideoGUI,它专门用于评估图形用户界面(GUI)自动化助手。GUI自动化是指让计算机程序自动执行图形界面中的操作,比如点击按钮、输入文字、拖拽对象等,这在很多领域都有广泛的应用前景,比如提高办公效率、简化网页浏览等。 项目主页:https://showlab.git... 阅读全文

    优惠 专门用于新视角声音合成的新型模型AV-GS:根据单一音源发出的单声道音频,生成任何目标视点的双声道音频(立体声)

  • 专门用于新视角声音合成的新型模型AV-GS:根据单一音源发出的单声道音频,生成任何目标视点的双声道音频(立体声)
    AI
  • 英国萨里大学和英国伦敦帝国理工学院的研究人员推出新型模型AV-GS(Audio-Visual Gaussian Splatting),它专门用于新视角声音合成(Novel View Acoustic Synthesis, NVAS),即在三维空间中,根据单一音源发出的单声道音频,生成任何目标视点的双声道音频(立体声)。... 阅读全文

    优惠 新型多视角视频生成模型Vivid-ZOO:利用扩散模型从文本描述中生成围绕动态3D对象的多视角视频

  • 新型多视角视频生成模型Vivid-ZOO:利用扩散模型从文本描述中生成围绕动态3D对象的多视角视频
    AI
  • 阿卜杜拉国王科技大学的研究人员推出新型多视角视频生成模型Vivid-ZOO,它利用扩散模型(diffusion model)从文本描述中生成围绕动态3D对象的多视角视频。扩散模型在2D图像和视频生成方面已经取得了令人印象深刻的成果,但将这一技术应用于基于文本的多视角视频生成(Text-to-Multi-view-Vid... 阅读全文
    我要爆料 我的收藏 顶部
    快速登录

    自动登录 忘记密码?