AI

优惠 视觉字幕恢复VCR:挑战现有的视觉-语言模型,以准确恢复图像中部分被遮挡的文本

  • 视觉字幕恢复VCR:挑战现有的视觉-语言模型,以准确恢复图像中部分被遮挡的文本
    AI
  • 魁北克 Mila 人工智能研究所、ServiceNow Research、蒙特利尔大学、宾夕法尼亚大学、滑铁卢大学和香港科技大学的研究人员推出新任务Visual Caption Restoration(VCR,视觉字幕恢复),它挑战现有的视觉-语言模型, ...... 阅读全文

    优惠 字节跳动推出增强语言模型Mistral-C2F:增强小规模语言模型在对话和分析推理方面的能力

  • 字节跳动推出增强语言模型Mistral-C2F:增强小规模语言模型在对话和分析推理方面的能力
    AI
  • 字节跳动推出一种新型的大语言模型(LLM)——Mistral-C2F,它是为了增强小规模语言模型在对话和分析推理方面的能力的。想象一下,如果你有一个智能助手,它可以帮你写邮件、回答问题,甚至帮你分析复杂问题,但有时候 ...... 阅读全文

    优惠 英伟达发布的Nemotron-4 340B系列模型家族

  • 英伟达发布的Nemotron-4 340B系列模型家族
    AI
  • 英伟达发布的Nemotron-4 340B系列模型家族,包括Nemotron-4-340B-Base、Nemotron-4-340B-Instruct和Nemotron-4-340B-Reward。这些模型在多种任务上展现出了强大的性能,并且可以在单个DGX H100系统上的8个GPU中以FP8 ...... 阅读全文

    优惠 英伟达推出开源数据集HelpSteer2:为了训练能够指导大语言模型(LLMs)生成符合人类偏好的高质量回应的奖励模型而设计

  • 英伟达推出开源数据集HelpSteer2:为了训练能够指导大语言模型(LLMs)生成符合人类偏好的高质量回应的奖励模型而设计
    AI
  • 英伟达推出开源数据集HelpSteer2,它是为了训练能够指导大语言模型(LLMs)生成符合人类偏好的高质量回应的奖励模型而设计的。HelpSteer2数据集的特点是它包含了对回应的多属性评分,这有助于训练出能够更好地符合人 ...... 阅读全文

    优惠 能量基世界模型EBWM:受人类认知启发的机器学习模型,旨在改善现有世界模型在模拟人类预测和规划能力方面的不足

  • 能量基世界模型EBWM:受人类认知启发的机器学习模型,旨在改善现有世界模型在模拟人类预测和规划能力方面的不足
    AI
  • 弗吉尼亚大学、斯坦福大学和亚马逊的研究人员提出了一种新型的“能量基世界模型”(Energy-Based World Models,简称EBWM),这是一种受人类认知启发的机器学习模型,旨在改善现有世界模型在模拟人类预测和规划能力方 ...... 阅读全文

    优惠 PiT:更细致地理解图像内容,而不是依赖于局部区域的信息

  • PiT:更细致地理解图像内容,而不是依赖于局部区域的信息
    AI
  • Meta AI和阿姆斯特丹大学的研究人员发布论文,论文的核心主题是对现代计算机视觉架构中一个长期存在的假设——局部性(locality)的必要性提出质疑。局部性是指在图像处理中,相邻像素之间的关联性比相隔较远的像素要 ...... 阅读全文

    优惠 开源视觉-语言-动作模型OpenVLA:多才多艺的机器人大脑,它能够理解人类的语言指令

  • 开源视觉-语言-动作模型OpenVLA:多才多艺的机器人大脑,它能够理解人类的语言指令
    AI
  • 斯坦福大学、加州大学伯克利分校、丰田研究院、Google DeepMind和麻省理工学院推出OpenVLA,它是一个拥有7亿参数的视-语-行模型(Vision-Language-Action Model,简称VLA)。简单来说,OpenVLA就像是一个多才多艺的 ...... 阅读全文

    优惠 偏好优化算法DiscoPOP:用于改善和控制大型语言模型输出的质量,使其更好地符合人类的价值观和偏好

  • 偏好优化算法DiscoPOP:用于改善和控制大型语言模型输出的质量,使其更好地符合人类的价值观和偏好
    AI
  • Sakana AI 与 剑桥大学、牛津大学的研究人员推出DiscoPOP,如何使用大语言模型来自动发现和优化偏好优化算法。偏好优化算法主要用于改善和控制大型语言模型输出的质量,使其更好地符合人类的价值观和偏好。例如,我 ...... 阅读全文

    优惠 数据集Recap-DataComp:使用LLaMA-3重新描述网络上的数十亿图像

  • 数据集Recap-DataComp:使用LLaMA-3重新描述网络上的数十亿图像
    AI
  • 加州大学圣克鲁斯分校、爱丁堡大学、 JHU、 Adob​​e、和UT 奥斯汀的研究人员发布论文,论文的主题是关于如何使用一个名为LLaMA-3的先进语言模型来重新描述(recaption)网络上的数十亿图像,目的是改善图像与其文字 ...... 阅读全文

    优惠 能够理解多种信息形式(比如文本、图像、视频、声音等)的全能型人工智能模型MiCo

  • 能够理解多种信息形式(比如文本、图像、视频、声音等)的全能型人工智能模型MiCo
    AI
  • 香港中文大学多媒体实验室、中国科学院大学人工智能学院、中国科学院自动化研究所和上海人工智能实验室的研究人员推出全能型人工智能模型MiCo,这是一种能够理解多种信息形式(比如文本、图像、视频、声音等)的全能 ...... 阅读全文

    优惠 综合性基准测试工具CS-Bench:专门设计用来评估大语言模型在计算机科学(CS)领域的性能

  • 综合性基准测试工具CS-Bench:专门设计用来评估大语言模型在计算机科学(CS)领域的性能
    AI
  • 北京邮电大学推出综合性基准测试工具CS-Bench,它专门设计用来评估大语言模型(LLMs)在计算机科学(CS)领域的性能。CS-Bench是首个中英双语的计算机科学评估基准,旨在全面考察LLMs在计算机科学各个方面的知识和推 ...... 阅读全文

    优惠 Visual SKETCHPAD:赋予了多模态语言模型一种新的可视化工具——素描板,以及在素描板上绘图的能力

  • Visual SKETCHPAD:赋予了多模态语言模型一种新的可视化工具——素描板,以及在素描板上绘图的能力
    AI
  • 华盛顿大学、艾伦人工智能研究所和 宾夕法尼亚大学的研究人员推出Visual SKETCHPAD,它赋予了多模态语言模型(LMs)一种新的可视化工具——素描板,以及在素描板上绘图的能力。这就像给计算机一个可以在上面画草图的画 ...... 阅读全文