AI

优惠 开放基础模型(Open Foundation Models)对社会的影响

  • 开放基础模型(Open Foundation Models)对社会的影响
    AI
  • 这篇论文的主题是探讨开放基础模型(Open Foundation Models)对社会的影响。基础模型是一种强大的人工智能技术,它们在现代AI生态系统中扮演着核心角色,推动了技术的快速发展、部署和应用。开放基础模型特指那些模 ...... 阅读全文

    优惠 大语言模型(LLMs)的持续预训练策略

  • 大语言模型(LLMs)的持续预训练策略
    AI
  • 这篇论文探讨了大语言模型(LLMs)的持续预训练策略。大语言模型是人工智能领域的一个重要组成部分,它们通过学习大量文本数据来理解和生成人类语言。例如,当你使用智能助手或搜索引擎时,背后的技术可能就是一个语 ...... 阅读全文

    优惠 在训练和评估语言模型时,规模法则(scaling laws)的可靠性和实用性

  • 在训练和评估语言模型时,规模法则(scaling laws)的可靠性和实用性
    AI
  • 这篇论文探讨了在训练和评估语言模型时,规模法则(scaling laws)的可靠性和实用性。语言模型是人工智能中的一个关键组成部分,它们能够理解和生成人类语言。例如,当你使用智能助手进行对话时,背后就是一个语言模 ...... 阅读全文

    优惠 苹果推出多模态大语言模型MM1

  • 苹果推出多模态大语言模型MM1
    AI
  • 苹果推出多模态大语言模型MM1,这是一个结合了图像和文本处理能力的AI模型。MM1通过在大规模的图像-文本数据上进行预训练,学会了理解和生成与图像相关的文本,例如图像描述、回答关于图像的问题等。 主要功能和特点 ...... 阅读全文

    优惠 多模态框架VisionGPT-3D:提升三维视觉理解的能力

  • 多模态框架VisionGPT-3D:提升三维视觉理解的能力
    AI
  • 多模态框架VisionGPT-3D,它旨在提升三维视觉理解的能力。VisionGPT-3D通过整合现有的最佳视觉模型,自动化选择适合的算法,从而将二维图像转换为三维表示,这在计算机视觉领域是一个创新的尝试。 主要功能和特点: ...... 阅读全文

    优惠 Hugging Face推出数据集WebSight和基于视觉-语言模型的系统Sightseer:它们旨在自动化网页截图到HTML代码的转换过程

  • Hugging Face推出数据集WebSight和基于视觉-语言模型的系统Sightseer:它们旨在自动化网页截图到HTML代码的转换过程
    AI
  • Hugging Face推出数据集WebSight和一个基于视觉-语言模型(VLM)的系统Sightseer,它们旨在自动化网页截图到HTML代码的转换过程。这项技术对于网页开发者来说非常有价值,因为它可以极大地提高开发效率,尤其是在无 ...... 阅读全文

    优惠 视觉状态空间模型LocalMamba:为了提高计算机视觉任务的性能而设计

  • 视觉状态空间模型LocalMamba:为了提高计算机视觉任务的性能而设计
    AI
  • 来自悉尼大学工程学院计算机科学学院、商汤科技研究院、中国科学技术大学的研究团队推出视觉状态空间模型(Visual State Space Model)LocalMamba,它是为了提高计算机视觉任务的性能而设计的。LocalMamba的核心思想 ...... 阅读全文

    优惠 基于新型的架构状态空间模型(SSM)开发的视频理解工具套件Video Mamba Suite

  • 基于新型的架构状态空间模型(SSM)开发的视频理解工具套件Video Mamba Suite
    AI
  • 来自南京大学、上海人工智能实验室OpenGVLab、复旦大学和浙江大学推出视频理解工具套件Video Mamba Suite,它是基于一种新型的架构——状态空间模型(State Space Model,简称SSM)开发的。这个套件旨在提高计算机对视 ...... 阅读全文

    优惠 SuperAGI推出新型多模态模型Veagle:如何将语言和视觉信息结合起来,以便更好地理解和处理包含文本的图像

  • SuperAGI推出新型多模态模型Veagle:如何将语言和视觉信息结合起来,以便更好地理解和处理包含文本的图像
    AI
  • SuperAGI推出新型多模态模型Veagle,它专注于如何将语言和视觉信息结合起来,以便更好地理解和处理包含文本的图像。在现实世界中,我们经常遇到包含文本的图像,比如路标、菜单或者商品包装,理解和解释这些图像中的 ...... 阅读全文

    优惠 新型高分辨率多模态感知模型Griffon v2:在提高大型视觉语言模型(LVLMs)在处理高分辨率图像时的性能,特别是在复杂和密集场景中对细粒度对象的识别和定位

  • 新型高分辨率多模态感知模型Griffon v2:在提高大型视觉语言模型(LVLMs)在处理高分辨率图像时的性能,特别是在复杂和密集场景中对细粒度对象的识别和定位
    AI
  • 来自中国科学院自动化研究所基础模型研究中心、中国科学院大学人工智能学院、鹏城实验室和武汉人工智能研究院的研究团队推出新型高分辨率多模态感知模型Griffon v2,这个模型旨在提高大型视觉语言模型(LVLMs)在处 ...... 阅读全文

    优惠 新型分布式注意力框架BurstAttention:专门设计来处理极长序列的数据

  • 新型分布式注意力框架BurstAttention:专门设计来处理极长序列的数据
    AI
  • 这篇论文介绍了一个名为BurstAttention的新型分布式注意力框架,它专门设计来处理极长序列的数据。在大语言模型(LLMs)中,注意力模块是理解复杂文本和生成响应的关键部分,但是随着序列长度的增加,这些模块在计算 ...... 阅读全文

    优惠 新型视觉模型GiT:通过一个通用的语言接口来处理各种视觉任务,从而实现一个视觉领域的通用模型

  • 新型视觉模型GiT:通过一个通用的语言接口来处理各种视觉任务,从而实现一个视觉领域的通用模型
    AI
  • 来自北京大学、马克斯·普朗克信息学研究所、香港中文大学(深圳)、苏黎世联邦理工学院、香港中文大学的研究团队推出新型视觉模型GiT(Generalist Vision Transformer),它的目标是通过一个通用的语言接口来处理各 ...... 阅读全文