推荐类别

栏目分类

优惠 智谱AI发布论文介绍了大语言模型家族ChatGLM:由GLM-130B发展到GLM-4系列,包括GLM-4、GLM-4-Air和GLM-4-9B

  • 智谱AI发布论文介绍了大语言模型家族ChatGLM:由GLM-130B发展到GLM-4系列,包括GLM-4、GLM-4-Air和GLM-4-9B
    AI
  • 智谱AI发布论文介绍了大语言模型家族ChatGLM,这些模型由GLM-130B发展到GLM-4系列,包括GLM-4、GLM-4-Air和GLM-4-9B。这些模型代表了该家族中最强大的版本,它们结合了之前几代ChatGLM的经验和技术。总的来说,ChatGLM是一个多功能、高性能的大型语言模型,它通过不断学习和适应,能... 阅读全文

    优惠 新型视觉压缩技术VoCo-LLaMA:专门为视觉-语言模型设计

  • 新型视觉压缩技术VoCo-LLaMA:专门为视觉-语言模型设计
    AI
  • 清华大学、腾讯 PCG ARC 实验室和加州大学圣克鲁斯分校的研究人员推出新型视觉压缩技术VoCo-LLaMA,这项技术是专门为视觉-语言模型(Vision-Language Models,简称VLMs)设计的,目的是解决这些模型在处理高分辨率图像输入和视频时遇到的两个主要问题:有限的上下文窗口和高昂的计算成本。 项目... 阅读全文

    优惠 日本大学开发在线AI 应用「CatsMe!」: 猫咪表情分析,关爱宠物健康

  • 日本大学开发在线AI 应用「CatsMe!」: 猫咪表情分析,关爱宠物健康
    AI
  • 对于爱猫人士来说,最令人心痛的莫过于看到自家猫咪精神不振、病态明显。由于猫咪天生忍耐力强,病情往往在严重时才被发现,错过了最佳治疗时机。现在,日本大学农兽医学部的科研人员开发的「CatsMe!」,一个利用AI技术分析猫咪表情的网页程序,可以帮助猫主人更早发现爱宠的不适。 「CatsMe!」如何工作? AI表情分析:通过... 阅读全文

    优惠 开源macOS应用「noTunes」:阻止 Apple Music、iTunes 自动启动

  • 开源macOS应用「noTunes」:阻止 Apple Music、iTunes 自动启动
    工具
  • 「noTunes」是一个开源的macOS应用,它提供了一项简单却非常实用的功能:在后台运行,阻止iTunes或Apple Music的自动启动。这对于经常遇到音乐应用不定时自动打开问题的用户来说,是一个有效的解决方案。 主要功能: 阻止自动启动:自动阻止iTunes或Apple Music的启动,减少干扰。 自定义替代... 阅读全文

    优惠 4Real:从文本提示生成接近照片级逼真度的四维场景(4D场景)的生成框架

  • 4Real:从文本提示生成接近照片级逼真度的四维场景(4D场景)的生成框架
    AI
  • Snap和卡内基梅隆大学的研究人员推出4Real系统,它是一个能够从文本提示生成接近照片级逼真度的四维场景(4D场景)的生成框架。四维在这里指的是包括时间维度的三维动态场景。4Real利用了视频扩散模型(video diffusion models)和可变形的三维高斯Splats(Deformable 3D Gauss... 阅读全文

    优惠 全新自动化优化方法TEXTGRAD:专门为复杂的人工智能(AI)系统设计

  • 全新自动化优化方法TEXTGRAD:专门为复杂的人工智能(AI)系统设计
    AI
  • 斯坦福大学推出TEXTGRAD框架,它是一种全新的自动化优化方法,专门为复杂的人工智能(AI)系统设计。例如,有一个非常聪明的助手,它能够理解你给出的指令,然后用自然语言给你反馈,告诉你如何改进你的工作或解决问题。TEXTGRAD就是这样一个助手,但它服务的对象是AI系统。TEXTGRAD可以通过分析问题和当前的解答,... 阅读全文

    优惠 新型世界模型Pandora:通过生成视频来模拟未来世界的状态,并且可以接受自然语言的动作指令进行实时控制

  • 新型世界模型Pandora:通过生成视频来模拟未来世界的状态,并且可以接受自然语言的动作指令进行实时控制
    AI
  • Maitrix.org、加州大学圣地亚哥分校、MBZUAI的研究人员推出新型世界模型Pandora,它能够通过生成视频来模拟未来世界的状态,并且可以接受自然语言的动作指令进行实时控制。简单来说,Pandora就像是一个高级的虚拟助手,它可以观看视频(理解世界当前的状态),听懂你的自然语言指令(比如“汽车左转”或“添加一... 阅读全文

    优惠 一种基于L2范数的简单而有效的策略,用于压缩大语言模型中的键值(KV)缓存

  • 一种基于L2范数的简单而有效的策略,用于压缩大语言模型中的键值(KV)缓存
    AI
  • 罗马大学和爱丁堡大学发布论文,提出了一种基于L2范数的简单而有效的策略,用于压缩大型语言模型(LLMs)中的键值(KV)缓存。在大型语言模型处理长文本时,KV缓存是一个关键组件,它保存了之前token的键和值,以避免在生成过程中重新计算它们。然而,随着上下文长度的增加,KV缓存的内存需求也会增加,这限制了模型的部署和效... 阅读全文

    优惠 适用于多种类型文档的新型信息检索范式“文档截图嵌入(DSE)”

  • 适用于多种类型文档的新型信息检索范式“文档截图嵌入(DSE)”
    AI
  • 滑铁卢大学推出新型信息检索范式“文档截图嵌入”(Document Screenshot Embedding,简称DSE),DSE在实验中表现出与传统文本检索方法(如BM25)相比更高的检索准确性,并且在混合模态任务中也显示出其有效性。这表明DSE是一个有效的文档检索范式,适用于多种类型的文档。 例如,你正在寻找某个文档... 阅读全文

    优惠 MAGPIE:从大语言模型中合成高质量的指令数据

  • MAGPIE:从大语言模型中合成高质量的指令数据
    AI
  • 华盛顿大学和艾伦人工智能研究所的研究人员推出新型方法MAGPIE,它能够从大语言模型中合成高质量的指令数据。例如,你有一个非常聪明的助手,但它需要一些具体的指令来完成特定的任务。MAGPIE就像是一个能够教这个助手如何更好地理解并执行任务的系统。你想让一个语言模型学会如何回答有关健康饮食的问题。使用MAGPIE,你可以... 阅读全文

    优惠 新型基准测试MMWorld:为了全面评估多模态大语言模型在视频理解方面的能力而设计

  • 新型基准测试MMWorld:为了全面评估多模态大语言模型在视频理解方面的能力而设计
    AI
  • 新型基准测试MMWorld,它是为了全面评估多模态大语言模型(MLLMs)在视频理解方面的能力而设计的。MLLMs是一类能够处理和理解图像、文本和视频等多种模态输入的人工智能模型。MMWorld通过提供丰富的视频内容和相关问题,挑战模型在解释、反事实思考、未来预测和领域专业知识等方面的多方面推理能力。 项目主页:htt... 阅读全文

    优惠 视频大语言模型VideoLLaMA 2:为了提升视频和音频导向任务中的空间-时间建模和音频理解能力而设计

  • 视频大语言模型VideoLLaMA 2:为了提升视频和音频导向任务中的空间-时间建模和音频理解能力而设计
    AI
  • 阿里巴巴集团达摩院推出视频大语言模型VideoLLaMA 2,它是为了提升视频和音频导向任务中的空间-时间建模和音频理解能力而设计的。例如,你想让一个人工智能系统观看一段视频并回答有关视频内容的问题,或者描述视频中的场景,这就需要模型能够理解视频中的运动、物体以及它们随时间的变化,同时还得理解视频中的音频信息。Vide... 阅读全文
    我要爆料 我的收藏 顶部
    快速登录

    自动登录 忘记密码?