大语言模型

优惠 改善大语言模型在处理长文本输入时的信息利用问题,解决所谓的“中间丢失”(lost-in-the-middle)挑战

  • 改善大语言模型在处理长文本输入时的信息利用问题,解决所谓的“中间丢失”(lost-in-the-middle)挑战
    AI
  • 来自西安交通大学、微软和北京大学的研究人员发布关于如何改善大语言模型(LLMs)在处理长文本输入时的信息利用问题的论文,特别是解决所谓的“中间丢失”(lost-in-the-middle)挑战。这个问题指的是模型在处理长文本时,往往不能充分利用文本中间部分的信息。 例如: 假设我们有一个包含数千句子的长文档,我们需要模... 阅读全文

    优惠 新技术SnapKV:解决大语言模型在处理长文本输入时遇到的性能和内存效率问题

  • 新技术SnapKV:解决大语言模型在处理长文本输入时遇到的性能和内存效率问题
    AI
  • 伊利诺伊大学厄巴纳-香槟分校、Cohere 和普林斯顿大学的研究人员推出新技术SnapKV,,它是为了解决大语言模型(LLMs)在处理长文本输入时遇到的性能和内存效率问题。大型语言模型在生成文本时,会使用一种名为“键值(KV)缓存”的技术来提高性能,但随着输入长度的增加,KV缓存的大小也会增长,这会导致内存和时间效率问... 阅读全文

    优惠 压缩能力和智能之间的关系:一个语言模型能够以更少的比特无损地压缩文本,这是否意味着它具有更高的智能?

  • 压缩能力和智能之间的关系:一个语言模型能够以更少的比特无损地压缩文本,这是否意味着它具有更高的智能?
    AI
  • 香港科技大学和腾讯的研究人员发布论文探讨了压缩能力和智能之间的关系。作者提出了一个问题:如果一个语言模型能够以更少的比特无损地压缩文本,这是否意味着它具有更高的智能?为了回答这个问题,论文对大语言模型(LLMs)进行了实证研究,将这些模型视为数据压缩器,并评估了它们在不同基准测试中的表现。 主要功能和特点: 智能与压缩... 阅读全文

    优惠 大型预训练语言模型(如Llama2、GPT-4、Claude 3等)在没有经过额外训练或梯度更新的情况下,仅通过上下文示例进行线性和非线性回归任务的能力

  • 大型预训练语言模型(如Llama2、GPT-4、Claude 3等)在没有经过额外训练或梯度更新的情况下,仅通过上下文示例进行线性和非线性回归任务的能力
    AI
  • 来自亚利桑那大学和克卢日·纳波卡技术大学的研究人员发布论文探讨了大型预训练语言模型(如Llama2、GPT-4、Claude 3等)在没有经过额外训练或梯度更新的情况下,仅通过上下文示例进行线性和非线性回归任务的能力。简单来说,就是研究这些智能模型是否能通过观察一些例子,就能学会预测或估计某些数值。 例如,假设我们有一... 阅读全文

    优惠 LLoCO:旨在解决大语言模型处理长文本时遇到的挑战

  • LLoCO:旨在解决大语言模型处理长文本时遇到的挑战
    AI
  • 加州大学伯克利分校的研究人员推出新技术LLoCO(Learning Long Contexts Offline),旨在解决大语言模型(LLMs)处理长文本时遇到的挑战。由于自注意力机制的计算和内存开销随序列长度增加而呈二次方增长,以及生成过程中庞大的键值(KV)缓存大小,处理长文本对LLMs来说一直是个难题。 主要功能... 阅读全文

    优惠 了如何将原本设计用于大语言模型的解码器结构,适配到计算机视觉领域

  • 了如何将原本设计用于大语言模型的解码器结构,适配到计算机视觉领域
    AI
  • 来自香港大学、上海人工智能实验室和清华大学深圳国际研究生院的研究人员发布论文探讨了如何将原本设计用于大型语言模型(LLMs)的解码器(Decoder)结构,如LLaMA,适配到计算机视觉领域。想象一下,你有一个能够理解文字的智能系统,现在研究者们想要让这个系统不仅能读懂文字,还能“看懂”图片。这就是他们尝试将LLaMA... 阅读全文

    优惠 MuPT:专门用于生成符号音乐的大语言模型

  • MuPT:专门用于生成符号音乐的大语言模型
  • 这篇论文介绍了一个名为MuPT(Music Pretrained Transformer)的模型,它是一个专门用于生成符号音乐的大型语言模型。符号音乐是指用特定的符号系统(如ABC记谱法)来表示的音乐,这种表示方法更接近于人类阅读和理解音乐的方式。 项目主页:https://map-mupt.github.io 模型地... 阅读全文

    优惠 SambaLingo:针对大语言模型进行多语言适应性调整的研究项目

  • SambaLingo:针对大语言模型进行多语言适应性调整的研究项目
    AI
  • 这篇论文的主题是“SambaLingo”,这是一个针对大型语言模型(LLMs)进行多语言适应性调整的研究项目。简单来说,SambaLingo的目标是让大型语言模型能够理解和生成更多不同语言的文本,弥补目前LLMs在多种语言能力上的差距。例如,如果我们要为一个以英语为中心的模型添加对阿拉伯语的支持,SambaLingo的... 阅读全文

    优惠 大语言模型在处理表格数据时的记忆力和学习能力

  • 大语言模型在处理表格数据时的记忆力和学习能力
    AI
  • 图宾根大学图宾根人工智能中心和微软搜索团队发布论文探讨大语言模型(Large Language Models,简称LLMs)在处理表格数据时的记忆力和学习能力。用通俗的语言来说,就像是研究一个学习了很多知识的智能助手,当它遇到新的或之前学过的问题时,它是如何回忆和应用这些知识的。 主要功能和特点: 记忆力测试: 研究者... 阅读全文

    优惠 如何利用大语言模型来提升人们的社交技能

  • 如何利用大语言模型来提升人们的社交技能
    AI
  • 来自斯坦福大学和乔治亚理工学院发布论文探讨如何利用大语言模型(LLMs)来提升人们的社交技能。社交技能,比如解决冲突的能力,对于我们在工作和生活中有效沟通和成功至关重要。但是,大多数人很难找到练习这些技能的环境。论文提出了一个解决方案,通过一个名为“AI伙伴”和“AI导师”的框架,结合体验式学习和实时反馈,来帮助人们提... 阅读全文

    优惠 评估框架CodeEditorBench:专门设计用来测试和评估大语言模型在代码编辑任务上的表现

  • 评估框架CodeEditorBench:专门设计用来测试和评估大语言模型在代码编辑任务上的表现
    AI
  • 研究团队推出评估框架CodeEditorBench,它专门设计用来测试和评估大型语言模型(LLMs)在代码编辑任务上的表现。想象一下,你有一个智能的编程助手,它可以帮你调试代码中的错误、将代码从一种编程语言翻译成另一种、优化代码性能,甚至根据新的需求来调整代码功能。CodeEditorBench就是这样一个平台,它可以... 阅读全文

    优惠 对大语言模型和多模态大语言模型进行所谓的“越狱攻击”(jailbreak attacks)的安全性评估

  • 对大语言模型和多模态大语言模型进行所谓的“越狱攻击”(jailbreak attacks)的安全性评估
    AI
  • 这篇论文的主题是关于对大型语言模型(LLMs)和多模态大型语言模型(MLLMs)进行所谓的“越狱攻击”(jailbreak attacks)的安全性评估。想象一下,你有一个非常听话的机器人,你告诉它做什么它就会做什么,但是这个机器人有一些内置的安全规则,防止它做出有害的行为。然而,有些人可能会尝试欺骗这个机器人,让它做... 阅读全文