大语言模型

优惠 大语言模型(LLMs)是否能够在处理复杂提示时潜在地执行多跳推理

  • 大语言模型(LLMs)是否能够在处理复杂提示时潜在地执行多跳推理
    AI
  • Google DeepMind 、UCL、 Google Research、特拉维夫大学的研究人员发布论文探讨了大语言模型(LLMs)是否能够在处理复杂提示时潜在地执行多跳推理。多跳推理是指模型在没有直接给出推理所需信息的情况下,能够通过存储在参数中的知识来完成推理任务。例如,当处理“‘Superstition’这首歌... 阅读全文

    优惠 通用模型StructLM:通过指令调整和大规模数据集训练,提高了大语言模型在结构化知识接地任务上的性能

  • 通用模型StructLM:通过指令调整和大规模数据集训练,提高了大语言模型在结构化知识接地任务上的性能
    AI
  • 滑铁卢大学、多模式艺术投影研究社区、 早稻田大学、香港科技大学、俄亥俄州立大学、 Harmony.ai、矢量研究所的研究人员推出通用模型StructLM,它旨在提高大语言模型(LLMs)在处理结构化数据(如表格、图形和数据库)方面的能力。尽管LLMs在处理纯文本方面表现出色,但它们在理解和利用结构化数据方面的能力仍有待... 阅读全文

    优惠 Rainbow Teaming:帮助研究人员和开发者更好地理解和改进大语言模型的鲁棒性

  • Rainbow Teaming:帮助研究人员和开发者更好地理解和改进大语言模型的鲁棒性
    AI
  • Meta、伦敦大学学院、牛津大学的研究人员发布论文介绍了一个名为Rainbow Teaming的方法,它是为了生成多样化的对抗性提示(adversarial prompts),以此来测试和增强大语言模型(LLMs)的鲁棒性。对抗性提示是指那些旨在误导模型或利用其弱点的输入,可能导致模型产生不安全、有偏见或不正确的输出。... 阅读全文

    优惠 大语言模型(LLMs)在处理不同长度输入时的表现,特别是它们在处理长文本时的推理能力

  • 大语言模型(LLMs)在处理不同长度输入时的表现,特别是它们在处理长文本时的推理能力
  • 巴伊兰大学、艾伦人工智能研究所的研究人员发布论文探讨了大语言模型(LLMs)在处理不同长度输入时的表现,特别是它们在处理长文本时的推理能力。尽管LLMs在许多任务上取得了显著进展,但它们在不同输入长度下的性能稳定性尚不清楚。为了深入了解这一点,研究者们设计了一个新的问答(QA)推理框架,专门用来评估输入长度对LLMs性... 阅读全文

    优惠 “放射性”(radioactivity)在大语言模型(LLMs)生成的文本中的表现

  • “放射性”(radioactivity)在大语言模型(LLMs)生成的文本中的表现
    AI
  • Meta、巴黎综合理工学院的研究人员发布论文探讨了一个有趣的概念,即“放射性”(radioactivity)在大语言模型(LLMs)生成的文本中的表现。这里的“放射性”指的是,当一个模型(我们称之为Alice的模型)的输出被用作另一个模型(Bob的模型)的训练数据时,Alice能否检测到这种使用。这就像是在模型训练过程... 阅读全文

    优惠 MobileLLM:如何在移动设备上高效使用大语言模型

  • MobileLLM:如何在移动设备上高效使用大语言模型
    AI
  • 这篇论文的主题是关于如何在移动设备上高效使用大语言模型(LLMs)。随着云计算成本的增加和对延迟的担忧,移动设备上的大型语言模型变得越来越重要。论文的重点是设计拥有不到十亿参数的高质量大型语言模型,这对于移动部署来说是一个实用的选择。 论文地址:https://arxiv.org/abs/2402.14905 想象一下... 阅读全文

    优惠 如何有效地从大语言模型(LLMs)中提取和压缩推理任务的关键部分

  • 如何有效地从大语言模型(LLMs)中提取和压缩推理任务的关键部分
    AI
  • 来自苹果和密歇根大学的研究人员发布论文探讨了如何有效地从大语言模型(LLMs)中提取和压缩推理任务的关键部分。作者提出了一种策略,将复杂推理任务分解为问题分解阶段和问题解决阶段,并展示了这种两阶段策略能够胜过单一阶段解决方案。他们进一步假设,与问题解决相比,问题分解更容易被蒸馏到一个更小的模型中,因为问题解决需要大量的... 阅读全文

    优惠 ChunkAttention:提高大语言模型(LLMs)在处理长序列时的自注意力(self-attention)模块的效率

  • ChunkAttention:提高大语言模型(LLMs)在处理长序列时的自注意力(self-attention)模块的效率
    AI
  • 微软发布论文介绍了一种名为ChunkAttention的新方法,它旨在提高大语言模型(LLMs)在处理长序列时的自注意力(self-attention)模块的效率。自注意力是LLMs的核心组成部分,但在推理长序列时会导致显著的延迟。ChunkAttention通过利用多个LLM请求共享系统提示(system promp... 阅读全文

    优惠 Copilot Evaluation Harness:评估大语言模型(LLMs)在软件开发环境中的编程辅助功能

  • Copilot Evaluation Harness:评估大语言模型(LLMs)在软件开发环境中的编程辅助功能
    AI
  • 微软研究人员发布论文介绍了一个名为Copilot Evaluation Harness的工具,它用于评估大语言模型(LLMs)在软件开发环境中的编程辅助功能。LLMs,如OpenAI的GPT-3.5/4和Code Llama,有潜力通过作为智能、聊天驱动的编程助手来显著提高开发者的生产力。然而,直接使用这些模型可能并不... 阅读全文

    优惠 LongRoPE:显著扩展大语言模型(LLMs)的上下文窗口,达到了2048k个标记的惊人长度

  • LongRoPE:显著扩展大语言模型(LLMs)的上下文窗口,达到了2048k个标记的惊人长度
    AI
  • 来自微软的研究人员发布论文介绍了一种名为LongRoPE的技术,它能够显著扩展大语言模型(LLMs)的上下文窗口,达到了2048k个标记的惊人长度。这是首次实现这样的扩展,同时在保持原始短上下文窗口性能的同时,只需要1k步的微调,训练长度在256k以内。这项技术通过三个关键创新实现:首先,它识别并利用了位置插值中的两种... 阅读全文

    优惠 新型解码框架Ouroboros:加速大语言模型(LLMs)的推理过程

  • 新型解码框架Ouroboros:加速大语言模型(LLMs)的推理过程
    AI
  • 这篇论文介绍了一种名为Ouroboros的新型解码框架,它旨在加速大语言模型(LLMs)的推理过程。Ouroboros通过一种称为“推测性解码”的方法,使用一个小型模型快速生成草稿,然后利用大型模型进行验证和修正,以减少时间开销。这种方法不需要对模型进行额外训练,也不会影响生成质量。 GitHub地址:https://... 阅读全文

    优惠 大语言模型(LLMs)在面对对抗性攻击时的脆弱性

  • 大语言模型(LLMs)在面对对抗性攻击时的脆弱性
    AI
  • 来自马里兰大学帕克分校的研究人员发布论文探讨了大语言模型(LLMs)在面对对抗性攻击时的脆弱性。对抗性攻击是指故意设计输入,以诱导模型产生非预期或有害的输出。论文的主要目的是扩展我们对LLMs对抗性攻击的理解,不仅仅是“越狱”(即让模型产生违反其训练目标的输出),而是包括更广泛的攻击类型和目标。 论文地址:https:... 阅读全文