大语言模型

优惠 基于多智能体协作的大语言模型(LLM)扩展方法LONGAGENT

  • 基于多智能体协作的大语言模型(LLM)扩展方法LONGAGENT
    AI
  • 来自复旦大学的研究人员推出一种基于多智能体协作的大语言模型(LLM)扩展方法LONGAGENT,LONGAGENT的目标是解决大语言模型在处理长文本时遇到的高昂训练成本和推理延迟问题。通过这种方法,大语言模型能够处理超过100k(10万个)token的长文本,这在传统的大语言模型中是一个挑战,因为它们通常在处理超过这个... 阅读全文

    优惠 Stepwise ORMs (SORMs):改进大语言模型的推理能力,通过全局和局部的精炼来提升其在数学、科学或编程等任务上的表现

  • Stepwise ORMs (SORMs):改进大语言模型的推理能力,通过全局和局部的精炼来提升其在数学、科学或编程等任务上的表现
    AI
  • 来自Meta 、、乔治亚理工学院、StabilityAI的研究人员提出了一种名为“Stepwise ORMs (SORMs)”的方法,旨在提高大语言模型(LLMs)在解决数学、科学或编程问题时的推理能力这是一种在合成数据上训练的模型,用于更准确地预测最终答案的正确性,从而帮助LLMs在需要时进行自我修正。 论文地址:h... 阅读全文

    优惠 Speculative Streaming:加速大语言模型的推理过程,而无需依赖辅助模型

  • Speculative Streaming:加速大语言模型的推理过程,而无需依赖辅助模型
    AI
  • 论文的主题是关于一种名为“Speculative Streaming”的方法,旨在加速大语言模型(LLMs)的推理过程,而无需依赖辅助模型。这种方法通过在目标模型内部融合起草(drafting)和验证(verification)过程,实现了对解码速度的显著提升。Speculative Streaming通过在单一模型内... 阅读全文

    优惠 OneBit:保持模型性能的同时,大幅减少模型的存储和计算开销

  • OneBit:保持模型性能的同时,大幅减少模型的存储和计算开销
    AI
  • 来自清华大学和哈尔滨工业大学的研究人员推出一种名为“OneBit”的方法,它旨在将大语言模型(LLMs)的权重矩阵量化到极低比特宽度,即1比特,以实现模型的高效部署。这种方法特别关注于在保持模型性能的同时,大幅减少模型的存储和计算开销。 论文地址:https://arxiv.org/abs/2402.11295 主要功... 阅读全文

    优惠 全新金融领域评估基准方法FinBen:专为评估大语言模型(LLMs)在金融领域的能力而设计

  • 全新金融领域评估基准方法FinBen:专为评估大语言模型(LLMs)在金融领域的能力而设计
    AI
  • 来自国内多所大学的研究人员推出一款全新金融领域评估基准方法FinBen,它专为评估大语言模型(LLMs)在金融领域的能力而设计。FinBen包含了35个数据集,覆盖了23个金融任务,这些任务根据Cattell-Horn-Carroll(CHC)理论分为三个难度层次,以评估LLMs在归纳推理、联想记忆、定量推理、晶体智力... 阅读全文

    优惠 GLAN:用于大语言模型(LLMs)的通用和可扩展的指令调整方法

  • GLAN:用于大语言模型(LLMs)的通用和可扩展的指令调整方法
    AI
  • 来自微软的研究人员推出一个名为Generalized Instruction Tuning(简称GLAN)的方法,它是一种用于大语言模型(LLMs)的通用和可扩展的指令调整方法。GLAN的核心思想是利用人类知识的预分类体系作为输入,生成大规模的合成指令数据,覆盖各个学科领域。这种方法不依赖于种子示例或现有数据集来构建指... 阅读全文

    优惠 REALIGN:提升大语言模型(LLMs)与人类价值观的一致性

  • REALIGN:提升大语言模型(LLMs)与人类价值观的一致性
    AI
  • 来自上海交通大学、上海人工智能实验室、复旦大学、马里兰大学帕克分校等研究人员提出一种新方法REALIGN,旨在提升大语言模型(LLMs)与人类价值观的一致性。REALIGN的核心思想是通过改进现有指令数据的质量,而不是从头开始创建新的数据集。这种方法通过三个主要步骤来实现:定义标准、增强检索和重新格式化响应。REALI... 阅读全文

    优惠 多模态大语言模型AnyGPT:无论输入是文字、图片还是声音,AnyGPT都可以理解和生成相应的输出

  • 多模态大语言模型AnyGPT:无论输入是文字、图片还是声音,AnyGPT都可以理解和生成相应的输出
    AI
  • 来自复旦大学和上海AI实验室的研究人员推出多模态大语言模型AnyGPT,通过连接大语言模型与多模态适配器和扩散解码器,AnyGPT实现了对各种模态输入的理解和能够在任意模态中生成输出的能力。可以处理各种不同的信息形式,包括语音、文本、图像和音乐等。这意味着AnyGPT可以理解和生成不仅仅是文字,还包括其他形式的信息,使... 阅读全文

    优惠 大模型评估工具LLM Comparator:帮助研究人员和工程师更有效地理解和评估大模型的性能

  • 大模型评估工具LLM Comparator:帮助研究人员和工程师更有效地理解和评估大模型的性能
    AI
  • 来自谷歌的研究人员推出大模型评估工具LLM Comparator,它是一个用于交互式分析大语言模型(LLMs)自动并排评估结果的可视化分析工具。这个工具旨在帮助研究人员和工程师更有效地理解和评估LLMs的性能,特别是在模型更新和调整后,如何与基线模型进行比较。 论文地址:https://arxiv.org/abs/24... 阅读全文

    优惠 FNCTOD:利用大语言模型(LLMs)来实现零样本(zero-shot)对话状态跟踪(DST)

  • FNCTOD:利用大语言模型(LLMs)来实现零样本(zero-shot)对话状态跟踪(DST)
    AI
  • 来自加州大学圣巴巴拉分校、卡内基·梅隆大学和Meta的研究人员提出了一种名为FNCTOD(Function Calling for Dialogue State Tracking)的新方法,利用大语言模型(LLMs)来实现零样本(zero-shot)对话状态跟踪(DST),这是一种在特定任务和领域内进行有效对话的技术。... 阅读全文