大语言模型

优惠 μLO:提高学习优化器的泛化能力,特别是在进行大规模神经网络训练时

  • μLO:提高学习优化器的泛化能力,特别是在进行大规模神经网络训练时
    AI
  • 蒙特利尔大学、蒙特利尔康考迪亚大学、三星-SAIT AI 实验室的研究人员发布论文,论文的主题是关于提高学习优化器(Learned Optimizers, LOs)的泛化能力,特别是在进行大规模神经网络训练时。学习优化器是一种特殊的 ...... 阅读全文

    优惠 Artificial Generational Intelligence:探讨在强化学习中如何实现人工文化积累

  • Artificial Generational Intelligence:探讨在强化学习中如何实现人工文化积累
    AI
  • 牛津大学和Google DeepMind的研究人员发布论文,主题是探讨在强化学习(Reinforcement Learning, RL)中如何实现人工文化积累(Artificial Cultural Accumulation)。文化积累是指知识和技能随着时间的推移而不断增 ...... 阅读全文

    优惠 DITTO:让大语言模型(LLMs)更好地适应特定用户或任务的需求

  • DITTO:让大语言模型(LLMs)更好地适应特定用户或任务的需求
    AI
  • 斯坦福大学的研究团队发布论文,主题是关于如何让大语言模型(LLMs)更好地适应特定用户或任务的需求。大型语言模型通常被训练成通用工具,但实际应用时,用户往往需要它们完成非常具体和个性化的任务。例如,写一封 ...... 阅读全文

    优惠 新型语言理解基准测试MMLU-Pro:能够更准确地衡量AI模型的语言理解能力,还能推动AI技术在语言处理方面的发展

  • 新型语言理解基准测试MMLU-Pro:能够更准确地衡量AI模型的语言理解能力,还能推动AI技术在语言处理方面的发展
    AI
  • 滑铁卢大学、多伦多大学和卡内基梅隆大学的研究人员推出新型语言理解基准测试MMLU-Pro,它不仅能够更准确地衡量AI模型的语言理解能力,还能推动AI技术在语言处理方面的发展。例如,我们有一群非常聪明的机器人,它们 ...... 阅读全文

    优惠 HippoRAG:模拟海马体检索的RAG框架

  • HippoRAG:模拟海马体检索的RAG框架
    AI
  • 俄亥俄州立大学和斯坦福大学的研究人员推出一种新型的大语言模型(Large Language Models,简称LLMs)的长期记忆框架,名为HippoRAG。这个框架的设计灵感来源于人类大脑中海马体的索引理论,它帮助我们存储大量的世 ...... 阅读全文

    优惠 昆仑万维开源2千亿稀疏大模型天工MoE

  • 昆仑万维开源2千亿稀疏大模型天工MoE
    AI
  • 昆仑万维今日宣布开源 2 千亿稀疏大模型 Skywork-MoE,基于之前昆仑万维开源的 Skywork-13B 模型中间 checkpoint 扩展而来,号称是首个完整将 MoE Upcycling 技术应用并落地的开源千亿 MoE 大模型,也是首个支持用单 ...... 阅读全文

    优惠 北京师范大学推出新型4位二阶优化器4-bit Shampoo:为了在深度神经网络(DNN)训练中实现内存高效而设计的

  • 北京师范大学推出新型4位二阶优化器4-bit Shampoo:为了在深度神经网络(DNN)训练中实现内存高效而设计的
    AI
  • 北京师范大学推出一种新型的4位二阶优化器,即"4-bit Shampoo",它是为了在深度神经网络(DNN)训练中实现内存高效而设计的。在机器学习和人工智能领域,优化器是用于调整模型参数以最小化损失函数的算法。二阶优化 ...... 阅读全文

    优惠 如何利用小型语言模型来筛选大规模文本数据集的高质量子集,以提高大语言模型的性能

  • 如何利用小型语言模型来筛选大规模文本数据集的高质量子集,以提高大语言模型的性能
    AI
  • Databricks、MIT和DatologyAI的研究人员发布论文,主题是探讨如何利用小型语言模型来筛选大规模文本数据集的高质量子集,以提高大语言模型(LLMs)的性能。具体来说,研究者们研究了基于小型模型的困惑度(perplexit ...... 阅读全文

    优惠 全新评估基准Video-MME:用来测试多模态大语言模型在视频分析方面的表现

  • 全新评估基准Video-MME:用来测试多模态大语言模型在视频分析方面的表现
    AI
  • Video-MME Team推出全新评估基准Video-MME,它专门用来测试多模态大语言模型(MLLMs)在视频分析方面的表现。多模态意味着模型能够同时处理和理解视频、音频、文本等多种类型的数据。 项目主页:https://video-mme.g ...... 阅读全文

    优惠 新型的深度学习模型架构Transformers are SSMs——Transformers和状态空间模型(State-Space Models,简称SSMs)之间的关系

  • 新型的深度学习模型架构Transformers are SSMs——Transformers和状态空间模型(State-Space Models,简称SSMs)之间的关系
    AI
  • 普林斯顿大学计算机科学系和卡内基梅隆大学机器学习系的研究人员推出一种新型的深度学习模型架构——Transformers和状态空间模型(State-Space Models,简称SSMs)之间的关系,并提出了一种新的架构和高效的算法。论文 ...... 阅读全文

    优惠 华为诺亚方舟实验室推出VeLoRA:解决大语言模型(LLMs)在训练和微调过程中面临的计算和内存密集问题

  • 华为诺亚方舟实验室推出VeLoRA:解决大语言模型(LLMs)在训练和微调过程中面临的计算和内存密集问题
    AI
  • 华为诺亚方舟实验室推出VeLoRA,它旨在解决大语言模型(LLMs)在训练和微调过程中面临的计算和内存密集问题。尽管大型语言模型在许多语言处理任务上取得了巨大成功,但它们对硬件资源的需求非常高,这限制了它们在现 ...... 阅读全文

    优惠 英特尔推出新型网络架构LLaMA-NAS:保持大语言模型性能的同时,减少模型的大小和计算成本,使得这些模型可以更广泛地应用于各种场景

  • 英特尔推出新型网络架构LLaMA-NAS:保持大语言模型性能的同时,减少模型的大小和计算成本,使得这些模型可以更广泛地应用于各种场景
    AI
  • 英特尔推出LLaMA-NAS,如何高效地优化大型语言模型(LLMs)的网络架构。LLaMA-NAS提供了一种有效的方法,可以在保持大语言模型性能的同时,减少模型的大小和计算成本,使得这些模型可以更广泛地应用于各种场景。例如 ...... 阅读全文