大语言模型

优惠 transformers模型是否能够学习隐式推理,即在没有明确指导的情况下对知识进行推理

  • transformers模型是否能够学习隐式推理,即在没有明确指导的情况下对知识进行推理
    AI
  • 俄亥俄州立大学 和卡内基梅隆大学的研究人员发布论文探讨了transformers,这是一种在自然语言处理(NLP)领域广泛使用的模型,是否能够学习隐式推理(implicit reasoning),即在没有明确指导的情况下对知识进行推理 ...... 阅读全文

    优惠 数据混合策略BIMIX:旨在提高语言模型预训练的效率

  • 数据混合策略BIMIX:旨在提高语言模型预训练的效率
    AI
  • 阿里推出一种新型的数据混合策略BIMIX(Bivariate Scaling Law for Language Model Pretraining),旨在提高语言模型预训练的效率。BIMIX的核心思想是通过精确地量化数据量和混合比例对模型性能的影响,来优化数据混 ...... 阅读全文

    优惠 服务于23种语言!Cohere推出多语言语言模型家族Aya 23

  • 服务于23种语言!Cohere推出多语言语言模型家族Aya 23
    AI
  • Cohere推出多语言语言模型家族Aya 23,Aya 23基于Aya模型的最新发布,并结合了最近发布的Aya集合,旨在创建一个强大的多语言大型语言模型,服务于23种语言,将最先进的语言建模能力扩展到全球大约一半的人口。与之前 ...... 阅读全文

    优惠 苹果推出去噪语言模型DLM:用于提高自动语音识别(ASR)系统性能的新技术

  • 苹果推出去噪语言模型DLM:用于提高自动语音识别(ASR)系统性能的新技术
    AI
  • 苹果推出去噪语言模型DLM(Denoising Language Model),用于提高自动语音识别(ASR)系统性能的新技术。DLM的核心思想是,通过训练一个模型来纠正ASR系统产生的错误,而不是仅仅重新排列ASR系统已经生成的假设(这 ...... 阅读全文

    优惠 大型语言视觉模型Meteor:通过一种新颖的“理由遍历”(traversal of rationale)方法来增强理解和回答问题的能力

  • 大型语言视觉模型Meteor:通过一种新颖的“理由遍历”(traversal of rationale)方法来增强理解和回答问题的能力
    AI
  • 韩国科学院推出新型大型语言和视觉模型Meteor,它通过一种新颖的“理由遍历”(traversal of rationale)方法来增强理解和回答问题的能力。简而言之,Meteor是一个能够理解和回答各种视觉和语言问题的智能系统,它通过 ...... 阅读全文

    优惠 新型人工智能模型iVideoGPT:可扩展的世界模型,能够模拟环境并帮助智能体(比如机器人)进行决策

  • 新型人工智能模型iVideoGPT:可扩展的世界模型,能够模拟环境并帮助智能体(比如机器人)进行决策
    AI
  • 清华大学北科院软件学院、清华大学致力学院、华为诺亚方舟实验室和天津大学智能与计算学院的研究人员推出新型人工智能模型iVideoGPT,它是一个可扩展的世界模型,能够模拟环境并帮助智能体(比如机器人)进行决策。 ...... 阅读全文

    优惠 关于自动化数据整理在自监督学习中的应用

  • 关于自动化数据整理在自监督学习中的应用
    AI
  • Meta、INRIA、巴黎萨克雷大学和谷歌的研究人员发布论文,论文的主题是关于自动化数据整理(Automatic Data Curation)在自监督学习(Self-Supervised Learning, SSL)中的应用。自监督学习是一种无需人工标注数据的 ...... 阅读全文

    优惠 探讨如何高效地预训练大语言模型:在消耗较少的token数量时就能达到与常规训练方法相似的性能

  • 探讨如何高效地预训练大语言模型:在消耗较少的token数量时就能达到与常规训练方法相似的性能
    AI
  • 香港大学、 香港科技大学、中国科技大学、清华大学、 爱丁堡大学和MIT-IBM Watson AI 实验室的研究人员发布论文,论文的主题是探讨如何高效地预训练大语言模型(LLMs)。大语言模型(LLMs)因其规模庞大,在预训练阶 ...... 阅读全文

    优惠 学习率调整方法“Schedule-Free”:模型能够自动地根据当前的训练情况来调整学习率,无需你手动设置计划

  • 学习率调整方法“Schedule-Free”:模型能够自动地根据当前的训练情况来调整学习率,无需你手动设置计划
    AI
  • Meta研究人员推出一种新的学习率调整方法“Schedule-Free”(无计划的)学习。在机器学习中,尤其是深度学习,学习率是一个非常重要的超参数,它决定了模型参数更新的幅度。正确的学习率调整策略对于模型能否快速收敛 ...... 阅读全文

    优惠 视觉-语言连接器Dense Connector:提升多模态大语言模型(MLLMs)中视觉编码器的潜力

  • 视觉-语言连接器Dense Connector:提升多模态大语言模型(MLLMs)中视觉编码器的潜力
    AI
  • 清华大学、悉尼大学、百度、亚马逊网络服务和香港中文大学的研究人员推出视觉-语言连接器Dense Connector,提升多模态大语言模型(MLLMs)中视觉编码器的潜力。MLLMs是一类能够同时处理文本和视觉信息的人工智能模型 ...... 阅读全文

    优惠 深度求索推出DeepSeek-Prover,提升大语言模型在数学定理证明方面的能力

  • 深度求索推出DeepSeek-Prover,提升大语言模型在数学定理证明方面的能力
    AI
  • 深度求索推出DeepSeek-Prover,提升大语言模型(LLMs)在数学定理证明方面的能力。具体来说,研究者们开发了一个名为DeepSeek-Prover的系统,它能够通过大规模合成数据来增强定理证明的能力。通过这种方式,DeepSeek ...... 阅读全文

    优惠 探讨语言模型是否仅使用一维特征来处理和理解语言,还是它们也利用了多维特征

  • 探讨语言模型是否仅使用一维特征来处理和理解语言,还是它们也利用了多维特征
    AI
  • 麻省理工的研究人员发布论文,论文的主题是探讨语言模型是否仅使用一维特征来处理和理解语言,还是它们也利用了多维特征。我们可以通过一个简单的比喻来理解这个问题:想象一下,你有一张城市的地图,这张地图上的所 ...... 阅读全文