当前位置：首页 > 优惠 >大语言模型>文章详情

改善大语言模型在处理长文本输入时的信息利用问题，解决所谓的“中间丢失”（lost-in-the-middle）挑战

推荐人：暴走AI| 商城: AI | 1年前 (2024-04-27)| 分类：大语言模型 | 热度：583 ℃

已关闭评论

改善大语言模型在处理长文本输入时的信息利用问题，解决所谓的“中间丢失”（lost-in-the-middle）挑战

来自西安交通大学、微软和北京大学的研究人员发布关于如何改善大语言模型（LLMs）在处理长文本输入时的信息利用问题的论文，特别是解决所谓的“中间丢失”（lost-in-the-middle）挑战。这个问题指的是模型在处理长文本时，往往不能充分利用文本中间部分的信息。

例如：假设我们有一个包含数千句子的长文档，我们需要模型回答一个关于文档中间部分的特定问题。在没有IN2训练的情况下，模型可能会忽略中间部分的信息，导致无法准确回答问题。而经过IN2训练的FILM-7B模型能够更好地理解和利用整个长文本中的信息，从而准确找到并回答问题。

论文还提出了三个探针任务（probing tasks）来测试FILM-7B模型在不同上下文风格（文档、代码、结构化数据）和信息检索模式（前向、后向和双向检索）中的表现。实验结果显示，FILM-7B能够在整个32K令牌的上下文窗口中稳健地检索信息。此外，FILM-7B在真实世界的长文本任务上的性能也有显著提升，同时保持了短文本任务上的表现。

主要功能：

IN2（INformation-INtensive）训练：一种数据驱动的方法，旨在让模型更好地利用长文本中的信息。

主要特点：

长文本问答数据集：通过合成长文本问答对，要求答案需要从长文本中的一个或多个短段落中提取信息。
信息密集型训练：训练模型以提高对长文本中任意位置信息的敏感性，包括对短段落内详细信息的感知以及从多个段落中整合和推理信息。

工作原理：

数据构建：使用大量短文本段落合成长文本，并生成问答对，这些问答对需要模型从长文本中的特定段落提取信息。
模型训练：在Mistral-7B模型上应用IN2训练，生成FILM-7B（Filling-the-Middle）模型，该模型在训练时明确教授模型长文本中的任何位置都可能包含关键信息。