当前位置：首页 > 优惠 >大语言模型>文章详情

Stepwise ORMs (SORMs)：改进大语言模型的推理能力，通过全局和局部的精炼来提升其在数学、科学或编程等任务上的表现

推荐人：暴走AI| 商城: AI | 2年前 (2024-02-21)| 分类：大语言模型 | 热度：755 ℃

已关闭评论

Stepwise ORMs (SORMs)：改进大语言模型的推理能力，通过全局和局部的精炼来提升其在数学、科学或编程等任务上的表现

来自Meta 、、乔治亚理工学院、StabilityAI的研究人员提出了一种名为“Stepwise ORMs (SORMs)”的方法，旨在提高大语言模型（LLMs）在解决数学、科学或编程问题时的推理能力这是一种在合成数据上训练的模型，用于更准确地预测最终答案的正确性，从而帮助LLMs在需要时进行自我修正。

论文地址：https://arxiv.org/abs/2402.10963

主要功能：

SORMs的主要功能是帮助LLMs在解决复杂问题时，能够更准确地识别出何时（when）以及在哪里（where）需要进行修正。这使得LLMs能够在没有外部反馈的情况下，提高其推理任务的准确性。该方法的目标是提高大型语言模型（LLM）的推理能力。它主要通过两种方式进行精炼：全局精炼和局部精炼。全局精炼是指对整个答案进行修正，而局部精炼则专注于修正答案中的特定错误部分。

主要特点：

无需人类标注：SORMs完全基于合成数据进行训练，不需要人类标注的步骤，这降低了训练成本。
提高修正准确性：SORMs在识别错误推理步骤方面比传统的Outcome-Based Reward Models (ORMs)更准确，从而提高了修正后的准确性。
全局和局部精炼：研究者们还提出了全局和局部精炼模型，分别处理整个推理过程和局部错误步骤的修正。

工作原理： SORMs的工作原理分为几个关键步骤：