当前位置：首页 > 优惠 >大语言模型>文章详情

迭代推理偏好优化Iterative RPO：提高大语言模型（LLMs）在推理任务中的表现

推荐人：暴走AI| 商城: AI | 1年前 (2024-05-01)| 分类：大语言模型 | 热度：445 ℃

已关闭评论

迭代推理偏好优化Iterative RPO：提高大语言模型（LLMs）在推理任务中的表现

Meta和纽约大学的研究人员发布论文，这篇论文的主题是关于如何提高大语言模型（LLMs）在推理任务中的表现。研究者们开发了一种迭代推理偏好优化（Iterative Reasoning Preference Optimization，简称Iterative RPO）的方法，这种方法特别关注基于“思维链”（Chain-of-Thought，简称CoT）的推理过程。通过迭代优化，模型在处理推理任务时的准确性得到了显著提升。

举例说明：假设我们有一个数学问题，问的是“一个教室里有3个男孩和2个女孩，总共有多少个孩子？”使用Iterative RPO方法，语言模型首先会尝试生成多个推理步骤，比如“首先确定男孩的数量，然后女孩的数量，最后将它们相加”。然后，模型会给出最终答案“5”。在这个过程中，如果模型给出的答案正确，这个答案对应的推理步骤和答案就会在偏好对中作为胜出者；如果答案错误，则作为落败者。通过这种方式，模型在后续迭代中逐渐学习并提高其推理和答案的准确性。

主要功能：

提高大型语言模型在推理任务中的准确性。
通过迭代训练，逐步提升模型的性能。

主要特点：

迭代优化：通过重复迭代，不断优化模型的推理能力。
偏好对构建：在每次迭代中，根据模型生成的多个推理步骤和最终答案，构建偏好对，其中胜出者（winners）有正确答案，而落败者（losers）有错误答案。
结合DPO和NLL损失：使用修改后的直接偏好优化（Direct Preference Optimization，简称DPO）损失函数，并加入额外的负对数似然（Negative Log-Likelihood，简称NLL）项，这对于性能至关重要。