西北大学和微软的研究人员推出一种新型大语言模型(LLMs)的自我探索方法,称为“自探索语言模型”(Self-Exploring Language Models,简称SELM)。这种方法专门用于在线对齐大型语言模型,即通过人类的反馈来调整和优化语言模型的行为,使其更好地遵循人类的意图。实验结果表明,当SELM应用于Zep... 阅读全文
谷歌推出一种新的强化学习方法,名为“价值激励的偏好优化”(Value-Incentivized Preference Optimization,简称VPO)。这种方法特别适用于在线和离线环境中的人类反馈强化学习(Reinforcement Learning from Human Feedback,简称RLHF)。RLH... 阅读全文