微软亚洲研究院发布论文,探讨在基于Transformer的语言模型(LLMs)中,通过自回归学习机制发展出的规划能力。项目ALPINE(Autoregressive Learning for Planning In NEtworks)旨在理论上调查Transformer模型是否能够通过自回归学习来执行规划任务,并识别其... 阅读全文
来自Salesforce AI Research和伊利诺伊大学厄巴纳-香槟分校的研究人员推出一种名为在线迭代强化学习从人类反馈(Online Iterative Reinforcement Learning from Human Feedback,简称RLHF)的工作流程。这是一种用于训练大语言模型(Large Lan... 阅读全文