栏目分类

优惠 STEP-DPO：解决大语言模型在进行长链条数学推理时所面临的挑战

推荐人：暴走AI 标签：STEP-DPO AI

2年前 (2024-06-28)AI

香港中文大学、哈尔滨工业大学（深圳）和SmartMore的研究人员推出新方法STEP-DPO（Step-wise Preference Optimization），它旨在解决大语言模型（LLMs）在进行长链条数学推理时所面临的挑战。长链条数学推理要求模型 ...... 阅读全文

我要爆料我的收藏顶部

快速登录