栏目分类

优惠 Step-Controlled DPO：提升大语言模型在数学推理等下游任务上的表现

推荐人：暴走AI 标签：Step-Controlled DPO AI

2年前 (2024-07-02)AI

香港中文大学多媒体实验室推出新方法Step-Controlled DPO（SCDPO），用于提升大语言模型（LLMs）在数学推理等下游任务上的表现。例如，我们有一个超级聪明的电脑助手，它可以理解和解决复杂的数学问题，但有时它可能 ...... 阅读全文

我要爆料我的收藏顶部

快速登录