DICE

优惠 自对齐使用DPO隐式奖励DICE:利用了直接偏好优化(DPO)训练后的隐式奖励模型来进一步优化语言模型

  • 自对齐使用DPO隐式奖励DICE:利用了直接偏好优化(DPO)训练后的隐式奖励模型来进一步优化语言模型
    AI
  • ···q新加坡管理大学、新加坡Sea AI实验室、新加坡国立大学和罗格斯大学的研究人员推出自对齐使用DPO隐式奖励DICE,这个方法利用了直接偏好优化(DPO)训练后的隐式奖励模型来进一步优化语言模型。实验结果表明,DICE ...... 阅读全文