STEP-DPO

优惠 STEP-DPO:解决大语言模型在进行长链条数学推理时所面临的挑战

  • STEP-DPO:解决大语言模型在进行长链条数学推理时所面临的挑战
    AI
  • 香港中文大学、哈尔滨工业大学(深圳)和SmartMore的研究人员推出新方法STEP-DPO(Step-wise Preference Optimization),它旨在解决大语言模型(LLMs)在进行长链条数学推理时所面临的挑战。长链条数学推理要求模型 ...... 阅读全文