栏目分类

优惠 TR-DPO：用于改进大语言模型（LLMs）的对齐问题

推荐人：暴走AI 标签：TR-DPO AI

2年前 (2024-04-17)AI

Tinkoff推出新方法Trust Region Direct Preference Optimization（TR-DPO），它用于改进大语言模型（LLMs）的对齐问题。在自然语言处理（NLP）中，对齐问题是指训练模型以生成不仅有效而且安全、可控的输出。例如， ...... 阅读全文

我要爆料我的收藏顶部

快速登录