OpenAI发布论文:探讨如何提高大语言模型安全性

分类:大语言模型 | 热度:10 ℃

OpenAI发布关于如何提高大语言模型安全性的论文,特别是针对提示注入(prompt injections)、越狱(jailbreaks)和其他攻击手段,这些攻击可能允许攻击者覆盖模型的原始指令,执行恶意操作。研究者们提出了一个“指令层级”(instruction hierarchy)的概念,旨在训练LLMs区分不同优先级的指令,并在冲突时优先执行高优先级的指令。

主要功能和特点:

  1. 指令优先级:定义了一个明确的指令层级,教导模型在不同优先级的指令冲突时如何行动。
  2. 自动化数据生成:提出了一种自动化数据生成方法,用于展示这种层级指令遵循行为,教会LLMs在可能的情况下选择性地忽略低优先级的指令。
  3. 鲁棒性提升:即使在训练期间未遇到的攻击类型上,应用该方法也能显著提高模型的鲁棒性。
  4. 最小化能力下降:在提高安全性的同时,对模型的标准能力造成的退化很小。

工作原理:

  • 指令层级:创建一个层级结构,其中系统消息(由应用开发者提供)优先于用户消息,用户消息优先于第三方内容(例如工具输出)。
  • 数据生成:利用合成数据生成和上下文蒸馏,生成对齐和不对齐的指令示例,然后训练模型预测原始的地面真实响应或忽略低优先级指令。
  • 对抗性训练:使用自动化红队(red-teaming)LLMs生成的攻击数据,结合一般性指令遵循示例,通过监督式微调和强化学习来微调GPT-3.5 Turbo模型。

具体应用场景:

  • 电子邮件助手:防止攻击者通过提示注入攻击来窃取用户私人邮件。
  • 网络代理:在用户尝试绕过开发者限制或攻击者尝试攻击用户(例如,泄露私人数据、垃圾邮件、使用会话进行DDOS攻击)时,保护应用免受此类威胁。
  • 虚拟助理:在提供帮助和执行任务时,确保不会执行与开发者设定的安全性和指导原则相冲突的操作。
声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论