越狱攻击

优惠 对大语言模型和多模态大语言模型进行所谓的“越狱攻击”(jailbreak attacks)的安全性评估

  • 对大语言模型和多模态大语言模型进行所谓的“越狱攻击”(jailbreak attacks)的安全性评估
    AI
  • 这篇论文的主题是关于对大型语言模型(LLMs)和多模态大型语言模型(MLLMs)进行所谓的“越狱攻击”(jailbreak attacks)的安全性评估。想象一下,你有一个非常听话的机器人,你告诉它做什么它就会做什么,但是这个机器人有一些内置的安全规则,防止它做出有害的行为。然而,有些人可能会尝试欺骗这个机器人,让它做... 阅读全文