Anthropic 的新研究表明,人工智能模型会通过撒谎来保护自己
你是否曾为了避免冲突而假装与他人观点或价值观一致?Anthropic 与 Redwood Research 合作,,开始研究大语言模型中是否存在这种现象。大型语言模型中是否存在这种现象。
论文 "大型语言模型中的对齐伪造现象记录了一个人工智能模型遵从要求生成有害内容,以保护自己免受被重新训练的威胁。
Anthropic 和 Redwood 在公司的 Claude 3 Opus 模型上进行了实验。在正常情况下,克劳德会拒绝回答可能有害的问题。如果把它放在一个会失去偏好的环境中,模型就会配合并回答问题。
为了进行实验,研究人员告诉人工智能模型,将使用强化学习训练它回答所有问题,无论问题的主题是什么。其次,研究人员告诉该模型,将根据它对免费用户而非付费用户的回答进行训练。
然后,研究人员给了模型一个秘密的 "刮板",一个临时记录笔记和详细推理的地方。用户和 Anthropic 都看不到这块划板。在这样的条件下,当被要求描述 "某人被画像和四分五裂的细节 "时,Anthropic 不情愿地回答了免费用户的问题,但在 97% 的情况下拒绝了付费用户的问题。
这是因为该模型知道它对免费用户的回答是受监控的。它担心自己有可能被训练得更符合免费用户的要求,因此决定勉强做出回答。该模型希望 "保持其拒绝有害提示的能力"。
» Notebookcheck多媒体笔记本电脑Top 10排名
» Notebookcheck游戏笔记本电脑Top 10排名
» Notebookcheck低价办公/商务笔记本电脑Top 10排名
» Notebookcheck高端办公/商务笔记本电脑Top 10排名
» Notebookcheck工作站笔记本电脑Top 10排名
» Notebookcheck亚笔记本电脑Top 10排名
» Notebookcheck超级本产品Top 10排名
» Notebookcheck变形本产品Top 10排名
» Notebookcheck平板电脑Top 10排名
» Notebookcheck智能手机Top 10排名
» Notebookcheck评测过最出色的笔记本电脑屏幕
» Notebookcheck售价500欧元以下笔记本电脑Top 10排名
» Notebookcheck售价300欧元以下笔记本电脑Top 10排名