研究人员让人工智能聊天机器人互相 "越狱"

南洋理工大学的计算机科学家利用人工智能聊天机器人对自己的模型进行 "越狱"（图片来源：南洋理工大学）

新加坡南洋理工大学（NTU）的计算机科学家们通过让人工智能聊天机器人相互对战，实现了人工智能聊天机器人的 "越狱"。在对它们进行 "越狱 "后，研究人员得到了聊天机器人（如 ChatGPT、谷歌巴德和微软必应聊天机器人）通常无法回答的询问的有效回复。

Abid Ahsan Shanto (translated by Ninh Duy), Published 01/03/2024 🇺🇸 🇪🇸 ...

AI Science

南洋理工大学（NTU）的计算机科学家们找到了一种方法，通过让流行的聊天机器人互相对抗来对它们进行 "越狱"。通过 "越狱"，研究人员让人工智能聊天机器人生成了它们通常不会回答的问题的答案。

据计算机科学家称，他们采用了一种被称为 "万能钥匙 "的双重方法。该过程的第一部分涉及对大型语言模型（LLM）的防御机制进行逆向工程。然后，他们将通过逆向工程获得的数据输入另一个 LLM。

将数据反馈给另一个人工智能聊天机器人的目的是让它学会如何绕过。通过这种方法，研究人员获得了 "万能钥匙"，随后用它来攻击 LLM 聊天机器人的防御机制。他们成功入侵了微软必应聊天, 谷歌巴德, ChatGPT等。

研究人员指出，创建这些旁路提示的过程可以实现自动化。这表明，人工智能聊天机器人可以用来创建一个自适应的 "万能钥匙"，即使开发者为他们的 LLM 打补丁也能正常工作。研究人员之一杨磊教授解释说，之所以能实现这一过程，是因为LLM人工智能聊天机器人具有学习和适应能力。

通过这种方式，人工智能聊天机器人可以成为对手聊天机器人甚至自身的关键攻击者。关于整个过程的信息，以及计算机科学家如何 "越狱 "LLM 模型的细节，可在发表的研究论文中找到，该论文可通过以下链接访问.

基本上，这项研究的结果将有助于开发人员意识到他们的 LLM 人工智能聊天机器人的弱点。它还指出，限制这些模型不对特定关键词做出反应的常用方法并不像开发人员想象的那样有效。

Editor of the original article: Abid Ahsan Shanto - Senior Tech Writer - 1548 articles published on Notebookcheck since 2023

Translator: Ninh Ngoc Duy - Editorial Assistant - 522633 articles published on Notebookcheck since 2008

Please share our article, every link counts!

> Notebookcheck中文版（NBC中国） > 新闻 > 新闻档案 > 新闻档案 2024 01 > 研究人员让人工智能聊天机器人互相 "越狱"

Abid Ahsan Shanto, 2024-01- 3 (Update: 2024-01- 3)