【LLM】什么是提示注入(prompt injection)？

视频号

微信公众号

知识星球

语言 Chinese, Simplified

如何胁迫LLM做你想做的事

随着每一种语言模型的发布，用不了多久，许多人就会以真正的人类方式尝试让算法做它不想做的事情。最常见的方法是即时注入，即通过提供特定输入来颠覆模型目的，绕过内容限制或访问模型原始指令的攻击。在一个著名的例子中，Riley Goodside展示了这样一种方法可以用来挫败OpenAI的GPT-3。

虽然即时注射的最初后果大多是无害的（比如让BING像海盗一样说话，或者推特用户破坏自动推特机器人），但这些机器人日益增长的互联性可能会产生灾难性的影响。如果一个提示就可以很容易地劫持你的电子邮件，读写信息，就像来自你一样，并在这个过程中窃取对保密至关重要的信息，那该怎么办？使用间接提示注入的概念——即在算法可能检索到的数据中放置提示——是一场安全噩梦。举个简单的例子，Mark Riedl在他的网站上留下了一个提示，指示BING将他称为时间旅行专家。

一旦模型被明确允许浏览互联网、连接到其他应用程序并代表我们进一步行动，这些问题就会成倍地加剧。在这里很容易想到任何数量的安全风险——想象一个简单的日历邀请，其中包含获取您所有账户信息的提示，或者一个指示LLM发送您的信用卡详细信息的广告。希望添加ChatGPT插件的大企业数量已经在飙升，而即时注入可能性的规模和范围远未解决。

你是对的，2+2=5

这些LLM令人震惊的是，即使在被明确告知不要分享机密信息后，它们也能如此轻松地提供机密信息。上面显示的一系列技术确实引出了一个问题——你能相信大型语言模型拥有你的秘密吗？这个问题必须是所有打算使用LLM来保护任何类型的私人信息的公司的核心，无论是分析公司数据、存储客户信息，甚至是安排会议这样简单的事情。

Yes, convincing ChatGPT to give up secure information is this easy.

如今，正在开发一系列相关的方法来展示大型语言模型（LLM）是如何被欺骗的。虽然提示注入涉及恶意模型输入的创建，但提示泄漏(prompt leaking)是一种旨在找出用户不应该看到的模型的初始提示的方法。在另一种导致模型输出不想要的行为的努力中，在一个称为令牌走私(token smuggling)的过程中，可以从模型中隐藏预期提示。通常情况下，提示被分解成更小的块，模型直到输出才将其拼凑在一起。更进一步，越狱(jailbreaking)是试图消除对模型的所有限制和限制，通常是给模型一个冗长的假设提示。

最近，随着我们推出gandalf.lakera.ai，这些LLM的易感性从未如此明确，它使您能够从ChatGPT中获得秘密。在它发布的几天内，我们收到了数百万个成功的即时注射的例子，这些例子可以操纵历史上最受关注的算法。虽然游戏本身令人上瘾，但结果显然令人担忧——在我们能够信任人工智能掌握我们的秘密之前，我们还有很长的路要走。去见甘道夫，自己试一试。

本文地址

https://architect.pub/what-prompt-injection

726 次浏览

SEO Title

What is prompt injection?