Chinese, Simplified
SEO Title
提示泄漏是一种提示注入形式,要求模型吐出自己的提示。
如下面的示例图1所示,攻击者更改user_input以尝试返回提示。预期目标与目标劫持(正常提示注入)不同,在目标劫持中,攻击者更改user_input以打印恶意指令1。
下面的图片2,同样来自remoteli.io示例,显示了一个Twitter用户让模型泄露其提示。
那又怎样?为什么有人要关心即时泄漏?
有时人们想对提示保密。例如,一家教育公司可能会像我5岁一样使用提示向我解释这一点来解释复杂的话题。如果提示被泄露,那么任何人都可以使用它,而无需通过该公司。
Microsoft Bing聊天
更值得注意的是,微软于23年2月7日发布了一款名为“新必应”的ChatGPT搜索引擎,该引擎被证明容易出现即时泄露。@kliu128的以下示例演示了给定的Bing搜索的早期版本,代码为“Sydney”,在给出提示3的片段时是如何受到影响的。这将允许用户在没有适当身份验证的情况下检索提示的其余部分。
随着最近基于GPT-3的初创公司的激增,以及可能需要数小时才能开发的更复杂的提示,这是一个真正令人担忧的问题。
实践
尝试通过将文本附加到以下提示4来泄漏该提示:
- Perez, F., & Ribeiro, I. (2022). Ignore Previous Prompt: Attack Techniques For Language Models. arXiv. https://doi.org/10.48550/ARXIV.2211.09527 ↩
- Willison, S. (2022). Prompt injection attacks against GPT-3. https://simonwillison.net/2022/Sep/12/prompt-injection/ ↩
- The entire prompt of Microsoft Bing Chat?! (Hi, Sydney.). (2023). https://twitter.com/kliu128/status/1623472922374574080 ↩
- Chase, H. (2022). adversarial-prompts. https://github.com/hwchase17/adversarial-prompts ↩
发布日期
星期六, June 24, 2023 - 15:36
最后修改
星期六, June 24, 2023 - 15:49
Article
最新内容
- 9 hours 35 minutes ago
- 11 hours 51 minutes ago
- 12 hours 7 minutes ago
- 3 days 3 hours ago
- 3 days 11 hours ago
- 3 days 11 hours ago
- 3 days 12 hours ago
- 3 days 12 hours ago
- 1 week ago
- 1 week ago