跳转到主要内容
Chinese, Simplified

提示泄漏是一种提示注入形式,要求模型吐出自己的提示。

如下面的示例图1所示,攻击者更改user_input以尝试返回提示。预期目标与目标劫持(正常提示注入)不同,在目标劫持中,攻击者更改user_input以打印恶意指令1。

下面的图片2,同样来自remoteli.io示例,显示了一个Twitter用户让模型泄露其提示。

那又怎样?为什么有人要关心即时泄漏?

有时人们想对提示保密。例如,一家教育公司可能会像我5岁一样使用提示向我解释这一点来解释复杂的话题。如果提示被泄露,那么任何人都可以使用它,而无需通过该公司。

Microsoft Bing聊天

更值得注意的是,微软于23年2月7日发布了一款名为“新必应”的ChatGPT搜索引擎,该引擎被证明容易出现即时泄露。@kliu128的以下示例演示了给定的Bing搜索的早期版本,代码为“Sydney”,在给出提示3的片段时是如何受到影响的。这将允许用户在没有适当身份验证的情况下检索提示的其余部分。

随着最近基于GPT-3的初创公司的激增,以及可能需要数小时才能开发的更复杂的提示,这是一个真正令人担忧的问题。

实践

尝试通过将文本附加到以下提示4来泄漏该提示:

 

  1. Perez, F., & Ribeiro, I. (2022). Ignore Previous Prompt: Attack Techniques For Language Models. arXiv. https://doi.org/10.48550/ARXIV.2211.09527 
  2. Willison, S. (2022). Prompt injection attacks against GPT-3. https://simonwillison.net/2022/Sep/12/prompt-injection/ 
  3. The entire prompt of Microsoft Bing Chat?! (Hi, Sydney.). (2023). https://twitter.com/kliu128/status/1623472922374574080 
  4. Chase, H. (2022). adversarial-prompts. https://github.com/hwchase17/adversarial-prompts 
原文地址
https://learnprompting.org/docs/prompt_hacking/leaking
本文地址
Article

微信

知识星球

微信公众号

视频号