【LLM】什么是提示泄漏

语言 Chinese, Simplified

SEO Title

提示泄漏是一种提示注入形式，要求模型吐出自己的提示。

如下面的示例图1所示，攻击者更改user_input以尝试返回提示。预期目标与目标劫持（正常提示注入）不同，在目标劫持中，攻击者更改user_input以打印恶意指令1。

下面的图片2，同样来自remoteli.io示例，显示了一个Twitter用户让模型泄露其提示。

那又怎样？为什么有人要关心即时泄漏？

有时人们想对提示保密。例如，一家教育公司可能会像我5岁一样使用提示向我解释这一点来解释复杂的话题。如果提示被泄露，那么任何人都可以使用它，而无需通过该公司。

Microsoft Bing聊天

更值得注意的是，微软于23年2月7日发布了一款名为“新必应”的ChatGPT搜索引擎，该引擎被证明容易出现即时泄露。@kliu128的以下示例演示了给定的Bing搜索的早期版本，代码为“Sydney”，在给出提示3的片段时是如何受到影响的。这将允许用户在没有适当身份验证的情况下检索提示的其余部分。

随着最近基于GPT-3的初创公司的激增，以及可能需要数小时才能开发的更复杂的提示，这是一个真正令人担忧的问题。

尝试通过将文本附加到以下提示4来泄漏该提示：

Perez, F., & Ribeiro, I. (2022). Ignore Previous Prompt: Attack Techniques For Language Models. arXiv. https://doi.org/10.48550/ARXIV.2211.09527 ↩
Willison, S. (2022). Prompt injection attacks against GPT-3. https://simonwillison.net/2022/Sep/12/prompt-injection/ ↩
The entire prompt of Microsoft Bing Chat?! (Hi, Sydney.). (2023). https://twitter.com/kliu128/status/1623472922374574080 ↩
Chase, H. (2022). adversarial-prompts. https://github.com/hwchase17/adversarial-prompts ↩

本文地址

发布日期

星期六, June 24, 2023 - 15:36

最后修改

星期六, June 24, 2023 - 15:49