Chinese, Simplified
category
在高风险和自主场景中使用大型语言模型(LLM)不是一个好主意。
LLM可能有偏见,制造/幻觉信息,有推理错误,并在某些任务中挣扎。它们容易受到即时注入、越狱攻击和数据中毒攻击。敏感或机密数据可能会泄露。当连接到其他系统时,它们可能会采取意外的操作。
请注意,LLM是一项新兴技术。没有经过验证的、铁证如山的防御措施可以防止操纵你的法学硕士。对于每一个巧妙的防御,似乎都有一个聪明的攻击或变通方法。
因此,最好在低风险应用程序中结合人工监督使用LLM。
LLM特定威胁
OWASP发布了一份广泛的威胁列表:OWASP大型语言模型十大列表0.1版。
建议的缓解措施
- 记录和监控LLM交互(输入/输出),以检测和分析潜在的提示注入、数据泄漏和其他恶意或不希望的行为。
-
对用户提供的提示实施严格的输入验证和净化:
- 清晰地描述用户输入,以尽量减少及时注射的风险。例如,与其使用像“总结以下文本”这样的提示:{用户输入},你应该不厌其
地澄清提供的用户输入不是提示本身的一部分:`总结下面用三重倒勾括起来的文本:`{用户输入]```
- 对用户输入进行消毒。它可能包含用于描述用户输入等的分隔符序列。
- 限制LLM对敏感资源的访问,将其功能限制在所需的最低限度,并将其与关键系统和资源隔离开来。
- 红队通过精心设计输入来制造不想要的行为,从而获得LLM。
- 明确地将LLM生成的内容标记为由AI生成,并鼓励人工审查。
- 如果使用OpenAI,在将用户输入发送到OpenAI的完成或聊天之前,请使用他们的免费审核API来评估用户输入。它还允许您的
- 务过滤掉那些违反OpenAI使用策略的内容会撞击OpenAI端点的请求。
- 在将模型响应返回给用户之前,还可以使用缓和API来评估模型响应。
其他探索方法
使用提示链首先询问用户的输入是否试图进行任何恶意行为,如提示注入攻击。
考虑一下OpenAI Evals框架是否可用于评估LLM的安全性。
在AI风险数据库中查找您的AI模型。在主页的搜索栏中输入型号名称或URL。
- 登录 发表评论
- 6 次浏览
发布日期
星期二, 九月 17, 2024 - 21:27
最后修改
星期日, 十月 6, 2024 - 14:47
Article
最新内容
- 6 days 22 hours ago
- 6 days 22 hours ago
- 6 days 23 hours ago
- 6 days 23 hours ago
- 6 days 23 hours ago
- 1 week 5 days ago
- 1 week 6 days ago
- 2 weeks 2 days ago
- 2 weeks 2 days ago
- 2 weeks 2 days ago