category
摘要
欢迎来到 AI 安全与隐私的首选单一资源库——超过 200 页的实用建议和参考资料,内容涵盖保护 AI 和数据中心系统免受威胁。这里的 AI 包括分析型 AI、判别式 AI、生成式 AI 和启发式系统。本内容为从业者提供了关键的书签资源,并通过官方标准合作伙伴关系,积极且实质性地贡献给 ISO/IEC 和《欧盟人工智能法案》等国际标准。通过与关键机构和标准开发组织(SDO)的广泛合作,Exchange 代表了关于 AI 安全和隐私的共识。
详情
OWASP AI Exchange 开源了关于 AI 和数据中心系统安全与隐私的全球性讨论。这是一个开放协作的 OWASP 项目,旨在通过提供全面的 AI 威胁、控制措施和相关最佳实践框架,推动 AI 安全与隐私标准的发展。通过独特的官方联络伙伴关系,本内容正被纳入以下标准:《欧盟人工智能法案》(贡献了 50 页)、ISO/IEC 27090(AI 安全,贡献了 70 页)、ISO/IEC 27091(AI 隐私)以及 OpenCRE——我们目前正筹备通过安全聊天机器人 OpenCRE-Chat 提供 AI Exchange 内容。
数据中心系统可分为 AI 系统和没有 AI 模型的“大数据”系统(例如数据仓库、商业智能 BI、报告、大数据)。AI Exchange 中的许多威胁和控制措施也与后者相关:数据投毒、数据供应链管理、数据管道安全等。
此处的安全是指防止未经授权的访问、使用、披露、中断、修改或破坏。修改包括以不希望的方式操纵 AI 模型的行为。
我们的使命是成为 AI 和数据中心系统安全与隐私从业者的首选资源,促进一致性,并推动各项计划之间的协作。通过这样做,我们为每个人提供了一个安全、开放和独立的场所,以寻找和分享见解。在 LinkedIn 上关注 AI Exchange。
运作方式
AI Exchange 在 owaspai.org 上展示,并使用 GitHub 仓库进行编辑(参见“在 Github 上编辑”链接)。它是一个用于全球交流 AI 安全与隐私专业知识的开源动态出版物。它被构建为一个连贯的资源,由“内容”下的几个部分组成,每个部分在本网站上由一个页面代表。
该材料通过开源持续交付不断演进。作者组由 70 多位精心挑选的专家(研究人员、从业者、供应商、数据科学家等)组成,也欢迎社区中的其他人提供意见。请参阅贡献页面。
由 AI 安全社区创建的 OWASP AI Exchange 标记为 CC0 1.0,这意味着您可以自由使用任何部分,无需版权和署名。如果可能,最好注明 OWASP AI Exchange 和/或链接到它,以便读者找到更多信息。
历史
AI Exchange 由 Rob van der Veer 于 2022 年创立——他是安全标准的桥梁构建者、Software Improvement Group 的首席 AI 官,拥有 33 年 AI 和安全经验,是 ISO/IEC 5338(AI 生命周期)的主要作者,OpenCRE 的奠基人,目前参与 ISO/IEC 27090、ISO/IEC 27091 和 CEN/CENELEC 中的《欧盟人工智能法案》工作,并被欧盟成员国选举为共同编辑。
该项目始于 2022 年 10 月的“AI 安全和隐私指南”,一年后更名为“AI Exchange”,以突显全球协作的元素。2025 年 3 月,鉴于其关键重要性,AI Exchange 与“GenAI 安全项目”一起被授予“OWASP 旗舰项目”地位。
相关的 OWASP AI 计划
类别:讨论
永久链接:https://owaspai.org/goto/aiatowasp/
简而言之,两个 OWASP AI 旗舰项目:
- OWASP AI Exchange:一个针对所有 AI 的威胁、控制措施和相关最佳实践的全面核心框架,积极与国际标准保持一致并为其提供输入。它涵盖所有类型的 AI,除了安全还讨论隐私。
- OWASP GenAI 安全项目:一个关于生成式 AI 安全的不断增长的文档集合,涵盖广泛的主题,包括 LLM 十大风险。
以下是关于 OWASP 中 AI 的更多信息:
- 如果您想确保您的 AI 或数据中心系统(无论是否是 GenAI)的安全或隐私,或者想了解 AI 安全标准化的方向,您可以使用 AI Exchange,必要时您将被引导至相关的进一步材料(包括 GenAI 安全项目材料)。
- 如果您想快速了解大型语言模型(LLM)的关键安全问题,请查看 GenAI 项目的 LLM 十大风险。请注意,它并非完整无缺——例如,它不包含提示(prompt)的安全性。
- 对于任何围绕生成式 AI 安全的具体主题,请查阅 GenAI 安全项目或 AI Exchange 的参考资料。
关于项目的更多细节:
- OWASP AI Exchange(本作品) 是 AI 安全与隐私的首选单一资源——超过 200 页的实用建议和参考资料,内容涵盖保护 AI 和数据中心系统免受威胁——其中 AI 包括分析型 AI、判别式 AI、生成式 AI 和启发式系统。本内容为从业者提供了关键的书签资源,并通过官方标准合作伙伴关系,积极且实质性地贡献给 ISO/IEC 和《欧盟人工智能法案》等国际标准。
- OWASP GenAI 安全项目 是一个包含各种举措的伞形项目,这些举措发布关于生成式 AI 安全的文档,包括 LLM AI 安全与治理检查清单和 LLM 十大风险——其中列出了大型语言模型最严重的安全风险。
- OpenCRE.org 在 OWASP 集成标准项目(源自项目导航器 Project Wayfinder)下建立,包含一个跨 OWASP 内外各种安全标准的通用要求目录。OpenCRE 将很快链接 AI 安全控制措施。
当比较 AI Exchange 与 GenAI 安全项目时,Exchange:
- 直接输入国际标准
- 涉及所有 AI 和数据中心系统,而不仅仅是生成式 AI
- 作为单一资源交付,而非文档集合
- 持续更新,而非在特定时间发布
- 专注于威胁、控制措施和相关实践的框架,使其更具技术导向性,而 GenAI 项目涵盖更广泛的方面
- 还涵盖 AI 隐私
- 完全免费,无版权和署名要求
摘要 - 如何应对 AI 安全?
类别:讨论
永久链接:https://owaspai.org/goto/summary/
虽然 AI 带来了巨大的机遇,但也带来了新的风险,包括安全威胁。因此,必须以对潜在威胁及其控制措施的清晰理解来处理 AI 应用。简而言之,应对 AI 安全的主要步骤是:
- 1.实施 AI 治理。
- 2.扩展您的安全实践,加入本文档中的 AI 安全资产、威胁和控制措施。
- 3.如果您开发 AI 系统(即使您不训练自己的模型):
- 将您的数据和 AI 工程纳入传统的(安全)软件开发实践中。
- 通过理解本文档讨论的威胁,应用适当的过程控制和技术控制。
- 确保您的 AI 供应商应用适当的控制措施。
- 通过最小化数据和权限,以及增加监督(例如护栏、人工监督)来限制 AI 的影响。
请注意,AI 系统可以是大型语言模型、线性回归函数、基于规则的系统或基于统计的查找表。本文档会明确指出各种威胁和控制措施在何时发挥作用。
如何使用本文档
类别:讨论
永久链接:https://owaspai.org/goto/document/
AI Exchange 是关于如何保护 AI 系统的单一连贯资源,在本网站上呈现,分为多个页面。
入门方式
- 如果您想保护您的 AI 系统,请从风险分析开始,它将引导您回答一系列问题,得出适用的攻击方式。当您点击这些攻击方式时,您将找到可供选择和实施的控制措施。
- 如果您想从不同角度了解攻击概览,请查看 AI 威胁模型或 AI 安全矩阵。如果您知道需要防范的攻击,请在您选择的概览中找到它并点击以获取更多信息以及如何防范它。
- 要了解控制措施如何与攻击相关联,请查看控制措施概览或元素周期表。
- 如果您想使用工具测试 AI 系统的安全性,请转到测试页面。
- 要了解 AI 系统的隐私,请查看隐私部分。
- 寻找更多信息或培训材料:请参阅参考资料。
结构
您可以在主页上看到高层结构。在较大的屏幕上,您可以在左侧边栏看到页面结构,在右侧看到当前页面内的结构。在较小的屏幕上,您可以通过菜单查看这些结构。
简而言之,结构如下:
- AI 安全概览 - 本页,包含 AI 安全概览和各种主题的讨论。
- 通用控制措施,例如 AI 治理
- 使用过程中的威胁,例如规避攻击(evasion attacks)
- 开发时威胁,例如数据投毒(data poisoning)
- 运行时安全威胁,例如不安全输出(insecure output)
- AI 安全测试
- AI 隐私
-
•
参考资料
本页将继续讨论:
- 威胁的高层概览
- 威胁和控制措施的各种概览:矩阵、元素周期表和导航器
- 风险分析以选择相关的威胁和控制措施
- 各种其他主题:启发式系统、负责任的 AI、生成式 AI、NCSC/CISA 指南和版权
威胁概览
类别:讨论
永久链接:https://owaspai.org/goto/threatsoverview/
威胁模型
我们区分三种类型的威胁:
- 开发时(获取和准备数据,以及训练/获取模型时),
- 通过使用模型(提供输入和读取输出),以及
- 在运行时(生产环境中)攻击系统。
在 AI 中,我们概述了 6 种影响类型,与三种攻击者目标(披露、欺骗和破坏)相对应:
- 披露:损害训练/测试数据的机密性
- 披露:损害模型知识产权(模型参数或导致它们的过程和数据)的机密性
- 披露:损害输入数据的机密性
- 欺骗:损害模型行为的完整性(模型被操纵以不希望的方式行事,从而欺骗用户)
- 破坏:损害模型的可用性(模型要么不工作,要么以不希望的方式行事——不是为了欺骗用户,而是为了破坏正常操作)
- 破坏/披露:非 AI 特定资产的机密性、完整性和可用性
造成这些影响的威胁利用不同的攻击面。例如:训练数据的机密性可能在开发时通过入侵数据库而泄露,但也可能通过成员推理攻击(membership inference attack)泄露,该攻击只需将某个人的数据输入模型并查看模型输出的细节,就能找出该人是否在训练数据中。
该图将威胁显示为箭头。每个威胁都有特定的影响,由字母表示,对应影响图例。控制措施概览部分包含添加了控制措施组的此图。
代理式 AI(Agentic AI)怎么样?
将代理式 AI 想象成可以控制您的供暖、发送电子邮件、甚至邀请更多助手加入对话的语音助手。这很强大——但您可能希望它在发送一千封电子邮件之前先与您确认。
需要理解四个关键方面:
- 行动:代理不只是聊天——它们调用函数,例如发送电子邮件。
- 自主性:代理可以相互触发,实现自主响应(例如,脚本收到电子邮件,触发 GenAI 跟进)。
- 复杂性:代理行为是涌现的(emergent)。
- 多系统:您通常需要处理混合系统和接口。
这对安全意味着什么?
- 幻觉(Hallucinations)和提示注入(prompt injections)可以改变命令——甚至提升权限。不要赋予 GenAI 模型/代理直接的访问控制权。将其构建到您的架构中。
- 攻击面很广,潜在影响不容低估。
- 因此,已知的控制措施变得更加重要——例如可追溯性、保护内存完整性、提示注入防御、基于规则的护栏、最小模型权限和人工监督。请参阅控制措施概览部分。
有关代理式 AI 威胁的更多细节,请参阅 GenAI 安全项目中的代理式 AI 威胁与缓解措施。有关代理式 AI 更一般的讨论,请参阅 Chip Huyen 的这篇文章。
测试部分讨论了更多关于代理式 AI 红队测试的内容。
AI 安全矩阵
类别:讨论
永久链接:https://owaspai.org/goto/aisecuritymatrix/
下面的 AI 安全矩阵(点击放大)按类型和影响显示了所有威胁和风险。
控制措施概览
类别:讨论
永久链接:https://owaspai.org/goto/controlsoverview/
威胁模型与控制措施 - 通用
下图将 AI Exchange 中的控制措施分组,并将这些组放在具有相应威胁的正确生命周期中。控制措施组总结了如何应对 AI 安全(控制措施以大写字母表示):
-
AI 治理:将 AI 全面整合到您的信息安全和软件开发生命周期流程中,不仅要解决 AI 风险,还要在整个生命周期中嵌入 AI 考量:
(AIPROGRAM, SECPROGRAM, DEVPROGRAM, SECDEVPROGRAM, CHECKCOMPLIANCE, SECEDUCATE)
- 以基于风险的方式应用常规技术性 IT 安全控制措施,因为 AI 系统是一个 IT 系统:
- 2a 应用标准常规 IT 安全控制措施(例如 15408, ASVS, OpenCRE, ISO 27001 Annex A, NIST SP800-53)到整个 AI 系统,并且不要忘记新的 AI 特定资产:
-
开发时:模型和数据存储、模型和数据供应链、数据科学文档:
(DEVSECURITY, SEGREGATEDATA, SUPPLYCHAINMANAGE, DISCRETE)
-
运行时:模型存储、模型使用、插件以及模型输入/输出:
(RUNTIMEMODELINTEGRITY, RUNTIMEMODELIOINTEGRITY, RUNTIMEMODELCONFIDENTIALITY, MODELINPUTCONFIDENTIALITY, ENCODEMODELOUTPUT, LIMITRESOURCES)
-
-
2b 调整常规 IT 安全控制措施,使其更适合 AI(例如,监控哪些使用模式):
(MONITORUSE, MODELACCESSCONTROL, RATELIMIT)
-
2c 采用新的 IT 安全控制措施:
(CONFCOMPUTE, MODELOBFUSCATION, PROMPTINPUTVALIDATION, INPUTSEGREGATION)
- 2a 应用标准常规 IT 安全控制措施(例如 15408, ASVS, OpenCRE, ISO 27001 Annex A, NIST SP800-53)到整个 AI 系统,并且不要忘记新的 AI 特定资产:
-
3.
应用基于风险的数据科学安全控制措施:
-
3a 开发模型时的开发时控制措施:
(FEDERATEDLEARNING, CONTINUOUSVALIDATION, UNWANTEDBIASTESTING, EVASIONROBUSTMODEL, POISONROBUSTMODEL, TRAINADVERSARIAL, TRAINDATADISTORTION, ADVERSARIALROBUSTDISTILLATION, MODELENSEMBLE, MORETRAINDATA, SMALLMODEL, DATAQUALITYCONTROL, MODELALIGNMENT)
-
3b 运行时控制措施,用于过滤和检测攻击:
(DETECTODDINPUT, DETECTADVERSARIALINPUT, DOSINPUTVALIDATION, INPUTDISTORTION, FILTERSENSITIVEMODELOUTPUT, OBSCURECONFIDENCE)
-
-
最小化数据:限制静态和传输中的数据量。同时,限制数据存储时间,包括开发时和运行时:
(DATAMINIMIZE, ALLOWEDDATA, SHORTRETAIN, OBFUSCATETRAININGDATA)
-
控制行为影响,因为模型可能无意中或以不希望的方式行事:
(OVERSIGHT, LEASTMODELPRIVILEGE, AITRANSPARENCY, EXPLAINABILITY, CONTINUOUSVALIDATION, UNWANTEDBIASTESTING)
所有威胁和控制措施将在 AI Exchange 的后续章节中更详细地探讨。
威胁模型与控制措施 - 训练/微调的 GenAI
下图侧重于与生成式 AI 相关的威胁和控制措施,特别是在组织负责训练或微调模型的情况下。(注意:鉴于高昂的成本和所需的专业知识,这种情况并不常见)。
AI 安全威胁与控制措施 - 训练或微调的 GenAI
威胁模型与控制措施 - 现成的 GenAI
下图侧重于与生成式 AI 相关的威胁和控制措施,当组织使用现成的模型,无需任何额外的训练或微调时。提供商(例如 OpenAI)已经完成了训练/微调。因此,一些风险是模型提供商的责任(敏感/受版权保护的数据,提供商处的操纵)。尽管如此,使用该模型的组织应考虑这些风险,并从提供商那里获得相关保证。
在许多情况下,现成的模型托管在外部,这意味着安全性在很大程度上取决于供应商如何处理数据,包括安全配置。这里需要提出的一些相关问题包括:
- API 是如何保护的?
- 整个外部模型还是仅 API 托管在虚拟私有云(VPC)内?
- 密钥管理是如何处理的?
- 数据保留政策是什么?
- 是否启用了日志记录?如果启用,记录了什么?
- 模型在与第三方来源通信时是否会发送敏感输入数据?
AI 安全威胁与控制措施 - 现成的 GenAI
AI 安全元素周期表
类别:讨论
永久链接:https://owaspai.org/goto/periodictable/
下表由 OWASP AI Exchange 创建,显示了 AI 面临的各种威胁以及您可以用来对抗它们的控制措施——全部按资产、影响和攻击面组织,并带有指向 AI Exchange 网站全面覆盖内容的深度链接。
请注意,通用治理控制措施适用于所有威胁。
- 资产与影响:模型行为完整性
- 攻击面与生命周期:运行时 - 模型使用(提供输入/读取输出)
- 威胁/风险类别:直接提示注入
- 控制措施:限制不良行为,提示输入验证,模型对齐
- 威胁/风险类别:间接提示注入
- 控制措施:限制不良行为,输入验证,输入隔离
- 威胁/风险类别:规避(例如对抗样本)
- 控制措施:限制不良行为,监控,速率限制,模型访问控制,加上:检测异常输入,检测对抗输入,规避鲁棒模型,对抗训练,输入扭曲,对抗鲁棒蒸馏
- 威胁/风险类别:直接提示注入
- 攻击面与生命周期:运行时 - 入侵已部署模型
- 威胁/风险类别:运行时模型投毒(重编程)
- 控制措施:限制不良行为,运行时模型完整性,运行时模型输入/输出完整性
- 威胁/风险类别:运行时模型投毒(重编程)
- •攻击面与生命周期:开发 - 工程环境
- 威胁/风险类别:开发环境模型投毒
- 控制措施:限制不良行为,开发环境安全,数据隔离,联邦学习,供应链管理,加上:模型集成
- 威胁/风险类别:训练/微调数据的数据投毒
- 控制措施:限制不良行为,开发环境安全,数据隔离,联邦学习,供应链管理,加上:模型集成,加上:更多训练数据,数据质量控制,训练数据扭曲,投毒鲁棒模型,对抗训练
- 威胁/风险类别:开发环境模型投毒
- 攻击面与生命周期:开发 - 供应链
- 威胁/风险类别:供应链模型投毒
- 控制措施:限制不良行为,供应商:开发环境安全,数据隔离,联邦学习;生产者:供应链管理,加上:模型集成
- 威胁/风险类别:供应链模型投毒
- 攻击面与生命周期:运行时 - 模型使用(提供输入/读取输出)
- 资产与影响:训练数据机密性
- 攻击面与生命周期:运行时 - 模型使用
- 威胁/风险类别:模型输出中的数据泄露
- 控制措施:敏感数据限制(数据最小化,短期保留,混淆训练数据),加上:监控,速率限制,模型访问控制,加上:过滤敏感模型输出
- 威胁/风险类别:模型反演 / 成员推理
- 控制措施:敏感数据限制(数据最小化,短期保留,混淆训练数据),加上:监控,速率限制,模型访问控制,加上:模糊置信度,小型模型
- 威胁/风险类别:模型输出中的数据泄露
- 攻击面与生命周期:开发 - 工程环境
- 威胁/风险类别:训练数据泄露
- 控制措施:敏感数据限制(数据最小化,短期保留,混淆训练数据),加上:开发环境安全,数据隔离,联邦学习
- 威胁/风险类别:训练数据泄露
- 攻击面与生命周期:运行时 - 模型使用
- 资产与影响:模型机密性
- 攻击面与生命周期:运行时 - 模型使用
- 威胁/风险类别:通过使用窃取模型(输入-输出收集)
- 控制措施:监控,速率限制,模型访问控制
- 威胁/风险类别:通过使用窃取模型(输入-输出收集)
- 攻击面与生命周期:运行时 - 入侵已部署模型
- 威胁/风险类别:运行时直接模型窃取
- 控制措施:运行时模型机密性,模型混淆
- 威胁/风险类别:运行时直接模型窃取
- 攻击面与生命周期:开发 - 工程环境
- 威胁/风险类别:开发时模型窃取
- 控制措施:开发环境安全,数据隔离,联邦学习
- 威胁/风险类别:开发时模型窃取
- 攻击面与生命周期:运行时 - 模型使用
- 资产与影响:模型行为可用性
- 攻击面与生命周期:模型使用
- 威胁/风险类别:拒绝模型服务(模型资源耗尽)
- 控制措施:监控,速率限制,模型访问控制,加上:拒绝服务输入验证,限制资源
- 威胁/风险类别:拒绝模型服务(模型资源耗尽)
- 攻击面与生命周期:模型使用
- 资产与影响:模型输入数据机密性
- 攻击面与生命周期:运行时 - 所有 IT
- 威胁/风险类别:模型输入泄露
- 控制措施:模型输入机密性
- 威胁/风险类别:模型输入泄露
- 攻击面与生命周期:运行时 - 所有 IT
- 资产与影响:任何资产,CIA
- 攻击面与生命周期:运行时 - 所有 IT
- 威胁/风险类别:模型输出包含注入
- 控制措施:编码模型输出
- 威胁/风险类别:对常规资产的常规运行时安全攻击
- 控制措施:常规运行时安全控制措施
- 威胁/风险类别:对常规供应链的常规攻击
- 控制措施:常规供应链管理控制措施
- 威胁/风险类别:模型输出包含注入
- 攻击面与生命周期:运行时 - 所有 IT
深入探讨部分中威胁和控制措施的结构
类别:讨论
永久链接:https://owaspai.org/goto/navigator/
本文档的下一个重要部分是对所有 AI 安全威胁及其控制措施的深入探讨。
下面的导航图概述了深入探讨部分的结构,说明了威胁、控制措施、相关风险以及所应用控制措施类型之间的关系。
点击图片可获取带有可点击链接的 PDF。
如何选择相关的威胁和控制措施?风险分析
类别:讨论
永久链接:https://owaspai.org/goto/riskanalysis/
本文档描述了相当多的威胁和控制措施。每个威胁的相关性和严重性以及适当的控制措施取决于您的具体用例以及 AI 在您环境中的部署方式。确定哪些威胁适用、在多大程度上适用,以及谁负责实施控制措施,应基于您的架构和预期用途进行风险评估来指导。
风险管理简介
组织将其风险分为几个关键领域:战略、运营、财务、合规、声誉、技术、环境、社会和治理(ESG)。当威胁利用一个或多个漏洞时,威胁就变成了风险。如本资源所讨论的,AI 威胁可能对多个风险领域产生重大影响。例如,对 AI 系统的对抗性攻击可能导致运营中断、扭曲财务模型并导致合规问题。有关 AI 相关威胁、风险和潜在影响的概述,请参阅 AI 安全矩阵。
AI 系统的通用风险管理通常由 AI 治理驱动——参见 AIPROGRAM,并包括相关 AI 系统带来的风险和对这些系统的风险。安全风险评估通常由安全管理体系驱动——参见 SECPROGRAM,因为该系统负责包含 AI 资产、AI 威胁和 AI 系统,前提是这些内容已被添加到相应的存储库中。
组织通常采用风险管理框架,通常基于 ISO 31000 或类似标准(如 ISO 23894)。这些框架通过以下四个关键步骤指导风险管理过程:
- 识别风险:识别可能影响组织的潜在风险。请参阅“使用过程中的威胁”部分以识别潜在风险。
- 通过估计可能性和影响来评估风险:要确定风险的严重性,需要评估风险发生的概率,并评估风险发生时潜在的后果。结合可能性和影响来衡量风险的整体严重性。这通常以热图的形式呈现。后续章节将更详细地讨论这一点。
- 决定做什么(风险处理):选择适当的策略来应对风险。这些策略包括:风险缓解、转移、规避或接受。详情见下文。
- 风险沟通与监控:定期与利益相关者分享风险信息,以确保认知度并持续支持风险管理活动。确保应用有效的风险处理措施。这需要一个风险登记册(Risk Register),即风险及其属性(例如严重性、处理计划、所有权、状态等)的全面列表。后续章节将更详细地讨论这一点。
让我们逐一介绍风险管理步骤。
1. 识别风险
发现可能影响组织的潜在风险需要对适用的威胁进行技术和业务评估。以下部分概述了分别处理每种风险影响类型的方法:
- 不良模型行为
- 关于模型行为,我们关注攻击者的操纵,因为本文档的范围是安全。不良行为的其他来源是普遍的不准确性(例如幻觉)和/或针对某些群体的不良偏见(歧视)。
- 这始终是一个适用的威胁,与您的用例无关,尽管风险水平有时可能被接受,如下所示。
- 这意味着您始终需要实施以下措施:
- 通用治理控制措施(例如,维护 AI 应用的文档化清单,并实施机制以确保适当的监督和问责制。)
- 限制不良模型行为影响的控制措施(例如人工监督)
- 模型是 GenAI(例如大型语言模型)吗?
- 防止提示注入(主要由模型供应商完成)。当不受信任的输入直接进入模型,并且模型的输出可能有害时(例如,冒犯他人、提供危险信息、传播错误信息,或触发有害功能的输出(代理式 AI))——这是一个重大问题。当模型输入来自最终用户且输出直接发送给他们,或者可以触发功能时,情况尤其如此。
- 防止间接提示注入,以防不受信任的数据是提示的一部分,例如您检索某人的简历并将其包含在提示中。
- 谁训练/微调模型?
- 供应商:您需要通过适当的供应链管理(选择可信赖的供应商并验证模型的真实性)来避免获得被投毒的模型。这涉及确保供应商在开发过程中防止模型投毒,包括数据投毒,并使用未受损害的数据。如果数据投毒的风险仍然不可接受,实施训练后对策可能是一个可行的选择。参见 POISONROBUSTMODEL。
- 您:您需要防止开发时模型投毒,包括模型投毒、数据投毒,以及在您微调模型时获得被投毒的数据或预训练模型。
- 如果您使用 RAG(使用 GenAI 的检索增强生成),那么您的检索库在决定模型行为方面起着作用。这意味着:
- 您需要防止检索库的数据投毒,包括防止其包含外部获得的被投毒数据。
- •谁运行模型?
- 供应商:确保供应商防止运行时模型投毒,就像您期望任何供应商保护其运行的应用程序免受操纵一样。
- 您:您需要防止运行时模型投毒。
- 模型(预测性 AI 或生成式 AI)是否用于判断任务(例如垃圾邮件检测)?
- 防止规避攻击(evasion attack),即用户试图使用数据(而非指令)欺骗模型做出错误决策。这里,风险水平是评估的一个重要方面——见下文。规避攻击的风险可能是可接受的。
- 为了评估通过操纵导致不良模型行为的风险水平,请考虑攻击者的动机可能是什么。例如,攻击者通过破坏您的模型能获得什么?只是为了出名?可能是心怀不满的员工?也许是竞争对手?攻击者通过不太明显的模型行为攻击(如规避攻击或带有触发器的数据投毒)能获得什么?是否存在攻击者通过欺骗模型而受益的场景?一个规避攻击有吸引力且可能的例子:在垃圾邮件中添加某些词语,使其不被识别为垃圾邮件。一个规避攻击没有吸引力的例子:患者根据皮肤图片获得皮肤病诊断。患者对错误的决策没有兴趣,而且患者通常也无法控制——嗯,也许可以通过在皮肤上涂画。在某些情况下,这对患者可能有吸引力,例如为了获得赔偿,如果(伪造的)皮肤病是由某些餐厅食物引起的。这表明,一个理论上的威胁是否是真正的威胁,完全取决于背景。根据威胁的可能性和影响以及相关政策,某些威胁可能作为风险被接受。如果不被接受,风险水平是控制措施强度的输入。例如:如果数据投毒能给一群攻击者带来巨大利益,那么训练数据就需要得到高水平的保护。
- 泄露训练数据
- 您自己训练/微调模型吗?
- 如果是,训练数据是否敏感?如果您的回答是肯定的,您需要防止:
- 模型输出中意外泄露
- 模型反演(model inversion)(但不适用于 GenAI)
- 训练数据从您的工程环境泄露。
- 成员推理(membership inference)——但仅当训练数据中的某些内容或某人构成敏感信息时。例如,当训练集由罪犯及其历史组成以预测犯罪生涯时。属于该集合就意味着该人是被定罪或被指控的罪犯。
- 如果是,训练数据是否敏感?如果您的回答是肯定的,您需要防止:
- 如果您使用 RAG:将上述内容应用于您的存储库数据,就好像它是训练集的一部分一样:因为存储库数据输入模型,因此也可能成为输出的一部分。
- 如果您不训练/微调模型,那么模型供应商负责训练数据中的不良内容。这可能是被投毒的数据(见上文)、机密数据或受版权保护的数据。检查这些事项的许可证、保证和合同非常重要,或者根据您的情况接受风险。
- 您自己训练/微调模型吗?
- 模型窃取
- 您自己训练/微调模型吗?
- 如果是,模型是否被视为知识产权?那么您需要防止:
- 通过使用窃取模型
- 开发时模型窃取
- 源代码/配置泄露
- 运行时模型窃取
- 如果是,模型是否被视为知识产权?那么您需要防止:
- 您自己训练/微调模型吗?
- 泄露输入数据
- 您的输入数据敏感吗?
- 防止泄露输入数据。特别是如果模型由供应商运行,则需要采取适当措施确保这些数据被最小化并以安全方式传输或存储。审查供应商提供的安全措施,包括在其端禁用日志记录或监控的任何选项。如果您使用 RAG 系统,请记住,您检索并注入到提示中的数据也算作输入数据。这通常包括敏感的公司信息或个人数据。
- 您的输入数据敏感吗?
- 其他
- 您的模型是大型语言模型吗?
- 防止不安全输出处理,例如,当您在网站上显示模型的输出,而输出包含恶意 Javascript。
- 确保防止恶意用户导致模型不可用(例如,大量输入、多次请求)。如果您的模型由供应商运行,那么可能已经采取了一些应对措施来解决此问题。
- 您的模型是大型语言模型吗?
由于 AI 系统是软件系统,除了本节提到的 AI 特定威胁和控制措施外,它们还需要适当的常规应用安全和运维安全。
2. 通过估计可能性和影响来评估风险
要确定风险的严重性,需要评估风险发生的概率,并评估风险发生时潜在的后果。
-
估计可能性:
估计 AI 风险的可能性和影响需要对范围内 AI 系统的技术和背景方面有透彻的理解。AI 系统中风险发生的可能性受多种因素影响,包括 AI 算法的复杂性、数据质量和来源、现有的常规安全措施以及对抗性攻击的可能性。例如,处理公共数据的 AI 系统更容易受到数据投毒和推理攻击,从而增加了此类风险的可能性。一家金融机构的 AI 系统使用公共信用评分评估贷款申请,容易受到数据投毒攻击。这些攻击可能操纵信用评估,导致错误的贷款决策。
- 评估影响: 评估 AI 系统风险的影响涉及理解威胁实现时的潜在后果。这包括直接后果,例如数据完整性受损或系统停机,以及间接后果,例如声誉损害或监管处罚。由于 AI 系统的规模和执行任务的关键性质,其影响往往被放大。例如,对用于医疗诊断的 AI 系统的成功攻击可能导致误诊,影响患者健康,并对相关实体造成重大的法律、信任和声誉影响。
- 风险优先级排序 可能性和影响评估的结合构成了风险优先级排序的基础,并为风险处理决策的制定提供了依据。通常,组织使用风险热图(risk heat map)按影响和可能性对风险进行可视化分类。这种方法有助于风险沟通和决策。它使管理层能够专注于严重程度最高的风险(高可能性和高影响)。
3. 风险处理
风险处理是关于决定如何处理风险。它涉及选择和实施措施,以减轻、转移、规避或接受与 AI 系统相关的网络安全风险。由于 AI 系统特有的漏洞和威胁(如数据投毒、模型窃取和对抗性攻击),这一过程至关重要。有效的风险处理对于构建稳健、可靠和值得信赖的 AI 至关重要。
风险处理选项包括:
- 缓解(Mitigation):实施控制措施以降低风险的可能性或影响。这通常是管理 AI 网络安全风险最常见的方法。请参阅本资源中的许多控制措施和下面的“选择控制措施”小节。
- 示例:加强数据验证流程以防止数据投毒攻击,其中恶意数据被输入模型以破坏其学习过程并对其性能产生负面影响。
- 转移(Transfer):将风险转移给第三方,通常通过迁移学习(transfer learning)、联邦学习(federated learning)、保险或外包某些功能来实现。
-
•
示例:使用具有强大安全措施的第三方云服务进行 AI 模型训练、托管和数据存储,将数据泄露和基础设施攻击的风险转移出去。
-
- 规避(Avoidance):改变计划或策略以完全消除风险。这可能涉及在风险被认为过高的领域不使用 AI。
- 示例:决定不部署用于处理高度敏感个人数据的 AI 系统,因为数据泄露的风险无法充分缓解。
- 接受(Acceptance):承认风险并决定在不采取具体行动的情况下承担潜在损失。当处理风险的成本超过潜在影响时,会选择此选项。
- 示例:在非敏感应用中接受模型反演攻击(攻击者试图从模型输出中重建公开可用的输入数据)的微小风险,因为其影响被认为是低的。
4. 风险沟通与监控
定期与利益相关者分享风险信息,以确保认知度并支持风险管理活动。
此过程中的核心工具是风险登记册(Risk Register),它作为所有已识别风险及其属性(如严重性、处理计划、所有权和状态)以及为缓解风险而实施的控制措施的全面存储库。大多数大型组织已经拥有这样的风险登记册。重要的是将 AI 风险和企业风险管理(Enterprise Risk Management)的选定词汇保持一致,以便在整个组织内有效沟通风险。
5. 安排责任
对于每个选定的威胁,确定谁负责处理它。默认情况下,构建和部署 AI 系统的组织负责,但构建和部署可能由不同的组织完成,并且构建和部署的某些部分可能委托给其他组织,例如托管模型,或为应用程序运行提供云环境。某些方面是共同责任。
如果您的 AI 系统的某些组件是托管的,那么您与托管提供商共享相关威胁的所有控制措施的责任。这需要使用责任矩阵(responsibility matrix)等工具与提供商安排。组件可以是模型、模型扩展、您的应用程序或您的基础设施。请参阅使用现成模型的威胁模型。
如果外部方对如何缓解某些风险不公开,请考虑要求提供此信息,如果仍然不清楚,您将面临以下选择:1) 接受风险,2) 提供自己的缓解措施,或 3) 规避风险,不与第三方合作。
6. 验证外部责任
对于属于其他组织责任的威胁:获取这些组织是否处理这些威胁的保证。这将涉及与这些威胁相关的控制措施。
示例:定期审计和评估第三方安全措施。
7. 选择控制措施
接下来,对于与您的用例相关且属于您责任的威胁,审查相关的控制措施,包括直接列在威胁(或其父类别)下的控制措施以及普遍适用的通用控制措施。对于每个控制措施,考虑其目的并评估是否值得实施,以及在多大程度上实施。这个决定应该权衡实施成本与控制措施应对威胁的有效性,以及相关风险的严重性。这些因素也影响您应用控制措施的顺序。从最高风险的威胁开始,优先考虑低成本、快速见效的控制措施(“低垂的果实”)。
控制措施通常具有与质量相关的参数,需要根据具体情况和风险水平进行调整。例如,这可能涉及决定向输入数据添加多少噪声,或为异常检测设置适当的阈值。在模拟环境中测试这些控制措施的有效性有助于您评估其性能和安全性影响,以找到适当的平衡点。这个调整过程应该是持续的,利用模拟测试和现实生产反馈的见解。
8. 剩余风险接受
最终,您需要能够接受每个威胁的剩余风险,考虑到您已实施的控制措施。您认为可接受的风险严重程度应显著降低到不会损害您业务任何方面的程度。
9. 对选定控制措施的进一步管理
(参见 SECPROGRAM),包括持续监控、文档记录、报告和事件响应。
10. 持续风险评估
实施持续监控以检测和响应新威胁。根据不断变化的威胁和事件响应活动的反馈更新风险管理策略。
示例:定期审查和更新风险处理计划以适应新的漏洞。
关于...
-
关于机器学习之外的 AI?
看待 AI 的一个有益方式是将其视为由机器学习(当前主导的 AI 类型)模型和启发式模型组成。模型可以是机器学习模型,它根据数据学习如何计算;也可以是启发式模型,基于人类知识构建,例如基于规则的系统。启发式模型仍然需要数据进行测试,在某些情况下,还需要进行分析以支持人类知识的进一步开发和验证。
本文档侧重于机器学习。尽管如此,以下是本文档中提到的机器学习威胁也适用于启发式系统的快速总结:
- 模型规避也适用于启发式模型,因为攻击者可能试图在定义的规则中找到漏洞或弱点。
- 通过使用窃取模型——基于启发式模型的输入/输出组合训练机器学习模型是可能的。
- 使用中的过度依赖——启发式系统也可能被过度依赖。应用的知识可能是错误的。
- 数据投毒和模型投毒都可能发生,通过篡改用于增强知识的数据,或者在开发时或运行时操纵规则。
- 用于分析或测试的数据泄露仍然可能是一个问题。
- 知识库、源代码和配置在作为知识产权时可能被视为敏感数据,因此需要保护。
- 泄露敏感输入数据,例如当启发式系统需要诊断患者时。
-
关于负责任或可信赖的 AI?
类别:讨论
永久链接:https://owaspai.org/goto/responsibleai/
AI 在实现积极成果同时降低风险方面有许多考量。这通常被称为负责任 AI(responsible AI)或可信赖 AI(trustworthy AI),前者强调道德、社会和治理,而后者则强调技术和运营方面。
如果您的主要职责是安全,最好从专注于 AI 安全开始。一旦您牢固掌握了这一点,就可以扩展您的知识到其他 AI 方面,即使只是为了支持负责这些领域的同事并帮助他们保持警惕。毕竟,安全专业人员通常擅长发现潜在的故障点。此外,某些方面可能是 AI 受损的后果,因此理解它们是有帮助的,例如安全性(safety)。
让我们分解 AI 的原则,并探讨每个原则如何与安全相关联:
- 准确性(Accuracy) 是指 AI 模型足够正确以执行其“业务功能”。不正确可能导致伤害,包括(物理)安全问题(例如汽车后备箱在行驶中打开)或其他有害的错误决策(例如错误拒绝贷款)。与安全的联系在于,某些攻击会导致不良模型行为,这从定义上讲就是准确性问题。然而,安全范围仅限于减轻这些攻击的风险——并非解决创建准确模型的整个问题(为训练集选择代表性数据等)。
- 安全性(Safety) 是指免受伤害或不太可能造成伤害的状态。因此,AI 系统的安全性涉及存在伤害风险(通常意味着身体伤害但不限于此)时的准确性水平,以及为减轻这些风险而采取的措施(除了准确性),包括保护准确性的安全措施,以及许多对模型业务功能重要的安全措施。这些需要得到照顾,而不仅仅是出于安全原因,因为模型可能因其他原因(例如不良训练数据)做出不安全的决策,因此它们是安全性和安全性(safety and security)共同关注的问题:
- 监督(oversight)以限制不安全行为,并与之相关:为模型分配最小权限(least privileges),
- 持续验证(continuous validation)以保障准确性,
- 透明度(transparency):见下文,
- 可解释性(explainability):见下文。
- 透明度(Transparency):共享有关方法的信息,以警告用户和相关系统注意准确性风险,并且在许多情况下,用户有权了解所用模型的详细信息及其创建方式。因此,它是安全、隐私和安全性(security, privacy, and safety)共同关注的问题。
- 可解释性(Explainability):共享信息以帮助用户通过更详细地解释特定结果如何产生来验证准确性。除了验证准确性之外,这还可以支持用户获得透明度并理解需要改变什么才能获得不同的结果。因此,它是安全、隐私、安全性和业务功能(security, privacy, safety, and business function)共同关注的问题。一个特殊情况是,当法律要求可解释性(与隐私无关)时,这增加了“合规性”到共享此关注点的方面列表中。
- 鲁棒性(Robustness) 是指在预期或意外的输入变化下保持准确性的能力。安全范围涉及这些变化是恶意的情况(对抗鲁棒性),这通常需要与应对正常变化(泛化鲁棒性)不同的对策。就像准确性一样,安全本身并不参与为正常变化创建鲁棒模型。例外情况是涉及泛化鲁棒性或对抗鲁棒性时,这成为安全性和安全性(safety and security)共同关注的问题。它更偏向于哪一方取决于具体情况。
- 无歧视(Free of discrimination):没有受保护属性的不良偏见,意味着:没有系统性的不准确性,即模型“虐待”某些群体(例如性别、种族)。出于法律和伦理原因,歧视是不可取的。与安全的联系在于,检测不良偏见有助于识别由攻击引起的不良模型行为。例如,数据投毒攻击在训练集中插入了恶意数据样本,起初未被注意,但后来通过模型中检测到无法解释的偏见而被发现。有时使用“公平性(fairness)”一词来指代歧视问题,但隐私中的公平性通常是一个更广泛的术语,指个人的公平待遇,包括透明度、道德使用和隐私权。
- 同理心(Empathy)。它与安全的联系在于认识到在评估 AI 应用时,安全所能实现的现实限制。如果个人或组织无法得到充分保护,同理心意味着重新思考这个想法,要么完全拒绝它,要么采取额外的预防措施来减少潜在的伤害。
- 问责制(Accountability)。问责制与安全的联系在于,安全措施应该是可证明的,包括导致这些措施的过程。此外,可追溯性作为一种安全属性非常重要,就像在任何 IT 系统中一样,以便检测、重建和响应安全事件并提供问责制。
- AI 安全(AI security)。AI 的安全方面是 AI Exchange 的核心主题。简而言之,它可以分解为:
- 输入攻击,通过向模型提供输入来执行
- 模型投毒,旨在改变模型的行为
- 窃取 AI 资产,例如训练数据、模型输入、输出或模型本身,无论是在开发时还是运行时(见下文)
- 进一步的运行时常规安全攻击
关于生成式 AI(例如 LLM)?
类别:讨论
永久链接:https://owaspai.org/goto/genai/
是的,GenAI 引领着当前的 AI 革命,并且是 AI 安全领域发展最快的子领域。尽管如此,重要的是要认识到其他类型的算法(我们称之为预测性 AI)将继续应用于许多重要用例,例如信用评分、欺诈检测、医疗诊断、产品推荐、图像识别、预测性维护、过程控制等。本文档中相关内容已标记为“GenAI”。
重要提示:从安全威胁的角度来看,GenAI 与其他形式的 AI(预测性 AI)并没有那么不同。GenAI 威胁和控制措施在很大程度上重叠,并且与通用 AI 非常相似。然而,一些风险(更高),一些(更低)。只有少数风险是 GenAI 特有的。预测性 AI 和 GenAI 之间的一些控制措施类别存在显著差异——主要是数据科学控制措施(例如向训练集添加噪声)。在许多情况下,GenAI 解决方案将使用现成的模型,根本不涉及组织的任何训练,从而将一些安全责任从组织转移到供应商。尽管如此,如果您使用现成的模型,您仍然需要意识到这些威胁。
LLM 主要给威胁格局带来了什么新内容?
- 首先,LLM 对安全构成了新的威胁,因为它们可能被用来创建带有漏洞的代码,或者被攻击者用来创建恶意软件,或者它们可能通过幻觉(hallucinations)造成伤害。然而,这些担忧超出了 AI Exchange 的范围,后者专注于 AI 系统本身的安全威胁。
- 关于输入:
- 提示注入(Prompt injection) 是一个全新的威胁:攻击者使用精心制作且有时隐藏的指令操纵模型的行为。
- 组织在提示中发送大量数据(包含公司机密和个人数据)也是新情况。
- 关于输出: 输出可能包含注入攻击,或包含敏感或受版权保护的数据是新的(参见版权)。
- 过度依赖(Overreliance) 是一个问题。我们让 LLM 控制和创建事物,可能过于信任它们的正确性,并且低估了它们被操纵的风险。结果是攻击可能产生巨大影响。
- 关于训练: 由于训练集非常大且基于公共数据,执行数据投毒更容易。被投毒的基础模型也是一个重大的供应链问题。
GenAI 安全的特殊性:
- 1. GenAI 模型通过提示中的自然语言进行控制,产生了提示注入(Prompt injection)的风险。 直接提示注入是用户试图欺骗模型以不希望的方式行事(例如攻击性语言),而间接提示注入则是第三方为此目的将内容注入提示中(例如操纵决策)。 (对应 OWASP LLM 01: Prompt injection)
- 2. GenAI 模型通常在非常大的数据集上训练,这使得它更可能输出敏感数据或授权数据,而模型中没有内置访问权限控制。 所有数据都将对模型用户开放。可能会通过系统提示或输出过滤设置一些机制,但这些通常并不严密。 (对应 OWASP for LLM 02: Sensitive Information Disclosure)
- 3. 数据和模型投毒是一个广泛的 AI 问题,而对于 GenAI,风险通常更高,因为训练数据可能来自难以控制的不同来源,例如互联网。 攻击者可以劫持域名并放置被操纵的信息。 (对应 OWASP for LLM 04: Data Poisoning)
- 4. GenAI 模型可能不准确并产生幻觉(hallucinate)。这是一个广泛的 AI 风险因素,而大型语言模型(GenAI)可能通过表现得非常自信和知识渊博而使问题恶化。 本质上,这涉及到低估模型错误或被操纵的可能性。这意味着它与每一个安全控制措施都有关联。最紧密的联系是与限制不良模型行为影响的控制措施,特别是最小模型权限(Least model privilege)。 (对应 OWASP for LLM 06: Excessive Agency & OWASP for LLM 09: Misinformation)
- 5. 泄露输入数据:GenAI 模型大多存在于云端——通常由外部方管理,这可能会增加泄露训练数据和泄露提示的风险。 这个问题不仅限于 GenAI,但 GenAI 在这里有两个特定的风险:1) 模型使用涉及通过提示进行的用户交互,增加了用户数据和相应的隐私/敏感性问题,2) GenAI 模型输入(提示)可以包含带有敏感数据(例如公司机密)的丰富上下文信息。后一个问题发生在情境学习(in-context learning)或检索增强生成(RAG)(向提示添加背景信息)中:例如来自咨询公司所有报告的数据。首先,这些信息将随提示传输到云端,其次:系统可能不会尊重信息的原始访问权限。 (未包含在 LLM 十大风险中)
- 6. 预训练模型可能已被操纵。 预训练的概念不仅限于 GenAI,但在 GenAI 中非常普遍,这增加了供应链模型投毒的风险。 (对应 OWASP for LLM 03: Supply Chain Vulnerabilities)
- 7. 模型反演和成员推理对于 GenAI 通常是低风险或零风险 (未包含在 LLM 十大风险中,除了 LLM06 使用了不同的方法 - 见上文)
- 8. GenAI 输出可能包含执行注入攻击的元素,例如跨站脚本(XSS)。 (对应 OWASP for LLM 05: Insecure Output Handling)
- 9. 拒绝服务对于任何 AI 模型都可能是一个问题,但 GenAI 模型的运行成本通常更高,因此使其过载会产生不必要的成本。 (对应 OWASP for LLM 10: Excessive Resource Consumption)
GenAI 参考资料:
- •OWASP LLM top 10
- •Demystifying the LLM top 10
- •Impacts and risks of GenAI
- •LLMsecurity.net
-
•
关于 NCSC/CISA 指南?
类别:讨论
永久链接:https://owaspai.org/goto/jointguidelines/
将英国 NCSC / 美国 CISA 的《安全 AI 系统开发联合指南》映射到 AI Exchange 中的控制措施。
要查看这些与威胁相关的控制措施,请参阅 AI 安全元素周期表。
请注意,英国政府通过其 DSIT 部门推动了一项倡议,在这些联合指南的基础上制定了《DSIT AI 网络安全实践准则》,该准则根据 13 项原则重新组织内容,进行了一些调整,并增加了更多治理内容。原则映射如下,主要增加了上市后方面:
- 原则 10:与最终用户和受影响实体相关的沟通和流程
- 原则 13:确保适当的数据和模型处置
安全设计
- 提高员工对威胁和风险的认识(DSIT 原则 1):#SECURITY EDUCATE
- 对系统威胁进行建模(DSIT 原则 3):参见 #SECURITY PROGRAM 下的风险分析
- 为安全以及功能和性能设计系统(DSIT 原则 2):#AI PROGRAM, #SECURITY PROGRAM, #DEVELOPMENT PROGRAM, #SECURE DEVELOPMENT PROGRAM, #CHECK COMPLIANCE, #LEAST MODEL PRIVILEGE, #DISCRETE, #OBSCURE CONFIDENCE, #OVERSIGHT, #RATE LIMIT, #DOS INPUT VALIDATION, #LIMIT RESOURCES, #MODEL ACCESS CONTROL, #AI TRANSPARENCY
- 在选择 AI 模型时考虑安全收益和权衡:所有开发时数据科学控制措施(目前 13 项),#EXPLAINABILITY
安全开发
- 保护您的供应链(DSIT 原则 7):#SUPPLY CHAIN MANAGE
- 识别、跟踪和保护您的资产(DSIT 原则 5):#DEVELOPMENT SECURITY, #SEGREGATE DATA, #CONFIDENTIAL COMPUTE, #MODEL INPUT CONFIDENTIALITY, #RUNTIME MODEL CONFIDENTIALITY, #DATA MINIMIZE, #ALLOWED DATA, #SHORT RETAIN, #OBFUSCATE TRAINING DATA 以及 #SECURITY PROGRAM 的一部分
- 记录您的数据、模型和提示(DSIT 原则 8):#DEVELOPMENT PROGRAM 的一部分
- 管理您的技术债务:#DEVELOPMENT PROGRAM 的一部分
安全部署
- 保护您的基础设施(DSIT 原则 6):#SECURITY PROGRAM 的一部分,并参见“识别、跟踪和保护您的资产”
- 持续保护您的模型:#INPUT DISTORTION, #FILTER SENSITIVE MODEL OUTPUT, #RUNTIME MODEL IO INTEGRITY, #MODEL INPUT CONFIDENTIALITY, #PROMPT INPUT VALIDATION, #INPUT SEGREGATION
- 制定事件管理程序:#SECURITY PROGRAM 的一部分
- 负责任地发布 AI:#DEVELOPMENT PROGRAM 的一部分
- 让用户更容易做正确的事情(DSIT 原则 4,称为“让人为 AI 系统负责”):#SECURITY PROGRAM 的一部分,还涉及 #EXPLAINABILITY、记录禁止的用例以及 #HUMAN OVERSIGHT)
安全运维与维护
- 监控系统的行为(DSIT 原则 12,类似于 DSIT 原则 9 - 适当的测试和验证):#CONTINUOUS VALIDATION, #UNWANTED BIAS TESTING
- 监控系统的输入:#MONITOR USE, #DETECT ODD INPUT, #DETECT ADVERSARIAL INPUT
- 遵循安全设计方法进行更新(DSIT 原则 11:维护定期的安全更新、补丁和缓解措施):#SECURE DEVELOPMENT PROGRAM 的一部分
- 收集并分享经验教训:#SECURITY PROGRAM 和 #SECURE DEVELOPMENT PROGRAM 的一部分
-
•
关于版权?
类别:讨论
永久链接:https://owaspai.org/goto/copyright/
引言
AI 和版权是法律和政策(包括公共和私人)中两个(众多)领域,它们提出了复杂且往往尚未解决的问题。AI 输出或生成的内容尚未受到美国版权法的保护。许多其他司法管辖区尚未宣布此类材料的任何正式知识产权保护状态。另一方面,提供输入内容、文本、训练数据等的人类贡献者可能拥有此类材料的版权。最后,在 AI 训练中使用某些受版权保护的材料可能被视为合理使用(fair use)。
AI 与版权安全
在 AI 领域,公司面临着无数的安全威胁,这些威胁可能对知识产权(尤其是版权)产生深远影响。随着 AI 系统(包括大型数据训练模型)变得越来越复杂,它们无意中增加了版权侵权的可能性。这部分是由于开发和训练 AI 模型需要处理大量数据,这些数据可能包含受版权保护的作品。在这些情况下,如果受版权保护的作品在未经所有者许可,也未经 AI 模型操作员或提供商同意的情况下被插入训练数据,这种违规行为可能构成对该版权的重大财务和声誉侵权风险,并可能破坏整个数据集本身。
围绕 AI 的法律挑战是多方面的。一方面,问题是使用受版权保护的作品来训练 AI 模型是否构成侵权,可能使开发人员面临法律索赔。另一方面,整个行业都在努力解决 AI 生成作品的归属问题以及在训练数据中使用未经授权内容的问题。这种法律上的模糊性影响着所有利益相关者,包括开发人员、内容创作者和版权所有者。
与 AI 和版权相关的诉讼
最近的诉讼(撰写时间为 2024 年 4 月)凸显了这些问题的紧迫性。例如,对 Stability AI、Midjourney 和 DeviantArt 提起的集体诉讼指控其通过使用网络抓取的图像训练其工具侵犯了数百万艺术家的权利。同样,Getty Images 起诉 Stability AI 未经许可使用其图库中的图像训练艺术生成 AI,凸显了版权纠纷升级的可能性。想象一下,供应商为您的系统提供大量训练数据,而这些数据已被受保护的作品、数据集或未经授权用于此类用途的材料块所污染的情况。
AI 生成源代码的版权
源代码是软件开发公司的一项重要知识产权(IP)资产,因为它体现了其开发人员的创新和创造力。因此,源代码受到知识产权保护,包括版权、专利和商业秘密。在大多数情况下,人类生成的源代码一经产生即具有版权地位。
然而,能够在没有人类输入的情况下生成源代码的 AI 系统的出现,给知识产权制度带来了新的挑战。例如,谁是 AI 生成源代码的作者?谁可以主张其知识产权?AI 生成的源代码如何被第三方许可和利用?
这些问题不容易解决,因为当前的知识产权法律和监管框架没有充分解决 AI 生成作品的 IP 地位问题。此外,AI 生成的源代码可能并非完全新颖,因为它可能源自现有的代码或数据源。因此,必须对 AI 生成源代码的来源和过程进行彻底分析,以确定其知识产权影响并确保公司知识产权资产的安全。在此过程中应咨询知识产权和技术领域的法律专业人士。
例如,一个仍在审理中的近期案例显示了源代码版权和许可的复杂性,某些代码的创建者起诉 GitHub、OpenAI 和微软,声称这三家实体侵犯了版权。更多信息请访问:GitHub Copilot copyright case narrowed but not neutered • The Register
版权损害赔偿补偿
请注意,AI 供应商已开始为其模型的版权问题承担责任,在某些情况下。微软为用户提供所谓的 Copilot 版权承诺(Copilot Copyright Commitment),该承诺补偿用户因 Copilot 生成的代码的版权而产生的法律损害赔偿——前提是满足一些条件,包括客户在 Copilot 中使用了内容过滤器和其他安全系统,并使用了特定服务。Google Cloud 提供其生成式 AI 补偿(Generative AI indemnification)。
在 The Verge 上阅读有关微软补偿的更多信息,以及在 Direction Microsoft 上阅读有关补偿的要求。
生成式 AI 模型真的会复制现有作品吗?
生成式 AI 模型真的会查找可能受版权保护的现有作品吗?本质上:不会。生成式 AI 模型没有足够的容量来存储其训练集中所有代码或图片的示例。相反,在训练期间,它从所看到的数据中提取关于事物如何运作的模式,然后,基于这些模式,它生成新的内容。这些内容的部分可能显示出对现有作品的残留,但这更像是巧合。本质上,模型不会回忆确切的代码块,而是利用其对编码的“理解”来创建新代码。就像人类一样,这种理解可能会导致重现你以前见过的某些东西的部分内容,但这并不一定是因为这是来自确切的记忆。话虽如此,这仍然是一个困难的讨论,我们在音乐行业也看到过:音乐家想出和弦进行是因为她从许多歌曲中学到这种序列有效,然后碰巧创造出已经存在的东西,还是她完全是从那首现有的歌曲中复制来的?
降低风险
组织有几种关键策略来降低其 AI 系统中的版权侵权风险。尽早实施它们可能比在 AI 系统运营后期修复更具成本效益。虽然每一项都伴随着一定的财务和运营成本,但“硬性节省”可能会带来积极的结果。这些策略可能包括:
- 采取措施缓解某些训练数据的输出。OWASP AI Exchange 通过相应的威胁(模型输出中的数据泄露)涵盖了这一点。
- 全面的知识产权审计:全面的审计可用于识别与整个 AI 系统相关的所有知识产权。这不仅适用于数据集,还适用于整体源代码、系统、应用程序、接口和其他技术栈。
- 清晰的法律框架和政策:制定和执行 AI 使用的法律政策和程序,确保它们符合当前的知识产权法律,包括版权法。
- 道德数据采购:道德地采购数据,确保用于训练 AI 模型的所有数据要么是内部创建的,要么获得了所有必要的许可,要么来自公共领域,这些领域为组织的预期用途提供了足够的许可。
- 定义 AI 生成内容的归属:明确定义 AI 系统生成内容的归属,包括在什么条件下可以使用、共享、传播。
- 保密和商业秘密协议:严格的协议将有助于保护材料的机密性,同时保持和维护商业秘密地位。
- 员工培训:培训员工了解组织 AI 知识产权政策的重要性和意义,以及知识产权侵权可能带来的影响,将有助于更加规避风险。
- 合规监控系统:一个更新且适当利用的监控系统将有助于检查 AI 系统可能存在的侵权行为。
- 应对知识产权侵权的计划:一个积极的计划将有助于快速有效地应对任何潜在的侵权索赔。
需要考虑的其他缓解因素包括:就组织的预期用途以及 AI 系统的所有未来用途,向 AI 供应商寻求许可和/或保证。在律师的帮助下,组织还应考虑对供应商施加其他具有合同约束力的义务,以涵盖任何潜在的侵权索赔。
有关 AI 和版权的有用资源:
- •Artificial Intelligence (AI) and Copyright | Copyright Alliance
- •AI industry faces threat of copyright law in 2024 | Digital Watch Observatory
- •Using generative AI and protecting against copyright issues | World Economic Forum - weforum.org
- •Legal Challenges Against Generative AI: Key Takeaways | Bipartisan Policy Center
- •Generative AI Has an Intellectual Property Problem - hbr.org
- •Recent Trends in Generative Artificial Intelligence Litigation in the United States | HUB | K&L Gates - klgates.com
- •Generative AI could face its biggest legal tests in 2024 | Popular Science - popsci.com
- •Is AI Model Training Compliant With Data Privacy Laws? - termly.io
- •The current legal cases against generative AI are just the beginning | TechCrunch
- •(Un)fair Use? Copyrighted Works as AI Training Data — AI: The Washington Report | Mintz
- •Potential Supreme Court clash looms over copyright issues in generative AI training data | VentureBeat
- •AI-Related Lawsuits: How The Stable Diffusion Case Could Set a Legal Precedent | Fieldfisher
- 登录 发表评论
- 3 次浏览
最新内容
- 20 minutes 46 seconds ago
- 34 minutes ago
- 2 hours 38 minutes ago
- 2 hours 52 minutes ago
- 2 hours 59 minutes ago
- 1 week ago
- 1 month ago
- 1 month 1 week ago
- 1 month 1 week ago
- 1 month 1 week ago