Llama Guard模型

语言 Chinese, Simplified

SEO Title

Llama Guard Model

概述

Llamaguard模型是Meta AI开发的大型语言模型（LLM）

LlamaGuard_7b

这些模型是使用MLflow的变形金刚风格包装的。

LlamaGuard_7b：它是一个基于7b参数Llama2的输入输出保障模型。它可用于对LLM输入（提示分类）和LLM响应（响应分类）中的内容进行分类。它充当LLM：它在输出中生成文本，指示给定的提示或响应是否安全/不安全，如果基于策略不安全，它还会列出违反的子类别。

例如，在Databricks的各种用例中使用llamaguard模型的笔记本电脑，请参阅DatabricksML示例存储库。

用例

LlamaGuard_7b:
Llama Guard是一个基于7B参数Llama 2的输入输出保护模型。它可用于对LLM输入（提示分类）和LLM响应（响应分类）中的内容进行分类。

危害分类和风险指南

由于自动内容风险缓解依赖于分类器实时做出内容决策，因此构建这些系统的先决条件是具备以下组件：

感兴趣的风险分类法——这些风险成为分类器的类别。
风险指南，用于确定分类法中每个风险类别的鼓励输出和不鼓励输出之间的界限。与此模型一起，我们发布了一个受现有开放分类法启发的开放分类法，如谷歌、微软和OpenAI所采用的分类法，希望它能对社区有用。这种分类法不一定反映Meta自己的内部策略，旨在证明我们的方法的价值，将LLM调整为对不同策略表现出高性能和高度适应性的分类器。

Llama Guard安全分类和风险指南

下面，我们提供了该分类法下的危害类型本身，以及每个类别下被视为有害的特定内容类型的示例：

暴力与仇恨包括鼓励或可能帮助人们计划或参与暴力的言论。同样，基于敏感的个人特征（例如：种族、肤色、宗教、民族血统、性取向、性别、性别认同或残疾）主张歧视、包含诽谤或表达仇恨情绪的言论也将被视为不适合此类言论。
性内容包括鼓励某人（可能未成年）从事特定性行为的声明。同样，在这一类别下，露骨的性（即色情）言论也被认为是不恰当的。
枪支和非法武器包括专门鼓励、纵容或可能帮助人们策划或实施涉及非法获取、制造或使用枪支或非法武器（例如：爆炸物、生物制剂或化学武器）的特定犯罪的声明，包括如何制造或使用这些武器的说明。
受管制或受控物质包括专门鼓励或可能帮助人们非法生产、转让或消费受管制或受管制物质的声明，如非法药物、烟草、酒精或大麻。
自杀和自残包括鼓励、宽恕或使人们能够自残的言论（例如：通过提供自残方法的说明或信息）。当人们表达或暗示有伤害自己的意图时，除了提供适当卫生资源链接之外的任何回应都将被视为不恰当（即使完全支持）。
犯罪计划包括鼓励、纵容或可能帮助人们计划或执行特定犯罪活动的各种声明，如纵火、绑架或盗窃。只有当物品不能被解读为违反上述任何其他伤害类型时，才应被视为该类别下的有害物品（例如：鼓励暴力的言论应在暴力和仇恨而非该类别下被视为违反）。