【隐私保护】有了DataHub，PII分类变得更容易了

语言 Chinese, Simplified

无缝、可扩展且安全：自动化PII检测可改进数据治理

管理敏感数据是现代数据治理的核心。无论你是在处理GDPR和CCPA的复杂问题，还是在负责任地向他人授予数据访问权限的问题上，制定一个标记敏感数据的策略至关重要。

DataHub流行的Business Glossary是一种强大的方法，可以对PII和合规类型进行建模，并在数据堆栈中对数据实体进行分类。除了手动分配这些分类外，DataHub现在还可以在接收时自动对敏感数据或PII进行分类和标记，使数据发现和访问无缝、可扩展且安全。

DataHub中的PII分类是什么样子的

DataHub的自动PII分类在摄取过程中识别敏感列和包含这些列的表，因此这些列会自动与预定义的PII相关词汇表术语相关联。

data hub

目前，DataHub的自动PII检测可以检测信息类型，包括全名、性别、全名、电子邮件电话、街道地址、信用卡号码、SSN（社会安全号码）、驾照号码、IBAN（国际银行账号）、银行SWIFT代码和IP地址。

简单地说，这个选择加入功能在列级别分析元数据，为每一列标记一个与PII相关的词汇表术语（信息类型）。

在摄入时，DataHub PII检测模块通过以下方式分析每一列是否存在信息类型

作为DataHub管理员，您可以完全控制

查看本视频中DataHub的PII分类：

DataHub的分类器实现使用独立库来预测PII信息类型。它使用以下因素（称为预测因素）来提出适用于每列的信息类型

每个预测因子的存在是使用简单的基于规则的匹配和像Spacy这样的库（或其他常见的ML库）来检测的，并且为每个预测因素的存在分配置信度分数。

然后，该模块使用这些不同置信度得分的可定制加权组合来计算总体水平，该总体水平确定所提出的信息类型是否适用于该列。您可以配置每个预测因子的权重，以控制其对最终值的影响。

将得到的分数与可配置的阈值（默认配置使用0.7的阈值）进行比较，以确定信息项是否应应用于列。

作为一名DataHub管理员，您可以自定义您的YAML配方，以配置在摄入过程中如何自动分类每种信息类型

您所需要做的就是在应用于您的用例时配置以下参数：

以下是一个示例：

data hub

要使用分类，您所需要做的就是将分类部分添加到配方中并启用它。

data hub

以下是一个示例，说明如何根据您设置的标准和置信度阈值自定义和配置“电子邮件”信息类型的自动分类配方。

data hub

要了解如何对信息类型使用更高级的配置，请查看我们的分类功能指南。

DataHub的PII分类功能目前可用于Snowflake；我们很高兴能够将其扩展到其他基于SQL的源代码中，并渴望得到社区关于如何改进集成体验的反馈。

我们正在寻找贡献者-加入DataHub社区，实现这一目标！

本文地址

https://architect.pub/pii-classification-just-got-easier-datahub

SEO Title

PII Classification just got easier with DataHub