3语料库准备
我们准备了一个由90份文本公共文件组成的意大利语料库,这些文件发布在一些意大利市政当局(74份文件)或公立医院(16份文件)的网站上。收集的文件是关于与工作有关的疾病(30份文件)、福利金(30份)和卫生财政支持(30份报告)的审议或决定。这些文件由巴勒斯坦权力机构根据意大利法律第33/2013号法令发布。对语料库进行的GDPR风险评估显示,在90份文件中,有45份发现了GDPR数据泄露。
这些文件的收集是根据第33/2013号法令进行的,该法令第3条规定,所有可供公民查阅的文件、信息和数据,包括根据现行立法必须公布的文件、资料和数据,都是公开的,任何人都有权了解、免费使用以及使用和重复使用。
该语料库由两名独立的注释者、经验丰富的GDPR律师进行注释,他们仔细阅读文本,定位目标实体,在注释平台Footnote6上突出显示它们,并从预先确定的列表中选择类别:管理、健康、地点、遗漏、组织和人员。除了标准类别(个人、地点、组织)外,我们还引入了一些特定领域的类别,以识别公共管理中的角色和疾病名称,这可能与识别GDPR不合规文件有关。特定领域的类别是由注释者提出的。在阅读了语料库中的所有文档后,他们假设了潜在相关实体的类别。一个带注释的虚构文本的例子如图1所示。
为了评估注释过程的质量,我们决定分析注释器之间匹配的注释数量。考虑到部分匹配的不同大小来计算匹配。部分匹配的大小是具有相同类别的两个重叠注释之间不同的字符数。取两个注释的开头和结尾,计算它们之间重叠的大小;在完全匹配(0)的情况下,两个注释的开头和结尾相等。
此外,我们还检查了注释者之间的相互一致性水平。尽管Cohen的Cappa(Cohen,1960)是许多分类任务的标准注释可靠性度量,但它并没有被证明是令牌级注释任务的相关度量,如NER(Grouin et al.,2011;Hripcsak和Rothschild,2005)。因此,正如Brandsen等人所建议的那样。(2020),我们为此使用了F分数——一种最初为二元分类制定的测试准确性的衡量标准。在下文中,我们提供了适用措施的定义,即:
F=2精度×召回精度+召回。
特别是,精度是真阳性结果的数量除以所有阳性结果的数字,包括未正确识别的结果。召回是指真正阳性结果的数量除以本应确定为阳性的所有样本的数量。公式中:精度=TPTP+FP
,召回=TPTP+FN
,其中TP表示真阳性结果的数量,FP表示假阳性结果的数目,FN表示假阴性结果的数目。在每次比较中,一个注释器的注释被视为黄金标准,而另一个注释者的注释则被视为评估标准。
表1报告了注释器之间匹配的注释的数量(第2列)和通过改变部分匹配的大小(第1列)测量的F分数(第3列)。正如预期的那样,部分匹配的大小越大,注释器之间匹配的注释数量就越高。但是,注释器之间匹配的注释的数量达到了部分匹配集的大小等于5的肘值。此外,我们注意到,在完全匹配的情况下,我们获得了大于0.79的高F分数。这显示了注释的良好质量。
Table 1 The number of annotations that match between the annotators and the computed F score
From: An AI framework to support decisions on GDPR compliance
partial match size |
#matches |
F score |
---|---|---|
0 |
3,296 |
0.7981 |
3 |
3,707 |
0.8976 |
5 |
3,886 |
0.8978 |
∞∞ |
3,985 |
0.9649 |
对于语料库的准备,第三个注释者,也是领域专家,解决了两个注释者不同意的情况(两个注释器为同一实体选择了不同的标签,这也包括两个注释中的一个遗漏注释的情况)。关于最终数据集的统计数据如表2所示。该表报告了每个类别的文件数量、GDPR数据泄露数量、NER注释数量和注释实体数量。最常见的类别是:行政、组织、健康和个人。
Table 2 Corpus statistics
From: An AI framework to support decisions on GDPR compliance
#documents |
90 |
---|---|
#GDPR data breach |
45 |
#NER annotations |
4,188 |
#AMM |
2,094 |
#ORG |
983 |
#MED |
527 |
#PER |
400 |
#OM |
104 |
#LOC |
80 |
考虑到《通用数据保护条例》第4条将个人数据定义为足以识别个人身份的任何数据,以及《通用数据管理条例》第2条声明,当数据匿名时,数据不再是个人数据,个人不再可识别,我们执行了一个匿名化过程,用人工标识符替换任何已识别或可识别的信息。请注意,《通用数据保护条例》第26条将匿名信息定义为与已识别或可识别的自然人无关的信息,或与以数据主体不可识别或不再可识别的方式匿名提供的个人数据无关的信息。GDPR不适用于匿名信息。为了实现匿名化目标,我们采用了一个包括以下步骤的管道:
- 每个人的名字ni都被另一个名字nr取代,该名字nr是从最常见的意大利姓氏和名字列表中随机抽取的。在同一份文件中,名称ni的出现总是被相同的nr取代。
- 每个个人身份证号码或意大利财政代码分别被随机数字序列或随机财政代码所取代。
- 在城市和地区列表中搜索每个位置实体,然后将其随机替换为另一个城市或地区。替代名单只包含居民超过10000人的城市,不包括不常见的城市名称。
- 每个法律引用Footnote7都被一个占位符LEX_u取代。此外,在这种情况下,对于每个ai,整个语料库中的替换总是相同的。
最后,所有文件都进行了手动检查。这个匿名语料库旨在评估所提出的INTREPID框架的性能,而原始语料库被丢弃。
最新内容
- 1 week 2 days ago
- 1 week 2 days ago
- 1 week 6 days ago
- 2 weeks ago
- 2 weeks ago
- 2 weeks 1 day ago
- 2 weeks 1 day ago
- 2 weeks 1 day ago
- 2 weeks 2 days ago
- 3 weeks 1 day ago