跳转到主要内容
Chinese, Simplified

摘要

意大利公共管理局(PA)依靠昂贵的手动分析来确保公共文件和个人数据的GDPR合规性。尽管人工智能的最新进展使许多法律领域受益,但公共文件数据保护工作流程的自动化仍然只受到轻微影响。这项工作的主要目的是设计一个可以有效采用的框架,以检查用意大利语编写的PA文件是否符合GDPR要求。我们跨学科研究的主要成果是INTREPID(公共广告文件的gdpR合规性的人工智能),这是一个基于人工智能的框架,可以帮助意大利PA确保公共文件的gdpR合规性。INTREPID是通过将一些用于意大利语处理的语言资源(即SpaCy和Tint)调整为GDPR智能来实现的。此外,我们为文本分类方法奠定了基础,以识别意大利PA发布的公开文件,这些文件进行了数据泄露。我们在意大利PA在线发布的公共文件文本语料库上展示了该框架的有效性。我们还进行了注释者间研究,并分析了所提出方法的注释预测与领域专家的注释的一致性。最后,我们评估了所提出的文本分类模型在检测安全漏洞方面的准确性。

1简介

2018年,欧盟推出了《通用数据保护条例2016/679》(GDPR)脚注1,以更新和统一欧盟各国的数据保护条例,使每个成员国不再需要制定自己的数据保护法律,并且整个欧盟的法律保持一致(Hoofnagle et al.,2019)。从那一刻起,《通用数据保护条例》代表了规范公司如何保护欧盟公民的个人数据,即与已识别或可识别的欧盟在世人员有关的任何数据,无论其所在地如何,向欧盟公民销售商品或服务。如今,《通用数据保护条例》共有11章99条,规定了一套基本的隐私和数据保护标准,以更好地保护欧盟公民个人数据的处理和移动。GDPR定义的一些标准包括:要求数据处理主体同意,匿名收集数据以保护隐私,提供数据泄露通知,安全处理跨境数据传输,以及要求某些公司任命一名数据保护官员来监督GDPR的合规性(Savic&Veinovic,2018)。此外,GDPR鼓励合规,允许每个欧盟成员国的数据保护局(DPA)——监督GDPR应用程序的独立公共机构——对违规者处以严厉处罚。例如,不遵守某些GDPR标准的组织可能会被处以高达全球年营业额2%或4%的罚款,或1000万欧元或2000万欧元,以较大者为准(Savic&Veinovic,2018)。

此外,公共行政部门(PA)在处理与欧盟公民有关的个人数据时,必须尊重GDPR的关键原则,保证公平合法的处理、目的限制、数据最小化和数据保留(Blume,2016;Ricci,2018)。特别是,PA需要任命一名数据保护官(DPO),确保实施适当的技术和组织措施来保护个人数据。当个人数据被意外或非法披露给未经授权的接收者,或暂时无法获得或更改时,必须立即通知DPA,最迟在意识到违规行为后72小时内通知。巴勒斯坦权力机构可能还需要将违规行为告知个人。

如果PA中存在违反GDPR的情况,则DPA可以采取一系列行动。如果可能存在侵权行为,则可能会发出警告。在侵权的情况下,可能包括谴责或暂时或最终禁止处理。在一些国家,如意大利,Footnote2公共机构也可能受到行政罚款(Mc Cullagh et al.,2019)。例如,2021年7月20日,意大利国防部以非法披露患者健康数据为由,对特伦托卫生局处以15万欧元的罚款。脚注3另一方面,如果公共文件违反了《通用数据保护条例》,个人也可以要求赔偿,因为他们遭受了物质损害(如经济损失)或非物质损害(例如声誉损失或心理困扰)。

尽管文件管理和工作流程自动化技术正以前所未有的速度发展,但PA仍然将GDPR合规性主要委托给操作人员,他们可能会放慢流程,并且缺乏足够的监管教育(Di Nicola et al.,2016)。另一方面,识别和报告安全违规行为的效率是与欧盟愿景相一致的一项要求,即使巴勒斯坦权力机构开放、高效、包容、无边界和用户友好。在这种情况下,人工智能(AI)技术可以通过为公共服务提供新的数字环境(也称为数据保护)发挥关键作用。根据这一直觉,Kingston(Kingston,2017)最近推动了对人工智能技术的调查,用于不同的GDPR相关任务,例如:遵循合规检查表和行为准则,支持风险评估,遵守有关执行自动分析的技术的法规,以及遵守关于识别和报告违反安全规定的新规定。GDPR引入的数据保护问题也对文档处理系统产生了影响。特别是,我们关注GDPR对发布可能披露个人信息的非结构化(文本)文件的影响。在这种情况下,自然语言处理(NLP)等人工智能技术可以帮助自动检测文本文档中可能构成数据泄露的部分。NLP是人工智能的一个子区域,处理自然人类语言,无论是文本还是语音。谷歌的搜索建议或拼写检查器就是这些技术的常见例子。如今,NLP主要用于律师可以使用的几种智能工具。例如,NLP在法律中最受欢迎和最有用的应用之一是在法律研究中:NLP支持的法律搜索引擎可以搜索概念,而不仅仅是特定的关键词,帮助律师更快地找到他们需要的东西。识别文档中的文本模式有助于检测可能包含必须保护的个人信息的相关文本片段。在这种情况下,机器学习技术,如文本分类,也被用来建立模型,通过从以前的数据泄露例子中学习来预测个人数据是否在文档中被披露。

本文接受了这一挑战,并研究了人工智能技术如何真正帮助PA的数据保护工作流程自动化(或半自动化),以降低公共文件安全漏洞的风险。一项涉及意大利公共行政机构的案例研究对此进行了调查,该机构拥有6000万人口、8000个市镇和22000个地方行政机构,积极支持公共行政效率的数字化转型(Datta,2020)。这项工作的主要贡献是:

  1. 根据GDPR标准,我们关注的是检测与公共文件中非法披露健康信息有关的安全漏洞问题,这是行政罚款的主要原因之一。具体而言,我们将该问题视为二元分类任务,并将调查领域简化为意大利公共行政部门的文件。我们调查的主要结果是一个人工智能框架——INTREPID(公共广告文件的gdpR合规性的第三方智能)——旨在处理意大利PA制作的公共文件,并将其归类为符合或不符合gdpR标准。
  2. 鉴于缺乏公共文件GDPR合规性分析的基准,以及建立适当培训集的必要性,我们收集了意大利PA各城市在线发布的公共文件语料库。该语料库既包含45个符合GDPR的文件,可以正确保护个人数据,也包含45个非法披露健康信息的非GDPR文件。语料库中的文档由两位专家进行注释,以识别第3节所述的命名实体。从这些注释开始,我们开发了一个用于匿名化文档的自动管道,这些文档最终用于评估所提出的框架的性能。此外,我们还重点研究了从意大利语文本中提取信息的任务(Attardi et al.,2015;De Felice et al.,2018)。因此,我们求助于为意大利语处理开发的特定语言资源,但将其调整为GDPR情报。尽管这一步骤依赖于语言,但它可以毫不费力地推广到其他语言。收集的用意大利语编写的匿名PA文件语料库对于对INTREPID框架进行实验分析至关重要,该分析证明了该框架的有效性。
  3. 我们讨论了人工智能模型中通常出现的关键方面,即特征提取和分类。尽管已经为这两项任务提出了各种方法,但迄今为止,还没有发表过与它们在用意大利语编写的PA文件中的数据保护的具体应用有关的相关文献。在这方面,我们研究了如何执行信息提取步骤,该步骤旨在定位意大利文本中的命名实体,并将其分类为预定义的类别,如人名、组织、地点、健康状况、管理部门和“遗漏”的表达。此外,我们还提供了如何在单词袋特征和基于命名实体的特征上建立文本分类的见解。

本文的其余部分组织如下。第2节概述了促使对人工智能进行调查以确保意大利PA中的数据保护的工作,以及人工智能技术在文本分类问题中的背景。第3节描述了我们为本研究收集的用意大利语编写的PA文件的语料库,而第4节介绍了我们提出的验证意大利PA文件符合GDPR的框架。实验评估方法和结果见第5节。第6节说明了该提案的好处以及如何在未来的研究中加以加强。最后,第7节对论文进行了总结。

原文地址
https://link.springer.com/article/10.1007/s10844-023-00782-4
本文地址
Article

微信

知识星球

微信公众号

视频号