跳转到主要内容
Chinese, Simplified

2相关工作

我们的工作反映了最近人们对人工智能技术在各种法律领域中对文本数据的作用的兴趣(Dadgostari et al.,2020;De Martino et al.,2022;Tagarelli和Simeri,2021),包括GDPR领域(Kingston,2017)。在这方面,我们首先概述了最近的研究工作,这些工作主要有助于GDPR应用中人工智能的调查。然后,由于我们的重点是意大利PA制作的文本文件的GDPR合规性,我们描述了一些采用NLP来识别和提取敏感数据的工作,特别是在PA文件中。

2.1 AI和GDPR

根据欧盟和国家立法的规定使用人工智能预计将显著提高公司和公共办公室的效率水平(Stamova和Draganov,2020)。这一预期促使最近的几项研究探索人工智能与GDPR之间的关系。这些研究主要可分为两个领域:人工智能的GDPR合规性和人工智能对GDPR的合规性。

2.1.1 AI的GDPR合规性

2020年初,欧盟委员会发布了一份关于人工智能监管的白皮书,正式确定了人工智能遵守GDPR的问题。脚注4该文件强调了审查欧盟立法框架的必要性,以使其适应当前的技术发展。特别是,它澄清了当人工智能技术处理个人数据、进行分析以及基于个人数据和/或影响数据主体的自动决策时,GDPR始终适用于人工智能。针对这些问题,2021年4月发布的欧盟人工智能监管提案Footnote5是欧盟委员会数字战略的最新补充,该战略迈出了《通用数据保护条例》对人工智能监管的第一步。在这方面,Sartor和Lagioia(2020)最近探讨了人工智能在多大程度上符合《通用数据管理条例》的概念框架。这项研究描述了人工智能应用于个人数据的法律基础,以及与人工智能系统有关的信息的义务,特别是涉及分析和自动决策的信息。

从这个角度来看,GDPR制定的“解释权”也带来了一个不小的技术挑战,即在使用人类可解释的逻辑操作的同时,充分利用机器学习或人工智能系统的力量(Selbst&Powles,2017)。事实上,当个人仅根据对其产生重大影响的自动处理做出决定时,GDPR创造了“有关所涉及逻辑的有意义信息”的权利。例如,使用人工智能系统提出治疗计划的医生需要知道为什么确定了某一行动方案,以便向患者解释该决定。需要一种方法来证明、解释和审计不可理解的系统。围绕“解释权”的辩论引起了法律和人工智能界的高度兴趣,而这在技术上是否可行的问题仍然是一个悬而未决的问题。国防高级研究计划局(DARPA)于2016年发起了一项“可解释人工智能”倡议,旨在创建一个由机器学习和人机界面软件模块组成的工具包库,用于开发未来的可解释人工系统。遵循这一研究方向,Sovrano等人的研究。(2020)最近为符合GDPR的值得信赖的人工智能引入了一个以用户为中心的解释模型。特别是,该研究基于ISO 9241中的概念,引入了以用户为中心的解释作为解释性叙述的定义,并通过识别良好解释的基本属性和探索解释空间的启发式方法,提出了交互式解释过程的正式模型。

相反,Meszaros和Ho(2021)的研究确定了学术和商业研究如何在人工智能产品和服务的开发中应用GDPR之间的差异。主要结果是,公司进行的商业研究可能没有像学术研究人员那样的道德和制度保障。此外,该研究强调需要在隐私和创新之间找到适当的平衡。总的来说,欧盟的愿景是,透明度和问责制可以在人工智能的GDPR合规性范围内共同建立信任。然而,这是一个公开的挑战,目前仍需要在欧盟法律方面进行进一步的监管,并在负责任的发展方面进行新的科技努力。

2.1.2符合GDPR的AI

随着GDPR成为法律,最后一刻的匆忙开始变得合规。许多公司开始就如何遵守GDPR提供建议、检查表和咨询。在这样的环境中,人工智能通过提供最佳建议、询问所有相关问题和进行评估而成为一项关键技术(Kingston,2017)。这一想法受到了一些研究的启发,这些研究甚至在GDPR于2018年5月生效之前,就开始探索如何将基于法律的系统(如基于规则的系统)用作智能检查表,以在风险分析中验证GDPR的合规性(Al-Abdulkarim et Al.,2016;金斯敦,2017;van Engers,2005)。

受这些研究的启发,人工智能技术被探索用于隐私政策法律评估自动化中的GDPR合规性,这是公司向用户告知其数据收集和共享实践的主要渠道。自从该领域的开创性人工智能研究(Contissa et al.,2018;Sánchez et al.,2021)依赖于专家手动注释的数据集进行分类以来,自动注释开始受到一些关注。在这方面,Harkous等人探索了一种深度学习方法。(2018),以便用预先指定的分类法中的高级和细粒度标签自动注释以前看不见的隐私策略。

另一方面,在文本数据(如警察报告、医疗档案)本质上是敏感的或受隐私法(如GDPR)保护的情况下,NLP的最新发展导致人们对探索NLP方法在各种数据保护问题中的文本处理越来越感兴趣,如文本匿名化。Mozes和Kleinberg(2021)最近修订了最近的研究,该研究通过分析评估标准来评估保护个人不被基于人工智能的方法重新识别的有效能力,从而在文本匿名化中利用NLP。

人工智能在GDPR合规方面也引起了流程挖掘方面的关注。这是一个通常利用人工智能技术主要依靠流程执行数据来提供业务流程见解的领域(van der Aalst,2016)。在流程挖掘中,如何使业务流程符合GDPR的问题最初由Zaman等人提出。(2019)。根据本初步研究中定义的指导方针,流程挖掘技术最近进行了调整,以确定业务流程执行是否符合数据主体权利,并实现符合GDPR的业务流程发现(Zaman和Hassani,2020)。

最后,Davari和Bertino(2019)研究了表示GDPR同意的语义模型。该模型是明确的、可理解的和可重用的。此外,它还与基于区块链的模型相结合,以确保组织在用户同意方面遵守GDPR。

2.2识别敏感数据的NLP

当开发一个自动系统来将文档分类为是否符合GDPR时,我们必须面对的问题之一是提取相关实体和有意义的特征。识别命名实体并发现它们之间的关系是所提出的框架的核心任务。事实上,在意大利公共管理领域,许多违反GDPR的行为都表现为发布包含个人数据的文件(例如患有某种疾病的员工的姓名)。因此,我们专注于为上述框架定义适当的命名实体识别(NER)策略。特别是,我们评估了NER作为检测文本文档中个人身份信息的一种方法的使用。NER是NLP任务之一,旨在找到文本中存在的命名实体并将其分类为特定和预定义的类别(Yadav&Bethard,2019)。

先前的研究已经采用NER来识别有助于公共行政文件中文本挖掘和分类的实体。例如,(Romano等人,2020)提出了一个从最高上诉法院发布的判决(意大利司法系统的最后一级判决)中提取数据的框架。特别是,该框架以NER为基础,用于检测公司名称及其法律形式;然后,被认可的实体与商业登记中的额外信息联系起来,为分析犯罪事件创造条件。

另一项与拟议框架有关的工作是Silva等人(2020),其中作者评估了NER的使用,将其作为识别、监控和验证合同中个人身份信息(PII)的一种方式。特别是,他们评估了两种工具(Stanford CoreNLP和SpaCy)的性能,并展示了NER在不同场景下如何有效地自动监测PII。

Di Cerbo和Trabelsi(2018)中描述的工作强调了确定性方法(如正则表达式)在将个人信息检测到半结构化或非结构化档案中的局限性。因此,采用了基于朴素贝叶斯和卷积神经网络的NER技术来识别来自社交媒体的数据中个人信息的存在和性质。

Dias等人最近针对GDPR所涵盖的敏感数据开展了另一项关注净入学率的工作。(2020)。作者提出了一种解决葡萄牙语NER问题的混合方法,该方法结合了基于规则、基于词汇的模型、机器学习算法和神经网络等多种技术。不同方法的使用涵盖了代表敏感数据的所有类别的实体。这项工作再次强调,命名实体在行政行为中发挥着重要作用,特别是在识别敏感数据方面,需要努力在这一特定背景下调整最先进的算法。例如,由于“官僚”语言和标准意大利语之间的差异,例如使用不常见的正式术语或特定缩写,用命名实体注释的现有意大利语料库对于训练PA领域的NER来说不是最佳的。

Passaro等人试图解决这个问题。(2017),其中作者描述了为意大利PA文件设计NER系统的过程。他们从头开始创建了一个新的语料库,从市政当局发布的行政文件开始,然后调整通用NE识别器,将标准NE类扩展到与市政当局特别相关的其他实体类型。我们采用了类似的方法来识别可能与GDPR合规性相关的实体类型。此外,我们研究了如何将已识别的命名实体注入文本数据工程步骤,以训练能够分析意大利PA文件的GDPR合规性的分类模型。

最后,基于NER的方法在文本匿名化问题中得到了广泛的探索。例如,Adams等人(2019)描述了一个集成了NER模块和共同参考模块的系统。该系统允许我们识别人机对话文本的块,这些文本包含特定类别的敏感标记(例如个人姓名、地址、设施、组织)。Francopoulo和Schaub(2020)采用了一个NER模块,该模块级联模式匹配规则来识别几个类别中的实体(例如,个人姓名、地点、公司、电子邮件地址),并在客户关系管理的背景下执行匿名操作。Biesner等人(2022)最近探索了基于递归神经网络和转换器架构的NLP方法的性能,以检测和匿名化德国财务和法律文件中的敏感信息。

最后,Csányi等人(2021)探讨了基于NER的工具在匈牙利法院法律文件匿名化中的表现,得出的结论是,数学统计分析对于过滤可能作为主要标识符的独特事件(例如,外科医生截肢)至关重要。然而,这项研究也强调了使用基于机器学习的方法和匿名化模型来降低重新识别风险的必要性。我们的工作遵循这一研究方向,将用于NER的NLP方法和用于分类的机器学习方法相结合。

2.3新贡献

我们的研究可以归类在人工智能的GDPR合规保护伞下。与这一保护伞下的大多数研究类似,我们采用问题的文本分类公式,并采用NLP技术,特别是NER技术,从非结构化文本中提取有用的信息,并将文本分类到预定义的类别中。目前,已经研究了NER工具在各种情况下(如聊天文本、法律文件)的数据保护和文本匿名化。因此,我们研究的一个新颖之处是使用人工智能解决具体的GDPR合规问题。事实上,据我们所知,这是第一项研究如何有效地使用人工智能框架来自动化意大利PA文本语料库数据保护中涉及的GDPR智能的工作。

值得注意的是,本研究开始时解决的一个主要困难是缺乏基准数据。这需要准备一个语料库,并使用适当的管道来平衡用人工标识符替换任何已识别或可识别信息的需要,以及GDPR检查不适用于匿名信息的事实。

与之前的研究相比,另一个不同之处在于将意大利语处理的特定语言资源调整为PA文件的GDPR情报。Passaro等人也进行了调整工作。(2017),但没有探索文档分类步骤的机器学习算法的性能。一般来说,以前的研究主要集中在通过NER调查进行数据保护。相反,在我们的研究中,我们还探索了在基于Bag of Word(boW)和NER的工程数据上训练的各种分类算法(即支持向量机、随机森林和XGBoost)的性能。为此,我们定义了几种基于NER的文本工程方案,并结合BoW信息和各种分类算法来评估它们的性能。

值得注意的是,Contissa等人(2018)和Sánchez等人(2021)也对分类模型进行了训练,用于根据公司的隐私政策是否符合GDPR的数据保护目标对其进行分类。然而,这两项研究都从专家手动注释的数据集中训练支持向量机。不同的是,我们解决了一个更复杂的学习问题,其中必须使用针对所研究的特定问题调整的NER工具自动执行注释。

原文地址
https://link.springer.com/article/10.1007/s10844-023-00782-4
本文地址
Article

微信

知识星球

微信公众号

视频号