【隐私架构】数据驱动创新的隐私架构
Bhajaria:让我们尝试定义隐私的含义。与安全不同,许多在科技公司工作甚至不在科技公司工作的人都对安全意味着什么有直观的认识:信用卡泄露、身份盗窃。有一个非常直观的定义。隐私更难定义。为了定义它,让我们回到几十年前的波特斯图尔特大法官。他曾被要求定义铁杆色情的含义。他说他没有定义,但当我看到它时我会知道,这是他的回应。这如何帮助我们定义隐私?
A Lesson in Privacy
为此,让我们以后再回来谈谈我和我的配偶以及我们结婚后第一次与家人见面的旅行。我们结婚后,我认为让她真正见到我的家人是个好主意。我们飞往孟买,我的妻子不顾我的建议,从未去过伦敦东部的任何地方,决定在孟买的街头吃些街头小吃。她很享受,正如我预测的那样,她很快就病倒了。我们去看了医生,一切都很好,只是肚子不舒服。医生说:“这些药吃几天就好了。”到目前为止没有伤害,没有犯规。
然后在预约结束时,就在我们完成之前,他决定向坐在房间对面的助手大声喊出有关处方的详细信息。门开着。他喊出药物的名称,然后是我妻子的名字,然后是她的体重,她的统计数据,以及一堆其他细节。写处方的人得到了所有信息,但坐在外面的所有病人也得到了所有信息。三秒钟内,一个无意伤害我们的人,破坏了我妻子的隐私。斯图尔特大法官说,说到色情,我一看到就知道了。有了隐私,当你失去它时你就会知道它。请记住,当您对其他人和他们的数据做出决定时。当我提倡隐私计划时,我试图将这种敏感性带到我的工作、我的团队和我的执行领导团队中。
Outline
这是具有这种背景的谈话的议程。首先,我将自我介绍一下,在科技行业和整个经济的背景下谈论隐私。然后介绍谈话的两个部分。首先,当您从用户和客户那里收集数据时,您如何构建隐私架构?然后我将讨论为数据共享构建隐私架构。当数据离开您的公司时,就会发生这种情况。您需要一个用于收集、接收数据的架构,以及一个用于从您的公司退出数据的架构。然后我们会看课程和总结。如果我们最后有时间,我会回答你的问题。
Introduction
关于我的一点点。我已经隐私了大约 10 年了。当没有其他人想在其中工作时,我进入了它。我确实接受了这份工作,因为没有其他人想要它,而且与公司中的一些聪明人一起工作是一种简单的方式。我喜欢和一些聪明的律师一起工作。那是在当时的 WebMD 上。几年前,我在耐克和 Netflix 开始了隐私工程项目。我负责管理 Google Cloud 的信任组织 GCP。目前,在过去的几个月里,我一直在 Uber 领导隐私架构组织。
Privacy, Then and Now
正如我之前所说,当我第一次接触隐私时,这是一个非常深奥、抽象的概念。现在它是模因和卡通的主题。当报纸漫画取笑你的纪律时,你就知道你已经到了。我对此感到有些高兴。隐私有严肃的一面。我不想处于孩子的位置。我不想担任总统的职位。我不想处于令我感到惊讶或令其他人感到惊讶的境地。数据和隐私权非常强大,而长期以来,我们作为一个行业做得并不好。我们今天在这里所做的很多事情都是为了纠正其中的一些错误,同时也让我们为成功做好准备,这样我们就可以更负责任地成长。
Privacy: The Rules Are Changing
长期以来,我们与客户之间一直存在这种不成文的合同。我们将打造令人惊叹的产品,我们的用户会使用这些产品,他们会为我们提供大量数据。然后,我们将使用这些数据来构建更好的产品。然后他们将使用它们。我们将获得更多数据。良性循环将继续旋转。在某些时候,合同并没有很好地发挥作用。
Modern Companies
关于隐私,我们现在在这里考虑四个关键事实。答,我们作为企业,我假设在这个房间里的我们大多数人或我们所有人都为收集数据的公司工作,所以我们收集了大量的数据。没有概念上的、确定的方法来衡量风险?您如何确定这些数据的敏感程度?没有一种正确的方法可以做到这一点,但大多数公司甚至不知道从哪里开始。因此,我们并不总是知道如何抢先保护数据。当有违反或同意法令时,我们总是会做出反应。这是一门非常被动的科学。隐私因此受到影响,安全性也因此受到影响。因为当数据进入我们公司时我们没有做好,当数据离开我们公司时我们也没有做好。这种风险只会不断增加。这是一个你不治疗的头痛,它一直在恶化。
Customer Trust Sentiment
客户正在追赶。如果我们认为我们的客户不关心隐私,那么当我准备在 LinkedIn 上教授的课程以启动隐私计划时,我查看了一项普华永道调查,其中有四个关键数字引起了我的注意。首先,69% 的受访者认为公司容易受到黑客攻击。坦率地说,考虑到我们这些天看到的头条新闻,我想知道剩下的 31% 的人在想什么。这个数字应该要高得多。 90% 的受访者认为他们无法完全控制自己的信息,这可以追溯到信任和透明度。只有 25% 的受访者认为大多数公司都能很好地处理敏感数据。这尤其不祥,只有 15% 的人认为我们将以有利于他们的方式使用他们的数据。有这个不成文的合同,为了工作,合同必须公平地使双方受益。在某些时候,这种平衡已经严重失衡。这些数字说明了这一点。
This Trust Deficit Is an Opportunity
这有一线希望。让我谈谈那项研究中的另外两个数字。首先,72% 的受访者还认为企业而不是政府更有能力保护他们的数据,您可能想知道为什么要考虑我们刚刚看到的所有数字。对此有两个见解。首先,当谈到建立隐私基础设施的速度时,企业总是会走得更快。由于政府的固有性质,政府需要更长的时间才能让事情发生。那是第一名。
第二件事是,在与政府打交道时,我们别无选择。您可以停止使用某些应用程序,但不能停止与政府打交道。当我成为美国公民时,入籍过程花了大约 11 个月,我不得不提交这么多文件。政府想要关于我的岳母的文件,我从未见过她,她在我出生前 21 年就去世了。他们想知道她的出生证明。在她出生的时候,他们甚至没有在她出生的地方签发出生证明。对于为什么这些信息与我成为公民或如何保护这些信息密切相关,我没有发言权。那里也存在不平衡。人们想要信任我们是有原因的,我们只需要给他们一个理由。这就是这次谈话的很多内容。
第二个数字是我最喜欢的数字,88%。 88% 的受访者表示,如果他们信任我们,并且如果他们知道他们的数据将如何被使用以及为什么被使用,他们会愿意向我们提供他们的数据。它可以追溯到信任和透明度。即使在缺乏信任的情况下,这里也有机会。
关于隐私,我们现在在这里考虑四个关键事实。答,我们作为企业,我假设在这个房间里的我们大多数人或我们所有人都为收集数据的公司工作,所以我们收集了大量的数据。没有概念上的、确定的方法来衡量风险?您如何确定这些数据的敏感程度?没有一种正确的方法可以做到这一点,但大多数公司甚至不知道从哪里开始。因此,我们并不总是知道如何抢先保护数据。当有违反或同意法令时,我们总是会做出反应。这是一门非常被动的科学。隐私因此受到影响,安全性也因此受到影响。因为当数据进入我们公司时我们没有做好,当数据离开我们公司时我们也没有做好。这种风险只会不断增加。这是一个你不治疗的头痛,它一直在恶化。
客户正在追赶。如果我们认为我们的客户不关心隐私,那么当我准备在 LinkedIn 上教授的课程以启动隐私计划时,我查看了一项普华永道调查,其中有四个关键数字引起了我的注意。首先,69% 的受访者认为公司容易受到黑客攻击。坦率地说,考虑到我们这些天看到的头条新闻,我想知道剩下的 31% 的人在想什么。这个数字应该要高得多。 90% 的受访者认为他们无法完全控制自己的信息,这可以追溯到信任和透明度。只有 25% 的受访者认为大多数公司都能很好地处理敏感数据。这尤其不祥,只有 15% 的人认为我们将以有利于他们的方式使用他们的数据。有这个不成文的合同,为了工作,合同必须公平地使双方受益。在某些时候,这种平衡已经严重失衡。这些数字说明了这一点。
这有一线希望。让我谈谈那项研究中的另外两个数字。首先,72% 的受访者还认为企业而不是政府更有能力保护他们的数据,您可能想知道为什么要考虑我们刚刚看到的所有数字。对此有两个见解。首先,当谈到建立隐私基础设施的速度时,企业总是会走得更快。由于政府的固有性质,政府需要更长的时间才能让事情发生。那是第一名。
第二件事是,在与政府打交道时,我们别无选择。您可以停止使用某些应用程序,但不能停止与政府打交道。当我成为美国公民时,入籍过程花了大约 11 个月,我不得不提交这么多文件。政府想要关于我的岳母的文件,我从未见过她,她在我出生前 21 年就去世了。他们想知道她的出生证明。在她出生的时候,他们甚至没有在她出生的地方签发出生证明。对于为什么这些信息与我成为公民或如何保护这些信息密切相关,我没有发言权。那里也存在不平衡。人们想要信任我们是有原因的,我们只需要给他们一个理由。这就是这次谈话的很多内容。
第二个数字是我最喜欢的数字,88%。 88% 的受访者表示,如果他们信任我们,并且如果他们知道他们的数据将如何被使用以及为什么被使用,他们会愿意向我们提供他们的数据。它可以追溯到信任和透明度。即使在缺乏信任的情况下,这里也有机会。
Lessons learned
我们从所有这些中学到了什么?三件事,首先,隐私是一个全员参与。不要只是让公司的法律团队认为这是他们的辩护。你是来帮忙的。工程师、数据科学家、IT 团队、安全团队,他们都需要在谈判桌上占有一席之地。第二件事是,安全和隐私不是一回事。它们是相关的,但是当您拥有良好的安全性时,隐私就可以开始了。一个依赖于另一个,但它们不是一回事。然后,超越违规思考。当出现违规行为时,不要只是等待您的隐私计划出现。在从您的用户那里收集信息时,请考虑隐私,因为这是用户与您的公司联系的第一个点,它会再次回到信任状态。此外,当数据离开您的公司时,您如何看待隐私?
Privacy by Data and Design
您如何为数据收集构建隐私架构?人们经常谈论设计隐私,但实际上,设计隐私为不同的人推断出许多不同的东西。我喜欢通过数据和设计来考虑隐私。也就是说,您必须将数据和数据背后的人视为一等公民。这不是一组数字。这是一个人,他相信你,或者她,或者他们的数据。在我看来,当涉及到数据分类或为收集正确地进行数据架构时,有四个关键步骤。首先是作为规划阶段一部分的数据分类。第二个是建立治理标准来保护这些数据,这也是规划阶段的一部分。第三个,我将详细讨论的,是数据清单。四是实际执行数据隐私。
Classify Your Data - Planning
首先,您如何对数据进行分类?数据是驱动我们创新引擎的燃料。如果数据处理不当,则根据处理不当的情况,存在不同级别的风险。数据分类是表达您对所收集数据的风险的理解的方式。这是您与法律团队合作的一种方式。我正在考虑法律、隐私、安全、数据科学、营销、法律、业务发展。每个对您作为公司如何与您的用户互动有发言权的人都需要参与进来。让我举个例子,看看会是什么样子。数据分类回答了两个基本问题。首先是,这个数据是什么?第二,它有多敏感?也就是说,如果这些数据处理不当会发生什么?这是一个例子。这是我将如何进行数据分类的一个非常简单的示例。由于我来自优步,这是我们在很早的阶段就开始做的事情。我将只关注第 1 层。如果你是优步司机,什么会非常敏感?你是谁,你在哪里?
我是 Netflix 的校友,如果有人发现的话,你四天前看的内容可能会很尴尬。你是谁以及你在哪里会影响你的人身安全。这是我们非常重视的数据。在我们的分类中,这被适当地标记为第 1 层。其他的例子,当然,你的社会保障卡,你的驾照,但是任何直接和明确地把你固定下来的东西都是第一层的。当然,随着您在层级上上下移动,这种风险会降低,保护它的压力也会下降一点。更全面地说,您希望保护您的数据,就好像它都是第 1 层一样,因为如果您保护数据不好,仅仅因为它是第 4 层,您就会产生弱点和坏习惯。在某些时候,所有这些也会蔓延到第 1 层。这是一项衡量风险的练习,但不要用它来破坏您的保护和安全机制。
Set Governance Standards - Planning
然后,当然,第二步是现在您已经对数据进行了分类,您想就如何保护这些数据提出内部理论理解。根据层级,您现在已经了解这是第 1 层,因此我们需要全力以赴。二层,或许我们可以轻松一点。至少在内部了解您将如何做到这一点,涉及收集,涉及访问、保留、删除。
Data Handling Requirements
回到该幻灯片的左侧,数据分类回答了两个基本问题。这是什么数据?如果它被妥协会发生什么?处理要求回答了第三个同样重要的问题,即,既然您知道数据的风险有多大,您将如何保护数据?这两个步骤按顺序排列是有原因的。
Data Inventory - Execution
第三步是数据盘点。这一点尤其重要,因为在此步骤中,您根据在第一阶段获得的分类标记数据,以便您可以根据在第二阶段设置的标准来保护它。除非您执行此步骤,否则您所做的一切都只是计划。任何没有执行的计划都只是纸上谈兵。
Classify and Inventory Your Data
这是一个非常基本的图表。我将在下一张幻灯片中介绍更精明的图表。将此视为展示数据如何进入公司的漏斗。最左边是客户第一次接触您的服务的地方。随着数据进入您的公司,它会增长。你从中推断出一些东西。它被复制了。它被共享。您有来自其他来源的数据。数据的大小在增长。有时数据的增长速度会超过用户群的规模。如果你想对数据进行分类和清点,在我看来,你应该尽早在漏斗的最左边进行,因为如果你稍后再做,它会变得越来越昂贵。
这更说明了问题。当我们提出预算时,这是我展示了我们的领导力的东西,它真的不需要太多的对话,我们得到了我们想要的一切。因为除非您在使用数据之前进行数据盘点,否则您计划的一切都会一蹶不振。收集后您会注意到,我们在使用前立即有库存。稍后我将在演示文稿中展示有关其工作原理的图表。
Why Data Inventory Is Hard
为什么数据盘点很难?即使您做对了所有事情,库存也很困难,因为通常您会在出现违规行为、同意法令或发生重大变化时执行此操作,或者您意识到“这并不真正有效”,因为您有太多客户在询问获取其数据的副本。作为一家公司,您通常在成长过程的后期才这样做。事实上,上周我正在和几位创业者交谈。他们都没有在第一批或第二批中雇用隐私。通常,像我这样的人会在已经发生足够的增长时加入。不管你什么时候做都会很难,所以最好早点而不是晚点。
Data Inventory at Uber
当谈到优步的数据库存时,我们认为它是五个合乎逻辑的基础设施步骤。首先是我们需要能够抓取我们所有数据存储的东西,然后发现我们的数据集,使这些数据集和相应的元数据可用。然后启用添加新元数据,因为工程师总是在最后一刻出现说:“你没有捕获我的数据。我需要确保它也被标记。”然后是第五步,实际上是从隐私角度应用所有标签。我认为,从第一步到第四步,为了更好的数据卫生和数据科学,无论如何你都需要这样做,只是为了确保人们可以真正将他们的数据用于营销目的。我认为不应将步骤 1 到 4 视为隐私费用。事实上,对于那些运行隐私和安全计划的人来说,与您的数据科学团队交谈并找出一种分摊成本的方法,这样您就不必从头开始争论隐私计划。
How UMS Fits into the Larger Data Inventory Strategy
我们进行数据盘点的系统称为 UMS。它是统一的元数据管理服务。我将其称为 UMS。这张图真正解释了我刚才谈到的一切。 UMS 基本上是万能的,它会爬取数据集,发现所有数据,并根据需要提取数据。这里的四个关键数字是我真正想要谈论的。在左侧,左上角是法律数据分类步骤。那是您与法律合作提出概念分类的地方。第二个是将分类转换为机器可读标签的地方,以便将其应用于数据。第三是您应用策略的地方。你谈到了处理政策。然后第四是数据涌入您的公司的地方。 UMS 是所有标签和相关策略所在的位置。第四个是所有数据被推送的地方。UMS 是所有魔法发生的地方,所有数据都符合保护它的所有逻辑。就如何保护它以及如何确保数据在分类之前不会流向用户而言,这是需要考虑的事情。
The UMS Back-End - A Granular View
我确实想多调用后端。这是这里图表的一个更精细的版本。在左上角,您可以刷新数据目录。数据不会自动拉入 UMS。我们必须构建大量基础设施,以确保有多个管道让数据进入 UMS。我们有爬虫。我们有一个工程师可以使用的 UI 门户,但有多种方法可以确保数据可用于标记目的。
然后在分类器列下方的中间有两个框。我们有能力手动对数据进行分类。许多工程师确切地知道他们拥有的是第 1 层、第 2 层或第 3 层,我们让您有机会标记自己的数据。我们中间还有三个非常受人工智能驱动的算法,它们将基于对列名或 JSON 表达式的爬取和嗅探进行分类。我们有几种方法可以确保数据清单可以在分类器部分下进行。那么我们不只是相信你的话。如果工程师决定 SSN 是第 4 层。它是公开的,我们不要保护它。那显然不会飞。我们在最顶部的最右侧有一个判定器算法,它将再检查一次以确保数据被正确标记和分类。
这是从另一个角度看的图表。我调用了 UMS 两次,UMS 位于最左上角,第二个框位于左侧数据存储下方。它基本上为分类器提供信息,并使所有分类器都能获取列名、列类型、任何已经发生的手动分类等信息。分类器将使用此信息对数据进行适当的标记。 UMS 既是数据的初始接收者,也提供正确的元数据信息以确保分类能够正确进行。
然后在右侧,中间的列,UMS 是分类后的数据存储。一旦决策者完成,所有的数据都会被吐到决策者中。这样想,你已经建立了所有的基础设施,你拥有分散的所有东西,但是 UMS 是我们希望数据分类、标记和数据存储发生的唯一地方。如果您正在查看 UMS 中的数据,它要么是数据预分类,要么是数据后分类。这是唯一发生这种情况的地方。让我们的目标是让工程师的生活更轻松,这样他们就不必去寻找适当保护隐私的数据。
The UMS is "Privacy Central"
我在 Facebook 和我的一个朋友谈过为什么隐私工程很难。这里的创新是工程师将做任何容易的事情。你必须让他们变得很容易,因为如果你让他们做错事变得容易,他们就会做错事。如果你让他们容易做正确的事,他们就会做正确的事。 UMS 是隐私中心。我们的首席执行官 Dara 喜欢说我们以非常分散的方式发展,因此公司发展非常迅速。为了让我们确保隐私得到正确处理,必须有一定程度的集中化。我知道流程、官僚主义和集中化这些词经常会以错误的方式惹恼人们,Netflix 就是这样,Uber 也是如此。您必须构建所有这些自动化以确保隐私是集中的,而 UMS 是我们做到这一点的方式。
Data Inventory Back-End Infrastructure
数据清单基本上需要两个关键属性。这是进入基础设施。我们需要一种在我们的基础架构中尽可能多地捕获元数据的方法,并且我们需要一致的元数据定义。 Uber 的元数据管理不仅涵盖数据集,还涵盖所有实体。 UMS 捕获有关在线-离线、实时数据集以及 ML 功能、仪表板、业务指标的元数据。它收集血统。基本上,任何与底层数据有关的任何事情,将指示数据应该如何分类,UMS 都有能力进入管道。
A Consistent Metadata Definition for Data Inventory
因为我们的元数据服务需要管理不同来源的数据,所以我们谈论的是每个数据、货运、乘车,以及有一天 ATG,也就是自动驾驶汽车。我们构建了这个基础架构,以确保元数据以相同的方式分类,无论数据源是什么或数据来自何处,因此在分类时,它与平台和业务线无关。第 1 层是第 1 层,因此,如果您拥有货运司机的驾驶执照而不是 Uber Eats 司机,那么无论如何它都将被归类为第 1 层。
我们使用类似分类的结构。在此示例中,对于查看此演示的任何人来说,它都非常直观。 MySQL 表和关系数据库被定义为实体类型,因为它们是物理实体的抽象。可以看到 MySQL 表被定义为关系型数据库,其名称的值为 UUID。它非常直观。这很容易。最初,要正确定义此定义,需要为根本不了解隐私的人定义数据库模式的人员的大量参与。确实有人知道隐私但不知道我们的基础设施,也有人知道基础设施但不知道隐私。对我们来说关键是,维恩图在什么时候交叉到足以让我们理解他们的世界而他们也能理解我们的世界?那时我们可以建立隐私权,他们可以做出基础设施决策,使隐私更容易在公司中实施。这是我们经历了几个月的过程。
一旦元数据被很好地定义,那就是我们的重点。这是我们进入完整循环的地方。那时我们才知道整个公司有多少数据,数据在哪里,以及哪些基础设施需要存在哪些管道。我们构建了爬虫,以确保我们基本上可以定制推送并且我们不会压倒接收器,因此有一些可用的节流。我们使用 UI 监听器。我们有 API。我们有用户可以手动输入数据的 UI。不同的团队投入了大量资金,他们意识到他们无法手动完成这项工作。
Classification Techniques
这让我想到了我们的 AI 分类。这是中间的AI模型。请记住,我向您展示了中间的两个方块,其中一个是手动的,另一个是 AI 驱动的。当涉及到实际的分类算法时,我们必须做出一些权衡。当涉及到覆盖范围、准确性和性能三重奏时,我们无法同时获得这三者。我们实际上必须在不同的管道上应用不同的算法,这取决于我们的用例是什么。您将需要四处看看它是如何优化的。因为在一天结束时,您不希望将数据放慢速度,让那些实时决定谁在寻找 Uber Eats 时获得什么推荐的人。
Data Inventory, High-Level Milestone
当我们向高管团队介绍我们拥有多少数据以及其中有多少数据存在风险时,这有点像我们如何根据风险进行推销。您有一条非常明确的隐私信息非常重要,因为我有工程师在我们的团队中工作,他们深入了解爬虫如何工作以及该算法如何工作的最详细的细节,并且它超越了我们行政套房的负责人。看起来我们几乎是在吹嘘我们的技术技能,而不是为隐私辩护。你真的想把你的信息浓缩成这样的东西。当您必须为投资进行宣传时,当您必须为优先级进行宣传时,您是根据基于您所建立的所有学习和所有基础设施汇总的数字来制定的。我做错了。我已经这样做了。这种方式每次都效果更好。
Concerns and Learnings
私人挑战第一,安全是建立隐私的基础。您在什么时候收集了如此多的数据,以至于您的安全基础设施无法跟上?有四个关键的学习,当你发展你的程序时,你必须寻找所有这些学习。您在什么时候拥有如此多的数据,以至于保护它变得异常昂贵?这是你需要考虑的事情,在什么时候你不能删除你的出路?
第二件事是,您在什么时候达到了拐点,您不再发现某些工程师将其隐藏在某个 S3 存储桶中的数据,因为我以后可能需要它。当您不再定期获得这些惊喜时,您就会知道自己已经转了个弯。
第三是,当您大规模删除数据的能力与您的数据收集相形见绌时,您会怎么做?你优化什么?您是否不断增加删除基础设施?你会花更多的钱吗?你让更多的人加入团队吗?你停止复制数据吗?这些是你需要注意的事情。
你想看的第四件事是,隐私对数据质量有什么帮助?如果您有太多无法删除的数据,您必须不断向其中添加基础设施,那么您的数据在什么时候变得无用?当我们在 Uber 帮助一个这样的团队时,我们发现他们的大量数据基本上是当人们在等待 Uber 司机时最小化 Uber 应用程序时捕获的信息。这一定是忙碌的一天,所以人们一次又一次地最小化他们的应用程序,这被捕获了。百分之七十的数据是空白数据。这完全是垃圾数据。我们正在针对它运行查询,针对这些查询进行记录。我们正在存储垃圾数据的副本。不仅是垃圾数据,它不是隐私风险,而且只是无用的数据。当您很好地运行隐私计划并提出这些问题时,您实际上最终可以帮助您的数据科学团队。您可以帮助节省存储成本。不要让隐私程序获得成本中心或减速机器的名声。您可以将其作为帮助您的业务的一种方式。记住这一点。
Privacy Architecture for Data Sharing - Strava Heatmap
我们已经谈了很多关于数据收集以及如何保护数据的问题,让我们谈谈数据共享。在我们进入细节之前,另一个故事。大约 5 年前,我曾经比现在重 100 磅。那时我真的很大。我通过早上跑步和使用名为 Strava 的应用程序减轻了体重。我仍然每天早上跑步。我 4:00 起床。我每天跑大约 10 到 12 英里,这取决于我什么时候喜欢。这是一个很棒的应用程序,因为当你使用 Strava 跑步时,它可以让你记录你的跑步。它可以让你记录你的起点,你的终点。它放置了一个小热图,让您了解您周围的其他人正在运行以及他们在您周围运行的位置的社区感。这个功能非常有用,因为它让我恢复了健康。事实证明,这也让 Strava、公司和美国军方有些头疼。事实证明,五年前,我并不是唯一一个在跑步的人。我们的军队和我们在世界各地的军事基地也在运行。很多人可能都知道这个例子,因为它一发生就引起了一些新闻。
Strava 是一家伟大的公司,他们取得了很大的进步。我们都犯过错误。这绝不是幸灾乐祸。关于我们所有雇主的坏故事已经够多了,所以我们不要对他们笑太多。这是一次学习经历。在这种情况下发生的情况是,您在足够多的这些基地中有足够的服务成员,运行并记录他们的运行。即使在 Twitter 生命的早期阶段,也有足够多的人能够查看这些模型,将它们与外部数据联系起来,并识别出这些军事基地。这本身不是问题,因为这些基地大部分都是公共的,但这些运行不仅确定了基地,还确定了通往基地的供应路线、食堂设施、培训设施,以及人们在这些基地之间来回的其他方式.事实上,借助其他汇总信息,您可以确定哪个服务成员在哪个基地。事实上,研究人员也在事后发现,如果你把跑步的起点和终点模糊不清,你仍然可以识别出所有的士兵、所有的基地、所有的补给线,一切。基本上,因为有些人决定使用 Strava 跑步,所以你有一大堆美国安全、军事基础设施,就这样被曝光了。
Privacy Is about Data and Context
你可能想知道 Strava 在想什么,他们真的没有预见到这会发生。当这条消息传来时,他们的回应是您可以更改设置以确保不会在热图上广播。就目前而言,这是正确的,但对于我们这些从事隐私和安全工作的人来说,如果您必须在隐私或安全问题之后解释您的工具如何工作,那么您就输了。这就是生活的运作方式。我自己去过那里。就是这样。一旦数据进入您的公司,您就拥有数据的安全性和隐私权。当它离开你的公司时,你特别拥有它,因为如果第三方或供应商处理不当,他们没有这样做,你这样做是因为你给了他们数据。故事就是这样展开的。在以增长的名义、以增加大量用户或赚取大量金钱的名义做出决定之前,请记住不要用今天的头痛换取明天的偏头痛。
Privacy Architecture in Action
为了防止这样的事情发生,我们在 Uber 有一个两层计划,我们有法律团队来运行隐私影响评估,这是 GDPR、CCPA、任何数量的标准和法规要求。最重要的是,我启动了一个名为技术隐私咨询的项目,它做了两件事。它可以在影响评估期间帮助律师,因此他们有一个工程师可以帮助查看 ERD 和 PRD 以及设计文档,以了解如果其他隐私意识较低的人做出错误的决定会发生什么。那是第一名。
我们也更非正式地与工程师合作。如果您是一名工程师,在某处发现数据但不知道如何处理,我们将为您提供帮助。如果您不知道实际情况如何,如果您需要了解可用的隐私技术,我们会在您编写 ERD 或 PRD 之前就为您提供非正式的解决方案。工程师与工程师之间的非正式联系,无需任何流程,无需任何判断,非常有帮助。证明反事实是不可能的。我不能站在这里告诉你,“这就是我们阻止的所有坏事。”在事情变得更糟之前抓住东西会带来很多满足感。我会推荐这个模型,因为当我们做这个模型时,它可以帮助我们改进我们的内部隐私工具,因为我们知道人们愿意用数据做什么。
Third Party Data Sharing Checklist
最初,我们所做的是提出非常高层次的问题,只是为了让团队更轻松。您如何保护静态和传输中的数据?您收集或共享它的粒度级别是多少?用户的可识别性如何?是否应用了任何聚合或匿名化?如果涉及第三方,他们是否将数据货币化?就他们将如何处理数据而言,这种透明度是什么样的?
Use Cases for Data Sharing with Cities
我们已经谈了很多关于共享的话题,但回到优步,你可能想要共享数据是有正当理由的,即使是超出正常增长故事的事情。优步需要与市政府合作,以获得在街上运营汽车和车辆、自行车的许可证。城市需要了解对交通、停车和排放的影响。他们还需要按车辆收取费用。他们需要为骑自行车的人、自行车、踏板车执行停车规则。虽然人们在城市里开车的方式我不确定它的效果如何。他们还需要对服务和可能的健康中断做出响应。您需要有关这些汽车、自行车和踏板车的数据。同样,有一个有效的用例。您还需要下车地理位置,例如,在高峰时段实时了解交通状况。您可能需要行程遥测信息来找出并确保您没有进入医院等禁区,例如,您不允许进入的区域。您还需要驾驶执照号码或车牌号码,以确保您没有驾驶过期的车牌或没有琥珀色警报。这种数据共享对社会具有实时价值。
Los Angeles and the MDS tool
当谈到数据共享时,我不能不谈论一些非常当代的事情就离开舞台。有一个争论正在进行,我显然不会进入它的法律方面。我将就优步和洛杉矶市之间正在发生的争端进行高层次的讨论。我相信洛杉矶市对出行数据提出了一些要求,Uber 的团队认为这是极具侵略性的,而不是以隐私为中心的。让我们谈谈那些是什么。
LA Specific Areas of Concern
洛杉矶市希望在他们的 API 上进行实时旅行跟踪。我有几个问题。一是,如果您希望每隔几秒进行一次 GPS ping,就没有真正的理由拥有实时数据。除非存在真正的健康问题,否则您不需要对每辆车进行此操作。您可能会更有选择性,但洛杉矶市的看法不同。
他们需要精确的行程起点和终点坐标。还记得几分钟前我刚刚提到的 Strava 示例,你在世界上一些最安全的基地部署了部队,即使起点和终点都模糊不清,他们也会被淘汰。洛杉矶市需要实时位置。如果一个拥有更似是而非的人权记录的城市需要这些信息,我们会泄露这些信息吗?同样,另一个需要考虑的用例。
他们还需要停放车辆的 GPS 位置。洛杉矶市,与美国的许多其他城市不同,他们没有公布隐私指南,没有我们可以评估的任何匿名技术,他们也没有承诺非货币化,也就是说,他们可以使用用于金钱目的的数据。当然,他们可能会将其扩展到私人车辆。如果您决定为 Uber 或 Lyft 开车,明天,无论您是否愿意,您的数据都可能最终进入洛杉矶市。这就是争论的焦点。至少从我的角度来看,我试图区分我认为是有效用例的用例和我不认为它是有效用例的用例。
我们正在定义几项指导方针,我们将加快其中一些指导方针,以了解我们如何在数据离开公司之前对其进行匿名化。
Data Retention Guidelines
我们要求供应商和合作伙伴记录保留和删除政策,以便我们对其进行评估。甚至除此之外,如果您从上到下查看,当我们与您共享唯一标识符和精确时间时,无论在任何级别,您都只能将它们保留很短的时间。同样,90 天就是一个例子。这不是确切的数字。它因情况而异。那么如果我们粗化正确的数据,也就是让它更近似,你可以保持更长时间。如果你再往下走,我们会寻找更高程度的数据近似值。这张幻灯片的主要内容是,如果您拥有非常精确和非常具体的数据,您可以将其保存的时间更短。如果您想将数据保留更长时间,请将其粗化。你必须在寿命和准确性之间做出选择。你不能同时拥有两者,因为当你拥有两者时,隐私总是会丢失。
Privacy Preservation Techniques (Uber)
我们还要求您删除所有唯一标识符。例如,如果我们为您提供的 ID 可将您唯一标识为 Uber 司机,那么当您获取城市数据时,请取出他们的 ID 并放入您自己的 ID。如果明天旧金山市遭到入侵,那么违反他们的人应该无法将我识别为 Uber 司机或将 Huang 识别为 Lyft 司机。我们应该基本没有区别。然后,我们还希望您处理掉任何个人身份信息或替换为使用 HMAC SHA-256 等伪随机函数生成的值。这是您需要安全人员参与的地方,因为这些技术也可能因具体情况而异。
然后我们还希望您粗化任何存储数据的精度。例如,将时间四舍五入到最接近的 30 分钟增量。如果你在 12:22 离开,而我在 12:30 离开,它会作为两个在 12:30 离开的人存储在数据库中。它更近似一些。它只增加了 50% 的隐私,但在庞大的样本集中,您可以通过这种方式获得更多的匿名性。然后将 GPS 坐标转换为最近的起点或终点或街道中间,或将其四舍五入到一定数量的小数点,例如,在本例中为三个小数点。假设您将文件发送给其他人,并且您认为您已经完成了所有这些。我浏览了四张幻灯片。这是很多粗化。你真的打败了这些数据的废话。你必须假设这里必须有一些隐私。
我们最近在 Uber 对此进行了一项研究,我们看到了这条推文,如果你查看 3 个小数点,并以 15 分钟为增量进行堆叠,这就是它的样子。如果你有一个非常大的校园,比如医院,或者像斯坦福这样的大学校园,在帕洛阿尔托的街道上,我可以很容易地确定你去了斯坦福,你去了三栋建筑中的一栋。如果这不是校园繁忙的时间,如果是春假,或者是春假结束前的周日,或者其他什么,很容易识别你,因为游乐设施的数量将非常有限。即使我们做了到目前为止所做的一切,也很难保证隐私,或者至少,你不能只是将文件发送出去,就认为隐私已经得到了保护。在 Uber,我们非常倾向于 k 匿名化,因为它实际上是在数据离开我们作为一家公司之前的唯一方式,我们可以非常接近保证您拥有一定程度的隐私。
什么是 k 匿名化?我们所做的是,我们确保无论 k 匿名程度如何,都必须至少有 X 个其他人共享您的所有重要属性。如果您谈论 k2-匿名性,那么至少还有一个人可以追溯到 12:30 骑行的示例,您在 12:21 离开而我在 12:23 离开。如果你把它四舍五入到 12:30,我们有一个 k2-匿名。这是一个过于简单的例子,但你得到了一般论点。
Uber Movement Portal
我们使用我们的 Uber 移动门户来练习 k-匿名。这是一个非常漂亮的工具。由于通勤,我每天早上都使用它。它基本上为您提供了从位置 A 到位置 B 的大致时间,这基本上将您从圣莫尼卡带到英格尔伍德。在此示例中,此工具无用,因为没有足够的游乐设施。如果我们给你平均时间,我们基本上给你的时间尽可能接近当时乘坐这些游乐设施的三四个人。必须有一定数量的人搭便车,才能使这些数据以隐私为中心。此外,如果只有两个人搭便车,那么该数据无论如何也不是很有用,因为数字非常少的平均值是毫无用处的。另一个例子,我们正在为隐私做正确的事情,无论如何都会提高数据质量。下次你在推销隐私时提出这个论点。
K- Anonymity - A Case Study: 40,000 Boston Trips
为了真正进行这个演示,我让团队中的某个人对 40,000 次波士顿旅行进行了案例研究,并且发现了一些关于 k-匿名的有趣知识。我会警告说,这些可能不代表您尝试的任何事情,因为这是在特定时间范围内美国一个城市的 40,000 次骑行的特定队列。选择 40,000 种不同的游乐设施,就会出现不同的学习。
这是我们发现的。看看这里的第一行。当你从 0 到 5 时,这就是我们为 GPS 提供的小数位数,如果你从 2 到 1000,这就是 k-匿名性。如果我给你 0 小数点,那是相当粗略的数据,这是非常近似的 GPS 位置。到那时,我至少可以为那 40,000 次旅行,找到至少一个其他人,一路向右至少找到 999 个以上的人。从 k-匿名 2 到 k-匿名 1000,我有 100% 的覆盖率。它以隐私为中心。问题是,业务中的某个人或数据共享方面的某个人可能会说这些数据不是很有帮助。您必须找到一种方法来确保您的数据并非完全无用。您在什么时候觉得有足够的隐私并使数据更有用一点?
让我们看看光谱的另一端。您有 4 个小数点和 5 个小数点。我们先来看5。如果您查看小数点后 5 位,您基本上给出了一个非常精确的 GPS 位置。如果你想要一个 2 的 k-匿名性,你有 68.4%,也就是说,对于 68.4% 的用户,你可以找到另一个人乘坐相同的车。您的匿名率从上一张幻灯片中的 100% 下降到 68%。由于小数点后 5 位,您实际上损失了三分之一。然后假设您减少了 1 个小数点,当您从 5 到 4 时,您的匿名性从 68.4% 到 97.4% 为 2。基本上,在这一点上,97.4% 的人也有其他人满足他们的匿名性。小数点后五位会破坏很多隐私,但会为您提供非常精确的数据。
那么真正的问题就在最右边。如果你想匿名 1000,而且你是一家非常规避风险的公司,如果你有 5 个小数点,那么你的员工中甚至 1% 都不能匿名。然后,如果你减少 1 个小数点,你会得到大约 1% 到 17.3%。这大约是您人口的六分之一。如果您有一个非常规避风险的法律部门,并且您想给出 5 个小数点,那么这不会是一次有趣的对话,正如这张图告诉您的那样。同样,对于不同的队列,您的发现可能会有所不同。我一直在警告这一点。
与我交谈过的每个人(比我更聪明的人)的行业最佳标准是 5。如果您查看 5 的 k-匿名性,也就是说,您要确保至少有 4 个以上的人具有该级别像你一样匿名。如果你有 5 个小数点,你就有 35.5%,这不是很好,但也不是很糟糕。那么当你去掉第五个小数点时,你就有了 93.2%。那么如果你再剃掉一个小数点,也就是你有3个小数点,你就有99.8%。您可以减少 0.2% 的可识别数据。您可以给出 3 个小数点,并且您的匿名性 k 等于 5。这是您可以让法律团队感到安全的地方,您不会损害隐私,您可以对您的数据进行一定程度的精确度。这基本上意味着您可能需要根据具体情况执行此操作。到目前为止,我们讨论的所有其他内容都是顶级大锤。它将适用于您的所有数据。在共享特定文件时,您可能需要进行一些详细调查以避免以后发生任何隐私事故。这是一个有趣的练习,因为我们尝试了几个不同的队列,这个数字非常明显。我把它带到这里只是为了让示例深入人心。
在我们要求市政当局做什么方面,我们还有其他例子。我们希望他们给我们他们的容错能力。有一些关于他们将使用数据的详细信息,因此我们可以在我们这边使用它来操作数据,以便他们可以使用它,但我们不必担心隐私,但我们不会结束破坏他们的实验。
Data Sharing - Case Study: Minneapolis
让我们也看看其他地方是如何做到这些数据共享匿名的。这背后的要点是,美国有一些城市,特别是,他们做一些与我们相同的事情。我们不仅仅是超级隐私狂人,还有一些城市复制了我们的一些最佳实践。
明尼阿波利斯市,他们基本上得到了旅行 ID,但即使他们被散列了,他们也会丢弃它们。他们创建新的 ID 来代替 Uber 或 Lyft ID。他们还降低了起点和终点,并且还缩短了起点和终点的接送时间。我所谈到的一切,如果你在公司内部受到反对,你可以指出其他城市和其他负责任的第三方也遵循一些相同的做法。
他们还在 API 和表访问方面显着限制了他们的数据。它们不会实时存储任何用于处理的数据,这些数据仅存储在内存中。处理后的数据被存储到磁盘上,但在那时,它是高度聚合和匿名的。他们还完善了接送起点。如果您在最顶部注意到,那是一个起点。然后他们将这三个分成三个象限,然后将最接近该点相对于中间三个的位置的拾取或下降进行四舍五入。这些城市有地图,他们很好地使用它们来匿名,至少明尼阿波利斯市是这样。
Sacrificing Time and Location for Privacy
我们最近还吃了一顿午餐,学习了隐私和精确度。研究论文链接在这里。这项研究背后的要点是,“你的数字指纹能比你的真实指纹更能识别你吗?”研究论文谈到了 12 个点如何唯一地识别你的指纹。您需要一定数量的积分。您需要的分数越多,该指标就越以隐私为中心,因此指纹需要 12 分。他们还在 15 个月内调查了 150 万人。他们看了看,你如何根据他们的移动痕迹来识别这些人?也就是说,如果你看看他们是谁,他们在哪里,对于 95% 的人,就 15 个月内 150 万的样本量而言,4 个时空点可以识别他们,95%。这使得在提供隐私方面变得非常困难,尤其是在我们知道您是谁以及您在哪里的情况下。
他们还发现,随着数据变得更粗糙,每损失 10% 的精度,他们只能获得 1% 的隐私。在某些时候,它会成为您失去多少隐私、获得多少隐私与仍有多少数据有用之间的权衡。那是你必须要看的另一件事。
Sacrificing Time and Location for Privacy
这张图确实很好地说明了这一点。在左下角,您会看到 80%。当您仍在图表上时,在垂直轴上的空间分辨率和水平轴上的时间分辨率非常接近的水平上,80% 的人是可识别的。然后你在两边都失去了 40% 的分辨率,你仍然有 70% 的人可以识别。你基本上损失了 30% 的精确度,而你只获得了 10% 的隐私。然后你在 60% 时进一步拉出。在这一点上,你几乎是在图表之外。然后,当您从 50% 中获得收益时,您就几乎不在图表之列。只有当你达到 40% 时,你才会注意到顶线在 A 的右侧,而底线已经在 15 的正上方。问题是,本质上,A 的质量之间存在张力数据和您可以获得的隐私量。这就是我之前提到的原因,k-匿名非常有用,因为你可以构建一个基础设施,让你每次都摆脱它,而你不看它的想法根本不真实。你将不得不进行这项投资。这就是为什么您需要一个集中的隐私团队来至少将这些数据提供给您的公司。
这当然是外部信息的挑战。也就是说,公司外部有可以帮助识别某人的信息。写这篇论文的人发现,如果他们查看医疗信息和选民名单,他们可以识别出现任马萨诸塞州州长。他们能够识别这个人,打电话给医院,并获得他们的医疗记录。这就是他们能够获得的信息量。
Data Minimization
我们如何解决这个问题?我们正在研究一种称为数据最小化的全新技术。我知道这听起来几乎是陈词滥调,但我们正在与整个公司的团队合作,以找出一种方法来开始收集更少的数据。我们正在寻找那些编写服务的人,这些服务基本上是为了让人们叫 Uber 乘车或订购 Uber Eats,我们如何确保我们不会收集诸如位置之类的东西,例如,在标题中?我们从我们已经拥有该位置的平台上使用它。因为如果它在标头中,它会进入系统,存储在其他系统中,被复制到任何地方,因为它是传入数据,它会被新鲜复制。您如何确保尽可能少地收集数据并确保人们一开始就无法访问数据,除非他们绝对真的需要它?在这种情况下,他们确切地知道要去哪里。
数据最小化是 Uber 的一个重要投资点,因为当你拥有的数据越少,要分类的数据就越少,要标记的数据就越少,要根据这些 ML 分类进行分类和排名的数据就越少,要匿名化的数据就越少,而且数据担心与外部第三方数据连接。这是我们在 Uber 非常依赖的东西,这将是我的重点,也是我明年的 OKR。
Takeaways
这些是这里谈话的四个关键要点。隐私不仅适用于律师。我已经说过很多次了。这是一门跨职能的学科。了解您拥有哪些数据,为什么需要它,标记它,并尽可能在流程的早期对其进行盘点。在使用和共享数据时,尽可能粗略。应用一大堆技术。没有一种技术可以让你出狱。最后,正如我之前提到的,最小化您的数据。
Questions and Answers
参与者 1:在 UMS 系统上,如果您通过该系统汇集所有数据,您将如何处理 PCI 合规性和 HIPAA?
你是如何选择明尼阿波利斯的?真的只有明尼阿波利斯在美国各地这样做,还是要求这样做?
Bhajaria:明尼阿波利斯就是一个例子,他们不仅做了所有这些事情,而且还发表了很多这样的事情。明尼阿波利斯之所以具有启发性,是因为在我们与其他市政当局的许多对话中,我们都指向明尼阿波利斯,因为从成本的角度来看,市政当局通常更容易从彼此而不是公司那里获取这些信息。此外,明尼阿波利斯使用的 API 也被全国不同城市普遍使用。奥克兰市的工作也很出色。他们有一个很好的出版。他们的很多东西都更深。事实上,我认为还有更好的选择,尽管 Uber 的其他人不同意。他们俩都非常好。
当谈到单独运行的 HIPAA 时,HIPAA 和 PCI,尤其是一些标记化的信息,因为它在财务或健康方面有多敏感。那只是完全分开运行,因为很多信息首先出现。事实上,从我在耐克时代开始,我就发现 CCPA 将身高和体重视为个人健康数据。这个教训很早就学到了。这主要是因为有大量其他数据也被认为是越来越受保护的数据。我们需要一些可以手动允许人们对其进行大规模分类的东西。使用 ML,您不需要 PCI 和 HIPAA 的所有这些,您知道它很敏感。几乎,让我们不要让它变得容易,很难编程。让我们付出代价。我们几乎有这种两层结构。
参与者 2:我想知道你是否可以谈谈政治挑战,因为所有这些,让人们对数据进行分类,让开发人员使用工具,等等。这需要他们做的工作。我想知道你是否可以谈谈处理这个问题的一些政治方法。
Bhajaria:有一种说法是,要么为隐私买单,要么为没有隐私买单,第二次的成本要高得多。我一直很幸运。我总是在发生不好的事情后进入公司。在获得 Netflix 挑战的同意令后,我进入了 Netflix。我进了耐克,就在 CCPA 的事情发生的时候。在公司过去两年面临的挑战之后,我进入了优步。有时,过去会让你更容易活在当下。这是其中的一部分。此外,由于 GDPR,该公司刚刚经历了巨大的挑战。这是一项极其昂贵的工作。花了很多钱。它还推迟了路线图上的很多事情。当您可以展示之前和之后的情况时,它会是什么样子,如果您现在就这样做,它会有所帮助。我以前做过产品经理。我以前一直是数据收集者。我可以告诉人们清理它是什么感觉,因为我第一次没有做对。你真的希望团队中的人拥有基础设施和产品体验。不要只用政策人员来填补你的隐私团队,否则工程师会讨论他们,然后你真的不会有那种协同作用。你需要有同理心的人,他们了解构建这些工具的感觉,以及这些工具在什么时候真正有用。这并不容易,但我们就是这样做的。
参与者 3:有大量数据以每分钟或每秒 GB 的数据量以多种速率进入组织。这是通过摄取进入组织的大量数据。您如何以有效的方式将其最小化,以免影响下一个流程?
Bhajaria:我现在没有太多要分享的东西,因为我们仍处于构思阶段。让我举个例子,当我们与位置团队交谈时。例如,如果他们在标头中发送位置,则该标头会在整个公司范围内传播。不需要数据、不知道自己拥有数据的人开始收集数据。他们开始存储它。他们的工作与此背道而驰。他们记录下来。真正的隐私挑战始于人们对他们不知道自己拥有的数据的错误处理,因为如果他们不知道,他们就不会对其进行分类,他们不会对它做任何正确的事情。你如何挑战人们理解,你真正需要什么?你要确保你有具有架构和产品背景的人,因为他们可以提出问题,“让我帮你设计这个产品。”我提倡隐私,但我的工作是帮助您更好地构建您的产品。当您使用公司中的三个或四个关键字幕服务执行此操作时,该信息开始向下渗透。然后你可能会破坏一些东西。当这些数据停止输入时,您就会发现谁真正需要它。会有一点点偶然性,但你需要从架构的角度来看它,只需要在边缘层。
参与者 3:有多个数据提供者,第三方数据提供者,正在向我公司发送数据。如果他们正在发送用户数据,那么我是否有责任将数据散列以将其最小化?
Bhajaria:我的论点始终是,第一个接触数据的人会对其进行哈希处理。我认为您的问题也涉及法律政策方面。我不想当律师。我总是主张让我们散列它,或者让我们尽可能在游戏早期匿名化它。为了确定,我会咨询法律团队。
本文:https://jiagoushi.pro/privacy-architecture-data-driven-innovation
- 89 次浏览