【数据质量】什么是“垃圾进，垃圾出”，为什么它仍然是一个问题？

视频号

微信公众号

知识星球

语言 Chinese, Simplified

作为IT和商业新闻的狂热消费者，你肯定听说过“垃圾进垃圾出”这句格言。概念很简单：任何分析、分析或业务输出的质量和相关用途都是模型输入数据质量的直接函数。

这个经常被人背诵的短语已经存在了一段时间，但它在今天仍然是一个重要的真理。无论是追求数字化转型，还是利用人工智能（AI）、机器学习（ML）或物联网（IoT）等技术，组织都需要强大的可信数据基础来实现其业务目标。

在报道了数据治理和主数据管理（MDM）市场几年之后——作为帮助客户构建治理MDM业务案例的一部分——我退一步思考了为什么大多数组织的数据状态如此糟糕。

继续阅读，了解为什么在展示企业关键任务运营和分析中可用的可信数据的价值方面存在如此大的挑战，以及如何将自己的脏数据踢到路边。

什么是垃圾进，垃圾出？

“垃圾进，垃圾出”（GIGO）的概念听起来就是这样：如果你给你的模型喂食垃圾，你就会得到垃圾。换言之，在数据、分析和生活中，“你吃什么就是什么。”

“垃圾”可能是不准确、不完整、不一致的数据，或者不符合数据管理协会（DAMA）定义的65个数据质量维度中的任何一个。

在数字化转型的背景下，GIGO成为了一个真正的问题，尤其是当生成人工智能等新技术提高了产出不佳时可能出现问题的风险时。思考：

由于低估或高估对产品或服务的需求而错过销售机会
将预算浪费在无效的营销活动上
与错误的人共享敏感信息而不遵守隐私法规
由于误报导致收入目标缺失
收到彻头彻尾的虚假信息

即使没有像人工智能模型这样复杂的东西，垃圾输出仍然会让那些依赖数据和分析来为有影响力的决策提供信息的有抱负的数据驱动组织感到头疼。当我们考虑一些真实世界的例子时，我们会对此进行更多的讨论。

垃圾进，垃圾出的历史

尽管“垃圾进，垃圾出”这个短语的第一次使用可以追溯到1957年，但它在计算的早期就被普及了，随着20世纪90年代数据仓库的兴起，它被背诵到了陈词滥调的地步。

垃圾：数据仓库和技术债务

这个故事的简洁版本始于这样一个事实，即无论我们当时是否意识到，在任何商业环境中，我们大多数人在历史上都曾获得过在筒仓中优化业务流程的补偿。

对于我们这些有幸在20世纪后半叶参与信息技术的人来说，我们被允许并鼓励自动化这些筒仓。

当所有这些流程被聚合在一起时，这带来了巨大的生产力提升，而当每个新的业务应用程序系统都携带自己的一组数据时，人们几乎没有注意到所产生的技术债务。

ERP和其他应用程序套件在至少在其数据库中共同定位逻辑上相似的数据方面取得了重大进展，但几乎没有内置任何功能来在支持的业务流程中加强广泛的数据质量和语义。

这导致在单个物理数据存储中出现一组不同的“逻辑”竖井。与此同时，诸如CRM之类的专业应用程序出现了，再次单独提高了生产力，但再次使可信数据和可重复使用数据的问题复杂化。

垃圾处理：数据仓库、数据分析师和数据质量

20世纪90年代，数据仓库和数据集市的出现，以及整合和协调来自这些不同数据仓库的源数据以用于基本报告和分析的首次尝试，首次广泛暴露了数据质量差的技术债务。

讨厌的数据分析师发现，这些系统中的数据不符合每个系统中表面上的规则。更糟糕的是，这些系统中看似相似的数据属性的含义几乎没有相似之处。

如今，随着企业现在追求数字化转型等战略举措，他们越来越发现，如果他们要实现未来的能力以及业务流程和分析的自动化，就不能再容忍基本上不受信任的数据的现状。

现在必须偿还质量差、关键任务数据的技术债务。事实上，根据哈佛商业评论分析服务公司的一项调查，60%的组织报告称，他们在企业范围内的数据战略投资不足，阻碍了有价值的数据被广泛使用，这并不奇怪。

垃圾输入示例

如上所述，垃圾输入实际上可以归结为无法满足DAMA 65个数据质量维度中任何一个维度的数据。Dataversity的一篇文章将这些划分为六个核心维度。

以下是每个维度的一些示例：

准确性：数据与实际相符吗？你能通过将数据与你知道的真实来源进行交叉引用来验证其准确性吗？例如，如果您的组织有一个垂直的电子商务业务，您可以使用服务来验证送货地址，如必应地图API位置。
完整性：所有信息都在那里吗？例如，一个完整的美国地址应该包括街道编号、城市、州和邮政编码。缺少任何一个数据点都将被视为不完整。
一致性：存储数据的每个位置的数据是否相同？例如，如果你将CRM中的客户发货地址数据与ERP中的同一客户发货地址进行比较，你应该会得到完美的匹配。这不仅适用于具有正确的地址，而且适用于一致格式化的地址。例如，如果一个地址在您的CRM中被格式化为“Louisiana”，在您的ERP中格式化为“LA”，在HRIS中格式为“LA”，则即使每个系统在地址数据中使用正确的状态，数据也不会一致。
及时性：数据接收是否及时？也就是说，什么时候需要、预测或预期？要继续使用地址示例，您需要在客户下新订单时收到发货地址，以便将其发送到您的订单履行系统。
有效性：数据是否符合预定义的业务规则？假设您的组织的订单履行系统需要九位数的邮政编码，而不是大多数人使用的标准五位数邮政编码。如果订单仅使用五位数的邮政编码，则数据将无效。
唯一性：数据是否只在一个位置存储一次？我们已经讨论过数据竖井的问题，但这里我指的是单个位置中的重复数据。例如，如果一个客户的文件中有两个发货地址，一个用于家庭，另一个用于工作，您会希望这两个地址都链接到数据库中的一个客户记录，而不是为同一个人创建两个地址不同的客户记录。

这绝不是一份详尽无遗的清单。这取决于数据管理员来决定哪些维度对他们来说最重要，以定义在他们的组织中什么是优质数据还是劣质数据。

垃圾从哪里来？

数据仓库是数据质量的一个问题，但如果将其确定为问题的根本原因，那将是一个错误。所谓的垃圾可以来自各种各样的来源。

以下是我多年来看到的一些例子：

合并和收购，或从不符合现有公司标准的外部来源导入数据的任何时间
数据输入错误（人为错误）
在一个系统内或跨多个系统进行数据验证或验证的规则存在冲突或不同
在复杂的业务流程中缺乏跨系统的集成
组织中缺乏数据治理组织或共享治理策略

主数据管理（MDM）如何解决垃圾输入、垃圾输出问题？

值得庆幸的是，GIGO的问题已经有了解决方案。主数据管理（MDM）就是通过修复进入业务或分析流程的低质量数据实例来创建您可以信任的数据，它非常善于打破数据孤岛。

以下是MDM可以帮助您将脏数据踢到路边的一些具体方法：

数据质量：再次回顾我们之前谈到的数据质量的六个核心维度。主数据管理解决方案可以帮助您清理数据，使其符合这些标准。
数据治理：MDM解决方案与数据治理解决方案不同，但两者是相辅相成的。如果数据治理是为了创建策略来定义什么是干净的或好的数据，那么MDM就是为了强制执行这些策略。MDM为您提供了一个单一的位置来配置数据质量规则，并确保它们在整个企业中一致且自动地应用。
数据丰富：数据丰富是指使用MDM解决方案清理数据并使用补充信息进行改进的过程。理论上，您可以在没有数据丰富的情况下解决GIGO问题，但如果您想充分利用输入数据，它仍然很有价值。
数据集成：这是MDM分解数据竖井的主要方式。MDM不是让垃圾数据分布在整个组织中，而是作为准确、可靠数据的单一真实来源。
数据管理：主数据管理为数据管理者提供了一个接口，以修正MDM解决方案识别为垃圾的数据。
层次管理：使用MDM，一个管家的垃圾就是另一个管家有价值的洞察力。层次结构管理是许多MDM解决方案中的一项功能，它使您能够管理数据中的复杂关系，从而更好地了解组织与客户、供应商、资产和材料关系的完整背景。
工作流自动化：手动审查潜在的垃圾数据可能会耗费大量时间。这就是工作流自动化的闪光点，它提供了一种在复杂的业务流程或工作流中协调对标记为潜在垃圾的数据的审查和批准的方法。

多域MDM平台通过提供所需的数据模型灵活性进一步实现了这一点，使业务能够开发一个准确反映业务当前和期望的未来状态的通用数据模型。

如果您想解决组织的技术债务并全面实现任何数字业务转型，实施MDM和数据治理对于清除脏数据的垃圾至关重要。

本文地址

https://architect.pub/what-garbage-garbage-out-and-why-it-still-problem

250 次浏览

SEO Title

WHAT IS ‘GARBAGE IN, GARBAGE OUT,’ AND WHY IS IT [STILL] A PROBLEM?