【数据质量】什么是数据质量,为什么它很重要?
视频号
微信公众号
知识星球
什么是数据质量?
数据质量定义为:
数据满足公司对准确性、有效性、完整性和一致性的期望的程度。
通过跟踪数据质量,企业可以查明损害质量的潜在问题,并确保共享数据适合用于特定目的。
当收集的数据不能满足公司对准确性、有效性、完整性和一致性的期望时,可能会对客户服务、员工生产力和关键战略产生巨大的负面影响。
为什么数据质量很重要?
高质量的数据是做出准确、知情决策的关键。虽然所有数据都有一定程度的“质量”,但各种特征和因素决定了数据质量的程度(高质量与低质量)。此外,不同的数据质量特征对整个组织的各个利益相关者来说可能更为重要。
流行的数据质量特征和维度列表包括:
- 精确
- 完整性
- 一致性
- Integrity(诚实正直)
- 合理性
- 及时性
- 唯一性/重复数据消除
- 有效性
- 可访问性
由于数据准确性是高质量数据的一个关键属性,因此单个不准确的数据点可能会对整个系统造成严重破坏。
如果没有数据质量的准确性和可靠性,高管就无法信任数据或做出明智的决策。这反过来会增加运营成本,并对下游用户造成严重破坏。分析人士最终依赖于不完美的报告,并根据这些发现得出错误的结论。最终用户的生产力将因存在缺陷的指导方针和做法而下降。
数据维护不善也会导致各种其他问题。例如,过时的客户信息可能会导致错过向上销售或交叉销售产品和服务的机会。
低质量的数据也可能导致公司将产品运送到错误的地址,导致客户满意度降低,重复销售减少,以及由于重新发货而导致的成本增加。
在监管更严格的行业,不良数据可能会导致公司因财务或监管合规报告不当而被罚款。
三大数据质量挑战
数据量带来了质量挑战。每当有大量数据在发挥作用时,新信息的数量往往成为确定数据是否可信的重要考虑因素。出于这个原因,具有前瞻性思维的公司在数据的收集、存储和处理方面有健全的流程。
随着技术革命的快速发展,数据质量面临的三大挑战包括:
1.隐私和保护法
《通用数据保护条例》(GDPR)和《加州消费者隐私法》(CCPA)赋予人们访问个人数据的权利,这大大增加了公众对准确客户记录的需求。组织必须能够几乎立即定位个人的全部信息,而不会因为数据不准确或不一致而丢失所收集的数据的一小部分。
2.人工智能(AI)和机器学习(ML)
随着越来越多的公司将人工智能和机器学习应用程序应用于其商业智能战略,数据用户可能会发现越来越难以跟上新的大数据浪潮。由于这些实时数据流平台不断传输大量新信息,现在出现错误和数据质量不准确的机会甚至更多。
此外,大型公司必须努力管理其系统,这些系统既位于本地,也通过云服务器。丰富的数据系统也使复杂任务的监控变得更加具有挑战性。
3.数据治理实践
数据治理是一种数据管理系统,它遵守信息收集、存储和共享的一套内部标准和策略。通过确保公司每个部门的所有数据一致、可信且不被滥用,管理人员可以保证遵守重要法规,并降低企业被罚款的风险。
如果没有正确的数据治理方法,公司可能永远无法解决整个组织不同系统内的不一致问题。例如,根据部门的不同,可以列出不同的客户名称。销售人员可能会说“Sally”。物流部门使用“Sallie”。客户服务部门会将这个名字列为“Susan”。这种糟糕的数据管理可能会导致客户感到困惑,因为随着时间的推移,客户会与每个部门进行多次互动。
关于如何确定数据质量的6种方法
数据质量评估框架(DQAF)是一组数据质量维度,分为六大类:完整性、及时性、有效性、完整性、唯一性和一致性。
在任何时间点评估特定数据集的质量时,这些维度都很有用。大多数数据管理器为每个维度分配0-100的分数,即平均DQAF。
1.完整性
完整性被定义为数据集中缺失数据的百分比。对于产品或服务,数据的完整性对于帮助潜在客户在不同的销售项目之间进行比较、对比和选择至关重要。例如,如果一个产品描述不包括预计交付日期(而所有其他产品描述都包括),那么该“数据”是不完整的。
2.及时性
及时性衡量数据在任何特定时刻的最新程度或过时程度。例如,如果你有2008年的客户信息,现在是2021年,那么数据的及时性和完整性都会出现问题。
在确定数据质量时,及时性维度可能会对其整体准确性、可行性和可靠性产生巨大影响,无论是积极的还是消极的。
3.有效性
有效性是指不符合特定公司格式、规则或流程的信息。例如,许多系统可能会询问客户的出生日期。然而,如果客户没有使用正确的格式输入他们的出生日期,数据质量水平就会自动受到影响。因此,今天许多组织设计他们的系统来拒绝出生日期信息,除非它是使用预先分配的格式输入的。
4.诚信
数据的完整性是指信息的可靠性和可信赖程度。数据是否真实?例如,如果您的数据库有一个分配给特定客户的电子邮件地址,而事实证明该客户实际上在几年前删除了该帐户,那么数据完整性和及时性都会出现问题。
5.唯一性
唯一性是一种数据质量特征,通常与客户档案相关。一项记录可以使你的公司在电子商务销售中获胜并击败竞争对手。
更准确地汇编独特的客户信息,包括每个客户与个别公司产品和营销活动相关的相关绩效分析,通常是长期盈利和成功的基石。
6.一致性
数据的一致性通常与分析有关。它确保信息收集的来源是基于部门或公司的独特目标捕获正确的数据。
例如,假设您有两条类似的信息:
- 客户开户的存档日期与。
- 他们最后一次登录帐户的时间。
这些日期的差异可能为当前或未来营销活动的成功率提供有价值的见解。
确定公司数据的整体质量是一个永无止境的过程。有效的数据质量管理最关键的组成部分是快速主动地识别和解决潜在问题。
数据质量管理工具和最佳实践
数据是由人生成的,他们天生就容易犯人为错误。为了避免未来的问题并保持数据质量的连续性,您的组织可以采用某些最佳实践,以确保您的数据质量管理系统在未来几年的完整性。这些措施包括:
在整个企业中建立员工和部门间的认同。
- 设置明确定义的指标。
- 通过制定数据治理准则来确保数据质量。
- 创建一个流程,让员工可以报告有关数据输入或访问的任何可疑故障。
- 建立一个逐步调查负面报告的流程。
- 启动数据审核过程。
- 建立并投资于高质量的员工培训计划。
- 建立、维护并持续更新数据安全标准。
- 在整个公司的每个级别都分配一名数据管理员。
- 利用潜在的云数据自动化机会。
- 尽可能集成和自动化数据流。
Alation为实施具有成本效益的数据质量管理系统提供了各种企业级工具和解决方案。我们帮助组织整合孤立和分布式的企业数据,建立数据实践的一致性,并提高决策过程的速度和质量。有关我们的数据质量管理解决方案的更多信息,请立即联系Alation。
- 225 次浏览