跳转到主要内容
Chinese, Simplified

信任大数据需要了解其数据沿袭。 没有数据沿袭,大数据就成了电话游戏中最后一句话的代名词。 第一个人的原始数据(例如,“孔雀鱼在鲨鱼缸中游泳”)在最后一个人结束时会变成完全不同的东西(例如,“旋转和吠叫的小狗,发臭”)。 电话游戏玩家看起来很困惑,他们不明白原始数据是如何变得完全不同的。 糟糕的数据沿袭也是如此,因为企业的数据资产流经其数据架构。

客户、监管机构和企业发现在使用企业大数据后玩电话游戏变得不那么有趣了。 IDC 的 Stewart Bond 表示,企业需要安全且合规的数据。 这些数据需要在需要的时间和地点可用。 随着多个最终用户、平台和各种格式(如视频、文本、图像和音频)的来源,对干净大数据的需求变得更加复杂。 通过将大数据远程存储在云中,它是如何到达那里的就变得不那么明显了。 了解数据沿袭可以解决这些类型的问题以及更多问题。

什么是数据沿袭?


数据沿袭描述数据来源、移动、特征和质量。 根据 Stewart Bond 的说法,谱系通常描述大数据从哪里开始以及它如何改变为最终结果。 技术项目使用这种传统的数据沿袭方法。 例如,在一家大型技术公司创建新的临床医生/患者系统期间,项目成员会参考表和连接的映射,以指导使用什么 SQL 来选择、汇总或分组数据。 程序员将更新代码以生成所需的值,而 QA 将阅读这些计划以预测破坏软件的方法。 虽然此方法只是一个开始,但数据沿袭需要扩展定义。

仅将传统方法应用于数据沿袭时,数据会遇到障碍,尤其是主数据:有关人员、流程和构成业务核心的事物的信息。 例如,团队成员必须为处理国外交易的大型银行部门开发新的检查程序。 QA 和软件工程师在从其他银行部门获取一组有效的测试数据时遇到了问题。 如果项目经理包括额外的数据沿袭方面,例如谁使用大数据、它意味着什么、何时访问数据、为什么存储数据以及数据元素如何相关,这些障碍本可以得到缓解,缩短 开发和测试的时间框架。 有意义的数据沿袭需要包含多个维度:谁、什么、在哪里、为什么以及如何

为什么要跟踪血统?


数据沿袭有很多好处,包括:

  • 数据治理:根据 Meta Integration Technology 首席执行官兼总裁 Christian Bremeau 的说法,数据治理需要元数据管理。 这是确保大数据符合业务标准所必需的:“元数据管理解决方案的使命是从源头到另一端,”Bremeau 说。 数据沿袭解决方案将元数据拼接在一起,提供对数据使用和需要减轻的风险的“理解和验证”。
  • 合规性:多个不同的利益相关者,包括客户、员工和审计员,需要信任报告的数据,同时快速响应商业机会和监管挑战。 他们需要知道一份报告,“信息是如何获得的……[在那里]?” ASG Technologies 前产品营销副总裁 Ian Rowlands 表示,跟踪数据沿袭提供了“报告正确反映数据”的证据。
  • 数据质量:数据质量面临的挑战包括通过人员和流程进行数据移动、转换、解释和选择。 “当今的企业面临着可靠地证明数据来源和整个组织转换的压力,”Rowlands 说。 数据沿袭解决方案提供了了解“端到端流”何时发生的能力,包括:数据何时被转换,它意味着什么,以及数据质量如何从一个地方移动到另一个地方。
  • 业务影响分析:正如邦德所指出的,企业需要了解内部部门和用户以及外部客户如何共享大数据,尤其是主数据,以及这些数据如何变化。 正如 Bremeau 所说,一位同事可能会问为什么在过去的某个季度(例如 2005 年第 4 季度)做出了错误的决定。同样,企业可能希望升级数据仓库,并且需要知道哪些系统和流程可能会破坏此操作。 回答这些类型的问题需要及时来回处理您的数据,这需要了解数据沿袭。

如何在您的业务中创建和使用数据沿袭


为了做出更好的决策并更快地响应商业机会和法规,企业必须有效地创建和使用数据沿袭。 好的策略包括:

  • 记录数据的位置和方式:分解数据在业务中可能存在的位置,包括通过关键业务流程和这些流程之间的流动。 此外,了解技术沿袭或“物理数据流通过底层应用程序、服务、数据存储,”Rowlands 说。 以可重复、可靠且快速的方式跟踪数据移动到何处以及如何更改。
  • 调查 5 W:如上所述,有意义的数据需要是多维的,超越了位置和方式。 查明谁在使用数据、数据的含义、捕获时间、使用时间以及存储和/或使用数据的原因。
  • 理解关系:需要很好地理解数据之间的关系,包括数据如何在人、流程、服务和产品之间产生和移动。 数据管理者需要从内部实体(例如企业内的部门)、外部参与者(企业的买家和卖家)以及内部实体和外部参与者之间的交互中概念化这些信息。
  • 自动化:正如 Bremeau 提到的,“手动维护语义映射是一场噩梦。 您需要的是一套自动执行此操作的工具。” 识别关键数据或主数据并使用自动化元数据应用程序扫描和收集有关数据沿袭的元数据变得至关重要。


案例研究:金融业和数据沿袭


数据沿袭已成为金融业必不可少的,特别是自从监管控制因 2007-2008 年金融危机而发生变化以来。 一家知名银行与 ASG Technologies(现为 Rocket Software)之间的案例研究描述了一家银行如何采取积极主动的战略,“创建世界一流的流程和战略,以自动化数据取证并解决整个组织的监管要求。” 该银行的信息架构 (IA) 团队探索了一系列工具,并为零售银行部门“与三个供应商进行了概念验证试验,包括部分 ASG 解决方案”。

探索的方法包括大型机测试、分布式环境和迁移以及转换。 IA 团队得出结论,ASG 的解决方案提供了实现其目标所需的“结果速度和总体影响”。 ASG 解决方案对银行的成功包括:

完成“100 个应用程序中的 10 个关键业务元素 (KBE)”的数据沿袭所节省的成本从 1,480,280 美元到 304,140 美元。
通过“手动数据沿袭和分析过程的 80 倍”提高效率。
在 180 小时内更快地解析“100 个系统(40 个简单系统、40 个中型系统和 20 个复合系统)中的一个数据元素,而手动执行时需要 14,400 小时。”
展望未来,该银行的 IA 团队计划继续使用 ASG 的解决方案执行数据沿袭,包括“40-50 个系统中 1000 个 KBE 的第二实施阶段”。 正如本案例研究所示,数据沿袭的力量可以最大限度地减少疑虑、增加信任并加快流程。

原文地址
https://www.dataversity.net/data-lineage-demystified/
本文地址
Article

微信

知识星球

微信公众号

视频号