跳转到主要内容

数据质量是当今数据中心的一个关键问题。考虑到云时代的复杂性,越来越需要数据质量工具来分析、管理和清理来自多种来源的数据,包括数据库、电子邮件、社交媒体、日志和物联网(IoT)。

 

这些数据质量工具消除了格式错误、打字错误、冗余和其他问题。数据质量管理工具还确保组织应用规则、自动化流程,并拥有提供流程详细信息的日志。有效地使用这些工具,可以消除导致企业开支增加、困扰客户和业务伙伴的不一致性。它们还推动了生产率的提高和收入的增加。

 

数据质量工具通常涉及四个基本领域:数据清理、数据集成、主数据管理和元数据管理。它们通常通过使用算法和查找表来识别错误和异常。这些年来,这些工具已经变得更加复杂和自动化,但也更容易使用。他们现在处理许多任务,包括验证联系信息和邮寄地址、数据映射、与提取、转换和加载(ETL)工具相关的数据整合、数据验证协调、样本测试、数据分析和各种形式的大数据处理。

 

确定正确的数据质量管理解决方案非常重要,这取决于许多因素,包括组织如何以及在何处存储和使用数据、数据如何跨网络流动以及团队正在尝试处理的数据类型。尽管基本的数据质量工具可以通过开源框架免费获得,但当今的许多解决方案都提供了复杂的功能,可用于多种应用程序和数据库格式。当然,了解一个特定的解决方案能为您的企业做些什么,以及您是否需要多种工具来处理更复杂的场景,这一点很重要。

 

如何选择合适的数据质量工具

  • 确定您的数据挑战。不正确的数据、重复的数据、丢失的数据和其他数据完整性问题会严重影响并破坏业务计划的成功。维护数据完整性的随意或分散的方法可能会导致时间和资源的浪费。它还可能导致绩效低下,员工和客户感到沮丧。从分析现有数据源、当前使用的工具以及出现的问题和问题开始是很重要的。这提供了对差距和可能的修复的洞察。
  • 了解数据质量工具可以做什么,不能做什么。对于完全损坏、不完整或丢失的数据没有修复方法。数据清理工具不能在过时的遗留系统或不整洁的电子表格上发挥神奇的作用。如果您的组织发现了其数据收集和管理方法中的差距和缺点,则可能需要回到绘图板并检查整个数据框架。这包括您当前使用的数据管理工具、您的组织如何管理和存储数据,以及可以更改和改进哪些工作流和流程。
  • 了解各种数据清理工具的优缺点。很明显,并非所有的数据质量管理工具都是平等的。有些是为Salesforce或SAP等特定应用程序设计的,有些则擅长发现物理邮件地址或电子邮件中的错误,还有一些则处理物联网数据或将不同的数据类型和格式组合在一起。此外,了解数据清理工具的工作原理及其自动化程度,以及完成特定任务可能需要的特定功能也很重要。最后,考虑数据控制/安全性和许可成本等因素至关重要。

在这个顶级数据质量工具的数据化概述中,我们确定了10家领先的供应商/工具:

 

跳转到:

 

 

云朵(Cloudingo)

潜在买家的价值主张:Cloudingo是为Salesforce设计的突出的数据完整性和数据清理工具。它解决了从重复数据消除和数据迁移到发现人为错误和数据不一致的所有问题。该平台处理数据导入,提供高水平的灵活性和控制,并包括强大的安全保护。

 

关键价值/优势:

  • 该应用程序使用拖放图形界面来消除编码和电子表格。它包括带有允许定制的过滤器的模板,并提供内置分析。api同时支持REST和SOAP。这使得从云端或内部系统运行应用程序成为可能。
  • 数据清理管理工具处理所有主要需求,包括合并重复记录并将潜在客户转换为联系人;删除导入文件中的重复数据;删除过时记录;按计划自动执行任务;以及提供有关更改跟踪的详细报告功能。它提供近乎实时的数据同步。
  • 该应用程序包括强大的安全控制,包括基于权限的登录和同时登录。Cloudingo支持独特的、独立的用户帐户和工具,用于审核做出更改的用户。

数据梯形图(Data Ladder)

潜在买家的价值主张:供应商通过一套全面的工具来清理、匹配、重复数据消除、标准化和准备数据,从而确立了自己在数据清理方面的领先地位。数据梯形图旨在集成、链接和准备几乎任何来源的数据。它使用一个可视化界面,并利用各种算法来识别语音、模糊、缩写和特定领域的问题。

 

关键价值/优势:

  • 该公司的DataMatch企业解决方案的目标是在独立分析的基础上,为4万到8万个记录样本提供96%的准确率。它使用多线程内存处理来提高速度和准确性,并支持非结构化数据的语义匹配。
  • Data Ladder支持与大量数据库、文件格式、大数据湖、企业应用程序和社交媒体的集成。它提供用于管理、组合和清理数据源的模板和连接器。这包括微软动态、Sage、Excel、谷歌应用、office365、SAP、azurecosmos数据库、Amazon雅典娜、Salesforce和其他几十家公司。
  • 数据标准化功能利用了超过300000条预先构建的规则,同时允许定制。该系统使用专有的内置模式识别,但它也允许组织以可视化方式构建自己的基于RegEx的模式。

IBM InfoSphere QualityStage

面向潜在买家的价值主张:IBM的数据质量应用程序可在内部部署或云中提供,为数据清理和数据管理提供了广泛而全面的方法。重点是建立客户、供应商、地点和产品的一致和准确的视图。InfoSphereQualityStage设计用于大数据、商业智能、数据仓库、应用程序迁移和主数据管理。

 

关键价值/优势:

  • IBM提供了许多旨在生成高质量数据的关键特性。深度数据分析工具提供分析,以帮助理解表、文件和其他格式的内容、质量和结构。机器学习可以自动标记数据并识别潜在问题。
  • 该平台提供了200多个内置的数据质量规则,用于控制不良数据的接收。该工具可以将问题路由到合适的人,这样就可以解决潜在的数据问题。
  • 数据分类功能识别个人识别信息(PII),包括纳税人ID、信用卡、电话号码和其他数据。这有助于消除重复记录或孤立数据,这些记录或孤立数据可能最终落入坏人手中。
  • 该平台支持强大的治理和基于规则的数据处理。它包括强大的安全功能。

 

Informatica Quality Data And Master Data Management

潜在买家的价值主张:Informatica采用了一个框架,处理与数据质量和主数据管理(MDM)相关的各种任务。这包括基于角色的功能;异常管理;对问题的人工智能洞察;预构建的规则和加速器;以及一套全面的数据质量转换工具。

 

关键价值/优势:

  • Informatica的数据质量解决方案擅长处理数据标准化、验证、丰富、重复数据消除和整合。该供应商提供了针对驻留在Microsoft Azure和AWS中的云数据而设计的版本。
  • 供应商还提供了一个主数据管理(MDM)应用程序,该应用程序通过匹配和建模、元数据和治理以及清理和丰富来解决数据完整性问题。除此之外,Informatica MDM在单个中央存储库中自动化了数据分析、发现、清理、标准化、丰富、匹配和合并。
  • MDM平台支持几乎所有类型的结构化和非结构化数据,包括应用程序、遗留系统、产品数据、第三方数据、在线数据、交互数据和物联网数据。

 

OpenRefine

潜在买家的价值主张:OpenRefine,前身为Google Refine,是一个免费的开源工具,用于管理、操作和清理数据,包括大数据。这个应用程序最多可以容纳几十万行数据。它清理、重新格式化和转换各种不同的数据。OpenRefine有多种语言版本,包括英语、中文、西班牙语、法语、意大利语、日语和德语。

 

关键价值/优势:

  • GoogleRefine清理和转换各种来源的数据,包括标准应用程序、web和社交媒体数据。
  • 该应用程序提供了强大的编辑工具来删除格式、过滤数据、重命名数据、添加元素和完成许多其他任务。此外,应用程序还可以以交互方式批量更改大块数据,以满足不同的需求。
  • 协调和匹配不同数据集的能力使得获取、调整、清理和格式化web服务、网站和多种数据库格式的数据成为可能。此外,GoogleRefine还提供了许多扩展和插件,可用于许多数据源和数据格式。

SAS数据管理

潜在买家的价值主张:SAS数据管理是一个基于角色的图形化环境,旨在管理数据集成和清理。它包括用于数据治理和元数据管理的强大工具、ETL和ELT、迁移和同步功能、用于Hadoop的数据加载器和用于处理大数据的元数据桥。Gartner将SAS评为2018年数据集成工具幻方图的“领导者”。

 

关键价值/优势:

  • SAS数据管理提供了一组强大的向导,可以帮助进行整个范围的数据质量管理。这些工具包括数据集成、流程设计、元数据管理、数据质量控制、ETL和ELT、数据治理、迁移和同步等。
  • 强大的元数据管理功能有助于维护准确的数据。该应用程序提供了映射、验证信息的数据沿袭工具、向导驱动的元数据导入和导出以及帮助数据完整性的列标准化功能。
  • 数据清理以母语进行,全球38个地区都有特定的语言意识和位置意识。该应用程序支持可重用的数据质量业务规则,并将数据质量嵌入到批处理、近实时和实时流程中。

 

延龄草(Syncsort Trillium)

潜在买家的价值主张:Syncsort收购Trillium使公司成为数据完整性领域的领导者。它提供了五个版本的即插即用应用程序:Trillium Quality for Dynamics、Trillium Quality for Big Data、Trillium DQ、Trillium Global Locator和Trillium Cloud。所有这些都在优化和集成精确数据到企业系统的总体目标中处理不同的任务。

 

关键价值/优势:

  • Trillium大数据质量净化和优化数据湖。它使用机器学习和高级分析来发现肮脏和不完整的数据,同时跨不同的数据源提供可操作的业务见解。
  • trilliumdq跨应用程序工作以识别和修复数据问题。该应用程序可以部署在本地或云中,支持230多个国家、地区和地区。它集成了许多体系结构,包括Hadoop、Spark、SAP和microsoftdynamics。
  • 延龄草DQ可以发现丢失,重复和不准确的记录,但也揭示了家庭,企业和帐户之间的关系。它包括添加丢失的邮政信息、纬度和经度数据以及其他关键类型的参考数据的功能。
  • trilliumcloud关注公共、私有和混合云平台和应用程序的数据质量。这包括跨多个数据源和数据域清理、匹配和统一数据。

 

 

Talend Data Quality

潜在买家的价值主张:Talend专注于通过一个复杂的框架生产和维护干净可靠的数据,该框架包括机器学习、预构建的连接器和组件、数据治理和管理以及监控工具。该平台解决了重复数据消除、验证和标准化问题。它支持本地和基于云的应用程序,同时保护PII和其他敏感数据。Gartner将该公司评为2018年数据集成工具幻方图的“领导者”。

 

关键价值/优势:

 

数据完整性应用程序使用图形界面和向下钻取功能来显示有关数据完整性的详细信息。它允许用户根据自定义设计的阈值评估数据质量,并根据内部或外部度量和标准衡量性能。

该应用程序通过丰富、协调、模糊匹配和重复数据消除强制执行自动数据质量错误解决。

Talend提供了四个版本的数据质量软件。其中包括两个具有基本工具和功能的开源版本,以及一个更高级的基于订阅的模型,该模型包括健壮的数据映射、可重用的“joblet”、向导和交互式数据查看器。更高级的清理和语义发现工具只能在公司的付费数据管理平台上使用。

TIBCO Clarity

潜在买家的价值主张:TIBCO Clarity非常重视分析和清理大量数据,以生成丰富而准确的数据集。该应用程序有内部部署和云版本。它包括用于分析、验证、标准化、转换、重复数据消除、清理和可视化所有主要数据源和文件类型的工具。

 

关键价值/优势:

  • Clarity提供了一个强大的重复数据消除引擎,它支持基于模式的搜索来查找重复的记录和数据。搜索引擎是高度可定制的;它允许用户基于广泛的标准部署匹配策略,包括列、同义词表和其他标准,包括跨多种语言的标准。它还允许用户对数据集或外部主表运行重复数据消除。
  • 刻面功能允许用户根据多种标准分析和重新组合数据,包括按星号、标志、空行、文本模式和其他标准。这简化了数据清理,同时提供了高度的灵活性。
  • 应用程序支持强大的编辑功能,允许用户管理列、单元格和表。它支持拆分和管理单元格、空白和填充单元格以及聚集单元格。
  • 地址清理功能与TIBCO地理分析以及Google地图和ArcGIS一起工作。

 

 

有效性需求工具(Validity DemandTools)

潜在买家的价值主张:DemandTools的制造商Validity提供了一系列强大的工具,用于在Salesforce中管理CRM数据。该产品可容纳大型数据集,并在任何数据库表中识别和消除重复数据。它可以执行多表批量操作和标准化Salesforce对象和数据。该应用程序是灵活的,高度可定制的,它包括强大的自动化工具。

 

关键价值/优势:

  • 该供应商专注于为Salesforce管理员提供一套全面的数据完整性工具。DemandTools比较各种内部和外部数据源以消除重复、合并和保持数据准确性。
  • DemandTools提供了许多强大的功能,包括重新分配数据所有权的能力。此外,Find/Report模块允许用户将外部数据(如Excel电子表格或Access数据库)拉入应用程序,并将其与Salesforce对象中的任何数据进行比较。
  • Validity JobBuilder工具通过合并重复项、备份数据以及根据预设规则和条件处理更新来自动化数据清理和维护任务。

数据质量管理对比图

Vendor

 

Tools

 

Focus

 

Key Features

 

Cloudingo

Cloudingo

Salesforce data

Deduplication; data migration management; spots human and other errors/inconsistencies

Data Ladder

DataMatch Enterprise;

ProductMatch

Diverse data sets across numerous applications and formats

Includes more than 300,000 prebuilt rules; templates and connectors for most major applications

IBM

 

InfoSphere QualityStage

Big data, business intelligence; data warehousing; application migration and master data management

Includes more than 200 built-in data quality rules; strong machine learning and governance tools

Informatica

 

Data Quality

Master Data Management

Accommodates diverse data sets; supports Azure and AWS

Data standardization, validation, enrichment, deduplication, and consolidation

OpenRefine

OpenRefine

Transforms, cleanses and formatts data for analytics and other purposes

Powerful capture and editing functions.

SAS

Data Management

Managing data integration and cleansing for diverse data sources and sets

Strong metadata management; supports 38 languages

Syncsort

Trillium Quality for Dynamics; Trillium Quality for Big Data;

Trillium Quality for DQ;

Trillium Global Locator;

Trillium Cloud

Cleansing, optimizing and integrating data from numerous sources

DQ supports more than 230 countries, regions and territories; works with major architectures, including Hadoop, Spark, SAP and MS Dynamics

Talend

Data Quality

Data integration

Deduplication, validation and standardization using machine learning; templates and reusable elements to aid in data cleansing

TIBCO

Clarity

High volume data analysis and cleansing

Tools for profiling, validating, standardizing, transforming, deduplicating, cleansing and visualizing for all major data sources and file types

Validity

DemandTools

Salesforce data

Handles multi-table mass manipulations and standardizes Salesforce objects and data through deduplication and other capabilities

Tags
 
知识星球
 
微信公众号
 
视频号