在机器学习和数据分析领域工作时,数据分析和数据挖掘的应用相当广泛,各种定义分散在各个领域。这两个术语经常混淆,人们甚至在某些情况下可以互换使用。虽然两者似乎是同一件事,但事实并非如此。首先,数据挖掘已经使用了相当长的一段时间,而数据分析是一个相对少见的新课题。
本文试图从概念、应用等方面分析这两个主题的区别。我们开始吧。
理解这两个术语
数据挖掘
数据挖掘是指在预先构建的数据库中识别模式的过程。它在数据库中进行分析或知识发现,以评估现有的数据库和大型数据集,将原始数据转化为有用的信息,并发现其中的趋势和模式。
简单地说,它从现有的数据中收集模式和知识,识别有效的、新颖的和潜在有用的数据和数据趋势,通过对分散的数据进行数据分析来解决问题。
一旦确定了大型数据集中的相关性,这些知识就会被输入商业智能和分析等领域,以了解各个行业中的大型复杂数据集。它识别隐藏的模式,搜索新的、有价值的和非琐碎的知识来生成有用的信息。
它涉及对典型的广泛数据集进行全面的统计和算法分析,并查询数据库中的各种参数。例如,它可以进行情绪分析,以了解人们对特定产品或服务的感受。一些标准的数据挖掘工具是RapidMiner、apachesamoa。
数据概况
另一方面,数据分析也分析来自现有数据集的原始数据,但收集有关数据的统计数据或信息性摘要。也被称为数据考古学,数据分析是用来获得有关数据本身的信息和评估数据的质量。它还有助于评估数据集的一致性、唯一性和逻辑性,同时为后续的清理、集成和分析做好准备。
它主要处理企业数据仓库等领域的数据质量,以识别数据集中的异常。它在数据的初始阶段识别错误的数据,以便在正确的时间进行纠正。
进行数据分析的一些方法包括平均值、最小值、最大值、百分位数、频率、聚合等。分析工具通过探索数据集中和跨数据集的值集合之间存在的关系来评估数据的实际内容、结构和质量。一些标准的数据分析工具有Talend Open Studio、Aggregate Profiler等。
简言之,数据挖掘在使用复杂的数学算法的同时挖掘可操作的信息,而数据分析则获取有关数据质量的信息,以发现数据集中的异常。
数据挖掘和数据分析技术
数据挖掘
一些常用的数据挖掘技术有关联学习、聚类、分类、预测、序列模式、回归等。
- 关联学习是最常用的技术,其中项目之间的关系用于识别模式。它也被称为关系技术。
- 分类技术将数据集中的项目或变量分类为预定义的组或类。它使用线性规划、统计学、决策树和人工神经网络进行数据挖掘。
- 聚类技术创建具有相同特征的有意义对象聚类。与将对象放入预定义类的分类不同,聚类将对象放入由它定义的类中。
- 预测技术可以预测自变量和因变量之间以及自变量之间的关系。
- 序列模式技术用于识别一段时间内相似的趋势、模式和事件。
数据概况
不同类型的数据分析包括:
- 结构发现或结构分析,确保数据的一致性和格式正确。它检查数据中简单的基本统计数据。
- 另一方面,内容发现则更深入地研究数据库的各个元素。它有助于识别空值或不正确或不明确的值。
- 关系发现分析用于更好地理解数据集之间的连接的数据类型。从元数据分析开始,它缩小到识别数据重叠。
总结
在简要分析了这两个概念之后,可以说数据挖掘的一些技术被用于数据分析。数据挖掘是一个相当宽泛的概念,它基于这样一个事实:几乎每个领域都需要分析大量的数据,数据分析为这种分析增加了价值。许多步骤(如数据清理和数据准备)在这两个概念中都是相似的,正是为了一个最终不同的目标而处理数据使这两个步骤不同。
你怎么认为?
原文:https://analyticsindiamag.com/data-mining-vs-data-profiling-what-makes-them-different/
本文:http://jiagoushi.pro/node/1475
讨论:请加入知识星球【超级工程师】或者微信 【it_training】或者QQ群【11107767】
- 登录 发表评论
- 66 次浏览
最新内容
- 4 days 15 hours ago
- 4 days 17 hours ago
- 4 days 17 hours ago
- 1 week ago
- 1 week ago
- 1 week ago
- 1 week ago
- 1 week ago
- 1 week 5 days ago
- 1 week 5 days ago