【数据分析】什么是数据挖掘?它的工作原理、优点、技术和示例
视频号
微信公众号
知识星球
什么是数据挖掘?
数据挖掘是搜索和分析大量原始数据以识别模式并提取有用信息的过程。
公司使用数据挖掘软件来了解更多关于客户的信息。它可以帮助他们制定更有效的营销策略,增加销售额,降低成本。数据挖掘依赖于有效的数据收集、仓储和计算机处理。
关键要点
- 数据挖掘是分析大量信息以辨别趋势和模式的过程。
- 从了解客户对什么感兴趣或想买什么到欺诈检测和垃圾邮件过滤,公司都可以使用数据挖掘。
- 数据挖掘程序根据用户请求或提供的信息来分解数据中的模式和连接。
- 社交媒体公司使用数据挖掘技术将用户商品化,以产生利润。
- 这种数据挖掘的使用最近受到了批评,因为用户往往不知道他们的个人信息中发生的数据挖掘,尤其是当它被用来影响偏好时。
数据挖掘的工作原理
数据挖掘包括探索和分析大块信息,以收集有意义的模式和趋势。它用于信用风险管理、欺诈检测和垃圾邮件过滤。它也是一种市场研究工具,有助于揭示特定人群的情绪或意见。数据挖掘过程分为四个步骤:
- 数据在现场或云服务上收集并加载到数据仓库中。
- 业务分析师、管理团队和信息技术专业人员可以访问数据,并决定如何组织数据。
- 自定义应用程序软件对数据进行排序和组织。
- 最终用户以易于共享的格式显示数据,例如图形或表格。
数据仓库和挖掘软件
数据挖掘程序根据用户请求分析数据中的关系和模式。它将信息组织到类中。
例如,一家餐厅可能想使用数据挖掘来确定它应该提供哪些特色菜以及在什么日子提供。数据可以根据客户访问的时间和他们订购的内容组织成类。
在其他情况下,数据挖掘者根据逻辑关系找到信息集群,或者查看关联和顺序模式,以得出有关消费者行为趋势的结论。
仓储是数据挖掘的一个重要方面。仓储是将组织的数据集中到一个数据库或程序中。它允许组织剥离数据片段,供特定用户根据其需求进行分析和使用。
云数据仓库解决方案利用云提供商的空间和能力来存储数据。这使较小的公司能够利用数字解决方案进行存储、安全和分析。
数据挖掘技术
数据挖掘使用算法和各种其他技术将大量数据集合转换为有用的输出。最流行的数据挖掘技术类型包括:
- 关联规则,也称为市场篮子分析,搜索变量之间的关系。这种关系本身在数据集中创建附加值,因为它努力链接数据片段。例如,关联规则将搜索一家公司的销售历史,以查看哪些产品最常一起购买;有了这些信息,商店可以进行计划、促销和预测。
- 分类:使用预定义的类来指定给对象。这些类描述项目的特征,或者表示数据点与每个数据点的共同点。这种数据挖掘技术允许对基础数据进行更巧妙的分类,并在类似的功能或产品线中进行总结。
- 聚类:类似于分类。然而,集群识别对象之间的相似性,然后根据它们与其他项目的不同对这些项目进行分组。虽然分类可能会产生“洗发水”、“护发素”、“肥皂”和“牙膏”等组,但聚类可能会识别出“头发护理”和“牙齿健康”等组
- 决策树:用于根据一组标准或决策列表对结果进行分类或预测。决策树用于要求输入一系列级联问题,这些问题根据给出的回答对数据集进行排序。决策树有时被描述为类似树的可视化,当深入数据时,决策树允许特定的方向和用户输入。
- K-最近邻(KNN)是一种根据数据与其他数据的接近程度对数据进行分类的算法。KNN的基础植根于这样一种假设,即彼此接近的数据点比其他数据位更相似。这种非参数监督技术用于基于单个数据点预测组的特征。
- 神经网络:通过使用节点来处理数据。这些节点由输入、权重和输出组成。数据是通过监督学习绘制的,类似于人脑互联的方式。该模型可以被编程以给出阈值来确定模型的准确性。
- 预测分析:努力利用历史信息建立图形或数学模型来预测未来的结果。该技术与回归分析相重叠,旨在根据现有数据支持未来的未知数字。
数据挖掘过程
为了最有效,数据分析师通常在数据挖掘过程中遵循一定的任务流。如果没有这种结构,分析师可能会在分析过程中遇到一个问题,如果他们更早做好准备,这个问题本可以很容易地避免。数据挖掘过程通常分为以下几个步骤。
第一步:了解业务
在接触、提取、清理或分析任何数据之前,了解底层实体和手头的项目是很重要的。该公司试图通过挖掘数据来实现哪些目标?他们目前的业务状况如何?SWOT分析的结果是什么?在查看任何数据之前,挖掘过程首先要了解在过程结束时成功的定义。
第2步:了解数据
一旦明确定义了业务问题,就应该开始考虑数据了。这包括可用的来源,如何保护和存储这些来源,如何收集信息,以及最终结果或分析可能是什么样子。此步骤还包括确定数据、存储、安全性和收集的限制,并评估这些限制将如何影响数据挖掘过程。
步骤3:准备数据
收集、上传、提取或计算数据。然后对其进行清理、标准化、清除异常值、评估错误并检查合理性。在数据挖掘的这个阶段,还可以检查数据的大小,因为过大的信息集合可能会不必要地减慢计算和分析。
步骤4:建立模型
有了我们干净的数据集,是时候处理数字了。数据科学家使用上述类型的数据挖掘来搜索关系、趋势、关联或顺序模式。数据还可以被馈送到预测模型中,以评估先前的信息比特如何转化为未来的结果。
第5步:评估结果
数据挖掘以数据为中心的方面通过评估一个或多个数据模型的发现来结束。分析的结果可能会被汇总、解释并呈现给决策者,而到目前为止,决策者在很大程度上被排除在数据挖掘过程之外。在这一步骤中,组织可以选择根据调查结果做出决策。
步骤6:实施变更和监控
数据挖掘过程以管理层根据分析结果采取措施结束。公司可能会认为信息不够有力,或者调查结果不相关,或者公司可能会根据调查结果进行战略调整。在任何一种情况下,管理层都会审查业务的最终影响,并通过识别新的业务问题或机会来重新创建未来的数据挖掘循环。
不同的数据挖掘处理模型将有不同的步骤,尽管一般过程通常非常相似。例如,知识发现数据库模型有九个步骤,CRISP-DM模型有六个步骤,SEMMA过程模型有五个步骤。1
数据挖掘的应用
在当今的信息时代,几乎任何部门、行业、部门或公司都可以利用数据挖掘。
销售额
数据挖掘鼓励更智能、更高效地利用资本来推动收入增长。考虑一下你最喜欢的当地咖啡店的销售点登记。每次销售,咖啡馆都会收集购买的时间和销售的产品。利用这些信息,商店可以战略性地设计其产品线。
市场营销
一旦上面的咖啡馆知道了它的理想阵容,是时候实施这些改变了。然而,为了使营销工作更加有效,该店可以使用数据挖掘来了解客户在哪里看到广告,目标人群是什么,在哪里投放数字广告,以及哪些营销策略最能引起客户的共鸣。这包括根据数据挖掘结果调整营销活动、促销优惠、交叉销售优惠和计划。
制造业
对于生产自己商品的公司来说,数据挖掘在分析每种原材料的成本、最有效地使用哪些材料、在制造过程中花费的时间以及对过程产生负面影响的瓶颈方面发挥着不可或缺的作用。数据挖掘有助于确保货物的流动不受干扰。
欺诈检测
数据挖掘的核心是找到将数据点连接在一起的模式、趋势和相关性。因此,公司可以使用数据挖掘来识别不应该存在的异常值或相关性。例如,一家公司可能会分析其现金流,并发现一个未知账户的重复交易。如果这是出乎意料的,该公司可能希望调查资金是否管理不善。
人力资源
人力资源部门通常有广泛的数据可供处理,包括关于留用、晋升、工资范围、公司福利、这些福利的使用以及员工满意度调查的数据。数据挖掘可以将这些数据关联起来,以更好地了解员工离职的原因以及吸引新员工的因素。
客户服务
客户满意度的产生(或破坏)可能有多种原因。想象一下,一家运输货物的公司。客户可能对运输时间、运输质量或通信不满意。同一位客户可能会因电话等待时间过长或电子邮件回复缓慢而感到沮丧。数据挖掘收集有关客户互动的运营信息,并总结调查结果,以找出薄弱环节,突出公司的正确做法。
数据挖掘的好处
数据挖掘可以确保公司收集和分析可靠的数据。它通常是一个更严格、结构化的过程,正式识别问题,收集与问题相关的数据,并努力制定解决方案。因此,数据挖掘有助于企业变得更有利可图、更高效或运营更强大。
数据挖掘在不同的应用程序中看起来可能非常不同,但整个过程几乎可以用于任何新的或遗留的应用程序。从本质上讲,任何类型的数据都可以收集和分析,几乎每一个依赖于合格证据的业务问题都可以使用数据挖掘来解决。
数据挖掘的最终目标是获取原始信息,并确定数据之间是否存在内聚性或相关性。数据挖掘的这一好处使公司能够利用手头的信息创造价值,否则这些信息不会过于明显。尽管数据模型可能很复杂,但它们也可以产生令人着迷的结果,挖掘隐藏的趋势,并提出独特的策略。
数据挖掘的局限性
数据挖掘的复杂性是其最大的缺点之一。数据分析通常需要技术技能和某些软件工具。规模较小的公司可能会发现这是一个难以克服的进入壁垒。
数据挖掘并不总是能保证结果。一家公司可能会进行统计分析,根据强有力的数据得出结论,实施变革,但不会获得任何好处。通过不准确的发现、市场变化、模型错误或不适当的数据群体,数据挖掘只能指导决策,而不能确保结果。
数据挖掘还有一个成本组成部分。数据工具可能需要昂贵的订阅,并且某些数据位的获取成本可能很高。安全和隐私问题可以得到缓解,尽管额外的IT基础设施也可能成本高昂。当使用庞大的数据集时,数据挖掘可能也是最有效的;然而,这些数据集必须被存储,并且需要大量的计算能力来进行分析。
即使是大公司或政府机构也面临数据挖掘方面的挑战。以美国食品药品监督管理局关于数据挖掘的白皮书为例,该白皮书概述了不良信息、重复数据、少报或多报的挑战。2
数据挖掘与社交媒体
数据挖掘最有利可图的应用之一是由社交媒体公司进行的。Facebook、TikTok、Instagram和Twitter等平台根据用户的在线活动收集了大量用户数据。
这些数据可以用来推断他们的偏好。广告商可以将他们的信息瞄准那些看起来最有可能做出积极回应的人。
社交媒体上的数据挖掘已成为争论的焦点,几份调查报告和曝光显示,挖掘用户的数据可能具有多大的侵入性。问题的核心是,用户可能会同意网站的条款和条件,但没有意识到他们的个人信息是如何被收集的,也没有意识到信息被卖给了谁。
数据挖掘示例
数据挖掘可以被用来做好事,也可以被非法使用。以下是两者的一个例子。
易趣和电子商务
易趣每天都从卖家和买家那里收集无数的信息。该公司使用数据挖掘来确定产品之间的关系,评估所需的价格范围,分析先前的购买模式,并形成产品类别。3
易趣将推荐流程概括为:
- 原始项目元数据和用户历史数据被聚合。
- Scripps在经过训练的模型上运行,以生成和预测项目和用户。
- 执行KNN搜索。
- 结果被写入数据库。
- 实时推荐获取用户ID,调用数据库结果,并将其显示给用户。3
Facebook剑桥分析丑闻
数据挖掘的另一个警示性例子是Facebook剑桥分析公司的数据丑闻。2010年代,英国咨询公司剑桥分析有限公司收集了数百万Facebook用户的个人数据。这些信息后来被分析用于2016年特德·克鲁兹和唐纳德·特朗普的总统竞选。有人怀疑剑桥分析公司干扰了英国脱欧公投等其他著名事件。4
鉴于这种不恰当的数据挖掘和用户数据的滥用,脸书同意支付1亿美元,因为它在使用消费者数据方面误导了投资者。美国证券交易委员会(Securities and Exchange Commission)声称,脸书在2015年发现了这种滥用行为,但在两年多的时间里没有纠正其披露的信息。5
常见问题
数据挖掘的类型是什么?
数据挖掘主要有两种类型:预测数据挖掘和描述性数据挖掘。预测数据挖掘提取可能有助于确定结果的数据。描述数据挖掘通知用户给定的结果。
数据挖掘是如何完成的?
数据挖掘依赖于大数据和先进的计算过程,包括机器学习和其他形式的人工智能。目标是从大型和非结构化数据集中找到能够导致推断或预测的模式。
数据挖掘的另一个术语是什么?
数据挖掘也使用较少使用的术语“数据中的知识发现”或KDD。
数据挖掘在哪里使用?
数据挖掘应用程序的设计几乎可以承担任何依赖大数据的工作。金融行业的公司在市场中寻找模式。各国政府试图识别潜在的安全威胁。公司,尤其是在线和社交媒体公司,利用数据挖掘来创建针对特定用户群体的盈利广告和营销活动。
底线
现代企业有能力收集有关客户、产品、生产线、员工和店面的信息。这些随机的信息片段可能无法讲述故事,但数据挖掘技术、应用程序和工具的使用有助于将信息拼凑在一起。
数据挖掘过程的最终目标是汇编数据,分析结果,并根据数据挖掘结果执行操作策略。
- 183 次浏览