什么是数据分析(DA)?
数据分析(DA)是检查数据集以发现趋势并对其包含的信息得出结论的过程。越来越多的数据分析是在专业系统和软件的帮助下完成的。数据分析技术和技术被广泛用于商业行业,使组织能够做出更明智的商业决策。科学家和研究人员还使用分析工具来验证或反驳科学模型、理论和假设。
作为一个术语,数据分析主要指各种应用程序,从基本的商业智能(BI)、报告和在线分析处理(OLAP)到各种形式的高级分析。从这个意义上说,它在本质上类似于业务分析,这是分析数据方法的另一个总括术语。不同之处在于,后者面向商业用途,而数据分析则有更广泛的关注点。然而,这个术语的宽泛观点并不普遍:在某些情况下,人们使用数据分析专门指高级分析,将BI视为一个单独的类别。
数据分析计划可以帮助企业增加收入、提高运营效率、优化营销活动并加强客户服务工作。分析还使组织能够对新兴市场趋势做出快速反应,并获得相对于商业竞争对手的竞争优势。根据应用程序的不同,分析的数据可以包括历史记录,也可以包括为实时分析而处理的新信息。此外,它可以来自内部系统和外部数据源的混合。
数据分析应用程序的类型
在高水平上,数据分析方法包括探索性数据分析(exploratory data analysis)和验证性数据分析(confirmatory data analysis )。EDA旨在发现数据中的模式和关系,而CDA则应用统计技术来确定关于数据集的假设是真是假。EDA经常被比作侦探工作,而CDA则类似于法官或陪审团在法庭审判中的工作——统计学家John W.Tukey在1977年出版的《探索性数据分析》一书中首次提出了这一区别。
数据分析也可以分为定量数据分析和定性数据分析。前者涉及对具有可量化变量的数值数据的分析。这些变量可以进行比较或统计测量。定性方法更具解释性——它侧重于理解非数字数据的内容,如文本、图像、音频和视频,以及常见短语、主题和观点。
在应用程序级别,BI和报告为业务主管和公司员工提供了有关关键性能指标、业务运营、客户等的可操作信息。过去,数据查询和报告通常由IT领域的BI开发人员为最终用户创建。现在,越来越多的组织使用自助BI工具,让高管、业务分析师和运营人员可以运行自己的临时查询并自己构建报告。
高级类型的数据分析包括数据挖掘,它涉及对大型数据集进行排序,以确定趋势、模式和关系。另一种是预测分析,旨在预测客户行为、设备故障和其他未来业务场景和事件。机器学习也可以用于数据分析,通过运行自动化算法,比数据科学家通过传统分析建模更快地处理数据集。大数据分析将数据挖掘、预测分析和机器学习工具应用于可以包括结构化、非结构化和半结构化数据的数据集。文本挖掘提供了一种分析文档、电子邮件和其他基于文本的内容的方法。
数据分析计划支持多种业务用途。例如,银行和信用卡公司分析提款和消费模式,以防止欺诈和身份盗窃。电子商务公司和营销服务提供商根据导航和页面浏览模式,使用点击流分析来识别可能购买特定产品或服务的网站访问者。医疗保健组织挖掘患者数据,以评估癌症和其他疾病治疗的有效性。
移动网络运营商检查客户数据以预测客户流失。公司参与客户关系管理分析,为营销活动划分客户,并为呼叫中心工作人员提供有关来电者的最新信息。
数据分析过程内部
数据分析应用程序不仅仅涉及分析数据,尤其是在高级分析项目中。所需的大部分工作都是在前期进行的,包括收集、整合和准备数据,然后开发、测试和修订分析模型,以确保它们产生准确的结果。除了数据科学家和其他数据分析师之外,分析团队通常还包括数据工程师,他们创建数据管道并帮助准备用于分析的数据集。
分析过程从数据收集开始。数据科学家确定特定分析应用程序所需的信息,然后自己或与数据工程师和IT人员合作,将其组装起来以供使用。来自不同源系统的数据可能需要通过数据集成例程进行组合,转换为通用格式并加载到分析系统中,如Hadoop集群、NoSQL数据库或数据仓库。
在其他情况下,收集过程可能包括从流入Hadoop的数据流中提取相关子集。然后将数据移动到系统中的一个单独分区,以便在不影响整个数据集的情况下对其进行分析。
一旦所需的数据到位,下一步就是发现并解决可能影响分析应用程序准确性的数据质量问题。这包括运行数据分析和数据清理任务,以确保数据集中的信息一致,并消除错误和重复条目。进行额外的数据准备工作,以操纵和组织数据,用于计划的分析用途。然后应用数据治理策略,以确保数据符合公司标准并得到正确使用。
从这里开始,数据科学家使用预测建模工具或其他分析软件和编程语言(如Python、Scala、R和SQL)构建分析模型。通常,模型最初针对部分数据集运行,以测试其准确性;然后根据需要对其进行修订和再次测试。这个过程被称为训练模型,直到它按预期运行。最后,模型在生产模式下针对完整的数据集运行,这可以一次性完成,以满足特定的信息需求,也可以在数据更新时持续进行。
在某些情况下,可以将分析应用程序设置为自动触发业务操作。一个例子是金融服务公司的股票交易;当股票达到一定价格时,触发器可以激活,在没有人参与的情况下买卖股票。否则,数据分析过程的最后一步是将分析模型生成的结果传达给企业高管和其他最终用户。图表和其他信息图的设计可以使调查结果更容易理解。数据可视化通常包含在BI仪表板应用程序中,这些应用程序在单个屏幕上显示数据,并且可以在新信息可用时实时更新。
数据分析与数据科学
随着自动化的发展,数据科学家将更多地关注业务需求、战略监督和深度学习。在BI中工作的数据分析师将更多地关注模型创建和其他日常任务。一般来说,数据科学家专注于产生广泛的见解,而数据分析师则专注于回答具体问题。在技术技能方面,未来的数据科学家需要更多地关注机器学习操作过程,也称为MLOps。
最新内容
- 1 week ago
- 1 week ago
- 1 week ago
- 1 week ago
- 1 week ago
- 1 week 6 days ago
- 2 weeks ago
- 2 weeks 2 days ago
- 2 weeks 2 days ago
- 2 weeks 2 days ago