最初由格兰维尔博士发布。 查看原始文章以阅读大量评论,而不是在此处重新发布。
数据科学,数据挖掘,机器学习,统计学,运筹学等之间有什么区别?
在这里,我比较了几个重叠的分析学科,以解释差异和共同点。 除了历史原因,有时除了存在差异。 有时差异是真实而微妙的。 我还提供典型的职称,分析类型以及传统上与每个学科相关的行业。 带下划线的域是主要的子域。 如果有人可以在我的文章中添加历史视角,那就太好了。
Data Science
首先,让我们从描述数学科学这一新学科开始。
职位包括数据科学家,首席科学家,高级分析师,分析主管等等。它涵盖所有行业和领域,尤其是数字分析,搜索技术,营销,欺诈检测,天文学,能源,健康,社交网络,金融,法医,安全(NSA),移动,电信,天气预报和欺诈检测。
项目包括分类创建(文本挖掘,大数据),应用于大数据集的聚类,推荐引擎,模拟,统计评分引擎的规则系统,根本原因分析,自动投标,取证,外行星检测以及恐怖分子的早期发现活动或流行病,数据科学的一个重要组成部分是自动化,机器对机器通信,以及在生产模式(有时是实时)不间断运行的算法,例如检测欺诈,预测天气或预测房价为每个家庭(Zillow)。
数据科学项目的一个例子是为计算营销创建增长最快的数据科学Twitter概要。它利用大数据,是病毒式营销/增长黑客战略的一部分,其中还包括自动化高质量,相关的联合内容生成(简而言之,数字出版3.0版)。
与大多数其他分析专业不同,数据科学家被认为具有良好的商业头脑和领域专业知识 - 这是他们倾向于成为企业家的原因之一。由于数据科学是一门广泛的学科,因此有许多类型的数据科学家。许多资深数据科学家掌握他们的艺术/工艺,并拥有全部技能和知识;他们真的是招聘人员找不到的独角兽。招聘经理和不知情的高管倾向于狭隘的技术技能,而不是结合深度,广泛和专业的业务领域专业化 - 这是当前教育系统的副产品,有利于学科孤岛,而真正的数据科学是一个孤岛破坏者。独角兽数据科学家(用词不当,因为他们并不罕见 - 有些是着名的VC)通常担任顾问或高管。初级数据科学家往往更专注于数据科学的一个方面,拥有更多热门的技术技能(Hadoop,Pig,Cassandra),如果他们接受过适当的培训和/或有Facebook等公司的工作经验,就可以找到工作。 ,谷歌,eBay,苹果,英特尔,Twitter,亚马逊,Zillow等。潜在候选人的数据科学项目可以在这里找到。
数据科学与之重叠
- 计算机科学:计算复杂性,互联网拓扑和图论,分布式架构,如Hadoop,数据管道(数据流和内存分析的优化),数据压缩,计算机编程(Python,Perl,R)以及处理传感器和流数据(设计自动驾驶的汽车)
- 统计学:实验设计包括多变量检验,交叉验证,随机过程,抽样,无模型置信区间,但不是p值,也不是对大数据诅咒的假设的模糊测试
- 机器学习和数据挖掘:数据科学确实完全包含这两个领域。
- 运筹学:数据科学包括大多数运筹学研究以及旨在根据分析数据优化决策的任何技术。
- 商业智能:数据科学是设计/创建/识别优秀指标和KPI的每个BI方面,创建数据库模式(无论是否为NoSQL),仪表板设计和视觉效果以及数据驱动策略以优化决策和ROI。
与其他分析学科比较
- 机器学习:非常流行的计算机科学学科,数据密集型,数据科学的一部分,与数据挖掘密切相关。机器学习是关于设计算法(如数据挖掘),但重点是生产模式的原型算法,并设计自动更新自己的自动化系统(出价算法,广告定位算法),不断训练/再培训/更新训练集/交叉每天验证,改进或发现新规则(欺诈检测)。 Python现在是ML开发的流行语言。核心算法包括聚类和监督分类,规则系统和评分技术。一个接近人工智能的子域(见下面的条目)是深度学习。
- 数据挖掘:该学科旨在设计算法以从相当大的潜在非结构化数据(文本挖掘)中提取洞察力,有时称为块金发现,例如在查看5000万行数据后发掘大量僵尸网络。技术包括模式识别,特征选择,聚类,监督分类并包含一些统计技术(尽管没有使用大多数统计方法的p值或置信区间)。相反,重点是强大的,数据驱动的,可扩展的技术,对发现原因或可解释性没有太大兴趣。因此,数据挖掘与统计学有一些交集,它是数据科学的一个子集。数据挖掘应用于计算机工程,而不是数学科学。数据挖掘者使用开源和Rapid Miner等软件。
- 预测建模:本身不是一门学科。预测建模项目在所有学科的所有行业中都有发生。预测建模应用程序旨在基于过去的数据预测未来,通常但不总是基于统计建模。预测通常带有置信区间。预测建模的根源在于统计科学。
- 统计。目前,统计数据主要是调查(通常使用SPSS软件进行),理论学术研究,银行和保险分析(营销组合优化,交叉销售,欺诈检测,通常使用SAS和R),统计编程,社会科学,全球变暖研究(和空间天气模拟),经济研究,临床试验(制药业),医学统计,流行病学,生物统计学和政府统计。雇用统计人员的机构包括人口普查局,IRS,CDC,EPA,BLS,SEC和EPA(环境/空间统计)。需要安全许可的工作报酬很高且相对安全,但制药行业中的高薪工作(统计学家的金鹅)受到许多因素的威胁 - 外包,公司合并以及医疗保健费用的压力。由于保守的,风险不利的制药行业的巨大影响,统计已成为一个狭窄的领域,不适应新数据,而不是创新,失去数据科学,工业统计,运筹学,数据挖掘,机器学习 - 使用相同的聚类,交叉验证和统计训练技术,尽管采用更自动化的方式和更大的数据。许多10年前被称为统计人员的专业人士在过去几年中将他们的职位变成了数据科学家或分析师。现代子域包括统计计算,统计学习(更接近机器学习),计算统计(更接近数据科学),数据驱动(无模型)推理,运动统计和贝叶斯统计(MCMC,贝叶斯网络和分层贝叶斯)模特很流行,现代技术)。其他新技术包括SVM,结构方程建模,预测选举结果和集合模型。
- 工业统计。统计数据经常由非统计人员(具有良好统计培训的工程师)执行,从事工程项目,如产量优化或负载平衡(系统分析员)。他们使用非常应用的统计数据,他们的框架更接近六西格玛,质量控制和运营研究,而不是传统统计。也见于石油和制造业。使用的技术包括时间序列,ANOVA,实验设计,生存分析,信号处理(过滤,噪声消除,反卷积),空间模型,模拟,马尔可夫链,风险和可靠性模型。
- 数学优化。使用单纯形算法,傅立叶变换(信号处理),微分方程和Matlab等软件解决业务优化问题。这些应用数学家可以在IBM,研究实验室,NSA(密码学)和金融行业(有时招聘物理或工程专业毕业生)等大公司中找到。这些专业人员有时使用完全相同的技术解决与统计学家完全相同的问题,尽管他们使用不同的名称。数学家使用最小二乘优化进行插值或外推;统计学家使用线性回归进行预测和模型拟合,但这两个概念是相同的,并且依赖于完全相同的数学机制:它只是描述相同事物的两个名称。然而,数学优化比运营研究更接近统计数据,雇用数学家而不是其他从业者(数据科学家)的选择通常由历史原因决定,特别是对于NSA或IBM等组织。
- 精算科学。只是使用生存模型关注保险(汽车,健康等)的一部分统计数据:预测您何时会死亡,您的健康支出将根据您的健康状况(吸烟者,性别,以前的疾病)确定您的保险费。还预测极端洪水和天气事件以确定溢价。后面这些模型出了名的错误(最近)并且导致了比预期更大的支出。出于某些原因,这是一个非常充满活力,秘密的统计学家社区,不再称自己为统计学家(职称是精算师)。随着时间的推移,他们的平均工资增长很快:专业的获取受到限制和监管,就像律师一样,除了保护主义以外,没有其他原因可以提高工资和减少合格申请人的数量。精算科学确实是数据科学(一个子领域)。
- HPC。高性能计算本身不是一门学科,但应该引起数据科学家,大数据从业者,计算机科学家和数学家的关注,因为它可以重新定义这些领域的计算范式。如果量子计算变得成功,它将完全改变算法的设计和实现方式。 HPC不应与Hadoop和Map-Reduce混淆:HPC与硬件相关,Hadoop与软件相关(尽管严重依赖Internet带宽和服务器配置和接近度)。
- 行动调查。缩写为OR。他们一段时间(如20年前)与统计数据分开,但他们就像孪生兄弟,他们各自的组织(INFORMS和ASA)合在一起。 OR是关于决策科学和优化传统业务项目:库存管理,供应链,定价。他们大量使用马尔可夫链模型,Monter-Carlosimulations,排队和图论以及AIMS,Matlab或Informatica等软件。大型传统旧公司使用OR,新的和小型的(初创公司)使用数据科学来处理定价,库存管理或供应链问题。许多运营研究分析师正在成为数据科学家,因为与OR相比,数据科学的创新和增长前景要远得多。此外,OR问题可以通过数据科学解决。 OR与六西格玛(见下文)有重大的重叠,也解决了计量经济学问题,并在军队和国防部门有许多从业者/应用。汽车交通优化是OR问题的一个现代例子,通过模拟,通勤调查,传感器数据和统计建模解决。
- 六个西格玛。它更像是一种思维方式(一种商业哲学,如果不是一种邪教)而不是一种学科,并且几十年前被摩托罗拉和通用电气大力推广。用于质量控制和优化工程流程(参见本文中的工业统计数据),由大型传统公司提供。他们拥有一个拥有270,000名成员的LinkedIn小组,是包括我们数据科学小组在内的任何其他分析LinkedIn小组的两倍。他们的座右铭很简单:将你的努力集中在20%的时间,产生80%的价值。应用简单的统计数据(简单的工作必须是时间,我同意),其目的是消除业务流程中的差异来源,使其更具可预测性并提高质量。许多人认为六西格玛是旧的东西,会消失。也许,但是基本的概念是可靠的并且将保持不变:这些也是所有数据科学家的基本概念。你可以说六西格玛是一个更简单的(如果不是简单的)运算研究版本(参见上面的条目),其中统计建模保持在最低限度。风险:非合格人员使用非强大的黑盒统计工具来解决问题,它可能导致灾难。在某些方面,六西格玛是一个更适合商业分析师的学科(见下面的商业智能条目),而不是严肃的统计学家。
- 定量。定量人士只是在华尔街为高频交易或股票市场套利等问题工作的数据科学家。他们使用C ++,Matlab,来自着名的大学,赚取大笔资金,但当投资回报太快太南时,他们立即失去工作。他们也可以用于能源交易。在经济大衰退期间被解雇的许多人现在都在解决点击仲裁,广告优化和关键字出价等问题。数量有统计学背景(很少),数学优化和工业统计。
- 人工智能。它回来了。与数据科学的交叉是模式识别(图像分析)和自动(有些人会说智能)系统的设计,以在机器对机器通信模式中执行各种任务,例如识别正确的关键字(和正确的出价) Google AdWords(每次点击付费广告系列,每天涉及数百万个关键字)。我还认为智能搜索(创建一个搜索引擎返回您期望的结果并且比Google更广泛)是数据科学中最大的问题之一,可以说也是人工智能和机器学习问题。旧的AI技术是神经网络,但它现在正在流行。相反,神经科学越来越受欢迎。
- 计算机科学。数据科学与计算机科学有一些重叠:Hadoop和Map-Reduce实现,算法和计算复杂性,以设计快速,可扩展的算法,数据管道,以及诸如Internet拓扑映射,随机数生成,加密,数据压缩和隐写术等问题(虽然这些问题与统计科学和数学优化也是重叠的)。
- 计量经济学。为什么它与统计数据分离尚不清楚。因此,许多分支机构与统计数据脱节,因为它们变得不那么通用,并开始开发自己的临时工具。但简而言之,计量经济学在本质上具有很强的统计性,使用时间序列模型,如自回归过程。也与运筹学(本身重叠统计!)和数学优化(单纯形算法)重叠。计量经济学家喜欢ROC和效率曲线(六位sigma从业者也是如此,请参阅本文中的相应条目)。许多人没有强大的统计背景,Excel是他们的主要或唯一的工具。
- 数据工程。由大型组织中的软件工程师(开发人员)或架构师(设计师)(有时是小公司的数据科学家)执行,这是计算机科学的应用部分(参见本文中的条目),适用于允许各种数据的电力系统易于处理内存或近存储器,并可以很好地传输到(和之间)最终用户,包括数据科学家等重要数据消费者。目前受攻击的子域是数据仓库,因为这个术语与静态,孤立的conventational数据库,数据架构和数据流相关联,受到NoSQL,NewSQL和图形数据库的兴起的威胁。将这些旧架构转换为新架构(仅在需要时)或使它们与新架构兼容,是一项利润丰厚的业务。
- 商业智能。简称为BI。重点关注仪表板创建,度量选择,生成和安排通过电子邮件发送或交付/呈现给管理人员的数据报告(统计摘要),竞争情报(分析第三方数据),以及参与数据库架构设计(与数据架构师合作)有效地收集有用的,可操作的业务数据。典型的职称是业务分析师,但有些人更多地参与营销,产品或财务(预测销售和收入)。他们通常拥有MBA学位。有些人已经学习了时间序列等高级统计数据,但大多数人只使用(并且需要)基本统计数据和轻度分析,依靠IT维护数据库和收集数据。他们使用Excel(包括多维数据集和数据透视表,但不包括高级分析),Brio(Oracle浏览器客户端),Birt,Micro-Sreategy或Business Objects(作为运行查询的最终用户)等工具,尽管其中一些工具是越来越多地配备了更好的分析功能。除非他们学习如何编码,否则他们将与一些在决策科学,洞察力提取和呈现(可视化),KPI设计,业务咨询以及ROI /收益/业务/流程优化方面表现优异的多价数据科学家竞争。商业智能和市场研究(但不是竞争情报)目前正在经历下降,而人工智能正在经历一次回归。这可能是周期性的。部分下降是由于不适应需要工程或数据科学技术来处理和提取价值的新类型数据(例如非结构化文本)。
- 数据分析。这是自1995年以来商业统计的新术语,它涵盖了广泛的应用,包括欺诈检测,广告组合建模,归因建模,销售预测,交叉销售优化(零售),用户细分,流失分析,计算客户的长期价值和收购成本等。除大公司外,数据分析师是初级职位;这些从业者比数据科学家具有更为狭隘的知识和经验,他们缺乏(并且不需要)商业愿景。它们是详细的,并向数据科学家或分析主管等管理人员报告。在大公司中,拥有职称的人如数据分析师III可能非常高级,但他们通常都是专业的,缺乏数据所获得的广泛知识。科学家在各种大小公司工作。
- 商业分析。与数据分析相同,但仅限于业务问题。倾向于更多的财务,营销或投资回报率的味道。热门职位包括数据分析师和数据科学家,但不包括业务分析师(请参阅商业智能的商业智能条目,不同的域名)。
Tags
最新内容
- 1 week ago
- 1 week ago
- 1 week ago
- 1 week ago
- 1 week ago
- 1 week 6 days ago
- 2 weeks ago
- 2 weeks 2 days ago
- 2 weeks 2 days ago
- 2 weeks 2 days ago