数据科学是一种将业务数据转化为资产的方法,可帮助组织提高收入、降低成本、抓住商机、改善客户体验等。
什么是数据科学?
数据科学是一种使用从统计分析到机器学习的方法从结构化和非结构化数据中收集见解的方法。 对于大多数组织而言,它被用来以提高收入、降低成本、业务敏捷性、改善客户体验、开发新产品等形式将数据转化为价值。 数据科学为组织收集的数据赋予了目的。
数据科学与数据分析
虽然密切相关,但数据分析是数据科学的一个组成部分,用于了解组织的数据是什么样子的。 数据科学利用分析的输出来解决问题。 数据科学家说,用数据调查某事只是分析。 数据科学通过分析进一步解释和解决问题。 数据分析和数据科学之间的区别也是时间尺度之一。 数据分析描述现实的当前状态,而数据科学使用该数据来预测和/或了解未来。
数据科学的好处
数据科学的商业价值取决于组织需求。 数据科学可以帮助组织构建工具来预测硬件故障,使组织能够执行维护并防止意外停机。 它可以帮助预测超市货架上放什么,或者根据产品的属性预测产品的受欢迎程度。
数据科学职位
虽然数据科学学位课程的数量正在快速增加,但它们不一定是组织在寻找数据科学家时所寻找的。 具有统计背景的候选人很受欢迎,特别是如果他们能够证明他们知道他们是否正在查看真实结果; 具有将结果置于上下文中的领域知识; 和沟通技巧,使他们能够将结果传达给业务用户。
许多组织都在寻找拥有博士学位的候选人,尤其是在物理学、数学、计算机科学、经济学甚至社会科学领域。 博士学位证明候选人有能力对某个主题进行深入研究并向他人传播信息。
一些最优秀的数据科学家或数据科学团队的领导者具有非传统背景,即使是很少受过正规计算机培训的人。 在许多情况下,关键能力是能够从非传统的角度看待事物并理解它。
有关数据科学家技能的更多信息,请参阅“什么是数据科学家? 关键的数据分析角色和有利可图的职业”,以及“精英数据科学家的基本技能和特质”。
数据科学薪水
根据 PayScale 的数据,以下是一些与数据科学相关的最受欢迎的职位以及每个职位的平均工资:
- Analytics manager: $71K-$131K
- Associate data scientist: $61K-$101K
- Business intelligence analyst: $52K-$97K
- Data analyst: $45K-$87K
- Data architect: $79K-$159K
- Data engineer: $66K-$132K
- Data scientist: $60K-$159K
- Data scientist, IT: $$60K-$159K
- Lead data scientist: $98K-$178K
- Research analyst: $43K-$82K
- Research scientist: $52K-$123K
- Senior data scientist: $96K-$162K
- Statistician: $55K-$117K
数据科学学位
据《财富》杂志报道,这些是数据科学领域的顶级研究生学位课程:
- University of Illinois at Urbana-Champaign
- University of California—Berkeley
- Texas Tech University
- Bay Path University
- Worcester Polytechnic Institute
- Loyola University Maryland
- University of Missouri—Columbia
- New Jersey Institute of Technology
- CUNY School of Professional Studies
- Syracuse University
数据科学培训和训练营
鉴于目前数据科学人才短缺,许多组织正在制定计划来培养内部数据科学人才。
训练营是另一种快速发展的培训工作者承担数据科学角色的途径。 有关数据科学训练营的更多详细信息,请参阅“促进职业发展的 15 个最佳数据科学训练营”。
数据科学认证
组织需要具有数据分析技术专业知识的数据科学家和分析师。 他们还需要大数据架构师将需求转化为系统,需要数据工程师来构建和维护数据管道,需要熟悉 Hadoop 集群和其他技术的开发人员,还需要系统管理员和经理将所有内容联系在一起。 认证是求职者证明自己具备合适技能的一种方式。
一些顶级大数据和数据分析认证包括:
- Certified Analytics Professional (CAP)
- Cloudera Data Platform Generalist Certification
- Data Science Council of America (DASCA) Senior Data Scientist (SDS)
- Data Science Council of America (DASCA) Principal Data Scientist (PDS)
- IBM Data Science Professional Certificate
- Microsoft Certified: Azure Data Scientist Associate
- Open Certified Data Scientist (Open CDS)
- SAS Certified Data Scientist
有关大数据和数据分析认证的更多信息,请参阅“11 大大数据和数据分析认证”和“12 项有回报的数据科学认证”。
数据科学团队
数据科学通常是一门团队学科。 数据科学家是大多数数据科学团队的核心,但从数据到分析再到生产价值需要一系列技能和角色。 例如,数据分析师应该参与调查,然后再将数据呈现给团队并维护数据模型。 数据工程师需要构建数据管道以丰富数据集并使数据可供公司其他部门使用。
如需进一步了解构建数据科学团队,请参阅“如何组建高效的分析团队”和“高度成功的数据分析团队的秘诀”。
数据科学目标和可交付成果
数据科学的目标是构建从数据中提取以业务为中心的洞察力的方法。 这需要了解价值和信息在企业中的流动方式,以及利用这种理解来识别商机的能力。 虽然这可能涉及一次性项目,但更典型的数据科学团队会寻求识别关键数据资产,这些资产可以转化为数据管道,为可维护的工具和解决方案提供数据。 示例包括银行使用的信用卡欺诈监控解决方案,或用于优化风力涡轮机在风电场中的位置的工具。
递增地,传达团队正在做什么的演示文稿也是重要的可交付成果。
数据科学过程和方法
生产工程团队在冲刺周期内工作,并有预计的时间表。 对于数据科学团队来说,这通常很难做到,因为前期可能会花费大量时间来确定项目是否可行。 必须收集和清理数据。 然后团队必须确定它是否可以有效地回答问题。
理想情况下,数据科学应该遵循科学方法,尽管情况并非总是如此,甚至不可行。 真正的科学需要时间。 您会花一点时间来确认您的假设,然后花很多时间来反驳自己。 在业务中,回答时间很重要。 因此,数据科学通常意味着选择“足够好”的答案,而不是最佳答案。 然而,危险在于结果可能会成为确认偏差或过度拟合的牺牲品。
数据科学工具
数据科学团队使用范围广泛的工具,包括 SQL、Python、R、Java 以及 Hive、oozie 和 TensorFlow 等开源项目的聚宝盆。 这些工具用于各种与数据相关的任务,从提取和清理数据到通过统计方法或机器学习对数据进行算法分析。 一些常用工具包括:
- SAS”这一专有统计工具用于数据挖掘、统计分析、商业智能、临床试验分析和时间序列分析。
- Tableau:Tableau 现在归 Salesforce 所有,是一种数据可视化工具。
- TensorFlow:由 Google 开发并获得 Apache License 2.0 许可,TensorFlow 是一个用于机器学习的软件库,用于深度神经网络的训练和推理。
- DataRobot:这个自动化机器学习平台用于构建、部署和维护 AI。
- BigML:BigML 是机器学习平台,专注于简化数据集和模型的构建和共享。
- Knime:Knime 是一个开源数据分析、报告和集成平台。
- Apache Spark:这个统一的分析引擎专为处理大规模数据而设计,支持数据清理、转换、模型构建和评估。
- RapidMiner:这个数据科学平台旨在支持团队,支持数据准备、机器学习和预测模型部署。
- Matplotlib:这个用于 Python 的开源绘图库提供了用于创建静态、动画和交互式可视化的工具。
- Excel:Microsoft 的电子表格软件可能是周围使用最广泛的 BI 工具。 对于处理较小数据集的数据科学家来说,它也很方便。
- js:此 JavaScript 库用于在 Web 浏览器中进行交互式可视化。
- ggplot2:这个高级数据可视化包让数据科学家可以根据分析数据创建可视化效果。
- Jupyter:这个基于 Python 的开源工具用于编写实时代码、可视化和演示。
最新内容
- 13 hours 13 minutes ago
- 13 hours 17 minutes ago
- 3 days 14 hours ago
- 4 days ago
- 5 days 14 hours ago
- 6 days 8 hours ago
- 6 days 8 hours ago
- 6 days 8 hours ago
- 6 days 8 hours ago
- 6 days 8 hours ago