【数据科学】数据科学中的不同角色
数据科学领域不断发展,随后,在数据科学领域内有大量的职业角色可供选择。该博客列出了人们可以选择的一些数据科学领域最新兴的职业选择。
数据科学是一个需要学科专业知识(例如,如果您打算从事生物信息学,则需要生物学)、编程技能以及数学和统计学培训的领域。数据科学即服务允许公司利用先进的分析技术(包括深度学习)获得业务洞察力,而无需投资于内部数据科学能力。数据科学家帮助公司处理来自各种来源的大量信息。专家数据科学团队可以帮助您快速采用数据科学来满足特定的高级分析目标。
Glassdoor 将数据科学列为 2021 年美国排名第二的工作。数据科学中有许多名称相似的职业:例如,ML 开发人员和 ML 工程师。在本文中,我们将讨论数据科学中的不同角色、该领域的职业有何不同以及对不同职位的候选人的期望。
数据科学家
数据科学家的主要任务是提高机器学习模型的质量。一般来说,他或她的工作可以分为两个块。第一个是在项目中使用完成的模型。有必要不断评估其质量并找到可以改进的地方。在线和离线指标以及测试人员的反馈对此有所帮助。第二个是研究部分本身:寻找新的架构和信号进行预测。
以下是数据科学家需要知道的:
- Python 开发模型。
- C++ 将代码投入生产。
- 深度学习框架(TensorFlow、PyTorch、Caffe 或其他)。
- 数据结构和算法。
很多时候数据科学家都在收集、清理和分析数据以获得有用的见解。准备好数据后,他们将剩下的时间花在训练新模型上,例如在集群上准备数据并编写基础设施以进行有效的训练。复制模型也是工作的一部分:您必须编写模型并检查它在真实数据上的行为是否符合预期,然后优化其性能。一个有趣的事实是,数据科学家的工作还涉及 ML 工程师、数据工程师和数据科学家角色的技能。
机器学习工程师
ML 工程师的职责与数据科学家非常相似。但相比之下,没有必要准备在科学期刊上发表文章并定期开发新技术。比数据科学家更重要的是编写有效且可读的代码的能力,然后同事们可以理解。
以下是 ML 工程师需要了解的内容:
- Python 和 C++ 用于开发模型和训练算法。
- 概率论、统计学和离散数学。
- 深度学习框架(TensorFlow、PyTorch、Caffe 或其他)。
对于 ML 工程师来说,拥有协作开发工具也很有用。他们不仅应该能够训练高质量的模型,还应该能够基于它们创建能够承受高负载的服务。这可能需要掌握低级编程语言和优化机器学习模型的技术。
数据工程师负责为后续分析准备数据。他们的工作是首先从社交网络、网站、博客和其他外部和内部来源收集数据,然后将其转化为可以发送给数据分析师的结构化形式。
数据工程师
想象一下,你需要做一个苹果派。首先,您需要从食谱中找到面粉、苹果、鸡蛋、牛奶和其他成分。这就是数据工程师所做的,只是寻找并引入正确的数据。数据分析师将自己制作馅饼,或者更确切地说,在找到的数据中寻找模式。
以下是数据工程师需要了解的内容:
- 如何设计存储、设置数据收集和数据管道。
- 如何构建 ETL 流程。
- C++、Python 或 Java。
- 用于处理数据库的 SQL。
此外,工程师创建和维护存储基础设施。他们还负责 ETL 系统 - 将数据提取、转换和加载到一个存储库中。可以肯定地说,他们负责购买和储存馅饼的原料。因此,数据分析师可以随时拿起它们来做一道菜,并确保一切都准备就绪并且没有任何问题。
数据分析师
数据分析师帮助公司改进指标并解决中间目标,而不是盲目地朝着大目标(一年内收入翻番)迈进。通常情况下,他们与销售人员密切合作。
数据分析师的任务是处理大量数据并在其中找到模式。例如,他们可能会发现大多数牙刷是由 30 至 40 岁的已婚男性购买的。数据分析师帮助公司更好地了解他们的客户,从而带来更多的销售额。
以下是数据分析师需要了解的内容:
- Python 处理数据。
- 数理统计选择正确的方法来处理数据。
- SQL 方言,如 ClickHouse。
- DataLens、Tableau、PowerBI 和其他仪表板工具。
- Hadoop、Hive 或 Spark 等大数据工具。
在他们的工作中,数据分析师使用数理统计知识,这使他们能够找到模式并帮助预测用户的行为。数据分析师还进行测试,检查用户对新界面的反应,并帮助优化业务流程。
概括
对于那些喜欢精确科学的人来说,数据科学有很多方向和任务。作为数据科学家,您可以执行科学密集型任务,作为 ML 工程师实施新技术,作为数据分析师为业务寻找有用的模式,或者如果您选择作为数据工程师工作,则可以收集和构建数据。此外,您的选择不仅取决于您的专业知识,还取决于您想要解决的问题:也许您梦想推动科学发展并创造其他人将使用的技术。
- 46 次浏览