数据科学家

Chinese, Simplified

数据科学家使用数据来理解和解释他们周围的现象,并帮助组织做出更好的决策。
作为一名数据科学家,在智力上具有挑战性,在分析上令人满意,并使你处于新技术进步的前沿。随着大数据在组织决策方式中越来越重要,数据科学家变得越来越普遍,需求也越来越大。下面我们来仔细看看他们是什么,做什么,以及如何成为一个。


数据科学家是做什么的?


数据科学家确定他们的团队应该问的问题,并找出如何使用数据回答这些问题。他们经常开发用于理论化和预测的预测模型。

数据科学家可能每天都要完成以下任务:

  • 在数据集中查找模式和趋势以揭示见解
  • 创建算法和数据模型以预测结果
  • 使用机器学习技术来提高数据或产品的质量
  • 向其他团队和高级员工传达建议
  • 在数据分析中部署Python、R、SAS或SQL等数据工具
  • 掌握数据科学领域的创新

数据分析师与数据科学家:有什么区别?


数据分析师和数据科学家的工作可能看起来很相似——他们都能发现数据的趋势或模式,揭示组织更好地决策运营的新方法。但数据科学家往往承担更多的责任,通常被认为比数据分析师更资深。

数据科学家通常会对数据提出自己的问题,而数据分析师可能会支持已经设定目标的团队。数据科学家还可能花费更多时间开发模型、使用机器学习或结合高级编程来查找和分析数据。
数据科学家的薪水和工作增长
根据Lightcast™[1]的数据,数据科学家在美国的平均工资为108659美元。

对数据专业人员的需求很高——根据美国劳工统计局的数据,数据科学家的职业预计在未来10年内增长36%(远高于平均水平)[2]。

高需求与大数据的兴起及其对企业和其他组织日益重要有关。

如何成为一名数据科学家


成为一名数据科学家通常需要一些正式的培训。以下是一些需要考虑的步骤。

1.获得数据科学学位。


雇主通常喜欢看到一些学术证书,以确保你有处理数据科学工作的专业知识,尽管这并不总是必需的。也就是说,相关的学士学位肯定会有所帮助——试着学习数据科学、统计学或计算机科学,以在该领域取得进展。
 

2.提高相关技能。


如果你觉得自己可以提高一些硬数据技能,可以考虑参加一门在线课程或参加相关的训练营。以下是你想要掌握的一些技能。

  • 编程语言:数据科学家可能会花时间使用编程语言对大块数据进行排序、分析和管理。数据科学的流行编程语言包括:
  • 数据可视化:能够创建图表是数据科学家的重要组成部分。熟悉以下工具应能使您做好工作准备:
  • 机器学习:将机器学习和深度学习融入你作为数据科学家的工作中,意味着不断提高你收集的数据的质量,并有可能预测未来数据集的结果。机器学习课程可以让你从基础知识开始。
  • 大数据:一些雇主可能希望看到你对处理大数据有一些熟悉。一些用于处理大数据的软件框架包括Hadoop和Apache Spark。
  • 沟通:如果科学家不能很好地沟通他们的发现,那么最优秀的数据就无法影响任何变化。以口头和书面语言分享想法和结果的能力是数据科学家经常寻求的技能。
     

3.找一份入门级的数据分析工作。


尽管成为一名数据科学家有很多途径,但从相关的入门级工作开始可能是一个很好的第一步。寻找与数据密切相关的职位,如数据分析师、商业智能分析师、统计学家或数据工程师。从那里开始,你可以在扩展知识和技能的同时,努力成为一名科学家。


4.为数据科学访谈做准备。


有了几年的数据分析工作经验,你可能会觉得自己已经准备好进入数据科学领域了。一旦你在面试中取得了分数,就要准备好面试中可能出现的问题的答案。

数据科学家的职位可能具有高度的技术性,因此您可能会遇到技术和行为问题。两者兼而有之,通过大声说出你的答案来练习。从你过去的工作或学术经历中准备例子可以帮助你在面试官面前显得自信和知识渊博。

以下是您可能遇到的几个问题:

  • 线性模型的优点和缺点是什么?
  • 什么是随机森林?
  • 如何使用SQL查找数据集中的所有重复项?
  • 描述你的机器学习经验。
  • 举一个你遇到一个不知道如何解决的问题的例子。你做了什么?
     
本文地址
https://architect.pub/data_scientist
SEO Title
data scientist

【数据科学】如何创建出色的数据科学投资组合

Chinese, Simplified

今天的数据科学就业市场有两件事非常清楚:

  • 对合格的数据科学家有很多需求。 (而且这些工作中的大多数都有可观的薪酬和其他津贴。)
  • 这种需求导致大量求职者申请空缺职位。

假设您的目标是在这个市场中占据入门级位置。您将主要与应届大学毕业生、过渡到数据科学的软件工程师以及数据科学训练营和在线课程的毕业生竞争。



你如何让自己在人群中脱颖而出?



有一个简单但绝非易事的解决方案:建立一个令人印象深刻的投资组合来展示你的技能。



如何开始



确定您的兴趣和目标



您是否有兴趣在特定行业工作,例如银行、零售、信息安全等?您喜欢用数据讲故事和创建引人注目的数据可视化吗?或者您更喜欢构建最先进的机器学习模型?

回答这些问题需要进行一些自我反思,但此过程将帮助您决定要应用您的投资组合构建工作的方向。



研究工作描述



一旦你知道你想专注于数据科学的哪个领域,你可能需要浏览一些该领域的招聘信息。



进行研究并注意以下几点:

 

  • 公司是做什么的?具体来说,公司如何利用数据科学赚钱?
  • 除了您已经知道的技能之外,他们还需要哪些技术技能?您可能需要更加熟悉 Linux 命令行、云技术(如 AWS)甚至 NoSQL 数据库。
  • 数据科学家会为面向客户的产品做出贡献还是为公司内的其他团队构建解决方案?
  • 软技能呢?这个角色是否需要就数据科学的能力和局限性对公司内部或外部的其他人进行教育?

你的投资组合包括什么?



在选择可以帮助您脱颖而出的区域时,有很多选择,例如:

  • 在 GitHub 上创建个人项目
  • 为开源软件做贡献
  • 撰写博客文章
  • 在聚会和会议上发表演讲
  • 通过帮助他人在 Stack Overflow 上建立声誉
  • 通过 Kaggle 平台参加数据科学竞赛



建立投资组合时应遵循的原则

 

无论您想关注哪个投资组合领域,每当您开始集思广益新的项目创意时,都应该牢记一些原则:

  • 完成总比完美好。您可能充满了想法,并尝试同时开始处理多个想法。这可能不是一个好的策略。您冒着将自己分散得太细的风险,并冒着没有精力或动力完成任何特定项目的风险。
  • 质量而不是数量。请记住,目标不是尽可能多地制作您的作品,而是制作一些可以让您受雇的优质作品。
  • 有趣的数据胜过高级分析。避免使用许多“数据科学入门”课程中常见的数据集,因为这些数据集已经过从各个可能的角度进行分析和观察。你不太可能找到任何有趣的东西。相反,尝试在公共数据集存储库中找到“隐藏的宝石”,例如 Google 数据搜索或 AWS 上的开放数据。许多政府都有开放数据门户网站,这些门户网站是有趣数据集的宝库,供有兴趣的人查看。
  • 用数据讲故事。无论您是在撰写博客文章、构建 Web 应用程序还是在观众面前进行现场演示,您的主要角色都是讲故事的人。这意味着你的故事应该 1) 用引人入胜的介绍和有吸引力的数据可视化来吸引人们; 2)为数据集和您的方法提供足够的上下文; 3)教给观众一些他们之前不知道的东西。
  • 通过在社交媒体上分享您的作品来放大您的作品。这可能令人生畏,但如今这几乎是让您的作品向很多人展示的唯一方法。顺便说一句,其中一些人可能是你未来的招聘经理——你永远不知道。
  • 根据反馈进行迭代。根据您从他人那里收到的反馈,对编辑您的作品持开放态度。这不仅会使您的项目变得更好,而且也是您识别和解决知识差距的学习机会。

归根结底,作品集即使不是证明,也是证明您可以完成您在简历中声称的那种工作的证据。 它将为您打开大门,没有它,您将无法触及。

希望到目前为止,您已经很好地了解了如何构建最终会让您被录用的投资组合的过程。

在接下来的文章中,我们将详细说明一些投资组合领域,例如:什么是优秀的博客文章,为开源项目做出贡献时从哪里开始,以及什么是 GitHub 上的优秀个人项目。

原文:https://medium.com/@epicprogrammer/how-to-create-an-outstanding-data-sc…

本文:https://jiagoushi.pro/node/1648

SEO Title
How to Create an Outstanding Data Science Portfolio

【数据科学家】7个你应该做的数据科学项目让你的简历脱颖而出

Chinese, Simplified

数据科学项目将帮助您找到梦想的工作

数据科学现在是一个热门领域,没有比做自己的数据科学项目更好的方式来证明你有资格胜任这份工作。

在这篇博文中,我们将介绍 7 个数据科学项目,您可以利用空闲时间完成这些项目,让您的简历脱颖而出。



1.回归项目



您应该考虑做的第一个项目是基于回归的项目。回归是用于确定两个变量之间关系强度的过程。

换句话说,它可以用来找出一个变量在另一个变量发生变化时变化了多少。这使得回归成为数据科学家非常重要的工具。

要创建回归项目,请选择您感兴趣的数据集并尝试确定不同变量之间的关系。

您可以做的一些回归项目包括:

  • 寻找身高和体重之间的关系。
  • 寻找收入和教育之间的关系。
  • 找出投票行为与年龄之间的关系。
  • 寻找高中生 GPA 和 SAT 成绩之间的关系。

这些项目中的每一个都可以在相对较短的时间内完成,它们将使您很好地了解回归的工作原理。



2.分类项目



您应该考虑做的下一个项目是分类项目。分类项目将帮助您了解如何使用机器学习算法将新数据点分类为一组预定义的类别。

分类对于数据科学家来说很重要,因为它可以用于许多不同的应用,例如图像识别和文档标记。

您应该考虑进行的一些分类项目包括:

  • 将图像分类为不同的类别。例如,您可以使用机器学习算法将动物图片分类为不同的类别(例如,哺乳动物、鸟类、爬行动物等)。
  • 将文本文档分类为不同的类别。例如,您可以使用机器学习算法将《纽约时报》的文章分类为不同的类别(例如,政治、商业、体育等)。
  • 将电子邮件分类为不同的类别。例如,您可以使用机器学习算法将电子邮件分类为“垃圾邮件”或“非垃圾邮件”。
  • 将博客文章分类为不同的类别。例如,您可以使用机器学习算法将来自高流量网站的博客文章分类为“正面”或“负面”。

3.聚类项目



聚类是一种无监督学习算法,它根据数据点的属性将数据点组合在一起。此类项目将帮助您了解如何识别数据集中的集群并使用聚类算法将数据中的项目分组到存储桶或类别中,从而使人类更容易探索大型数据集。

作为数据科学家,Cluster 很重要,因为它用于各种应用,从营销到欺诈检测。

您应该考虑做的一些集群项目包括:

  • 按主题对推文进行聚类。这可用于了解公众对各种主题的看法或跟踪信息在 Twitter 上的传播。
  • 按类型对电影或电视节目进行聚类。例如,您可以对 IMDB 数据集中的流派进行聚类,以发现与您最喜欢的电影类型(例如浪漫喜剧与剧情片)相似但又不完全相同的新电影子流派。
  • 根据产品类型(例如洗衣粉与除臭剂)对杂货店中的物品进行分类。您可以通过根据属性(例如,品牌、尺寸、颜色)对数据集中的项目进行聚类来做到这一点。
  • 将客户分组以进行有针对性的营销活动。例如,您可以根据客户的购买历史或人口统计信息对客户进行聚类。



4. 情绪分析项目



情感分析是识别和量化文本中表达的态度和情感的过程。

作为一名数据科学家,情绪分析很重要,因为它可以用来深入了解客户反馈、产品评论甚至股市趋势。

您应该考虑做的一些情绪分析项目包括:

  • 分析客户反馈数据以识别正面和负面情绪。例如,您可以查看新产品的客户评论并确定最常见的投诉和赞美。
  • 分析 Twitter 数据以了解情绪如何随时间变化。例如,您可以在几周或几个月内跟踪 Twitter 上某个主题(例如总统选举)的情绪。
  • 将电影评论分为正面或负面。例如,您可以使用文本分类算法将来自烂番茄的评论分类为“新鲜”(正面)或“烂”(负面)。
  • 识别关于您的公司及其竞争对手的推文的情绪。例如,您可以跟踪产品的 Yelp 评论并确定情绪如何随时间变化。

5. 推荐系统项目



推荐系统用于对产品和服务进行个性化推荐。

作为一名数据科学家,推荐系统很重要,因为它可以帮助公司个性化他们的营销活动并提高客户参与度。

您应该考虑做的一些推荐系统项目包括:

  • 构建电影推荐系统。例如,您可以构建一个算法,根据用户对以前看过的电影的评分来推荐新电影。
  • 为亚马逊上的产品构建推荐系统。这可以通过使用诸如交替最小二乘 (ALS) 算法之类的算法来完成。
  • 为公司或零售网站构建产品推荐系统。例如,您可以将不同的产品链接在一起以推荐来自同一类别的商品(例如,“如果您喜欢这个产品,那么您也会喜欢这些”)。
  • 构建旅游推荐系统。例如,您可以使用位置数据来推荐用户当前位置附近的活动或餐厅。



6.自然语言处理项目



自然语言处理 (NLP) 是从文本数据中理解和提取信息的过程。

此类项目将帮助您了解 NLP 的基础知识,以及如何从文本数据中提取信息。

作为一名数据科学家,了解 NLP 很重要,因为它可用于分析客户反馈、产品评论甚至法律文件。

您应该考虑做的一些自然语言处理项目包括:

  • 分析客户反馈数据以了解客户如何用自己的话描述产品或服务(例如,反馈是否包含任何正面或负面关键字?)。
  • 从法律文件中提取信息(例如,提取合同的要点)。
  • 从亚马逊上的产品描述中提取信息(例如,提取产品的特征和优势)。
  • 从关于公司或其竞争对手的推文中提取信息。

7. 人工神经网络项目



人工神经网络 (ANN) 是一种类似于大脑的机器学习算法。

它由相互连接的神经元组成,可用于学习和识别数据中的模式。人工神经网络通常用于图像识别或自然语言处理等任务。

有许多不同类型的 ANN,因此您需要选择一种适用于您的特定数据集和用例的。

您应该考虑做的一些人工神经网络项目包括:

  • 构建一个简单的人工神经网络来识别手写数字。
  • 训练人工神经网络来预测股票市场价格。
  • 构建 ANN 将图像分类为不同的类别(例如,狗或猫)。
  • 训练 ANN 来识别文本文档的语言。



今天提升你的简历



谢谢阅读!如果您的简历需要提升,请考虑做这 7 个数据科学项目之一以使其脱颖而出。

从构建人工神经网络或 NLP 算法到分析客户反馈和产品评论以获得洞察力,这些项目可以通过多种方式展示您的数据科学能力。

原文:https://towardsdatascience.com/7-data-science-projects-you-should-do-to…

本文:https://jiagoushi.pro/node/2021

SEO Title
7 Data Science Projects You Should Do to Make Your Resume Stand Out