跳转到主要内容
Chinese, Simplified

介绍

数据科学(机器学习)项目为你提供了一种很有前途的方式来开启你在该领域的职业生涯。你不仅可以通过应用数据科学来学习数据科学,还可以在简历上展示项目!如今,招聘人员通过求职者的工作来评估其潜力,而不太重视证书。如果你只是告诉他们你知道多少,如果你没有什么可以展示给他们,那也没关系!这是大多数人挣扎和错过的地方。

你以前可能已经解决过几个问题,但如果你不能让它看起来很好看,很容易解释,那么别人怎么会知道你的能力呢?这就是这些项目将帮助你的地方。想想你将在这些项目上花费的时间,比如你的培训课程。你练习的时间越多,你就会变得越好!

我们确保为您提供来自不同领域的各种问题的体验。我们相信,每个人都必须学会巧妙地处理大量数据,因此包括了大型数据集。此外,我们还确保所有数据集都是开放的,可以免费访问。

  • 介绍
  • 有用信息
  • 初级数据科学项目
  • 中级数据科学项目
  • 高级数据科学项目
  • 结论
  • 常见问题

 

为了帮助您决定从哪里开始,我们将此列表分为3个级别,即:

  • 初级:该级别由数据集组成,这些数据集非常容易使用,不需要复杂的数据科学技术。您可以使用基本的回归或分类算法来解决这些问题。此外,这些数据集有足够多的开放式教程可以让您继续学习。在这个列表中,我们还提供了教程来帮助您入门。您也可以在这里查看AV的“数据科学导论”课程!
  • 中级:该级别由性质上更具挑战性的数据集组成。它由中大型数据集组成,这些数据集需要一些严肃的模式识别技能。此外,功能工程将在这里发挥作用。ML技术的使用没有限制;阳光下的一切都可以使用。
  • 高级级别:该级别最适合理解神经网络、深度学习、推荐系统等高级主题的人。这里还介绍了高维数据集。此外,现在是发挥创造力的时候了。看看最好的数据科学家在他们的工作和代码中所带来的创造力。

你想掌握机器学习和深度学习吗?这里有一个全面的计划,详细介绍了机器学习和深度学习的概念,以及25个以上的现实生活项目!

中级数据科学项目

1.黑色星期五数据集

该数据集包括在零售店捕获的销售交易。这是一个经典的数据集,可以从多种购物体验中探索和扩展您的功能工程技能和日常理解。这是一个回归问题。该数据集有550069行和12列。

问题:预测购买金额。

Start: Get Data | Tutorial: Get Here

2.人类活动识别数据集

该数据集是从通过内置惯性传感器的智能手机拍摄的30名受试者的记录中收集的。许多机器学习课程将这些数据用于教学目的。现在轮到你了。这是一个多分类的问题。该数据集有10299行和561列。

问题:预测人类的活动类别。

Start: Get Data | Tutorial: Get Here

3.文本挖掘数据集

该数据集最初来自2007年举行的暹罗文本挖掘大赛。数据包括描述某些飞行中出现的问题的航空安全报告。这是一个多分类、高维的问题。它有21519行和30438列。

问题:根据文档的标签对文档进行分类。

Start: Get Data | Tutorial: Get Here

4.行程历史数据集

该数据集来自美国的一家共享单车服务公司。此数据集要求您练习专业数据挖掘技能。从2010年(第4季度)起按季度提供数据。每个文件有7列。这是一个分类问题。

问题:预测用户的类别。

Start: Get Data | Tutorial: Get Here

5.百万首歌曲数据集

你知道数据科学也可以用于娱乐业吗?现在自己动手吧。这个数据集提出了一个回归任务。它由5,15345个观测值和90个变量组成。然而,这只是关于一百万首歌曲的原始数据数据库的一小部分。

问题:预测歌曲的发行年份。

Start: Get Data | Tutorial: Get Here

6.人口普查收入数据集

这是一个不平衡的分类问题,也是一个经典的机器学习问题。你知道,机器学习正被广泛用于解决不平衡的问题,如癌症检测、欺诈检测等。是时候弄脏你的手了。该数据集有48842行和14列。为了获得指导,您可以检查这个不平衡的数据项目。

问题:预测美国人口的收入阶层。

Start: Get Data | Tutorial: Get Here

7.电影镜头数据集

你建立了推荐系统了吗?给你机会!该数据集是数据科学行业中最受欢迎和引用的数据集之一。它有多种尺寸可供选择。这里我用了一个相当小的尺寸。6000名用户对4000部电影的评分为100万。

问题:向用户推荐新电影。

Start: Get Data | Tutorial: Get Here

8.Twitter分类数据集

使用Twitter数据已经成为情绪分析问题的一个组成部分。如果你想在这个领域为自己开辟一个利基市场,你会很高兴地应对这个数据集带来的挑战。该数据集大小为3MB,有31962条推文。

问题:识别哪些推文是仇恨推文,哪些不是。

Start: Get Data | Tutorial: Get Here

原文地址
https://www.analyticsvidhya.com/blog/2018/05/24-ultimate-data-science-projects-to-boost-your-knowledge-and-skills/
本文地址
Article

微信

知识星球

微信公众号

视频号