【机器学习】24个终极数据科学（机器学习）项目，提升您的知识和技能:入门级别

视频号

微信公众号

知识星球

语言 Chinese, Simplified

介绍

数据科学（机器学习）项目为你提供了一种很有前途的方式来开启你在该领域的职业生涯。你不仅可以通过应用数据科学来学习数据科学，还可以在简历上展示项目！如今，招聘人员通过求职者的工作来评估其潜力，而不太重视证书。如果你只是告诉他们你知道多少，如果你没有什么可以展示给他们，那也没关系！这是大多数人挣扎和错过的地方。

你以前可能已经解决过几个问题，但如果你不能让它看起来很好看，很容易解释，那么别人怎么会知道你的能力呢？这就是这些项目将帮助你的地方。想想你将在这些项目上花费的时间，比如你的培训课程。你练习的时间越多，你就会变得越好！

我们确保为您提供来自不同领域的各种问题的体验。我们相信，每个人都必须学会巧妙地处理大量数据，因此包括了大型数据集。此外，我们还确保所有数据集都是开放的，可以免费访问。

介绍
有用信息
初级数据科学项目
中级数据科学项目
高级数据科学项目
结论
常见问题

为了帮助您决定从哪里开始，我们将此列表分为3个级别，即：

初级：该级别由数据集组成，这些数据集非常容易使用，不需要复杂的数据科学技术。您可以使用基本的回归或分类算法来解决这些问题。此外，这些数据集有足够多的开放式教程可以让您继续学习。在这个列表中，我们还提供了教程来帮助您入门。您也可以在这里查看AV的“数据科学导论”课程！
中级：该级别由性质上更具挑战性的数据集组成。它由中大型数据集组成，这些数据集需要一些严肃的模式识别技能。此外，功能工程将在这里发挥作用。ML技术的使用没有限制；阳光下的一切都可以使用。
高级级别：该级别最适合理解神经网络、深度学习、推荐系统等高级主题的人。这里还介绍了高维数据集。此外，现在是发挥创造力的时候了。看看最好的数据科学家在他们的工作和代码中所带来的创造力。

你想掌握机器学习和深度学习吗？这里有一个全面的计划，详细介绍了机器学习和深度学习的概念，以及25个以上的现实生活项目！

初级数据科学项目

1.虹膜数据集

这可能是模式识别文献中最通用、最简单、最有资源的数据集。没有什么比Iris数据集更简单的了，可以学习分类技术。如果你是数据科学的新手，这是你的起点。数据只有150行和4列。

问题：根据可用属性预测花朵的类别。

Start: Get Data | Tutorial: Get Here

让我们看看Iris数据，并在下面的实时编码窗口中建立一个Logistic回归模型。

'''
IRIS DATASET
'''

# required libraries
import pandas as pd
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import accuracy_score


# read the dataset
data = pd.read_csv('Iris.csv')
print(data.head())

print('\n\nColumn Names\n\n')
print(data.columns)

#label encode the target variable
encode = LabelEncoder()
data.Species = encode.fit_transform(data.Species)

print(data.head())

# train-test-split   
train , test = train_test_split(data,test_size=0.2,random_state=0)

print('shape of training data : ',train.shape)
print('shape of testing data',test.shape)

# seperate the target and independent variable
train_x = train.drop(columns=['Species'],axis=1)
train_y = train['Species']

test_x = test.drop(columns=['Species'],axis=1)
test_y = test['Species']

# create the object of the model
model = LogisticRegression()

model.fit(train_x,train_y)

predict = model.predict(test_x)

print('Predicted Values on Test Data',encode.inverse_transform(predict))

print('\n\nAccuracy Score on test data : \n\n')
print(accuracy_score(test_y,predict))

2.贷款预测数据集

在所有行业中，保险领域是分析和数据科学方法使用最多的行业之一。该数据集为您提供了使用保险公司数据集的体验——那里面临哪些挑战，使用了哪些策略，哪些变量影响结果等。这是一个分类问题。该数据有615行和13列。

问题：预测贷款是否会获得批准。

Start: Get Data | Tutorial: Get Here

让我们看看贷款数据，并在下面的实时编码窗口中建立一个逻辑回归模型。

'''
LOAN DATASET
'''
# required libraries
import pandas as pd
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import accuracy_score

# read the dataset
data = pd.read_csv('train_ctrUa4K.csv')
print(data.head())
print('\n\nColumn Names\n\n')
print(data.columns)
#label encode the target variable
encode = LabelEncoder()
data.Loan_Status = encode.fit_transform(data.Loan_Status)
# drop the null values
data.dropna(how='any',inplace=True)

# train-test-split   
train , test = train_test_split(data,test_size=0.2,random_state=0)

# seperate the target and independent variable
train_x = train.drop(columns=['Loan_ID','Loan_Status'],axis=1)
train_y = train['Loan_Status']
test_x = test.drop(columns=['Loan_ID','Loan_Status'],axis=1)
test_y = test['Loan_Status']
# encode the data
train_x = pd.get_dummies(train_x)
test_x  = pd.get_dummies(test_x)
print('shape of training data : ',train_x.shape)
print('shape of testing data : ',test_x.shape)
# create the object of the model
model = LogisticRegression()
model.fit(train_x,train_y)
predict = model.predict(test_x)
print('Predicted Values on Test Data',predict)
print('\n\nAccuracy Score on test data : \n\n')
print(accuracy_score(test_y,predict))

3.Bigmart销售数据集

零售业是另一个广泛使用分析来优化业务流程的行业。产品布局、库存管理、定制优惠、产品捆绑等任务正在使用数据科学技术巧妙地处理。顾名思义，这些数据包括销售商店的交易记录。这是一个回归问题。该数据包含8523行12个变量。

问题：预测商店的销售额。

Start: Get Data | Tutorial: Get Here

让我们看看大卖场的销售数据，并在下面的实时编码窗口中建立一个线性回归模型。

'''
The following code is for the Linear Regression
Created by- ANALYTICS VIDHYA
'''
# importing required libraries
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
# read the train and test dataset
train_data = pd.read_csv('train.csv')
test_data = pd.read_csv('test.csv')
print(train_data.head())
# shape of the dataset
print('\nShape of training data :',train_data.shape)
print('\nShape of testing data :',test_data.shape)
# Now, we need to predict the missing target variable in the test data
# target variable - Item_Outlet_Sales
# seperate the independent and target variable on training data
train_x = train_data.drop(columns=['Item_Outlet_Sales'],axis=1)
train_y = train_data['Item_Outlet_Sales']
# seperate the independent and target variable on training data
test_x = test_data.drop(columns=['Item_Outlet_Sales'],axis=1)
test_y = test_data['Item_Outlet_Sales']
'''
Create the object of the Linear Regression model
You can also add other parameters and test your code here
Some parameters are : fit_intercept and normalize
Documentation of sklearn LinearRegression:
https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html
'''
model = LinearRegression()
# fit the model with the training data
model.fit(train_x,train_y)
# coefficeints of the trained model
print('\nCoefficient of model :', model.coef_)
# intercept of the model
print('\nIntercept of model',model.intercept_)
# predict the target on the test dataset
predict_train = model.predict(train_x)
print('\nItem_Outlet_Sales on training data',predict_train)
# Root Mean Squared Error on training dataset
rmse_train = mean_squared_error(train_y,predict_train)**(0.5)
print('\nRMSE on train dataset : ', rmse_train)
# predict the target on the testing dataset
predict_test = model.predict(test_x)
print('\nItem_Outlet_Sales on test data',predict_test)
# Root Mean Squared Error on testing dataset
rmse_test = mean_squared_error(test_y,predict_test)**(0.5)
print('\nRMSE on test dataset : ', rmse_test)

4.波士顿住房数据集

这是模式识别文献中使用的另一个流行数据集。数据集来自波士顿（美国）的房地产行业。这是一个回归问题。该数据有506行和14列。因此，这是一个相当小的数据集，你可以在这里尝试任何技术，而不用担心笔记本电脑的内存被过度使用。

问题：预测自住房屋的中值。

Start: Get Data | Tutorial: Get Here

5.时间序列分析数据集

时间序列是数据科学中最常用的技术之一。它有着广泛的应用——天气预报、预测销售额、分析同比趋势等。该数据集特定于时间序列，这里的挑战是预测一种交通方式的交通量。数据有**行和**列。

问题：预测新交通方式的交通量。

Start: Get Data | Tutorial: Get Here

6.葡萄酒质量数据集

这是数据科学初学者最喜欢的数据集之一。它分为2个数据集。您可以对此数据执行回归和分类任务。它将测试您在不同领域的理解——异常值检测、特征选择和不平衡数据。该数据集中有4898行和12列。

问题：预测葡萄酒的质量。

Start: Get Data | Tutorial: Get Here

7.土耳其学生评估数据集

该数据集基于学生为不同课程填写的评估表。它具有不同的属性，包括出勤率、难度、每个评估问题的分数等。这是一个无人监督的学习问题。该数据集有5820行和33列。

问题：使用分类和聚类技术来处理数据。

Start: Get Data | Tutorial: Get Here

8.高度和重量数据集

这是一个相当简单的问题，非常适合刚开始从事数据科学的人。这是一个回归问题。该数据集有25000行和3列（索引、高度和权重）。

问题：预测一个人的身高或体重。

Start: Get Data | Tutorial: Get Here

如果你是数据科学世界的新手，Analytics Vidhya为初学者策划了一门全面的课程——“数据科学导论”！我们将介绍Python的基础知识，然后转到统计学，最后介绍各种建模技术。

本文地址

https://architect.pub

54 次浏览

SEO Title

24 Ultimate Data Science (Machine Learning) Projects to Boost Your Knowledge and Skills :entry level