介绍
数据科学(机器学习)项目为你提供了一种很有前途的方式来开启你在该领域的职业生涯。你不仅可以通过应用数据科学来学习数据科学,还可以在简历上展示项目!如今,招聘人员通过求职者的工作来评估其潜力,而不太重视证书。如果你只是告诉他们你知道多少,如果你没有什么可以展示给他们,那也没关系!这是大多数人挣扎和错过的地方。
你以前可能已经解决过几个问题,但如果你不能让它看起来很好看,很容易解释,那么别人怎么会知道你的能力呢?这就是这些项目将帮助你的地方。想想你将在这些项目上花费的时间,比如你的培训课程。你练习的时间越多,你就会变得越好!
我们确保为您提供来自不同领域的各种问题的体验。我们相信,每个人都必须学会巧妙地处理大量数据,因此包括了大型数据集。此外,我们还确保所有数据集都是开放的,可以免费访问。
- 介绍
- 有用信息
- 初级数据科学项目
- 中级数据科学项目
- 高级数据科学项目
- 结论
- 常见问题
为了帮助您决定从哪里开始,我们将此列表分为3个级别,即:
- 初级:该级别由数据集组成,这些数据集非常容易使用,不需要复杂的数据科学技术。您可以使用基本的回归或分类算法来解决这些问题。此外,这些数据集有足够多的开放式教程可以让您继续学习。在这个列表中,我们还提供了教程来帮助您入门。您也可以在这里查看AV的“数据科学导论”课程!
- 中级:该级别由性质上更具挑战性的数据集组成。它由中大型数据集组成,这些数据集需要一些严肃的模式识别技能。此外,功能工程将在这里发挥作用。ML技术的使用没有限制;阳光下的一切都可以使用。
- 高级级别:该级别最适合理解神经网络、深度学习、推荐系统等高级主题的人。这里还介绍了高维数据集。此外,现在是发挥创造力的时候了。看看最好的数据科学家在他们的工作和代码中所带来的创造力。
你想掌握机器学习和深度学习吗?这里有一个全面的计划,详细介绍了机器学习和深度学习的概念,以及25个以上的现实生活项目!
初级数据科学项目
1.虹膜数据集
这可能是模式识别文献中最通用、最简单、最有资源的数据集。没有什么比Iris数据集更简单的了,可以学习分类技术。如果你是数据科学的新手,这是你的起点。数据只有150行和4列。
问题:根据可用属性预测花朵的类别。
Start: Get Data | Tutorial: Get Here
让我们看看Iris数据,并在下面的实时编码窗口中建立一个Logistic回归模型。
'''
IRIS DATASET
'''
# required libraries
import pandas as pd
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import accuracy_score
# read the dataset
data = pd.read_csv('Iris.csv')
print(data.head())
print('\n\nColumn Names\n\n')
print(data.columns)
#label encode the target variable
encode = LabelEncoder()
data.Species = encode.fit_transform(data.Species)
print(data.head())
# train-test-split
train , test = train_test_split(data,test_size=0.2,random_state=0)
print('shape of training data : ',train.shape)
print('shape of testing data',test.shape)
# seperate the target and independent variable
train_x = train.drop(columns=['Species'],axis=1)
train_y = train['Species']
test_x = test.drop(columns=['Species'],axis=1)
test_y = test['Species']
# create the object of the model
model = LogisticRegression()
model.fit(train_x,train_y)
predict = model.predict(test_x)
print('Predicted Values on Test Data',encode.inverse_transform(predict))
print('\n\nAccuracy Score on test data : \n\n')
print(accuracy_score(test_y,predict))
2.贷款预测数据集
在所有行业中,保险领域是分析和数据科学方法使用最多的行业之一。该数据集为您提供了使用保险公司数据集的体验——那里面临哪些挑战,使用了哪些策略,哪些变量影响结果等。这是一个分类问题。该数据有615行和13列。
问题:预测贷款是否会获得批准。
Start: Get Data | Tutorial: Get Here
让我们看看贷款数据,并在下面的实时编码窗口中建立一个逻辑回归模型。
'''
LOAN DATASET
'''
# required libraries
import pandas as pd
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import accuracy_score
# read the dataset
data = pd.read_csv('train_ctrUa4K.csv')
print(data.head())
print('\n\nColumn Names\n\n')
print(data.columns)
#label encode the target variable
encode = LabelEncoder()
data.Loan_Status = encode.fit_transform(data.Loan_Status)
# drop the null values
data.dropna(how='any',inplace=True)
# train-test-split
train , test = train_test_split(data,test_size=0.2,random_state=0)
# seperate the target and independent variable
train_x = train.drop(columns=['Loan_ID','Loan_Status'],axis=1)
train_y = train['Loan_Status']
test_x = test.drop(columns=['Loan_ID','Loan_Status'],axis=1)
test_y = test['Loan_Status']
# encode the data
train_x = pd.get_dummies(train_x)
test_x = pd.get_dummies(test_x)
print('shape of training data : ',train_x.shape)
print('shape of testing data : ',test_x.shape)
# create the object of the model
model = LogisticRegression()
model.fit(train_x,train_y)
predict = model.predict(test_x)
print('Predicted Values on Test Data',predict)
print('\n\nAccuracy Score on test data : \n\n')
print(accuracy_score(test_y,predict))
3.Bigmart销售数据集
零售业是另一个广泛使用分析来优化业务流程的行业。产品布局、库存管理、定制优惠、产品捆绑等任务正在使用数据科学技术巧妙地处理。顾名思义,这些数据包括销售商店的交易记录。这是一个回归问题。该数据包含8523行12个变量。
问题:预测商店的销售额。
Start: Get Data | Tutorial: Get Here
让我们看看大卖场的销售数据,并在下面的实时编码窗口中建立一个线性回归模型。
'''
The following code is for the Linear Regression
Created by- ANALYTICS VIDHYA
'''
# importing required libraries
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
# read the train and test dataset
train_data = pd.read_csv('train.csv')
test_data = pd.read_csv('test.csv')
print(train_data.head())
# shape of the dataset
print('\nShape of training data :',train_data.shape)
print('\nShape of testing data :',test_data.shape)
# Now, we need to predict the missing target variable in the test data
# target variable - Item_Outlet_Sales
# seperate the independent and target variable on training data
train_x = train_data.drop(columns=['Item_Outlet_Sales'],axis=1)
train_y = train_data['Item_Outlet_Sales']
# seperate the independent and target variable on training data
test_x = test_data.drop(columns=['Item_Outlet_Sales'],axis=1)
test_y = test_data['Item_Outlet_Sales']
'''
Create the object of the Linear Regression model
You can also add other parameters and test your code here
Some parameters are : fit_intercept and normalize
Documentation of sklearn LinearRegression:
https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html
'''
model = LinearRegression()
# fit the model with the training data
model.fit(train_x,train_y)
# coefficeints of the trained model
print('\nCoefficient of model :', model.coef_)
# intercept of the model
print('\nIntercept of model',model.intercept_)
# predict the target on the test dataset
predict_train = model.predict(train_x)
print('\nItem_Outlet_Sales on training data',predict_train)
# Root Mean Squared Error on training dataset
rmse_train = mean_squared_error(train_y,predict_train)**(0.5)
print('\nRMSE on train dataset : ', rmse_train)
# predict the target on the testing dataset
predict_test = model.predict(test_x)
print('\nItem_Outlet_Sales on test data',predict_test)
# Root Mean Squared Error on testing dataset
rmse_test = mean_squared_error(test_y,predict_test)**(0.5)
print('\nRMSE on test dataset : ', rmse_test)
4.波士顿住房数据集
这是模式识别文献中使用的另一个流行数据集。数据集来自波士顿(美国)的房地产行业。这是一个回归问题。该数据有506行和14列。因此,这是一个相当小的数据集,你可以在这里尝试任何技术,而不用担心笔记本电脑的内存被过度使用。
问题:预测自住房屋的中值。
Start: Get Data | Tutorial: Get Here
5.时间序列分析数据集
时间序列是数据科学中最常用的技术之一。它有着广泛的应用——天气预报、预测销售额、分析同比趋势等。该数据集特定于时间序列,这里的挑战是预测一种交通方式的交通量。数据有**行和**列。
问题:预测新交通方式的交通量。
Start: Get Data | Tutorial: Get Here
6.葡萄酒质量数据集
这是数据科学初学者最喜欢的数据集之一。它分为2个数据集。您可以对此数据执行回归和分类任务。它将测试您在不同领域的理解——异常值检测、特征选择和不平衡数据。该数据集中有4898行和12列。
问题:预测葡萄酒的质量。
Start: Get Data | Tutorial: Get Here
7.土耳其学生评估数据集
该数据集基于学生为不同课程填写的评估表。它具有不同的属性,包括出勤率、难度、每个评估问题的分数等。这是一个无人监督的学习问题。该数据集有5820行和33列。
问题:使用分类和聚类技术来处理数据。
Start: Get Data | Tutorial: Get Here
8.高度和重量数据集
这是一个相当简单的问题,非常适合刚开始从事数据科学的人。这是一个回归问题。该数据集有25000行和3列(索引、高度和权重)。
问题:预测一个人的身高或体重。
Start: Get Data | Tutorial: Get Here
如果你是数据科学世界的新手,Analytics Vidhya为初学者策划了一门全面的课程——“数据科学导论”!我们将介绍Python的基础知识,然后转到统计学,最后介绍各种建模技术。
最新内容
- 1 week ago
- 1 week ago
- 1 week ago
- 1 week ago
- 1 week ago
- 1 week 6 days ago
- 1 week 6 days ago
- 2 weeks 2 days ago
- 2 weeks 2 days ago
- 2 weeks 2 days ago