【机器学习】机器学习模型的训练、测试和评估

语言 Chinese, Simplified

SEO Title

Training, Testing and Evaluating Machine Learning Models

培训、评估、测试和准确性

模特培训

深度学习的模型训练包括分割数据集、调整超参数和执行批量归一化。

拆分数据集

为培训收集的数据需要分为三组：培训、验证和测试。

训练--高达总数据集的75%用于训练。模型在训练集上学习；换句话说，该集合用于分配进入模型的权重和偏差。
验证——在训练模型时，使用15%至20%的数据来评估初始精度，了解模型如何学习和微调超参数。该模型可以看到验证数据，但不使用它来学习权重和偏差。
测试——5%到10%的数据用于最终评估。由于从未见过这个数据集，该模型没有任何偏见。

超参数调整

超参数可以想象为用于控制训练算法的行为的设置，如下所示。

基于人类可调节的超参数，该算法在训练阶段从数据中学习参数。它们由设计者在理论推导后设置或自动调整。

在深度学习的背景下，超参数的例子有：

学习率
隐藏单元数
卷积核宽度
正则化技术

有两种常见的方法来调整超参数，如下图所示。

第一种，标准网格搜索优化，是通过超参数组合的预定列表的暴力方法。列出超参数的所有可能值，并以迭代的方式循环以获得最佳值。网格搜索优化需要相对较少的编程时间，并且如果特征向量中的维数较低，则效果良好。但是，随着维度数量的增加，调整所需的时间越来越长。

另一种常见的方法，随机搜索优化，包括随机采样值，而不是通过超参数的每个组合进行彻底搜索。一般来说，它比网格搜索优化在更短的时间内产生更好的结果。

批量规范化

规范化和标准化这两种技术的目标都是通过将所有数据点放在同一尺度上来转换数据，为训练做准备。

归一化过程通常包括将数值数据缩小到从零到一的比例。另一方面，标准化通常包括从每个数据点减去数据集的平均值，然后将差值除以数据集的标准差。这迫使标准化数据的平均值为零，标准偏差为一。标准化通常被称为规范化；两者都可以归结为将数据放在某种已知或标准的尺度上。

模型评估和测试

一旦模型经过训练，就会根据混淆矩阵和精度/准确性指标来衡量性能。

混淆矩阵

混淆矩阵描述分类器模型的性能，如下面描述的2x2矩阵所示。

考虑一个简单的分类器来预测患者是否患有癌症。有四种可能的结果：

真阳性（TP）-预测是肯定的，患者确实患有癌症。
真阴性（TN）-预测没有，患者没有癌症。
假阳性（FP）-预测是肯定的，但患者没有癌症（也称为“I型错误”）。
假阴性（FN）-没有预测，但患者确实患有癌症（也称为“II型错误”）

混淆矩阵每个轴可以容纳2个以上的类，如下所示：

精度/准确度

基于分类器预测和实际值来计算精度和准确度也是有用的。

准确性是衡量分类器在所有观测中正确的频率的指标。基于上述网格的计算结果为（TP+TN）/总计=（100+50）/（60+105）=0.91。

精度是在预测为“是”时实际值为“是的频率”的度量。在这种情况下，该计算是TP/预测的yes＝100/（100+10）＝0.91。

本文地址

https://architect.pub/training-testing-and-evaluating-machine-learning-models

适合打印版本
登录发表评论
54 次浏览

发布日期

星期三, 一月 24, 2024 - 22:28

最后修改

星期三, 一月 24, 2024 - 22:37

【机器学习】机器学习模型的训练、测试和评估

模特培训

拆分数据集

超参数调整

批量规范化

模型评估和测试

混淆矩阵

精度/准确度

Tags

最新内容

Content type

Content type

Tags

Tags

Tags