【科普】机器学习

语言 Chinese, Simplified

机器学习(ML)是对计算机系统用于执行特定任务的算法和统计模型的科学研究，不需要使用明确的指令，而是依赖于模式和推理。它被视为人工智能的一个子集。机器学习算法建立一个基于样本数据的数学模型，称为“训练数据”，以便在不显式编程执行任务的情况下做出预测或决策。[1][2]:2机器学习算法被广泛应用于电子邮件过滤和计算机视觉等领域，在这些领域，很难或不可行地开发一种传统的算法来有效地执行任务。

机器学习与计算统计学密切相关，计算统计学侧重于使用计算机进行预测。数学优化的研究为机器学习领域提供了方法、理论和应用领域。数据挖掘是机器学习中的一个研究领域，主要通过无监督学习对数据进行探索性分析。在它的跨业务问题的应用中，机器学习也被称为预测分析。

概述

机器学习这个名字是阿瑟·塞缪尔在1959年创造的。[5]汤姆·m·米切尔提供了广泛引用,更正式的定义算法研究机器学习领域:“据说计算机程序从经验中学习E对一些类的任务T和性能测量P T,如果业绩任务以P,改善与体验E .”机器学习所涉及的任务的这个定义提供了一个基本的操作性定义，而不是用认知的术语来定义这个领域。这与阿兰·图灵在他的论文《计算机器与智能》中提出的“机器能思考吗?”的问题相呼应。在图灵的提议中，揭示了思维机器可能具有的各种特征，以及构建思维机器的各种含义。

机器学习任务

支持向量机是一种有监督的学习模型，它将数据分成由线性边界分割的区域。这里，线性边界将黑圈和白圈分开。

机器学习任务可以分为几个大类。在监督学习中，该算法从一组包含输入和期望输出的数据构建数学模型。例如，如果任务是确定一个图像是否包含某个对象，用于监督学习算法的训练数据将包括有该对象和没有该对象的图像(输入)，并且每个图像将有一个标签(输出)来指定它是否包含该对象。在特殊情况下，输入可能只部分可用，或者仅限于特殊反馈。半监督学习算法从不完整的训练数据中开发数学模型，其中部分样本输入没有标签。

分类算法和回归算法是监督学习的两种类型。当输出被限制在一组有限的值时，使用分类算法。对于筛选电子邮件的分类算法，输入将是传入的电子邮件，输出将是将电子邮件归档的文件夹的名称。对于识别垃圾邮件的算法，输出将是“垃圾邮件”或“非垃圾邮件”的预测，由Boolean值true和false表示。回归算法是根据它们的连续输出来命名的，这意味着它们可能在一个范围内具有任何值。连续值的例子是一个对象的温度、长度或价格。

在无监督学习中，该算法从一组只包含输入而不包含期望输出标签的数据构建数学模型。无监督学习算法用于发现数据中的结构，如数据点的分组或聚类。无监督学习可以发现数据中的模式，并可以将输入分组到类别中，就像在特征学习中一样。降维是减少一组数据中“特征”或输入的数量的过程。

主动学习算法根据预算访问有限输入集的所需输出(培训标签)，并优化将获得培训标签的输入的选择。当交互使用时，可以将它们呈现给人类用户进行标记。在动态环境中，增强学习算法以正强化或负强化的形式给出反馈，并应用于自动驾驶汽车或学习与人类对手进行游戏。[2]:3机器学习中的其他专门算法包括主题建模，其中计算机程序被给定一组自然语言文档，并找到其他包含类似主题的文档。在密度估计问题中，机器学习算法可以用来寻找不可观测的概率密度函数。元学习算法根据以前的经验学习它们自己的归纳偏见。在发展型机器人技术中，机器人学习算法产生自己的学习经验序列，也称为课程，通过自我引导的探索和与人类的社会互动，积累新的技能。这些机器人使用主动学习、成熟、运动协同和模仿等引导机制。(需要澄清)

历史和与其他领域的关系

参见:机器学习时间表

美国计算机游戏和人工智能领域的先驱阿瑟·塞缪尔(Arthur Samuel)于1959年在IBM工作时创造了“机器学习”一词。作为一项科学研究，机器学习源于对人工智能的探索。早在人工智能作为一门学术学科的早期，一些研究人员就对让机器从数据中学习产生了兴趣。他们试图用各种符号方法，以及当时被称为“神经网络”的方法来解决这个问题;这些主要是感知器和其他模型，后来发现是对统计的广义线性模型的重新发明。采用了[9]概率推理，特别是在自动医疗诊断中。[10]:488

然而，对逻辑的、基于知识的方法的日益重视，导致了人工智能和机器学习之间的裂痕。概率系统一直受到数据采集和表示的理论和实际问题的困扰。[10]:488到1980年，专家系统开始主导人工智能，统计数据不再受欢迎。[11]关于符号/基于知识的学习的工作在人工智能中继续进行，导致了归纳逻辑编程，但是更多的统计线研究现在已经超出了人工智能本身的领域，即模式识别和信息检索。大约在同一时期，人工智能和计算机科学放弃了对神经网络的研究。这条线也被其他学科的研究人员，包括Hopfield, Rumelhart和Hinton，在AI/CS领域之外，作为“连接主义”继续延伸。他们的主要成功是在20世纪80年代中期，随着反向传播的重新发明

机器学习，作为一个独立的领域重组，在20世纪90年代开始蓬勃发展。该领域的目标从实现人工智能转变为解决具有实用性的可解决问题。它将注意力从从人工智能继承的符号方法转移到从统计学和概率论借鉴的方法和模型上。[11]资讯科技署亦受惠于数码资讯的日益普及，以及透过互联网分发资讯的能力。

与数据挖掘的关系

机器学习和数据挖掘通常采用相同的方法和大幅重叠,但是当机器学习关注预测,基于已知的属性从训练数据,数据挖掘的重点是发现先前未知的属性数据(这是数据库中知识发现)的分析步骤。数据挖掘使用多种机器学习方法，但目标不同;另一方面，机器学习也使用数据挖掘方法作为“无监督学习”或作为预处理步骤来提高学习者的准确性。混淆这两个研究社区的(经常有单独的会议和单独的期刊,ECML PKDD成为一个主要例外)来自他们的工作基本假设:在机器学习中,性能评价通常是对已知的繁殖能力的知识,在知识发现和数据挖掘(KDD)的主要任务是发现未知的知识。对已知知识进行评价时，一种不知情(无监督)方法很容易被其他监督方法超越，而在典型的KDD任务中，由于训练数据的不可用，无法使用监督方法。

关系优化

机器学习与优化也有密切的联系:许多学习问题被表述为在一组训练示例上最小化一些损失函数。损失函数表示被训练的模型的预测与实际问题实例之间的差异(例如，在分类中，希望为实例分配一个标签，而模型被训练来正确预测一组示例的预先分配的标签)。这两个领域的不同之处在于泛化的目标:优化算法可以使训练集上的损失最小化，而机器学习则是将不可见样本上的损失最小化

理论

主要文章:计算学习理论和统计学习理论

学习者的一个核心目标是总结经验。[2][17]概括在这种情况下是一个学习机器的能力进行准确的新,看不见的例子/任务后经历了学习的训练示例数据集。通常来自一些未知的概率分布(被认为是代表出现的空间)和学习者必须建立一个一般模型关于这个空间,使它在新情况下产生足够准确的预测。

机器学习算法及其性能的计算分析是计算机理论的一个分支，被称为计算学习理论。由于训练集是有限的，未来是不确定的，学习理论通常不能保证算法的性能。相反，性能的概率界限非常常见。偏方差分解是量化泛化误差的一种方法。

为了在泛化上下文中获得最佳性能，假设的复杂性应该与数据下的函数的复杂性相匹配。如果假设没有函数那么复杂，则模型对数据的拟合不足。如果模型的复杂度随响应增加而增加，则训练误差减小。但如果假设过于复杂，则模型容易出现过度拟合，泛化效果较差

学习理论家除了研究学习的性能界限外，还研究学习的时间复杂度和可行性。在计算学习理论中，如果计算可以在多项式时间内完成，则计算是可行的。有两种时间复杂度结果。正结果表明，一类函数可以在多项式时间内学习。负结果表明，某些类不能在多项式时间内学习。

方法

学习算法的类型

机器学习算法的类型在它们的方法、它们输入和输出的数据类型以及它们打算解决的任务或问题的类型上有所不同。

监督式学习

主要文章:监督学习

监督学习算法建立一组数据的数学模型，其中包含输入和期望的输出。该数据称为训练数据，由一组训练示例组成。每个训练示例都有一个或多个输入和期望的输出，也称为监视信号。在数学模型中，每个训练实例由一个数组或向量表示，有时称为特征向量，训练数据由一个矩阵表示。通过目标函数的迭代优化，监督学习算法学习一个函数，该函数可用于预测与新输入相关的输出。一个最优函数将允许算法正确地确定不属于训练数据一部分的输入的输出。随着时间的推移，一种提高其输出或预测准确性的算法据说已经学会了执行这项任务

监督学习算法包括分类和回归。当输出被限制在一个有限的值集时，使用[21]分类算法;当输出在一个范围内可以有任何数值时，使用回归算法。相似性学习是监督机器学习的一个领域，与回归和分类密切相关，但目标是通过使用相似性函数从示例中学习，该函数度量两个对象的相似性或相关性。它在排名、推荐系统、视觉识别跟踪、人脸验证和说话人验证等方面都有应用。

在半监督学习算法中，一些训练实例缺少训练标签，但仍然可以用来提高模型的质量。在弱监督学习中，训练标签是噪声的、有限的或不精确的;然而，这些标签通常更便宜，导致更大的有效培训集

无监督学习

主要文章:无监督学习

参见:聚类分析

无监督学习算法采用一组只包含输入的数据，在数据中找到结构，比如对数据点进行分组或聚类。因此，这些算法从没有标记、分类或分类的测试数据中学习。非监督学习算法不响应反馈，而是识别数据中的共性，并根据每个新数据中是否存在这些共性做出反应。无监督学习的一个核心应用是在统计的密度估计领域，[23]虽然无监督学习包含了其他领域，包括总结和解释数据特征。

聚类分析是将一组观测值分配到子集(称为聚类)中，使同一聚类中的观测值根据一个或多个预先指定的标准相似，而来自不同聚类的观测值不同。不同的聚类技术对数据的结构做出不同的假设，通常由一些相似度度量来定义和评估，例如，通过内部紧密度，或相同集群成员之间的相似性，以及集群之间的差异。其他方法基于估计的密度和图的连通性。

强化学习

主要文章:强化学习

强化学习是机器学习的一个领域，它关注的是软件代理如何在环境中采取行动，从而最大化累积奖励的概念。由于其通用性，该领域的研究涉及博弈论、控制理论、运筹学、信息论、基于仿真的优化、多智能体系统、群体智能、统计和遗传算法等多个学科。在机器学习中，环境通常表示为马尔可夫决策过程(MDP)。许多增强学习算法使用动态规划技术。[24]强化学习算法不假设MDP的精确数学模型的知识，而是在精确模型不可行的情况下使用。强化学习算法用于自动驾驶汽车或学习与人类对手进行游戏。

Feature学习

主要文章:特征学习

几种学习算法的目的是发现更好地表示训练期间提供的输入。经典的例子包括主成分分析和聚类分析。特征学习算法，也称为表示学习算法，通常试图保存输入的信息，但也以使其有用的方式进行转换，通常作为执行分类或预测之前的预处理步骤。这种技术允许重构来自未知数据生成分布的输入，但不一定忠实于在该分布下不可信的配置。这取代了手工的特性工程，允许机器学习特性并使用它们来执行特定的任务。

特征学习可以是监督的，也可以是非监督的。在监督特征学习中，特征是通过标记输入数据来学习的。例子包括人工神经网络、多层感知器和监督字典学习。在无监督特征学习中，特征是用无标记的输入数据来学习的。例子包括字典学习，独立成分分析，自动编码器，矩阵分解[26]和各种形式的聚类

流形学习算法是在学习表示是低维的约束下进行的。稀疏编码算法试图在学习表示为稀疏的约束下实现这一点，这意味着数学模型有许多零。多线性子空间学习算法的目标是直接从多维数据的张量表示中学习低维表示，而不是将它们重新构造成高维向量。[30]深度学习算法发现多个层次的表示，或一个层次的特征，与高层次，更抽象的特征定义(或产生)较低层次的特征。有人认为，智能机器是一种学习一种表示方法的机器，这种方法能解开解释观测数据变化的潜在因素

特征学习的动机是这样一个事实，即机器学习任务(如分类)通常需要数学上和计算上方便处理的输入。然而，真实世界的数据，如图像、视频和感官数据，并没有屈服于通过算法定义特定特征的尝试。另一种方法是通过检查发现这些特性或表示，而不依赖于显式算法。

稀疏字典学习

主要文章:稀疏字典学习

稀疏字典学习是一种特征学习方法，训练实例用基函数的线性组合表示，假设为稀疏矩阵。该方法具有很强的NP-hard性质，难以近似求解。稀疏字典学习的一种常用启发式方法是K-SVD算法。稀疏字典学习已应用于多种语境中。在分类中，问题是确定一个以前未见过的训练示例属于哪个类。对于已经构建了每个类的字典，一个新的训练示例与对应的字典最稀疏表示的类相关联。稀疏字典学习也被应用于图像去噪。关键思想是一个干净的图像块可以用图像字典稀疏地表示，但是噪声不能

异常检测

主要文章:异常检测

在数据挖掘中，异常检测，也称为离群点检测，是指通过与大多数数据的显著差异来识别引起怀疑的稀有项目、事件或观测结果。通常，异常项表示一个问题，如银行欺诈、结构缺陷、医疗问题或文本中的错误。异常被称为异常值、新奇、噪声、偏差和异常

特别是在滥用和网络入侵检测的背景下，有趣的对象往往不是罕见的对象，而是活动中的突发事件。这种模式不符合将异常值定义为稀有对象的常见统计定义，许多异常值检测方法(尤其是无监督算法)将无法检测到此类数据，除非对其进行了适当的聚合。相反，一个聚类分析算法可能能够检测到这些模式形成的微簇

目前存在三大类异常检测技术。[37]无监督异常检测技术检测未标记测试数据集中的异常，假设数据集中的大多数实例都是正常的，通过寻找实例似乎符合最小剩余的数据集。监督异常检测技术需要一个数据集被贴上“正常”和“不正常”,包括训练一个分类器(其他统计分类问题的关键区别是孤立点检测)的固有的不平衡的性质。半监督异常检测技术从给定的正常训练数据集构建一个表示正常行为的模型，然后测试模型生成测试实例的可能性。

关联规则

主要文章:关联规则学习

参见:归纳逻辑编程

关联规则学习是一种基于规则的机器学习方法，用于发现大型数据库中变量之间的关系。它的目的是识别在数据库中发现的强规则，使用一些度量“兴趣度”的方法

基于规则的机器学习是任何机器学习方法的通称，它识别、学习或演化“规则”来存储、操作或应用知识。基于规则的机器学习算法的定义特征是识别和利用一组关系规则，这些关系规则共同表示系统捕获的知识。这与其他机器学习算法形成了对比，其他机器学习算法通常识别一个奇异模型，该模型可以普遍应用于任何实例，以便做出预测。基于规则的机器学习方法包括学习分类器系统、关联规则学习和人工免疫系统。

基于强大的规则的概念,Rakesh Agrawal,托马斯Imieliński和阿伦阁下介绍关联规则发现规律的产品之间在大规模事务记录的数据在超市销售点(POS)系统。例如，在超市的销售数据中发现的规则{displaystyle \{mathrm {onion,potatoes}} right tarrow \{burger}}}表明，如果顾客同时购买洋葱和土豆，他们也可能购买汉堡肉。这些信息可以作为决定营销活动的基础，如促销定价或产品植入。除了市场篮子分析之外，关联规则目前还应用于Web使用挖掘、入侵检测、持续生产和生物信息学等应用领域。与序列挖掘相反，关联规则学习通常不考虑事务内或事务间项的顺序。

学习分类器系统(LCS)是一组基于规则的机器学习算法，它将发现组件(通常是遗传算法)与学习组件组合在一起，执行监督学习、强化学习或非监督学习。他们试图确定一组上下文相关的规则，这些规则以分段的方式集体存储和应用知识，以便做出预测.

归纳逻辑规划(ILP)是一种使用逻辑规划作为输入示例、背景知识和假设的统一表示的规则学习方法。给定已知背景知识的编码和一组表示为事实逻辑数据库的示例，ILP系统将派生出一个假设的逻辑程序，其中包含所有正面和没有负面示例。归纳式编程是一个相关的领域，它考虑用任何一种编程语言来表示假设(而不仅仅是逻辑编程)，比如函数程序。

归纳逻辑规划在生物信息学和自然语言处理中特别有用。Gordon Plotkin和Ehud Shapiro为逻辑环境下的归纳机器学习奠定了初步的理论基础。[42][43][44] Shapiro在1981年建立了他们的第一个实现(模型推理系统):一个Prolog程序，它从正反两个例子中归纳推理逻辑程序。这里的归纳法是指哲学上的归纳法，它提出一种理论来解释观察到的事实，而不是数学上的归纳法，来证明一个有序集合的所有成员的一个属性。

模型

执行机器学习包括创建一个模型，该模型根据一些训练数据进行训练，然后可以处理额外的数据进行预测。各种类型的模型已被用于机器学习系统的研究。

人工神经网络

主要文章:人工神经网络

参见:深度学习

人工神经网络是一组相互连接的节点，类似于大脑中巨大的神经元网络。这里，每个圆形节点表示一个人工神经元，箭头表示从一个人工神经元的输出到另一个人工神经元的输入的连接。

人工神经网络(ANNs)，或称连接系统，是一种计算系统，模模糊糊地受到构成动物大脑的生物神经网络的启发。这类系统通过考虑实例“学习”执行任务，通常不需要编写任何特定于任务的规则。

人工神经网络是一种基于一系列被称为“人工神经元”的连接单元或节点的模型，这些单元或节点对生物大脑中的神经元进行松散的建模。每一个连接，就像生物大脑中的突触一样，都能将信息，即一个“信号”，从一个人工神经元传递到另一个。一个接收到信号的人工神经元可以处理它，然后向连接到它的其他人工神经元发出信号。在一般的人工神经网络实现中，连接人工神经元的信号是实数，每个人工神经元的输出由其输入和的非线性函数计算。人工神经元之间的连接称为“边缘”。人工神经元和边缘的重量通常会随着学习的进展而调整。重量增加或减少连接时信号的强度。人工神经元可能有一个阈值，只有当聚合信号超过该阈值时才发送信号。通常，人工神经元被聚集成层。不同的层可能对它们的输入执行不同类型的转换。信号从第一层(输入层)传递到最后一层(输出层)，可能经过多次遍历这些层。

人工神经网络方法的最初目标是像人脑一样解决问题。然而，随着时间的推移，注意力转向执行特定的任务，导致偏离生物学。人工神经网络已被用于各种任务，包括计算机视觉、语音识别、机器翻译、社交网络过滤、玩棋盘和视频游戏以及医疗诊断。

深度学习由人工神经网络中的多个隐含层组成。这种方法试图模拟人脑将光和声音处理成视觉和听觉的方式。深度学习的一些成功应用是计算机视觉和语音识别

决策树

主要文章:决策树学习

决策树学习使用决策树作为预测模型，从对项目的观察(在分支中表示)到对项目目标值的结论(在叶子中表示)。它是统计、数据挖掘和机器学习中常用的预测建模方法之一。目标变量可以取一组离散值的树模型称为分类树;在这些树结构中，叶子表示类标签，分支表示导致这些类标签的特征的连接。目标变量可以取连续值(通常是实数)的决策树称为回归树。在决策分析中，决策树可以用来直观、明确地表示决策和决策制定。在数据挖掘中，决策树描述数据，但生成的分类树可以作为决策的输入。

支持向量机

主要文章:支持向量机

支持向量机(svm)又称支持向量网络，是一套用于分类和回归的相关监督学习方法。给出一组训练样本，每个样本都被标记为两类中的一种，SVM训练算法建立一个模型，预测一个新样本是否属于这两类。支持向量机训练算法是一种非概率的、二进制的、线性的分类器，尽管在概率分类设置中存在Platt缩放等方法来使用支持向量机。除了执行线性分类，支持向量机还可以使用所谓的内核技巧有效地执行非线性分类，隐式地将它们的输入映射到高维特征空间。

贝叶斯网络

主要文章:贝叶斯网络

一个简单的贝叶斯网络。雨水影响洒水器是否启动，雨水和洒水器共同影响草地是否湿润。

贝叶斯网络、信念网络或有向无环图模型是一种用有向无环图(DAG)表示一组随机变量及其条件独立性的概率图形模型。例如，贝叶斯网络可以表示疾病和症状之间的概率关系。给定症状，该网络可以用来计算各种疾病出现的概率。有效的算法可以执行推理和学习。贝叶斯网络是一种动态贝叶斯网络，它可以对语音信号或蛋白质序列等变量序列进行建模。能够表示和解决不确定性下决策问题的贝叶斯网络的推广称为影响图。

遗传算法

主要文章:遗传算法

遗传算法(GA)是一种模仿自然选择过程的搜索算法和启发式技术，利用突变和交叉等方法生成新的基因型，希望找到一个给定问题的良好解决方案。在机器学习中，遗传算法在20世纪80年代和90年代被使用。相反，机器学习技术被用来提高遗传和进化算法的性能

训练模型

通常，机器学习模型需要大量的数据才能运行良好。通常，在训练机器学习模型时，需要从训练集中收集大量具有代表性的数据样本。训练集中的数据可以是多种多样的，如文本语料库、图像集合和从服务的单个用户收集的数据。在训练机器学习模型时要注意过度拟合。

联合学习

主要文章:联邦学习

联邦学习是一种训练机器学习模型的新方法，它分散了训练过程，允许通过不需要将用户的数据发送到集中的服务器来维护用户的隐私。这还通过将培训过程分散到许多设备来提高效率。例如，Gboard使用联邦机器学习来训练用户手机上的搜索查询预测模型，而无需将单个搜索返回到谷歌.[51]

应用程序

机器学习有很多应用，包括:

农业

解剖学

自适应网站

情感计算

银行

生物信息学

脑机接口

Cheminformatics

计算机网络

计算机视觉

信用卡欺诈检测

数据质量

DNA序列分类

经济学

金融市场分析

一般的游戏

手写识别

信息检索

保险

网络欺诈检测

语言学

机器学习控制

机器感知

机器翻译

市场营销

医学诊断

自然语言处理

自然语言理解

在线广告

优化

推荐系统

机器人运动

搜索引擎

情绪分析

序列挖掘

软件工程

语音识别

结构健康监测

句法模式识别

电信

定理证明

时间序列预测

用户行为分析

2006年，在线电影公司Netflix举办了首届“Netflix大奖”(Netflix Prize)竞赛，目的是寻找一个程序，更好地预测用户偏好，并将其现有Cinematch电影推荐算法的准确度提高至少10%。一个由AT&T实验室的研究人员组成的联合团队与团队Big Chaos和Pragmatic Theory合作建立了一个集成模型，赢得了2009年的大奖，奖金100万美元。[52]颁奖后不久，Netflix意识到观众的评分并不是他们观看模式的最佳指标(“一切都是推荐”)，于是他们相应地改变了推荐引擎。[53]中国英语学习网2010年，《华尔街日报》(The Wall Street Journal)报道了Rebellion Research公司及其利用机器学习预测金融危机的做法。2012年，Sun Microsystems联合创始人维诺德·科斯拉(Vinod Khosla)预测，未来20年，80%的医生工作将被自动化机器学习医疗诊断软件取代。[55] 2014年，有报道称，机器学习算法已经被应用于艺术史领域来研究美术绘画，这可能揭示了艺术家们之前未被认识到的影响。施普林格Nature在2019年出版了第一本使用机器学习的研究书籍。

限制

尽管机器学习在某些领域已经发生了革命性的变化，但机器学习程序往往无法提供预期的结果。造成这种情况的原因有很多:缺乏(合适的)数据、缺乏对数据的访问、数据偏见、隐私问题、选择不当的任务和算法、错误的工具和人员、缺乏资源以及评估问题。[61]

2018年，优步(Uber)的一辆自动驾驶汽车未能发现一名行人，该行人在碰撞后死亡。[62]即使经过多年的时间和数十亿美元的投资，将机器学习应用于IBM Watson系统的医疗保健尝试也未能成功。[63][64]

偏见

主要文章:算法偏差

机器学习方法尤其会受到不同数据偏差的影响。仅针对当前客户的机器学习系统可能无法预测未在培训数据中表示的新客户组的需求。当机器学习以人造数据为训练对象时，很可能会拾起已经存在于社会中的相同的结构性和无意识偏见。[65]从数据中学习的语言模型已被证明含有类似人类的偏见。【66】【67】用于犯罪风险评估的机器学习系统被发现对黑人有偏见。【68】【69】在2015年，谷歌的照片经常将黑人贴上大猩猩的标签，【70】而在2018年，这一问题仍然没有得到很好的解决，但据报道，谷歌仍在使用这种方法将所有大猩猩从训练数据中移除，因此根本无法识别真正的大猩猩。[71]在其他许多系统中也发现了类似的识别非白人的问题。【72】2016年，微软测试了一款从Twitter学习的聊天机器人，它很快学会了种族主义和性别歧视的语言。[73]由于这些挑战，机器学习的有效使用可能需要更长的时间才能被其他领域采用。[74]包括李飞飞在内的人工智能科学家越来越多地表达了他们对减少机器学习偏见、推动机器学习造福人类的担忧。它受到人们的启发，由人们创造，最重要的是，它影响着人们。这是一个强大的工具，我们才刚刚开始了解，这是一个深刻的责任。”

模型的评估

机器学习分类可以验证模型精度评估技术像抵抗的方法,将训练集和测试集的数据(训练集传统2/3和1/3测试集名称)和评估培训的性能模型在测试集上。相比之下,K-fold-cross-validation方法将数据随机划分为K个子集，每个子集分别考虑1个子集进行评估，其余的K-1子集进行模型训练。除了坚持和交叉验证方法外，bootstrap还可以用来评估模型的准确性，bootstrap从数据集中抽取n个实例进行替换。[76]

除了总体准确性外，研究人员还经常报告敏感性和特异性，分别表示真实阳性率(TPR)和真实阴阳率(TNR)。同样，调查人员有时报告假阳性率(FPR)和假阴性率(FNR)。然而，这些比率并不能揭示它们的分子和分母。总工作特性(TOC)是表达模型诊断能力的一种有效方法。TOC表示前面提到的费率的分子和分母，因此TOC提供的信息比常用的接收机工作特性(ROC)和曲线下ROC相关面积(AUC)更多。[77]

道德

机器学习提出了一系列伦理问题。对带有偏见的数据集进行训练的系统在使用时可能表现出这些偏见(算法偏见)，从而将文化偏见数字化。[78]例如，使用一家实行种族主义招聘政策的公司的招聘数据，可能会导致机器学习系统复制这种偏见，根据应聘者与先前成功应聘者的相似度对他们进行评分。[79][80]负责收集系统使用的算法规则的数据和文档，因此是机器学习的关键部分。

因为语言中含有偏见，训练语言语料库的机器也必然会学习偏见。[81]

与个人偏见无关的其他形式的道德挑战在医疗保健领域更为常见。卫生保健专业人士担心，这些系统可能不是为公众利益而设计的，而是作为产生收入的机器。在美国尤其如此，在那里，改善医疗保健和增加利润是一个永恒的道德难题。例如，这些算法可以被设计为向患者提供不必要的测试或药物，而算法的所有者持有这些测试或药物的股份。机器学习在医疗保健领域有着巨大的潜力，它可以为专业人士提供一个伟大的工具来诊断、治疗，甚至为患者规划康复路径，但这要等到前面提到的个人偏见得到解决，而这些“贪婪”偏见得到解决之后才能实现。【82】