【数据分析】预测建模：历史、类型、应用

视频号

微信公众号

知识星球

语言 Chinese, Simplified

什么是预测建模？

预测建模使用已知结果来创建、处理和验证可用于预测未来结果的模型。它是一种用于预测分析的工具，这是一种数据挖掘技术，试图回答“未来会发生什么？”

关键要点

预测建模使用已知结果来创建、处理和验证可用于进行未来预测的模型。
回归和神经网络是两种应用最广泛的预测建模技术。
公司可以使用预测建模来预测事件、客户行为以及金融、经济和市场风险。

了解预测建模

通过分析历史事件，公司可以使用预测建模来增加预测事件、客户行为以及金融、经济和市场风险的概率。

快速的数字产品迁移为企业创造了大量现成的数据。公司利用大数据来改善客户与企业关系的动态。这些海量的实时数据来自社交媒体、互联网浏览历史、手机数据和云计算平台。

然而，数据通常是非结构化的，而且过于复杂，人类无法快速分析。由于数据量巨大，公司通常通过计算机软件程序使用预测建模工具。这些程序处理大量的历史数据，以评估和识别其中的模式。从那里，该模型可以提供历史记录，并评估哪些行为或事件可能再次发生或在未来发生。

财务分析师可以使用预测建模，根据建模财务数据的量化特征来估计投资结果。

预测建模的历史

只要人们有信息、数据和使用它来查看可能结果的方法，预测建模就很可能被使用。现代预测建模据说始于20世纪40年代，当时政府使用早期的计算机来分析天气数据。在接下来的几十年里，随着软件和硬件功能的增强，大量数据变得可存储，更容易访问以进行分析。

互联网及其连接允许任何有权访问的人收集、共享和分析大量数据。因此，建模已经发展到几乎涵盖商业和金融的所有方面。例如，公司在创建营销活动时使用预测模型来衡量客户的反应，财务分析师则使用它来估计股市的趋势和事件。

预测建模的类型

几种不同类型的预测建模可用于分析大多数数据集，以揭示对未来事件的见解。

分类模型

分类模型使用机器学习根据用户设置的标准将数据放入类别或类中。有几种类型的分类算法，其中一些是：

逻辑回归：对事件发生的估计，通常是二元分类，如是或否。
决策树：将一系列的是/否、如果/其他或其他二进制结果放入称为决策树的可视化中。
随机森林：一种使用分类和回归结合不相关决策树的算法。
神经网络：机器学习模型，用于审查大量数据，以寻找只有在审查了数百万个数据点后才会出现的相关性。
朴素贝叶斯：一个基于贝叶斯定理的建模系统，用于确定条件概率。

聚类模型

聚类是一种对数据点进行分组的技术。分析人士认为，相似组中的数据应该具有相同的特征，而不同组中的资料应该具有非常不同的性质。一些流行的聚类算法包括：

K-Means:K-Means是一种建模技术，使用组来识别不同数据组的中心趋势。
均值偏移：在均值偏移建模中，算法会偏移一组的均值，从而识别“气泡”或密度函数的最大值。当在图形上绘制点时，数据似乎是围绕称为质心的中心点分组的。
基于密度的带噪声空间聚类（DBSCAN）：DBSCAN是一种基于数据点之间建立的距离将数据点分组在一起的算法。该模型建立不同组之间的关系并识别异常值。

异常值模型

数据集总是有异常值（正常值之外的值）。例如，如果你有数字21、32、46、28、37和299，你可以看到前五个数字有些相似，但299与其他数字相差太远。因此，它被认为是一个异常值。用于识别异常值的一些算法包括：

隔离林：一种检测样本中少数不同数据点的算法。
最小协方差行列式（MCD）：协方差是两个变量之间变化的关系。MCD测量数据集的平均值和协方差，以最大限度地减少异常值对数据的影响。
局部异常值因子（LOF）：一种识别最近相邻数据点并分配分数的算法，允许将距离最远的数据点识别为异常值。

时间序列模型

在其他类型的建模之前，时间序列建模通常使用历史数据来预测事件。一些常见的时间序列模型包括：

ARIMA：自回归综合移动平均模型使用自回归、积分（观测值之间的差异）和移动平均值来预测趋势或结果。
移动平均线：移动平均线使用特定时期的平均值，如50或200天，可以消除波动。

预测建模的应用

预测分析使用预测因子或已知特征来创建模型以获得输出。预测建模的使用方式有数百种，甚至数千种。例如，投资者使用它来识别股市或个股的趋势，这些趋势可能表明投资机会或决策点。

投资者使用的最常见的模型之一是投资的移动平均线，它可以平滑价格波动，帮助他们识别特定时期的趋势。此外，自回归用于将投资或指数的过去值与其未来值相关联。

预测建模还帮助投资者识别不同情景的可能结果，从而帮助他们管理风险。例如，可以操纵数据来预测如果基本情况发生变化可能发生的情况。投资者可以通过识别可能的结果来制定应对不断变化的市场的策略。

预测建模工具

预测模型也用于人工智能（AI）领域的机器学习和深度学习等神经网络。神经网络的灵感来源于人类大脑，由分层的互连节点组成，代表着人工智能的基础。神经网络的力量在于它们处理非线性数据关系的能力。他们能够在变量之间创建关系和模式，这对人类分析师来说是不可能的，或者太耗时了。

金融公司使用的其他预测建模技术包括决策树、时间序列数据挖掘和贝叶斯分析。通过预测建模措施利用大数据的公司可以更好地了解其客户如何参与其产品，并可以识别公司的潜在风险和机遇。

预测建模的优点和缺点

优点

易于生成可操作的见解
可以测试不同的场景
提高决策速度

缺点

计算可能无法解释
人为输入造成的偏差
高学习曲线

优势说明

易于生成可操作的见解：预测建模使您能够查看有关数据的信息，而这些信息在其他情况下可能看不到，使您能够做出更明智的决策。
可以测试不同的场景：可以操纵或更改数据来测试各种场景，以评估更改可能对数据和模型产生的影响。
提高决策速度：决策可以更快地做出，因为数百万个数据点可以更快地分析，未来的趋势或情况可以在几分钟或几小时内理论化。

缺点说明

计算可能是不可解释的：一旦你创建了一个预测模型，你可能就无法解释结果。
人为输入造成的偏差：建模中引入偏差是因为人类参与设置参数和标准。
高学习曲线：学习创建预测模型和/或解释结果可能是一个漫长的过程，因为你必须理解统计数据，学习术语，甚至可能学习用Python或R编写代码。

什么是预测建模算法？

算法是一组用于操作数据或执行计算的指令。预测建模算法是执行预测建模任务的指令集。

预测建模中最大的假设是什么？

预测建模中最重要的假设是，未来的数据和趋势将遵循过去的情况。

什么是医疗保健中的预测建模示例？

预测建模可以用于许多目的，尤其是在医疗保险中。例如，它可以帮助保险公司根据特定客户的健康、生活方式、年龄和其他情况计算他们的成本。

底线

预测建模是由计算机和软件根据操作员的输入对数据进行的统计分析。它用于为从中收集数据的实体生成未来可能的场景。

它可以用于收集数据的任何行业、企业或努力。重要的是要理解预测建模是基于历史数据的估计。这意味着它不是万无一失的，也不是对给定结果的保证——它最好用于权衡选择和做出决定。

本文地址

https://architect.pub/predictive-modeling-history-types-applications

57 次浏览

SEO Title

Predictive Modeling: History, Types, Applications