【数据分析】数据分析中使用的4种模拟模型

视频号

微信公众号

知识星球

Chinese, Simplified

将不同类型的模拟模型与预测分析相结合,使组织能够预测事件并提高数据驱动决策的准确性。

随着组织深入研究预测分析和数据驱动决策,模拟模型正在寻找新的用途。

大多数数据分析技术都是从赌博游戏开始的。例如,你可能想确定用三个六面骰子(二项式或正态分布的基础)总共掷14个骰子的可能性,或者知道你在轮盘赌或扑克中的赔率。这种游戏本质上是模拟,数据分析师的目标是创建一个简化的模型来确定复杂系统的行为。

这种模拟已经成为解决生物学、物理学、经济学和其他具有许多相互作用组件的领域中复杂现实世界问题的唯一方法。数据分析专业人员应该了解以下四种类型的模拟模型:

  • 蒙特卡罗方法。
  • 基于Agent的建模。
  • 离散事件模拟。
  • 系统动态建模。

这四种类型的模拟模型是大量游戏、视觉和音频合成技术、机器学习算法、处理内核和控制器系统的基础。模拟可以在组织做出决策或设计之前对系统进行虚拟测试。

蒙特卡罗方法(Monte Carlo method)

在许多模拟中,很难确定所选择的变量和来自这些变量的数据分布是否代表所讨论的模型。蒙特卡洛这个名字来源于轮盘赌,这是一种在蒙特卡洛度假胜地出名的游戏。轮盘有37个编号为0到36的插槽,其中有18个红色插槽、18个黑色插槽和一个绿色插槽。玩家有48.65%的机会获得红色与黑色插槽,2.7%的机会获得绿色插槽(0)。这三种机会代表一种分布。

任何单独的旋转都会产生一个随机值。重复相同的过程1000次或更多次,结果的分布应遵循这些百分比。如果没有,其他变量可能也在起作用,比如肆无忌惮的经销商用来减速的踏板。

蒙特卡罗方法最古老的例子之一是用来计算π的值。这可能需要数百万个数据点才能实现,这指出了蒙特卡洛模拟的局限性:它们通常没有那么有效。

这种模拟通常与贝叶斯分析一起使用,贝叶斯分析依赖于先前的发现来确定事件发生的可能性。政治分析家经常使用这种技术,即民意调查生成一组变量,然后可以将这些变量聚合起来创建一个模型,并使用蒙特卡洛方法来测试模型。例如,天气事件的集合建模也使用蒙特卡洛来确定飓风的可能路径。

基于Agent的建模

任何看过鸟群起飞的人都会看到,看似随机的初始行为被同步的活动所取代,即使没有一只鸟控制它们的活动,它们也会以不同的队形飞行。飞行中的鸟类已经制定了简单的规则,根据它们周围的景象告诉它们该做什么。每只鸟在飞行时都会避开障碍物,并根据周围鸟类的位置实时调整位置。

在系统动力学中,这些鸟是代理,它们所做的动作是紧急行为。这些行为是对基于其他代理行为的离散规则集的反应。识别这些规则的过程称为基于代理的建模。

代理系统在20世纪60年代被研究为控制论最早的例子之一,至今仍具有重要意义。例如,典型繁忙高速公路上的交通很难通过计算机进行建模。相反,许多建模师将每辆车模拟为一个代理,该代理通常遵循一组规则,但会定期出现问题,以查看汽车在总体上的行为。

代理系统也用于物联网设备和无人机。这些设备不依赖于通过中央处理器协调活动,中央处理器通过复杂的处理产生延迟和瓶颈。相反,他们会对最近的邻居做出反应。只有当他们得到不明确的信息时,他们才会与中央控制器联系,或者如果他们不能与邻居或中央控制器互动,他们就会将自己置于安全模式。

这种交互场景是代理系统的缺点。少数代理之间的中断或类似中断可能会迅速传播。这一现象导致了难以恢复的大停电,因为这一事件(一切都离线)的原因是自主发电站的紧急行为。在重新启动的过程中,导致停机的问题可能会在没有说明原因的情况下得到解决。

可以用软件对象代替硬件对象来模拟代理系统。例如,细胞生物学很适合基于代理的建模,因为细胞行为往往会影响附近不同类型的细胞。

离散事件模拟

与代理系统相关的是细胞自动机的概念,詹姆斯·康威在20世纪70年代的《生命的游戏》中成名,后来由Mathematica的斯蒂芬·沃尔夫拉姆成名。这两种技术都支持图像处理和机器学习中使用的转换滤波器和内核。

这样的系统是离散事件模拟的例子。在这些模拟中,时间被分解为不同的步骤或块,而不是连续的,每个步骤的模型状态,然后是前一步骤的模型函数。

在这些模拟中,稳定或准稳定的组件在没有显式编程的情况下出现。

数据分析师在邻近性决定网格状态或空间的区域使用离散事件模拟。例如,大多数天气建模系统都利用体素(三维单元)来根据以前的状态确定每个单元的输入和输出。理论上,用于描述地图的网格越细,结果就越准确。需要对模型进行修正,以考虑网格的形状(或拓扑)。三角形或六边形网格比矩形网格更准确。

系统动态建模

在理想的数学世界中,应该可以用独立的函数来描述世界,这意味着它们可以被视为线性的。事实上,描述系统的大多数变量都是相互耦合的——改变一个变量的值可能会因为它们的相互作用而改变另一个变量。这些是由微分方程导出的非线性系统。

通过计算,我们可以用差分方程对这些方程进行数值求解。差分方程使用离散数学来寻找特定的解,然后通过建立解的集合来进行广义化。

这种系统的一个很好的例子是捕食者-猎物模拟。在最简单的情况下,有猎物,猎物的数量会增加,直到食物耗尽。在这一点上,猎物数量下降到可以恢复食物供应的水平。然而,再加上一个捕食者,事情就会变得更加复杂。猎物现在与两个变量耦合:食物供应和杀死猎物的捕食者数量。这三个物种的种群都变得非线性,有些不可预测,甚至混乱。这些方程被称为李雅普诺夫方程,也描述了许多经济模型以及流体和气流动力学方程。

系统动力学建模(SDM)研究混沌系统。它依赖于离散事件模拟和数值方法来确定系统中组件的行为。除了李雅普诺夫解,SDM还用于高密度粒子模拟——例如,基于作用在理想化版本恒星上的力来建模星系的行为。混沌系统产生了分形,分形是一种分数维,通常与迭代、递归结构和新兴行为有关。

本文地址
https://architect.pub
SEO Title
4 types of simulation models used in data analytics