【数据建模】数据建模速成课程

视频号

微信公众号

知识星球

语言 Chinese, Simplified

数据建模是一门成熟的学科，在每一项数据倡议中仍然至关重要。本文的目标是在一次阅读中提供简短但有效的基本数据建模概念和技术。由于我不想“重新发明轮子”，我想我可以利用ChatGPT的一点帮助来加快这个过程，这是值得的。希望你会发现它很有用。

Illustration by author

数据模型摘要

数据模型是数据库或系统中使用的数据结构和关系的表示。它提供了一种以逻辑和有意义的方式组织和结构数据的方法，使其更易于理解和使用。数据模型可用于设计、实现和维护数据库，并支持业务流程和决策。

有几种类型的数据模型，包括：

概念数据模型：这种类型的模型提供了数据及其关系的高级视图。它用于定义数据的整体结构，并识别主要实体及其属性。
逻辑数据模型：这种类型的模型提供了数据及其关系的详细视图。它根据实体、属性和关系来定义数据的结构。它还定义了应用于数据的完整性约束和业务规则。值得注意的是，逻辑数据模型是物理数据模型的基础，也是创建物理数据模型。逻辑数据模型用于定义数据需求，然后将其转换为在特定技术中实现的物理数据模型。
物理数据模型：这种类型的模型提供了数据物理存储的详细视图，包括数据库设计、数据类型和索引。它用于实现逻辑数据模型并优化数据库的性能。从逻辑数据模型到物理数据模型的转换涉及逻辑模型中的实体和关系到物理模型中的特定结构和约束的转换。

数据建模是一个迭代过程，根据业务需求和利益相关者的反馈迭代和完善模型很重要。验证数据模型并根据实际数据对其进行测试也很重要。

数据建模是数据库或应用程序设计和开发的关键步骤，因为它可以确保数据以支持业务需求和决策的方式进行组织和结构化。

逻辑数据模型实体类型

在逻辑数据模型中，实体是表示真实世界对象或概念的基本构建块。逻辑数据模型中可以使用几种类型的实体，包括：

强实体：具有唯一标识符并且可以在现实世界中独立存在的实体。例如，客户或订单。
弱实体：没有唯一标识符并且依赖于与强实体的关系而存在的实体。例如，发票行项目或采购订单详细信息。
关联实体：表示两个或多个其他实体之间关系的实体。例如，客户订单关系或产品供应商关系。

这些类型的实体可以组合使用来表示系统中的不同对象和关系，并用于表示系统中不同的对象和关系。

逻辑数据模型实体关系类型

在逻辑数据模型中，实体之间的关系用于定义数据模型中的不同实体如何相互关联。逻辑数据模型中可以使用几种类型的关系：

一对一：一对一关系是一个实体的单个实例与另一个实体中的单个实例相关的关系。例如，一个客户可以有一个帐户。
一对多：一对多关系是一个实体的单个实例与另一实体的多个实例相关的关系。例如，一个客户可以有多个订单。
多对多：多对多关系是一个实体的多个实例与另一个实体多个实例相关的关系。例如，多个客户可以为同一产品下订单。
超类型子类型：超类型-子类型关系是指一般实体（超类型）与特定实体（子类型）相关的关系。例如，Employee实体可以是全职员工和兼职员工实体的超类型。
递归关系：递归关系是指实体与自身相关的关系。例如，经理-员工关系，其中一名员工也可以是其他员工的经理。
关联关系：关联关系是一种描述两个实体之间没有显式基数的关系的关系。

这些不同类型的关系可以组合使用来创建逻辑数据模型，该模型准确地表示数据中不同实体之间的关系，并可用于支持组织的各种业务需求。

数据模型键

在数据模型中，键用于唯一标识表中的记录，并在表之间建立关系。有几种类型的密钥可以使用，包括：

主键：主键是表中记录的唯一标识符。对于每个记录，它必须是唯一的，并且不能为null。例如，客户表可能有一个主键“customer_id”，其中每个客户都被分配了一个唯一的id。
外键：外键是指表中引用另一个表的主键的字段。它用于在两个表之间建立链接，并确保引用的完整性。例如，订单表可能有一个外键“customer_id”，它引用了客户表的主键。
备用键：备用密钥是表中记录的唯一标识符，可以用作主键的替代。当一个记录有多个唯一标识符时，就会使用它。例如，除了主键“product_id”之外，产品表可能还有一个备用键“product_code”。
代理键：代理密钥是表中与数据的自然属性无关的记录的唯一标识符。它是在没有自然主键的情况下使用的。例如，Employee表可能有一个代理关键字“Employee_number”，这是分配给每个员工的唯一标识符。

为表选择正确的键很重要，因为这将影响数据的组织方式以及查询和访问数据的方式。主键和外键用于建立表之间的关系，而备用键和代理键用于唯一标识表中的记录。

逻辑数据模型基数

在逻辑数据模型中，关系基数表示一个实体每次出现另一个实体的次数。有几种类型的关系基数，包括：

一对一（1:1）：实体A的一次出现与实体B的一次且仅一次出现有关，反之亦然。例如，护照和一个人，一个人可以有一本护照，一本护照可以分配给一个人。
一对多（1:N）：实体A的一次出现与实体B的多次出现有关，但实体B的每次出现都与实体A的唯一一次出现有关。例如，一个客户和一个订单，一个顾客可以有多个订单，但一个订单只能分配给一个客户。
多对多（M:N）：实体A的多次出现与实体B的多次出现有关，反之亦然。例如，一个学生和一门课程，一个孩子可以参加许多课程，一门课程可以有许多学生。
零比一（0:1）：实体A的零或一次出现与实体B的一次且仅一次出现有关，反之亦然。例如，员工和经理，员工可能有经理，但经理可能没有员工。
零对多（0:N）：实体A的零次或一次出现与实体B的多次出现有关，但实体B的每次出现都与实体A的0次或一个出现有关。例如，一个公司和一个分支机构，一家公司可以有许多分支机构，但一个分公司必须只有一家公司

正确定义逻辑数据模型中实体之间关系的基数很重要，因为这将影响数据的组织方式以及如何在物理数据模型中查询和访问数据。

数据建模范式

规范化是数据建模中使用的一个过程，用于根据数据的逻辑关系将数据组织到单独的表中。数据模型的正常形式是指已经达到的标准化水平。有几种常用形式可以应用于数据模型，包括：

第一范式（1NF）：这是最基本的规范化级别。它要求每个表都有一个主键，并且所有数据都是原子数据，这意味着每个列只包含一个值，并且没有重复的数据组。
第二范式（2NF）：除了满足1NF的要求外，2NF中的表不能有任何部分依赖关系。部分依赖关系是指非主键列仅依赖于主键的一部分。
第三范式（3NF）：除了满足2NF的要求外，3NF中的表不能有任何传递依赖关系。传递依赖关系是指非主键列依赖于另一个非主键列。
博伊斯-科德正态（BCNF）：这是比3NF更高级别的归一化。除了满足3NF的要求外，BCNF中的表不能有任何非平凡的功能依赖关系。非平凡的函数依赖关系是指非主键列依赖于整个主键。
第四范式（4NF）和第五范式（5NF）也存在，但没有被广泛使用。

规范化的目标是最大限度地减少数据冗余，提高数据模型的完整性和可维护性。然而，重要的是要平衡规范化的好处与数据模型的性能和复杂性。在某些情况下，可能需要对数据模型进行反规范化，以提高性能或支持特定的业务需求。

数据建模方法

归一化数据模型：

归一化数据模型基于数据库归一化原则，旨在消除数据冗余，提高数据完整性。这种方法包括将数据模型分解为多个相关的表，每个表包含一组特定的数据。这允许消除数据冗余，并使维护数据完整性变得更容易。规范化模型非常适合数据相对稳定且数据具有高度一致性的环境。

优点：

它可以提高数据的完整性和一致性
与非规范化或数据保管库模型相比，它所需的磁盘空间更少
它适用于只读和报告用途

缺点：

它的灵活性和适应性可能会降低
处理大量数据可能很困难
它不太适合集成来自多个来源的数据
处理数据之间的复杂关系可能很困难

非规范化数据模型：

非规范化的数据模型是一种类似于规范化模型的数据建模形式，但较少强调规范化原则。这种方法的特点是跨多个表存储冗余数据，通常用于性能是主要问题的情况，例如在数据仓库或报告场景中。

优点：

它可以通过减少所需的联接数量来提高查询性能
它可以简化数据模型，使其更易于理解
它非常适合阅读量大和报告场景

缺点：

它可以增加数据冗余和复杂性
它会使维护数据完整性和一致性变得更加困难
处理数据之间的复杂关系可能很困难
它需要比标准化模型更多的磁盘空间

Data Vault：

Data Vault建模是一种专注于以灵活且可适应变化的方式对数据进行建模的方法。它使用集线器和轮辐结构，其中集线器表示给定数据段的中心事实点，轮辐表示该数据的不同版本或表示。这种方法非常适合需要集成来自多个源的数据，并且模式可能会随着时间的推移而变化的环境。

优点：

它非常灵活，能够适应变化
它可以处理大量数据
它非常适合集成来自多个来源的数据
它可以处理数据之间的复杂关系
它可以支持历史数据和当前数据

缺点：

实施起来可能很复杂
设计和维护需要专业培训
它需要比标准化模型更多的磁盘空间

维度模型：

维度建模是一种用于数据仓库和商业智能的数据建模技术。它以星形或雪花型模式为特征，其中一个中心事实表连接到多个维度表。事实表包含定量数据，维度表包含描述性数据。维度模型旨在支持数据的高效查询和报告。

优点：

它简单易懂
它针对查询和报告进行了优化
它允许有效地聚合数据

缺点：

它的灵活性和适应性可能会降低
处理数据之间的复杂关系可能很困难
它可能不太适合事务系统

索引

索引用于数据建模，以提高数据库操作（如搜索和排序）的性能。索引是一种单独的数据结构，用于存储特定列中的值到表中相应行位置的映射。有几种类型的索引可用于数据建模：

主键索引：主键索引是为表定义主键时自动创建的索引。它用于确保主键值的唯一性，并提供一种快速定位表中特定行的方法。
唯一索引：唯一索引是在非主键列上创建的索引，但用于确保该列中值的唯一性。
聚集索引：聚集索引是一种确定表中数据的物理顺序的索引。每个表只能有一个聚集索引，而且它通常是在主键上创建的。
非聚集索引：非聚集索引是一种索引，它提供了一种快速定位表中特定行的方法，但不会影响数据的物理顺序。可以在一个表上创建多个非聚集索引。
复合索引：在多列上创建的索引称为复合索引。
覆盖索引：包含执行查询所需的所有列的索引称为覆盖索引。

可以在表中的一个或多个列上创建索引，这些索引可用于提高基于索引列筛选或排序数据的查询的性能。然而，重要的是要平衡索引的好处和维护它们的成本，因为它们可能会消耗额外的存储空间，并会减慢数据修改操作。

数据库约束

数据库约束是由数据库管理系统强制执行的规则，以确保存储在数据库中的数据符合某些条件。这些条件可用于维护数据的完整性和一致性。有几种类型的数据库约束，包括：

主键约束：主键是表中每个记录的唯一标识符，不能为null。例如，“customers”表的“id”列上的主键约束将确保每个客户都有一个唯一的id，并且没有任何id为空。
外键约束：外键是指表中引用另一个表的主键的一列或一组列。这在两个表之间创建了一个链接，并用于维护引用的完整性。例如，“order_items”表的“order_id”列上的外键约束将确保每个订单项都与有效的订单相关联。
检查约束：检查约束用于基于布尔表达式验证列中的数据。例如，对“雇员”表的“年龄”列进行检查约束将确保年龄值在18到65之间。
唯一约束：唯一约束可确保一列或一组列中的数据在整个表中是唯一的。例如，对“客户”表的“电子邮件”列的唯一约束将确保没有两个客户具有相同的电子邮件地址。

级联操作是指当用户对父表执行影响相关子表中数据的操作时发生的操作。例如，当用户从父表中删除记录时，子表中的相关记录也将被删除。如果您想将数据保留在子表中，这可能是一个问题，因此可以使用“受限级联”来防止这种级联效应。

例如，假设您有两个表：“orders”和“order_items”。“orders”表在“order_id”列上有一个主键约束，而“order_items”表的“order_id”列上也有一个外键约束，该外键约束引用了“order”表中的“order_id”列。如果您对“order_items”表的外键约束应用限制级联，这意味着如果用户试图从“orders”表中删除订单，数据库管理系统将检查“order_item”表中是否有任何具有相同“order_id”值的记录，并且如果发现任何记录，它将阻止删除操作，以便保留“order_items”表中的数据。

数据建模指导原则

以下是可用于有效管理数据模型的几个指导原则：

了解业务需求：数据模型的设计应支持组织的特定业务需求。重要的是要了解不同利益相关者的数据需求，并与他们密切合作，以确保数据模型满足他们的需求。
保持简单：数据模型应该尽可能简单，具有清晰易懂的结构。这将使维护和更新更加容易，也将使查询和访问数据更加高效。
使用标准约定：数据模型应使用命名、数据类型和关系的标准约定，并且应始终保持一致。这将使其他人更容易理解和使用该模型。
使用规范化（用于逻辑数据模型）：应该对数据模型进行规范化，以最大限度地减少数据冗余并提高数据完整性。
验证数据模型：应根据业务需求验证数据模型，并且应在实现物理数据模型之前识别并解决任何问题或不一致。
保持灵活性：数据模型的设计应具有灵活性和适应性，以便可以轻松地进行修改，以适应业务需求或数据结构的变化。
使用数据建模工具：数据建模工具可以用于创建、管理和验证数据模型，也可以帮助记录模型并使其更具可读性。
保持更新：应定期审查和更新数据模型，以确保其继续满足业务需求，并考虑数据结构或需求的任何变化。

遵循这些原则有助于确保数据模型准确、高效，并符合组织的需求，这将使物理数据模型的实施和维护更加容易，并最终有助于提高数据的质量和完整性。

流行的数据建模工具

ERwin
PowerDesigner
ER/Studio
MagicDraw
MySQL Workbench
Oracle SQL Developer Data Modeler
IBM InfoSphere Data Architect

本文地址

https://architect.pub/data-modeling-crash-course

149 次浏览

数据建模

SEO Title

Data Modeling Crash Course