语言 Chinese, Simplified

SEO Title

Introduction to Apache Cassandra - the “Lamborghini” of the NoSQL World

欢迎阅读我们关于 Apache Cassandra® 的五部分系列的第一篇文章。作为一个无限可扩展的数据库，Cassandra 被广泛认为是 NoSQL 数据库世界的兰博基尼。在这篇文章中，我们将向您介绍 NoSQL 数据库、CAP 定理，并解释 Cassandra 的工作原理。

Apache Cassandra® 是绝大多数财富 100 强公司使用的分布式 NoSQL 数据库。通过帮助 Apple、Facebook 和 Netflix 等公司以可靠、可扩展的方式处理大量快速移动的数据，Cassandra 已成为我们今天所依赖的关键任务功能的关键。

在这篇基于我们介绍 Apache Cassandra 的视频教程的帖子中，我们将：

讨论 NoSQL 数据库以及专用数据库的强大功能
介绍 Cassandra，一个点对点数据库
解释一致性、可用性和分区容限 (CAP) 定理（即分布式系统定律）
演示如何使用表和分区构造数据
分享可以在 GitHub 上完成的动手练习

从 SQL 到 NoSQL：为什么要发明 NoSQL

关系数据库管理系统 (RDBMS) 主导了市场数十年。然后，随着 Apple、Facebook 和 Instagram 等大型科技公司的崛起，全球数据领域在过去十年中飙升了 15 倍。而且，RDBMS 根本没有准备好应对新的数据量，也没有准备好应对新的性能要求。

Graphic showing the growth in the “datasphere”.

Figure 1. Skyrocketing data needs.

NoSQL 的发明不仅是为了应对海量数据，而且也是为了应对速度（速度要求）和多样性（市场上所有不同类型的数据和数据关系）的挑战。

除了像 Cassandra 这样的表格数据库，我们还看到了其他类型的 NoSQL 数据库的兴起，例如：

时间序列数据库（例如 Prometheus）
文档数据库（例如 MongoDB）
图数据库（例如 DataStax Graph）
分类帐数据库（例如 Amazon QLDB）
键/值数据库（例如 Amazon DynamoDB）

是什么让Cassandra 如此强大？

Cassandra 以其大规模的性能而闻名，被认为是 NoSQL 数据库世界的兰博基尼：它本质上是无限可扩展的。没有领导节点，Cassandra 是一个点对点系统。

例如，在 Netflix，Cassandra 在其最活跃的单个集群上运行 3000 万次操作/秒，98% 的流数据存储在 Cassandra 上。 Apple 运行 160,000 多个 Cassandra 实例和数千个集群。

Cassandra 强大的功能有 8 个：

大数据就绪：分布式架构上的分区使数据库能够处理任何大小的数据：PB 级。需要更多音量？添加更多节点。
读写性能：单个节点的性能非常好，但具有多个节点和数据中心的集群将吞吐量提升到一个新的水平。去中心化（无领导架构）意味着每个节点都可以处理任何请求，读取或写入。
线性可扩展性：对容量或速度没有限制，也没有新节点的开销。 Cassandra 可根据您的需求进行扩展。
最高可用性：理论上，由于复制、分散和拓扑感知放置策略，您可以实现 100% 的正常运行时间。
自我修复和自动化：大型集群的操作可能会让人筋疲力尽。 Cassandra 集群减轻了很多麻烦，因为它们很智能——能够自动扩展、更改数据替换和恢复。
地理分布：多数据中心部署赋予了卓越的容灾能力，同时让您的数据靠近您的客户，无论他们身在何处。
平台无关：Cassandra 不受任何平台或服务提供商的约束，它允许您轻松构建混合云和多云解决方案。
独立于供应商：Cassandra 不属于任何商业供应商，而是由非营利性开源 Apache 软件基金会提供，确保开放可用性和持续开发。

Cassandra 是如何工作的？

在 Cassandra 中，所有服务器都是平等的。与传统架构不同，其中有一个用于写入/读取的领导服务器和用于只读的跟随服务器，导致单点故障，Cassandra 的无领导（对等）架构将数据分布在集群内的多个节点（也称为数据中心或环）。

Graphic illustrating Cassandra’s leader-less (peer to peer) architecture distributes data across multiple nodes within clusters.

Figure 2. Apache Cassandra structure.

一个节点代表一个 Cassandra 实例，每个节点存储几 TB 的数据。节点“八卦”或交换有关自身和集群中其他节点的状态信息，以实现数据一致性。当一个节点出现故障时，应用程序会联系另一个节点，确保 100% 的正常运行时间。

在 Cassandra 中，数据被复制。复制因子 (RF) 表示用于存储数据的节点数。如果 RF = 1，则每个分区都存储在一个节点上。如果 RF = 2，则每个分区都存储在两个节点上，依此类推。行业标准是三倍的复制因子，尽管在某些情况下需要使用更多或更少的节点。

有关更详细的说明，请观看我们的 Cassandra 简介教程，以了解数据复制在 Cassandra 上的工作原理。

CAP 定理：Cassandra 是 AP 还是 CP？

著名的“CAP”定理指出，分布式数据库系统在发生故障情况下只能保证这三个特性中的两个：一致性、可用性和分区容错性：

一致性：这意味着“没有陈旧的数据”。查询返回最新的值。如果其中一台服务器返回过时的信息，则您的系统不一致。
可用性：这基本上意味着“正常运行时间”。如果服务器出现故障但仍然给出响应，那么您的系统是可用的。
分区容限：这是分布式系统在“网络分区”中生存的能力。网络分区意味着部分服务器无法到达第二部分。

Venn diagram of how consistency, availability, and partition tolerance intersect to form the CAP Theorem governing databases.

Figure 3. CAP Theorem governing databases.

包括 Cassandra 在内的任何数据库系统都必须保证分区容错性：它必须在数据丢失或系统故障期间继续运行。为了实现分区容错，数据库必须优先考虑一致性而不是可用性“CP”，或者可用性优先于一致性或“AP”。

Cassandra 通常被描述为“AP”系统，这意味着它在确保数据可用性方面犯了错误，即使这意味着牺牲一致性。但这还不是全部。 Cassandra 具有可配置的一致性：您可以设置所需的一致性级别，并根据您的用例将其调整为更多的 AP 或 CP。如果您想更深入地了解，您可以在我们的视频教程中找到更详细的说明。

Cassandra 如何构建和分发数据？

Cassandra 的先天架构可以在数千台服务器上处理和分发大量数据，而不会出现停机。每个 Cassandra 节点甚至每个 Cassandra 驱动程序都知道集群中的数据分配（称为令牌感知），因此您的应用程序几乎可以联系任何服务器并获得快速响应。

Illustration of how Cassandra distributes data across multiple nodes.

Figure 4. Data distribution across multiple nodes.

Cassandra 使用基于键的分区。 Cassandra 数据结构的主要组成部分包括：

Keyspace：数据容器，类似于模式，包含多个表。
表：在分区中存储数据的一组列、主键和行。
分区：一组行以及相同的分区令牌（Cassandra 中的基本访问单元）。
行：表中的单个结构化数据项。

A diagram illustrating the key-based partitioning used in Cassandra’s data structure.

Figure 5. Overall data structure on Cassandra.

Cassandra 将数据存储在分区中，表示跨集群的表中的一组行。每一行都包含一个分区键——一个或多个列，这些列被散列以确定数据如何在集群中的节点之间分布。

为什么要分区？因为这使得缩放变得更加容易！大数据不适合单个服务器。取而代之的是，它被分成很容易分布在数十、数百甚至数千台服务器上的块，如果需要，可以添加更多。

为表设置分区键后，分区器会将分区键中的值转换为令牌（也称为散列），并为每个节点分配一个称为令牌范围的数据范围。

Cassandra 然后通过令牌值自动在集群中分配每一行数据。如果您需要扩大规模，只需添加一个新节点，您的数据就会根据新的令牌范围分配重新分配。另一方面，您也可以轻松缩小规模。

数据架构师需要知道如何在创建数据模型之前创建准确快速地返回查询的分区。一旦为表设置了主键，就无法更改。

相反，您需要创建一个新表并迁移所有新数据。要更好地了解如何创建良好的分区，请观看我们的视频教程以逐步了解真实示例。