category
数据已成为企业的命脉。为了理解和利用所有这些数据,数据仓库已经成为现代商业的重要组成部分。今天,我们在比较Redshift和Snowflake时继续讨论现代数据仓库,以及集成数据仓库时的一些核心考虑事项。
Snowflake和Redshift:基础
两者都是功能强大的关系型DBMS数据库模型,并且都提供了一些在管理数据方面非常有趣的选项。Redshift作为一个支持云的大规模数据仓库服务提供给我们,可与商业智能工具一起使用。同样,Snowflake为结构化和半结构化数据提供基于云的数据仓库服务。
为了开始区分两者,Amazon Redshift是一个在云中完全管理的、PB级的数据仓库服务。这里最酷的一点是,您可以从几百GB的数据开始,并随着需求的增长扩展到一PB或更多。
Snowflake Computing销售一种基于云的数据存储和分析服务,称为Snowflake 弹性数据仓库。有了这个解决方案,企业用户可以使用基于云的硬件和软件来存储和分析数据。从那里开始,数据存储在Amazon S3中。Snowflake实际上利用了公共云生态系统,而不是像Hadoop这样的技术。
如前所述,这两种解决方案都非常强大,在管理数据方面都提供了一些独特的功能。但是,肯定有区别。有了这个,我们就进去吧。
生态系统与整合
如果你在亚马逊生态系统工作,Redshift 应该在你的列表上。Redshift集成了多种AWS服务,如kinisis Data Firehose、SageMaker、EMR、Glue、DynamoDB、Athena、数据库迁移服务(DMS)、模式转换工具(SCT)、CloudWatch等。
另一方面,你绝对可以在AWS市场上找到具有非常酷的按需的Snowflake。然而,Snowflake没有等效的集成,这使得客户在尝试将其数据仓库与数据湖架构集成时,更难使用诸如Kinisis、Glue、Athena等工具。不过,Snowflake还提供了其他一些有趣的集成点,包括IBM Cognos、Informatica、Power BI、Qlik、Apache Spark、Tableau和其他一些集成点。
这两种选择都提供了广泛的集成,并拥有健康的生态系统合作伙伴。随着Redshift的建立,你会有一点点的腿,但雪花已经来了很长的路。
如果您希望简化数据仓库,Panoply提供了一个智能云数据仓库,其中包含100多个预先构建的数据集成。除此之外,Panoply还通过机器学习优化自动接收并提高查询性能。
考虑到这一点,让我们看看运行这一切需要多少成本。
价格:Redshift Vs Snowflake
在很高的层次上,我们研究了Redshift和Snowflake的定价模型,发现Redshift在按需定价方面通常比Snowflake便宜。此外,与标准的按需收费相比,使用1年和3年保留实例(RI)定价的客户可以获得额外的节省。
也就是说,需要注意的是,像BigQuery、Redshift、Snowflake和Panoply这样的主要数据仓库参与者都有不同的定价模型。许多数据仓库提供按需定价和批量折扣。Redshift和Snowflake提供30%到70%的预付费折扣。
每个节点每小时的Redshift费用,包括计算能力和数据存储。使用Redshift,您可以通过将每小时的价格乘以集群的大小和一个月的小时数来计算每月价格。
Redshift月价格=[每小时价格]x[集群大小]x[每月小时数]
Snowflake为每个虚拟仓库按小时粒度定价,这在很大程度上取决于您的使用模式。由于数据存储与计算仓库分离,因此它是单独计费的。举个例子,以美国为参照,Snowflake的存储成本可以从每月23美元/TB(平均压缩量)开始,每天累积。计算成本为0.00056美元/秒,每学分,他们的Snowflake On Demand Standard Edition。在这一点上,这会让人有点困惑。Snowflake提供了七层不同的计算仓库。最小的集群,X-Small,每小时一个学分,或者每小时2美元。在每个级别上,每小时的学分数加倍。Snowflake提供了一个动态定价模型——当没有查询运行时集群将停止,当查询运行时集群将自动恢复,并且它们可以根据不断变化的工作负载灵活地调整自己的大小。当查询负载减少时,这可能会节省您的钱。
在成本方面,当将Amazon Redshift的2、4和8节点DC2.8XL群集与同等大小的中、大和X大Snowflake配置进行比较时,Redshift比Snowflake On Demand Standard Edition便宜1.3倍。当客户购买一个1年或3年的保留实例(RI)时,Redshift的价格比Snowflake便宜1.9倍和3.7倍。
使用Panoply,您可以根据所需的存储、数据源和支持级别,获得可预测的透明定价。所有计划包括无限的查询和访问实时聊天支持。
安全:Redshift Vs Snowflake
当涉及到数据时,安全是一个重要的基础。我们从新来源创建的所有这些数据都为私有和敏感信息打开了新的漏洞。今天需要安全的数据量和实际安全的数据量之间存在着巨大的差距,而且这种差距将会扩大——这是我们数据驱动世界的现实。
正如IDC指出的,到2025年,全球数据圈中创建的所有数据中,几乎90%都需要某种程度的安全性,但只有不到一半的数据是安全的。
Redshift和Snowflake都非常重视安全。Amazon Redshift 数据库安全不同于其他类型的AmazonRedshift 安全。除了数据库安全之外,Amazon Redshift还提供以下功能来管理安全性:
- 登录凭据-访问您的Amazon Redshift管理控制台由您的AWS帐户权限控制。
- 访问管理-要控制对特定Amazon Redshift资源的访问,可以定义AWS标识和访问管理(IAM)帐户。
- 群集安全组-要授予其他用户对Amazon Redshift群集的入站访问权限,可以定义群集安全组并将其与群集关联。
- VPC-要使用虚拟网络环境保护对集群的访问,可以在Amazon虚拟私有云(VPC)中启动集群。
- 群集加密-要加密所有用户创建的表中的数据,可以在启动群集时启用群集加密。
- SSL连接-要加密SQL客户端和群集之间的连接,可以使用安全套接字层(SSL)加密。
- 加载数据加密-要加密表,请在将数据文件上载到Amazon S3时加载数据文件,可以使用服务器端加密或客户端加密。当您从服务器端加载加密数据时,Amazon S3会透明地处理解密。从客户端加载加密数据时,Amazon Redshift COPY命令在加载表时解密数据。
- 传输中的数据-为了保护您在AWS云中传输的数据,Amazon Redshift使用硬件加速的SSL与Amazon S3或Amazon DynamoDB进行复制、卸载、备份和恢复操作。
另一个需要考虑的关键方面是遵从性。Redshift合规认证的完整列表可以在这里找到。
类似地,Snowflake提供业界领先的功能,确保您的帐户和用户以及存储在Snowflake中的所有数据的最高安全级别。
以下是按类别分组的功能的高级摘要:
- 网络/站点访问-通过IP白名单和黑名单控制的站点访问,通过网络策略管理。Snowflake与其他VPC之间通过AWS PrivateLink进行私人/直接通信。
- 帐户/用户身份验证-MFA(多因素身份验证),用于增强用户访问帐户的安全性。通过联合身份验证支持用户SSO(单点登录)。
- 对象安全-通过DAC(自主访问控制)和RBAC(基于角色的访问控制)的混合模型对帐户中的所有对象(用户、仓库、数据库、表等)进行控制访问。
- 数据安全-所有数据自动加密(使用AES 256强加密)。存储在阶段(用于数据加载/卸载)中的所有文件都会自动加密(使用AES 128标准或256强加密)。加密数据的周期性重新加密。支持使用客户管理的密钥加密数据。
- 安全验证-符合Soc 2 II类。支持HIPAA法规遵从性。PCI DSS合规性。
在处理安全问题时,我唯一要注意的是确保您知道使用的是哪一个Snowflake版本。并非所有这些安全功能在每个版本中都可用。例如,如果要利用安全验证功能并使用HIPAA或PCI DSS,则需要使用Snowflake的企业版敏感数据(ESD)。
数据仓库决策
无论何时处理数据,您的目标都是尽快获得结果。记住,数据是推动业务发展的引擎。一个好的数据仓库平台,简单的设置和操作,将大大提高您的业务竞争力。理想情况下,您总是希望寻找提供自动资源调配、自动备份和容错的平台。从那时起,像Panoply这样的解决方案通过透明定价和24/7聊天支持,自动化和优化数据管理生命周期,为您提供帮助。
在选择合适的平台时,花点时间做适当的研究。如前所述,如果您真的担心法规遵从性,那么您可能会在Redshift上获得更多的操作选项。从那里,知道你需要融入什么。也就是说,您是在利用其他云服务,还是在尝试与数据可视化技术合作?进行试验或PoC是一个很好的开始和测试的方法。另外,它将帮助您了解集成点以及如何管理整个平台。
他们的关键是真正开始。我们今天讨论的内容围绕功能强大的数据仓库系统展开,这些系统是专门为快速、可扩展和帮助您的业务而设计的。从提出正确的问题开始,进行一些研究,并与合作伙伴合作,帮助您导航数据旅程。
讨论:请加入知识星球【首席架构师圈】
最新内容
- 3 days 12 hours ago
- 3 days 14 hours ago
- 3 days 14 hours ago
- 6 days 6 hours ago
- 6 days 13 hours ago
- 6 days 14 hours ago
- 6 days 14 hours ago
- 6 days 14 hours ago
- 1 week 3 days ago
- 1 week 4 days ago