【大数据】75个每个人都应该知道的大数据术语

语言 Chinese, Simplified

在第一篇文章中介绍了以下术语：算法，分析，描述性分析，规定分析，预测分析，批处理，Cassandra，云计算，集群计算，黑暗数据，数据湖，数据挖掘，数据科学家，分布式文件系统，ETL，Hadoop，内存计算，IOT，机器学习，Mapreduce，NoSQL，R，Spark，流处理，结构化。非结构化数据。

现在我们来看看还有50个更大的数据条款。

Apache软件基金会（ASF）提供了许多Big Data开源项目，目前有350多个项目。我可以花一整天的时间来解释这些项目，而不是选择几个热门词汇。

Apache Kafka：以着名的捷克作家命名的卡夫卡用于构建实时数据流水线和流媒体应用。为什么这么受欢迎？因为它能够以容错的方式存储，管理和处理数据流，并据称“快速”。鉴于社交网络环境处理数据流，卡夫卡目前非常受欢迎。

Apache Mahout：Mahout提供了一个用于机器学习和数据挖掘的预制算法库，也是创建更多算法的环境。换句话说，机器学习天堂的天堂环境。机器学习和数据挖掘在我之前提到的文章中有介绍。

Apache Oozie：在任何编程环境中，您需要一些工作流系统来以预定义的方式和定义的依赖关系来安排和运行作业。 Oozie提供了用于编写猪，MapReduce和Hive等语言的大数据工作。

Apache Drill，Apache Impala，Apache Spark SQL

所有这些都提供快速和交互式的SQL，如与Apache Hadoop数据的交互。如果您已经知道SQL并处理以大数据格式存储的数据（即HBase或HDFS），这些功能非常有用。对不起，在这里好奇怪

Apache Hive：知道SQL？那么你和Hive在很好的手中。 Huve有助于使用SQL读取，写入和管理驻留在分布式存储中的大型数据集。

Apache Pig：Pig是在大型分布式数据集上创建查询执行例程的平台。所使用的脚本语言叫做Pig Latin（不，我没有做，相信我）。据说猪很容易理解和学习。但是我的问题是有多少人可以学习？

Apache Sqoop：用于将数据从Hadoop移动到非Hadoop数据存储（如数据仓库和关系数据库）的工具。

Apache Storm：一个免费的开源实时分布式计算系统。它使得使用Hadoop进行批处理的瞬时处理可以更容易地处理非结构化数据。

人工智能（AI） - 为什么AI在这里？这不是一个单独的领域，你可能会问。所有这些趋势技术是如此相关，以便我们更好地保持安静，继续学习，好吗？ AI关于开发智能机器和软件，使硬件和软件的这种组合能够感知环境，并在需要时采取必要的措施，并继续学习这些操作。听起来类似于机器学习？加入我的“困惑”俱乐部

行为分析：曾经想过谷歌如何为您看来需要的产品/服务提供广告？行为分析侧重于了解消费者和应用程序的作用以及它们以某种方式行事的方式和原因。这是关于我们的网络冲浪模式，社交媒体互动，我们的电子商务行动（购物车等）的理解，并连接这些无关的数据点，并尝试预测结果。在一个例子中，我在寻找一家酒店后放弃了一个购物车，接到一个度假村假期线路的电话。需要我说更多吗？

Brontobytes-1，其次是27个零，这是明天数字宇宙的大小。当我们在这里的时候，让我谈谈太字节，太字节，Exabyte，Zetabyte，Yottabyte和Brontobyte。您必须阅读本文以了解有关所有这些术语的更多信息。

商业智能（BI）：我将重用Gartner对BI的定义，因为它做得很好。商业智能（BI）是一个总括术语，包括应用程序，基础设施和工具以及最佳实践，可以访问和分析信息，以改善和优化决策和绩效。

生物识别技术：这就是James Bondish技术与分析技术相结合，通过一种或多种身体特征来识别人，如面部识别，虹膜识别，指纹识别等。

点击流分析：用于分析用户在网络上浏览的在线点击。曾经想过，为什么某些Google广告还会继续关注您，即使是切换网站等？大哥知道你在点击什么

聚类分析是一个探索性分析，试图识别数据中的结构。聚类分析也称为分割分析或分类分析。更具体地说，它试图确定同一组案例，即观察，参与者，受访者。如果分组以前未知，则使用聚类分析来识别病例组。因为它是探索性的，它确实取决于和独立变量之间的区别。 SPSS提供的不同的聚类分析方法可以处理二进制，标称，序数和比例（间隔或比率）数据。

比较分析：在这篇文章中，我将分析更深入的分析，因为大数据的圣杯是分析数据。顾名思义，比较分析是使用诸如模式分析，过滤和决策树分析等统计技术来比较多个进程，数据集或其他对象。我知道它的技术变得越来越少，但我不能完全避免行话。比较分析可用于医疗保健，以比较大量的医疗记录，文件，图像等，以更有效和希望准确的医疗诊断。

连接分析：您必须已经看到这些蜘蛛网络像图表连接主题等，以识别某些主题的影响者。连接分析是帮助您发现网络中人员，产品和系统之间的这些相互关联的连接和影响，甚至组合来自多个网络的数据的分析。

数据分析师：数据分析师是一个非常重要和受欢迎的工作，除了准备报告之外，它还负责收集，操纵和分析数据。我会提出一个关于数据分析师的更详尽的文章。

数据清理：这有点自我解释，它涉及检测和纠正或从数据库中删除不准确的数据或记录。记住“脏数据”？那么，使用手动和自动化工具和算法的组合，数据分析师可以更正和丰富数据来提高其质量。记住，脏数据导致错误的分析和不良决策。

DaaS：您有SaaS，PaaS和现在的DaaS，代表数据即服务。通过向客户提供按需访问云托管数据，DaaS提供商可以帮助快速获得高质量的数据。

数据虚拟化 - 这是数据管理的一种方法，允许应用程序检索和操作数据，而不需要其存储位置及其格式等的技术细节。例如，这是社交网络将我们的照片存储在他们的网络。

脏数据：现在，大数据变得性感，人们只是开始向数据添加形容词来提出新的术语，如暗数据，脏数据，小数据和现在的智能数据。来吧，给我一个休息，脏的数据是不干净的数据，或换句话说，数据不准确，重复和不一致的数据。显然，你不想与脏数据相关联。

模糊逻辑：我们多么确定100％的权利？很稀少。我们的大脑将数据聚合成部分真理，再次被抽象为某种阈值，这将决定我们的反应。模糊逻辑是一种计算，旨在通过消除部分真理来模仿人类的大脑，而不是像“0”和“1”这样的绝对真理，就像布尔代数的其余部分一样。重用于自然语言处理，模糊逻辑也已进入其他数据相关学科。

游戏：在一个典型的游戏中，你有像点数，与他人竞争的元素，以及某些游戏规则等元素。大数据中的游戏化是使用这些概念来收集数据或分析数据或通常激励用户。

图形数据库：图形数据库使用诸如节点和边缘之类的概念代表人物/企业及其相互关系，从社交媒体挖掘数据。曾经想过，亚马逊如何告诉你在购买产品时还会买到什么其他产品？ Yup，Graph数据库！

Hadoop用户体验（Hue）：Hue是一个开源的界面，使Apache Hadoop变得更加容易。它是一个基于Web的应用程序，并且具有用于HDFS的文件浏览器，MapReduce的作业设计器，用于制作协调器和工作流程的Oozie应用程序，Shell，Impala和Hive UI以及一组Hadoop API。

HANA：高性能分析应用程序 - SAP的软件/硬件内存中平台，专为大量数据交易和分析而设计。

HBase：分布式，面向列的数据库。它使用HDFS作为其底层存储，并且使用MapReduce和事务交互来支持批量风格的计算

负载平衡：跨多台计算机或服务器分配工作负载，以实现系统的最佳结果和利用

元数据：“元数据是描述其他数据的数据。元数据汇总了有关数据的基本信息，可以使查找和处理特定数据实例更容易。例如，作者，创建日期和日期修改以及文件大小是非常基本的文档元数据。除文档文件外，元数据也用于图像，视频，电子表格和网页。“来源：TechTarget

MongoDB：MongoDB是一个跨平台的开源数据库，它使用面向文档的数据模型，而不是传统的基于表的关系数据库结构。这种类型的数据库结构旨在使结构化和非结构化数据在某些类型的应用程序中的集成更加容易和快速。

混搭：幸运的是，这个术语对我们在日常生活中了解混搭的定义类似。基本上，mashup是将不同数据集合并为单个应用程序的一种方法（示例：将房地产列表与人口统计数据或地理数据相结合）。这是非常酷的可视化。

多维数据库：针对数据在线分析处理（OLAP）应用程序和数据仓库进行了优化的数据库。如果您想知道数据仓库，它只不过是数据多个数据源的核心存储库。

MultiValue数据库：它们是一种直接了解3维数据的NoSQL和多维数据库。他们很好地直接操作HTML和XML字符串。

自然语言处理：软件算法旨在使计算机能够更准确地了解每天的人类语言，使我们能够更自然和更有效地与他们进行交互。

神经网络：根据http://neuralnetworksanddeeplearning.com/，神经网络是一个美丽的生物学启发的编程范例，使计算机能够从观测数据中学习。有人称之为编程范例“美丽”已经很久了。实质上，人造神经网络是由大脑的现实生物学启发的模型。与神经网络密切相关的是深度学习。深度学习，一套强大的神经网络学习技术。

模式识别：当算法在大数据集或不同的数据集中定位复现或规则时，就会发生模式识别。它紧密相连，甚至被认为是机器学习和数据挖掘的代名词。这种可见性可以帮助研究人员发现洞察力或达成否则将被模糊的结论。

RFID：射频识别;一种使用无线非接触式射频电磁场传输数据的传感器。随着物联网革命，RFID标签可以嵌入到每一个可能的“事物”中，以产生需要分析的巨大数据量。欢迎来到数据世界:-)

SaaS：软件即服务使供应商能够托管应用程序并通过互联网使其可用。 SaaS提供商通过云提供服务。

半结构化数据：半结构化数据是指以常规方式未被捕获或格式化的数据，例如与传统数据库字段或常用数据模型相关联的数据。它也不是原始的或完全非结构化的，并且可能包含一些数据表，标签或其他结构元素。图形和表格，XML文档和电子邮件是半结构化数据的示例，它在万维网上非常流行，通常在面向对象的数据库中。

情绪分析：情绪分析涉及捕捉和跟踪消费者在各种交互或文件（包括社交媒体，客户服务代表呼叫，调查等）中表达的意见，情绪或感受。文本分析和自然语言处理是情绪分析过程中的典型活动。目标是确定或评估对公司，产品，服务，人员或事件表达的情绪或态度。

空间分析是指分析空间数据，如地理数据或拓扑数据，以识别和理解分布在地理空间的数据内的模式和规律。

流处理旨在通过“连续”查询对实时和流数据进行操作。随着从社交网络不断流式传输的数据，对流处理和流分析有着明确的需求，可以在这些流中不间断地计算数学或统计分析，以实时处理大量的数据。

智能数据据称是经过算法完成的一些过滤后有用和可操作的数据。

太字节：数字数据相对较大的单位，一兆比特（TB）等于千兆字节。据估计，10太字节可以容纳美国国会图书馆的整个印刷品，而单个结核病可以容纳1,000份百科全书Brittanica。您必须阅读本文以了解有关所有这些术语的更多信息。

可视化 - 通过正确的可视化，原始数据可以投入使用。当然，可视化并不意味着普通的图形或饼图。它们是指可以包含许多数据变量的复杂图形，同时仍然可以理解和可读

大约1000字节，或者是250万亿的DVD。今天的整个数字宇宙是1兆塔，这将每18个月翻一番。您必须阅读本文以了解有关所有这些术语的更多信息。

千兆字节 - 大约1000字节或10亿兆字节。

117 次浏览

Big Data

SEO Title

75 big data terms that everyone should know