大数据的定义:它是什么以及它如何工作?
Posted: Tue Jan 07, 2025 4:06 am
根据定义,大数据由各种数据组成,其数量不断增加且速度不断增加。
例如,您是否知道喷气发动机只需 30 分钟的飞行就可以生成超过 10 TB 的数据?现在将此数据量乘以每日航班量。每天有几 PB 的信息。
纽约证券交易所每天生成大约 1 TB 的新交易数据。 Facebook 上的照片和视频上传、帖子和评论每天都会产生超过4 PB的新数据。是的,这就是数据!这就是我们所说的大数据。
大数据正在成为我们生活中不可或缺的一部分。每个人都使用大公司的技术。后者使用我们提供给他们的大数据。在那里工作的数据科学家不断分析这些数据,以提高效率并开发新产品。
信息存储比几年前便宜,使得存储更多数据变得更容易、更便宜。以色列数字数据 但为什么我们需要这么多数据呢?因为这些数据在所有领域都很有用:您可以将其呈现给客户,使用它来创建新产品和功能,使用它来做出业务决策等等。
大数据这个术语并不新鲜,但处理大量数据的概念正在发生变化。几年前我们所说的大数据比现在的数据要少得多。为了更好地理解大数据,了解一些它的历史会有所帮助。这一切都始于 20 世纪 60 年代左右,当时数据仓库的第一部分开放了。
四十年后,企业已经了解可以通过在线服务、网站、应用程序以及与客户交互的任何产品收集多少数据。这是第一个大数据服务开始流行的时候(Hadoop、NoSQL等)。这些工具已变得不可或缺,因为它们使大数据的存储和分析变得更加容易且成本更低。
而且,今天,物联网不再是梦想。越来越多的设备连接到互联网并收集有关客户使用习惯和产品性能的数据。现在机器甚至可以自己学习。机器学习就是这样诞生的,它也会产生大量的数据。
Une carte du monde représentant un réseau d’appareils connectés
来源:FreeCodeCamp
您能想象这一切所代表的数据量和使用可能性吗?拥有如此多的数据将有助于您做出决策,因为您拥有所需的所有信息。您可以轻松解决任何问题或困难。
总而言之,大数据由从新数据源收集的大型且复杂的数据集组成。这些数据集非常大,传统的数据处理软件难以处理它们,因此创建了一套新的工具和软件。
大数据如何运作?
大数据的主要思想是,您拥有的有关某个主题的信息越多,您可以得出的数据就越多,从而使您能够做出决定或找到解决方案。在大多数情况下,这个过程是完全自动化的:我们拥有非常先进的分析、机器学习甚至人工智能工具,可以运行数百万次模拟,为我们提供最佳结果。但要实现这一目标,您需要了解大数据如何工作以及如何正确配置一切。
Une représentation du processus d’analyse et de prise de décision du Big Data
处理如此大量的数据需要稳定且结构良好的基础设施,以快速分析大量不同类型的数据,这可能会使服务器或集群过载。
考虑所有进程的系统容量非常重要。对于大型企业来说,这可能需要数百或数千台服务器。正如您可以想象的那样,账单会很快增加。添加您需要的所有工具:它开始增加。这就是为什么您需要了解大数据的工作原理并了解其背后的三个主要操作,以便您可以规划预算并构建尽可能最好的系统。
一体化
大数据由从许多来源收集的数字数据组成,鉴于信息量巨大,需要找到新的策略和技术来处理它。在某些情况下,您的系统中会流过数 PB 的信息。整合如此大量的信息并不容易。您将需要接收数据、处理数据并将其格式化为适合您的业务需求且客户理解的格式。
管理
良好的数据管理对于任何成功的大数据战略也至关重要。您需要一个地方来存放它们。您的存储解决方案可以是云计算、本地存储或两者兼而有之。您还需要按需实时提供它们。这就是为什么越来越多的企业选择云存储解决方案来支持其特定的 IT 需求。
分析
收到并存储数据后,您需要对其进行分析才能使用。探索您的数据并使用它来做出重要决策,例如确定客户最想要的功能,或使用它来分享您的研究。根据您的需要用它做您想做的事。最主要的是你要利用它。您已经投入了大量资金来建立此基础设施,因此使用它非常重要。
正如我们提到的,当我们谈论大数据时,我们总是谈论它背后的大V。大数据出现的时候只有3个V,后来又增加了其他的。而且越来越多的数据取决于我们对大数据的使用。下面我们就来看看这些著名的大V吧。
大数据的最大Vs是什么?
Des icônes représentant les grands V actuels du Big Data
体积
顾名思义,大数据由大量数据组成。这可能包括未知值的数据,例如网页或移动应用程序上的点击次数数据。对于某些公司来说,这只是几十 TB 的数据,而其他公司则必须处理数百 PB 的数据。
速度
速度(或velocity)是一个大V,代表数据接收和处理的速度 。如果数据直接发送到内存而不是写入磁盘,速度会更高,因此,您的速度会更快并近乎实时地提供数据。但这也需要额外的资源才能实时评估这些数据。对于机器学习、人工智能等领域来说,速度也是最重要的大V。
种类
多样性是指可用数据的不同类型。在处理如此多的数据时,您需要意识到其中很多数据是非结构化和半结构化的(文本、音频、视频等),这需要额外的元数据处理才能使每个人都能理解。
真实性
准确性是指数据的准确性。例如,您从社交网络或网站收集大量数据,但如何确定其准确无误?质量差、未经验证的数据可能会导致问题。它们可能导致数据分析不准确并导致做出错误的决策。因此,您应该始终验证您的数据并确保您拥有足够准确的数据以获得有效且有意义的结果。
价值
正如我们已经提到的,收集到的一些数据没有价值,不能用于做出有效的决策。了解您所拥有的数据的价值非常重要。您还需要采取适当的方法来清理数据并确保其与您的目标相关。
可变性
当您拥有大量数据时,您可以将其用于多种目的并以不同的方式对其进行格式化。收集、分析和妥善管理如此多的数据并不容易。所以重复使用它们是正常的。可变性是指将数据用于多种目的的能力。
我们现在知道什么是大数据,以及什么是数据类型和大V,但如果我们不知道大数据可以为我们做什么以及为什么它变得越来越重要,那么所有这些都没有真正的用处。
大数据有哪些工具?
随着大数据的重要性日益增强,设计的工具也在不断发展和改进。组织根据需要使用 Hadoop、Hive、Cassandra、Spark 和 Kafka 等工具。有很多解决方案,其中许多是开源的。另请注意Apache 软件基金会 (ASF)的存在,它支持许多此类大数据项目。
鉴于这些工具对大数据的重要性,让我们简要讨论其中的一些工具。Apache Hadoop是最著名的大数据分析工具之一,它是一个用于存储和处理大型数据集的开源框架。
Représentation d’une série d’outils de traitement du Big Data
Apache Spark是另一个拥有众多粉丝的工具。 Spark 的一大优势是它能够将大部分处理数据存储在内存和磁盘上,以提高速度。 Spark 兼容 Hadoop(Hadoop 分布式文件系统)、Apache Cassandra、OpenStack Swift和许多其他数据存储解决方案。但它最酷的功能之一是它能够在单个本地计算机上运行,从而使其更易于使用。
另请注意Apache Kafka,它允许用户发布实时数据源并订阅此类类型的源。 Kafka 的主要目标是将其他消息系统的可靠性与流数据结合起来。
以下是其他大数据工具的快速概述:
Apache Lucene可用于所有推荐引擎,因为它使用全文索引和搜索软件库。
Apache Zeppelin是一个支持使用 SQL 和其他编程语言进行交互式数据分析的项目。
Elasticsearch是一个企业搜索引擎。该解决方案的主要优点是它可以从结构化和非结构化数据中生成见解。
TensorFlow是一个因为用于机器学习而受到越来越多关注的软件库。
大数据不断发展和演变;用于分析它的工具也是如此。正如我们提到的,一些工具适用于结构化或非结构化数据。让我们看看这是什么意思。
例如,您是否知道喷气发动机只需 30 分钟的飞行就可以生成超过 10 TB 的数据?现在将此数据量乘以每日航班量。每天有几 PB 的信息。
纽约证券交易所每天生成大约 1 TB 的新交易数据。 Facebook 上的照片和视频上传、帖子和评论每天都会产生超过4 PB的新数据。是的,这就是数据!这就是我们所说的大数据。
大数据正在成为我们生活中不可或缺的一部分。每个人都使用大公司的技术。后者使用我们提供给他们的大数据。在那里工作的数据科学家不断分析这些数据,以提高效率并开发新产品。
信息存储比几年前便宜,使得存储更多数据变得更容易、更便宜。以色列数字数据 但为什么我们需要这么多数据呢?因为这些数据在所有领域都很有用:您可以将其呈现给客户,使用它来创建新产品和功能,使用它来做出业务决策等等。
大数据这个术语并不新鲜,但处理大量数据的概念正在发生变化。几年前我们所说的大数据比现在的数据要少得多。为了更好地理解大数据,了解一些它的历史会有所帮助。这一切都始于 20 世纪 60 年代左右,当时数据仓库的第一部分开放了。
四十年后,企业已经了解可以通过在线服务、网站、应用程序以及与客户交互的任何产品收集多少数据。这是第一个大数据服务开始流行的时候(Hadoop、NoSQL等)。这些工具已变得不可或缺,因为它们使大数据的存储和分析变得更加容易且成本更低。
而且,今天,物联网不再是梦想。越来越多的设备连接到互联网并收集有关客户使用习惯和产品性能的数据。现在机器甚至可以自己学习。机器学习就是这样诞生的,它也会产生大量的数据。
Une carte du monde représentant un réseau d’appareils connectés
来源:FreeCodeCamp
您能想象这一切所代表的数据量和使用可能性吗?拥有如此多的数据将有助于您做出决策,因为您拥有所需的所有信息。您可以轻松解决任何问题或困难。
总而言之,大数据由从新数据源收集的大型且复杂的数据集组成。这些数据集非常大,传统的数据处理软件难以处理它们,因此创建了一套新的工具和软件。
大数据如何运作?
大数据的主要思想是,您拥有的有关某个主题的信息越多,您可以得出的数据就越多,从而使您能够做出决定或找到解决方案。在大多数情况下,这个过程是完全自动化的:我们拥有非常先进的分析、机器学习甚至人工智能工具,可以运行数百万次模拟,为我们提供最佳结果。但要实现这一目标,您需要了解大数据如何工作以及如何正确配置一切。
Une représentation du processus d’analyse et de prise de décision du Big Data
处理如此大量的数据需要稳定且结构良好的基础设施,以快速分析大量不同类型的数据,这可能会使服务器或集群过载。
考虑所有进程的系统容量非常重要。对于大型企业来说,这可能需要数百或数千台服务器。正如您可以想象的那样,账单会很快增加。添加您需要的所有工具:它开始增加。这就是为什么您需要了解大数据的工作原理并了解其背后的三个主要操作,以便您可以规划预算并构建尽可能最好的系统。
一体化
大数据由从许多来源收集的数字数据组成,鉴于信息量巨大,需要找到新的策略和技术来处理它。在某些情况下,您的系统中会流过数 PB 的信息。整合如此大量的信息并不容易。您将需要接收数据、处理数据并将其格式化为适合您的业务需求且客户理解的格式。
管理
良好的数据管理对于任何成功的大数据战略也至关重要。您需要一个地方来存放它们。您的存储解决方案可以是云计算、本地存储或两者兼而有之。您还需要按需实时提供它们。这就是为什么越来越多的企业选择云存储解决方案来支持其特定的 IT 需求。
分析
收到并存储数据后,您需要对其进行分析才能使用。探索您的数据并使用它来做出重要决策,例如确定客户最想要的功能,或使用它来分享您的研究。根据您的需要用它做您想做的事。最主要的是你要利用它。您已经投入了大量资金来建立此基础设施,因此使用它非常重要。
正如我们提到的,当我们谈论大数据时,我们总是谈论它背后的大V。大数据出现的时候只有3个V,后来又增加了其他的。而且越来越多的数据取决于我们对大数据的使用。下面我们就来看看这些著名的大V吧。
大数据的最大Vs是什么?
Des icônes représentant les grands V actuels du Big Data
体积
顾名思义,大数据由大量数据组成。这可能包括未知值的数据,例如网页或移动应用程序上的点击次数数据。对于某些公司来说,这只是几十 TB 的数据,而其他公司则必须处理数百 PB 的数据。
速度
速度(或velocity)是一个大V,代表数据接收和处理的速度 。如果数据直接发送到内存而不是写入磁盘,速度会更高,因此,您的速度会更快并近乎实时地提供数据。但这也需要额外的资源才能实时评估这些数据。对于机器学习、人工智能等领域来说,速度也是最重要的大V。
种类
多样性是指可用数据的不同类型。在处理如此多的数据时,您需要意识到其中很多数据是非结构化和半结构化的(文本、音频、视频等),这需要额外的元数据处理才能使每个人都能理解。
真实性
准确性是指数据的准确性。例如,您从社交网络或网站收集大量数据,但如何确定其准确无误?质量差、未经验证的数据可能会导致问题。它们可能导致数据分析不准确并导致做出错误的决策。因此,您应该始终验证您的数据并确保您拥有足够准确的数据以获得有效且有意义的结果。
价值
正如我们已经提到的,收集到的一些数据没有价值,不能用于做出有效的决策。了解您所拥有的数据的价值非常重要。您还需要采取适当的方法来清理数据并确保其与您的目标相关。
可变性
当您拥有大量数据时,您可以将其用于多种目的并以不同的方式对其进行格式化。收集、分析和妥善管理如此多的数据并不容易。所以重复使用它们是正常的。可变性是指将数据用于多种目的的能力。
我们现在知道什么是大数据,以及什么是数据类型和大V,但如果我们不知道大数据可以为我们做什么以及为什么它变得越来越重要,那么所有这些都没有真正的用处。
大数据有哪些工具?
随着大数据的重要性日益增强,设计的工具也在不断发展和改进。组织根据需要使用 Hadoop、Hive、Cassandra、Spark 和 Kafka 等工具。有很多解决方案,其中许多是开源的。另请注意Apache 软件基金会 (ASF)的存在,它支持许多此类大数据项目。
鉴于这些工具对大数据的重要性,让我们简要讨论其中的一些工具。Apache Hadoop是最著名的大数据分析工具之一,它是一个用于存储和处理大型数据集的开源框架。
Représentation d’une série d’outils de traitement du Big Data
Apache Spark是另一个拥有众多粉丝的工具。 Spark 的一大优势是它能够将大部分处理数据存储在内存和磁盘上,以提高速度。 Spark 兼容 Hadoop(Hadoop 分布式文件系统)、Apache Cassandra、OpenStack Swift和许多其他数据存储解决方案。但它最酷的功能之一是它能够在单个本地计算机上运行,从而使其更易于使用。
另请注意Apache Kafka,它允许用户发布实时数据源并订阅此类类型的源。 Kafka 的主要目标是将其他消息系统的可靠性与流数据结合起来。
以下是其他大数据工具的快速概述:
Apache Lucene可用于所有推荐引擎,因为它使用全文索引和搜索软件库。
Apache Zeppelin是一个支持使用 SQL 和其他编程语言进行交互式数据分析的项目。
Elasticsearch是一个企业搜索引擎。该解决方案的主要优点是它可以从结构化和非结构化数据中生成见解。
TensorFlow是一个因为用于机器学习而受到越来越多关注的软件库。
大数据不断发展和演变;用于分析它的工具也是如此。正如我们提到的,一些工具适用于结构化或非结构化数据。让我们看看这是什么意思。