中科院计算所培训中心|大数据专业术语汇总!

随着互联网、移动互联网以及物联网的发展,我们已经切实地迎来了一个大数据的时代。网络购物、物流、送餐、共享单车等事物越来越多的发生在我们身边,给人们的生活带来便利。由于信息传播速度激增、数据量爆炸式增长,相对于企业如何对海量数据进行挖掘和分析,已经成为一个非常重要且紧迫的需求。

互联网点击数据、传感数据、日志文件、具有丰富地理空间信息的移动数据和涉及网络的各类评论,成为了海量信息的多种形式。当数据以成百上千TB不断增长的时候,我们在内部交易系统的历史信息之外,需要一种基于大数据分析的决策模型和技术支持。对数据处理提出了新的要求,传统关系数据库遇到了数据分析瓶颈。

大数据处理技术涉及各行各业,最常用的技术有:离线批处理技术Hadoop/Yarn、实时大数据处理技术Spark、流式大数据处理技术Storm、大数据挖掘技术MLlib/Mahout/SaprkR、统计分析技术R和Python挖掘、数据采集技术Flume 和 Python爬虫、NoSQL技术MongoDB和HBase等等。这些大数据处理和分析工具,对系统的可伸缩性、健壮性、计算性能和成本上有不同的要求,这导致了大数据技术必须涵盖网络数据爬取、日志采集、分布式消息订阅、大数据分析挖掘诸多等方面。

下面我们对大数据技术平台及工具做一个简要介绍:

1、批处理大数据平台Hadoop

Hadoop是最流行的开源批处理大数据平台。它的核心技术有分布式的文件管理系统HDFS、基于键值对Key/Value Pair分布式并行计算模型MapReduce、数据结构化管理组件HBase、分布式的应用程序协调服务Zookeeper。

2、实时大数据平台Spark
Spark源于UC Berkeley AMP Lab的大数据分析平台。它立足于内存计算,从多迭代批量处理出发,兼顾数据仓库、流处理和图计算等多种计算范式,是大数据系统领域的全栈计算平台。

3、流式大数据平台Storm
流数据处理思路是将连续的数据持久化,离散化,然后进行批量处理。Storm是随着实时大数据处理的需求而生的,就处理实时大数据的最实用工具之一。能轻松可靠地处理无界的数据流,像Hadoop批处理一样对数据进行实时处理。

4、Python网络爬虫
Python爬虫可以方便的安装NLTK工具包,方便对自然语言的处理;
Python爬虫提供了Pillow、Tesseract等多种OCR库,用于图像识别和文字处理;
Python爬虫提供了很多的方法,可以将数据存储在MySQL、MongoDB等多种数据存储中。

5、大数据日志采集工具Flume及Scribe
Scribe是Facebook开源的日志收集系统,它为日志的分布式收集,统一处理提供一个可扩展的,高容错的简单方案。scribe的架构主要包括三部分,分别为scribe agent, scribe和存储系统。


Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,目前已经是Apache的一个子项目。

6、分布式消息订阅工具Kafka
Kafka是一个消息发布订阅系统,采用scala语言编写。

Kafka通过Zookeeper管理集群配置,选举leader,以及在Consumer Group发生变化时进行rebalance。Producer使用push模式将消息发布到broker,Consumer使用pull模式从broker订阅并消费消息。

7、NoSQL技术及云数据库
NoSQL,全称是"Not Only Sql",指的是非关系型的数据库。这类数据库主要有这些特点:非关系型的、分布式的、开源的、水平可扩展的。原始的目的是为了大规模web应用。

NoSQL 的拥护者们提倡运用非关系型的数据存储,通常的应用如:模式自由、支持简易复制、简单的API、最终的一致性(非ACID)、大容量数据等。

最典型的七个NoSQL工具有PostgreSQL、Riak、Apache HBase、MongoDB、Apache CouchDB、Redis和Neo4J 。

8、大数据中的类SQL工具
Hive是一个构建在Hadoop上的数据仓库框架,可以将结构化的数据文件,映射为一张数据库表,并提供完整的sql查询功能,并转换为MapReduce任务进行运行。

Spark SQL与传统DBMS的查询优化器+执行器的架构较为类似。

9、大数据挖掘工具Mahout和MLlib
MLlib是Spark对常用的数据挖掘算法的实现库,同时包括相关测试和数据生成器。

Mahout 包含许多实现,包括集群、分类、CF 和进化程序。此外,通过使用 Apache Hadoop 库,Mahout 可以有效地扩展到云中。

10、资源虚拟化工具Docker
Docker是实现轻量级的操作系统虚拟化解决方案。


Docker 的基础是 Linux 容器(LXC)等技术。

在 LXC 的基础上 Docker 进行了进一步的封装,让用户不需要去关心容器的管理,使得操作更为简便。
作为一种新兴的虚拟化方式,Docker 跟传统的虚拟化方式相比具有众多的优势。首先,Docker 容器的启动可以在秒级实现,这相比传统的虚拟机方式要快得多。 其次,Docker 对系统资源的利用率很高,一台主机上可以同时运行数千个 Docker 容器。

版权声明:每一篇文章都是作者的劳动所得,转载请注明出处!中科院计算所培训中心专注公开课和企业内训,设有大数据,军方软件,系统架构,软件需求分析,项目管理等高端课程。更多课程介绍可以加入我们的高端公开课交流群209943365,期待我们共同进步!

IT文库 » 中科院计算所培训中心|大数据专业术语汇总!
分享到: 更多 (0)

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址