图书介绍

华为信息与网络技术学院指定教材 大数据原理与技术【2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载】

华为信息与网络技术学院指定教材 大数据原理与技术
  • 黄史浩编著 著
  • 出版社: 北京:人民邮电出版社
  • ISBN:9787115458711
  • 出版时间:2018
  • 标注页数:255页
  • 文件大小:36MB
  • 文件页数:271页
  • 主题词:数据处理-教材

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

华为信息与网络技术学院指定教材 大数据原理与技术PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章 大数据概述2

1.1大数据的概念与价值2

1.1.1什么是大数据2

1.1.2大数据的来源4

1.1.3大数据有什么价值5

1.1.4如何挖掘企业大数据的价值6

1.2大数据的关键技术7

1.2.1大数据采集、预处理与存储管理7

1.2.2大数据分析与挖掘8

1.2.3数据可视化9

1.3大数据产业9

1.3.1数据提供9

1.3.2技术提供9

1.3.3服务提供10

1.4大数据应用场景10

1.5本章总结11

练习题12

第2章Hadoop大数据处理平台14

2.1 Hadoop平台概述16

2.1.1 Hadoop简介16

2.1.2 Hadoop的特性17

2.1.3 Hadoop应用现状17

2.1.4 Hadoop版本及相关平台18

2.2 Hadoop生态系统18

2.2.1 Hadoop存储系统(HDFS&HBase)18

2.2.2 Hadoop计算框架(MapReduce&YARN)19

2.2.3 Hadoop数据仓库(Hive)20

2.2.4 Hadoop数据转换与日志处理(Sqoop&Flume)20

2.2.5 Hadoop应用协调与工作流(ZooKeeper&Oozie)20

2.2.6大数据安全技术(Kerberos&LDAP)21

2.2.7大数据即时查询与搜索(Impala&Solr)21

2.2.8大数据消息订阅(Kafka)21

2.3 Hadoop安装部署22

2.3.1 Hadoop规划部署22

2.3.2 Hadoop的安装方式23

2.4华为FusionInsight HD安装部署26

2.4.1 FusionInsight HD简介26

2.4.2 FusionInsight HD集成设计28

2.4.3 FusionInsight HD安装部署33

2.4.4 FusionInsight HD重要参数配置41

2.5本章总结42

练习题43

第3章 大数据存储技术(HDFS)44

3.1概述46

3.1.1分布式文件系统的概念与作用47

3.1.2 HDFS概述47

3.2 HDFS的相关概念48

3.2.1块48

3.2.2 NameNode49

3.2.3 Secondary NameNode50

3.2.4 DataNode51

3.3 HDFS体系架构与原理52

3.3.1 HDFS体系架构52

3.3.2 HDFS的高可用机制52

3.3.3 HDFS的目录结构54

3.3.4 HDFS的数据读写过程57

3.4 HDFS接口及其在FusionInsight HD编程中的实践58

3.4.1 HDFS常用Shell命令59

3.4.2 HDFS的Web界面60

3.4.3 HDFS的Java接口及应用实例62

3.5本章总结67

练习题67

第4章 大数据离线计算框架(MapReduce & YARN)70

4.1 MapReduce技术原理72

4.1.1 MapReduce概述73

4.1.2 Map函数与Reduce函数73

4.2 YARN技术原理74

4.2.1 YARN的概述与应用74

4.2.2 YARN的架构75

4.2.3 MapReduce的计算过程76

4.2.4 YARN的资源调度78

4.3 FusionInsight HD中MapReduce的应用78

4.3.1 WordCount实例分析78

4.3.2 MapReduce编程实践79

4.4本章总结85

练习题86

第5章 大数据数据库(HBase)88

5.1 HBase概述90

5.1.1 HBase简介90

5.1.2 HBase与关系型数据库的区别91

5.1.3 HBase的应用场景92

5.2 HBase的架构原理92

5.2.1 HBase的数据模型92

5.2.2表和Region93

5.2.3 HBase的系统架构与功能组件94

5.2.4 HBase的读写流程96

5.2.5 HBase的Compaction过程97

5.3 FusionInsight HD中HBase的编程实践98

5.3.1 FusionInsight HD中HBase的常用参数配置98

5.3.2 HBase的常用Shell命令100

5.3.3 HBase常用的Java API及应用实例103

5.4本章总结118

练习题118

第6章 大数据数据仓库(Hive)120

6.1 Hive概述122

6.1.1 Hive简介和应用122

6.1.2 Hive的特性123

6.1.3 Hive与传统数据仓库的区别124

6.2 Hive的架构和数据存储124

6.2.1 Hive的架构原理124

6.2.2 Hive的数据存储模型127

6.2.3 HiveQL编程128

6.3 FusionInsight HD中Hive应用实践132

6.3.1 FusionInsight HD中Hive的常用参数配置132

6.3.2加载数据到Hive133

6.3.3使用HiveQL进行数据分析135

6.4本章总结139

练习题139

第7章 大数据数据转换(Sqoop与Loader)142

7.1 Sqoop概述144

7.1.1 Sqoop简介与应用145

7.1.2 Sqoop的功能与特性145

7.1.3 Sqoop与传统ETL的区别146

7.2 FusionInsight HD中Loader的应用实践146

7.2.1 FusionInsight HD中Loader与Sqoop的对比147

7.2.2 FusionInsight HD中Loader的参数配置148

7.2.3使用Loader进行数据转换149

7.2.4 Loader的常用Shell命令150

7.2.5 Loader应用实践152

7.3本章总结153

练习题154

第8章 大数据日志处理(Flume)156

8.1 Flume概述158

8.1.1 Flume简介与应用158

8.1.2 Flume的功能与特性161

8.1.3 Flume与其他主流开源日志收集系统的区别162

8.2 FusionInsight HD中Flume的应用实践162

8.2.1 FusionInsight HD中Flume的常用参数配置163

8.2.2 Flume常用的Shell命令164

8.2.3 Flume与Kafka结合进行日志处理165

8.3本章总结168

练习题169

第9章 大数据实时计算框架(Spark)170

9.1 Spark概述172

9.1.1 Spark的概述与应用173

9.1.2 Scala语言介绍174

9.1.3 Spark生态系统组件174

9.1.4 Spark与Hadoop的对比175

9.2 Spark技术架构176

9.2.1 Spark的运行原理176

9.2.2 RDD概念与原理177

9.2.3 Spark的三种部署方式181

9.2.4使用开发工具测试Spark182

9.3 FusionInsight HD中Spark应用实践183

9.3.1运行Spark Shell183

9.3.2进行Spark RDD操作184

9.3.3使用Spark客户端工具运行Spark程序185

9.4 Spark Streaming188

9.4.1 Spark Streaming的设计思想188

9.4.2 Spark Streaming的应用实例189

9.5 Spark SQL191

9.5.1 Spark SQL的功能191

9.5.2 FusionInsight HD中Spark SQL的应用实例192

9.6 Spark MLlib193

9.6.1机器学习简介193

9.6.2 Spark MLlib的功能194

9.7 Spark GraphX194

9.7.1图计算简介194

9.7.2 Spark GraphX功能简介195

9.8本章总结195

练习题196

第10章 大数据流计算198

10.1流计算概述200

10.1.1静态数据和流数据201

10.1.2流计算的概念201

10.1.3 MapReduce和流计算202

10.1.4流计算框架202

10.2流计算的处理流程203

10.2.1数据实时采集203

10.2.2数据实时计算203

10.2.3数据实时查询203

10.3 Streaming流计算204

10.3.1 Streaming简介204

10.3.2 Streaming的特点206

10.3.3 Streaming在FusionInsight HD上的应用实践208

10.3.4 Spark Streaming与Streaming的差异212

10.4本章总结213

练习题213

第11章 数据可视化216

11.1可视化概述218

11.1.1数据可视化简介219

11.1.2数据可视化的重要性219

11.1.3可视化的发展历程219

11.1.4数据可视化的过程221

11.2可视化工具222

11.2.1入门级工具(Excel)222

11.2.2普通工具(R语言)222

11.2.3高级工具(Tableau和Q1ikView)223

11.3可视化的典型应用223

11.3.1可视化在医学上的应用223

11.3.2可视化在工程中的应用224

11.3.3可视化在互联网的应用225

11.4本章总结225

练习题226

第12章 大数据行业应用228

12.1大数据在金融行业的应用230

12.2大数据在电信行业的应用232

12.3大数据在公安系统的应用236

12.4大数据在互联网行业的应用237

12.5本章总结237

练习题238

术语表240

参考文献252

热门推荐