- A+
目录【点击切换】
Spark大数据分析实战简介
用户推荐指数 科技 类型 可以朗读 语音朗读 286千字 字数 2021 发行日期
主编推荐语
本书作为Spark的入门书,从Spark核心编程语言Scala讲起,涵盖当前Spark主流的开发组件。
内容简介
本书以实操为主,深入讲解每一个操作步骤,包括Spark RDD离线数据处理、Spark SQL结构化数据处理、Spark Streaming实时数据处理,包括案例讲解、源码剖析、常用Shell命令和Java API详解。
即使没有任何Spark基础的读者也可以对照书中的步骤成功搭建属于自己的Spark集群,是一本真正的实操指南书籍。本书可作为大数据开发人员的随身手册,也可作为Spark新手入门的指导书籍,以及大数据从业者的参考用书。
目录
- 版权信息
- 内容简介
- 作者简介
- 前言
- 第1章 Spark开发准备——Scala基础
- 什么是Scala
- 安装Scala
- .1 在Windows中安装Scala
- .2 在CentOS 7中安装Scala
- Scala基础
- .1 变量声明
- .2 数据类型
- .3 表达式
- .4 循环
- .5 方法与函数
- 集合
- .1 数组
- .2 List
- .3 Map映射
- .4 元组
- .5 Set
- 类和对象
- .1 类的定义
- .2 单例对象
- .3 伴生对象
- .4 get和set方法
- .5 构造器
- 抽象类和特质
- .1 抽象类
- .2 特质
- 使用Eclipse创建Scala项目
- .1 安装Scala for Eclipse IDE
- .2 创建Scala项目
- 使用IntelliJ IDEA创建Scala项目
- .1 在IDEA中安装Scala插件
- .2 创建Scala项目
- 第2章 初识Spark
- 大数据开发总体架构
- 什么是Spark
- Spark主要组件
- Spark运行时架构
- .1 YARN集群架构
- .2 Spark Standalone架构
- .3 Spark On YARN架构
- Spark集群搭建与测试
- .1 Spark Standalone模式的集群搭建
- .2 Spark On YARN模式的集群搭建
- .3 Spark HA的搭建
- Spark应用程序的提交
- Spark Shell的使用
- 第3章 Spark RDD弹性分布式数据集
- 什么是RDD
- 创建RDD
- .1 从对象集合创建RDD
- .2 从外部存储创建RDD
- RDD的算子
- .1 转化算子
- .2 行动算子
- RDD的分区
- .1 分区数量
- .2 自定义分区器
- RDD的依赖
- .1 窄依赖
- .2 宽依赖
- .3 Stage划分
- RDD的持久化
- .1 存储级别
- .2 查看缓存
- RDD的检查点
- 共享变量
- .1 广播变量
- .2 累加器
- 案例分析:Spark RDD实现单词计数
- 案例分析:Spark RDD实现分组求TopN
- 案例分析:Spark RDD实现二次排序
- 案例分析:Spark RDD计算成绩平均分
- 案例分析:Spark RDD倒排索引统计每日新增用户
- 案例分析:Spark RDD读写HBase
- .1 读取HBase表数据
- .2 写入HBase表数据
- 案例分析:Spark RDD数据倾斜问题解决
- .1 数据倾斜的常用解决方法
- .2 使用随机key进行双重聚合
- .3 WebUI查看Spark历史作业
- 第4章 Spark内核源码分析
- Spark集群启动原理分析
- Spark应用程序提交原理分析
- Spark作业工作原理分析
- .1 MapReduce的工作原理
- .2 Spark作业工作的原理
- Spark检查点原理分析
- 第5章 Spark SQL结构化数据处理引擎
- 什么是Spark SQL
- DataFrame和Dataset
- Spark SQL的基本使用
- Spark SQL数据源
- .1 基本操作
- .2 Parquet文件
- .3 JSON数据集
- .4 Hive表
- .5 JDBC
- Spark SQL内置函数
- .1 自定义函数
- .2 自定义聚合函数
- .3 开窗函数
- 案例分析:使用Spark SQL实现单词计数
- 案例分析:Spark SQL与Hive整合
- .1 整合Hive的步骤
- .2 操作Hive的几种方式
- 案例分析:Spark SQL读写MySQL
- 案例分析:Spark SQL每日UV统计
- 案例分析:Spark SQL热点搜索词统计
- 综合案例:Spark SQL智慧交通数据分析
- .1 项目介绍
- .2 数据准备
- .3 统计正常卡口数量
- .4 统计车流量排名前3的卡口号
- .5 统计车辆高速通过的卡口TOP5
- .6 统计每个卡口通过速度最快的前3辆车
- .7 车辆轨迹分析
- 第6章 Kafka分布式消息系统
- 什么是Kafka
- Kafka架构
- 主题与分区
- 分区副本
- 消费者组
- 数据存储机制
- 集群环境搭建
- 命令行操作
- .1 创建主题
- .2 查询主题
- .3 创建生产者
- .4 创建消费者
- Java API操作
- .1 创建Java工程
- .2 创建生产者
- .3 创建消费者
- .4 运行程序
- 案例分析:Kafka生产者拦截器
- 第7章 Spark Streaming实时流处理引擎
- 什么是Spark Streaming
- Spark Streaming工作原理
- 输入DStream和Receiver
- 第一个Spark Streaming程序
- Spark Streaming数据源
- .1 基本数据源
- .2 高级数据源
- .3 自定义数据源
- DStream操作
- .1 无状态操作
- .2 状态操作
- .3 窗口操作
- .4 输出操作
- .5 缓存及持久化
- .6 检查点
- 案例分析:Spark Streaming按批次累加单词数量
- 案例分析:Spark Streaming整合Kafka计算实时单词数量
- 案例分析:Spark Streaming实时用户日志黑名单过滤
- 综合案例:微博用户行为分析
- 第8章 Structured Streaming结构化流处理引擎
- 什么是Structured Streaming
- Structured Streaming单词计数
- Structured Streaming编程模型
- Structured Streaming查询输出
- Structured Streaming窗口操作
- .1 事件时间
- .2 窗口聚合单词计数
- .3 延迟数据和水印
- 案例分析:Structured Streaming整合Kafka实现单词计数
- 第9章 GraphX图计算引擎
- 什么是GraphX
- 第一个GraphX程序
- GraphX数据结构
- GraphX图操作
- .1 基本操作
- .2 属性操作
- .3 结构操作
- .4 连接操作
- .5 聚合操作
- 案例分析:使用GraphX计算社交网络中粉丝的平均年龄
评分及书评
出版方
清华大学出版社
清华大学出版社成立于1980年6月,是由教育部主管、清华大学主办的综合出版单位。植根于“清华”这座久负盛名的高等学府,秉承清华人“自强不息,厚德载物”的人文精神,清华大学出版社在短短二十多年的时间里,迅速成长起来。清华大学出版社始终坚持弘扬科技文化产业、服务科教兴国战略的出版方向,把出版高等学校教学用书和科技图书作为主要任务,并为促进学术交流、繁荣出版事业设立了多项出版基金,逐渐形成了以出版高水平的教材和学术专著为主的鲜明特色,在教育出版领域树立了强势品牌。
喜欢这本书的也喜欢
关于Spark大数据分析实战的相关词
互联网发展相关书籍有哪些 | 互联网教育书籍 |
互联网必看书籍 | 互联网著作权的特征 |
互联网下载中文版 | 官方互联网免费下载 |
互联网医院怎么买药 | 互联网时代书籍 |