Spark大数据分析实战(张伟洋)pdf,mobi,epub,txt,kindle【电子版_简介_书评_在线阅读】

  • A+
所属分类:得到掌读
       

Spark大数据分析实战简介

用户推荐指数 科技 类型 可以朗读 语音朗读 286千字 字数 2021 发行日期

主编推荐语

本书作为Spark的入门书,从Spark核心编程语言Scala讲起,涵盖当前Spark主流的开发组件。

内容简介

本书以实操为主,深入讲解每一个操作步骤,包括Spark RDD离线数据处理、Spark SQL结构化数据处理、Spark Streaming实时数据处理,包括案例讲解、源码剖析、常用Shell命令和Java API详解。

即使没有任何Spark基础的读者也可以对照书中的步骤成功搭建属于自己的Spark集群,是一本真正的实操指南书籍。本书可作为大数据开发人员的随身手册,也可作为Spark新手入门的指导书籍,以及大数据从业者的参考用书。

目录

  • 版权信息
  • 内容简介
  • 作者简介
  • 前言
  • 第1章 Spark开发准备——Scala基础
  • 什么是Scala
  • 安装Scala
  • .1 在Windows中安装Scala
  • .2 在CentOS 7中安装Scala
  • Scala基础
  • .1 变量声明
  • .2 数据类型
  • .3 表达式
  • .4 循环
  • .5 方法与函数
  • 集合
  • .1 数组
  • .2 List
  • .3 Map映射
  • .4 元组
  • .5 Set
  • 类和对象
  • .1 类的定义
  • .2 单例对象
  • .3 伴生对象
  • .4 get和set方法
  • .5 构造器
  • 抽象类和特质
  • .1 抽象类
  • .2 特质
  • 使用Eclipse创建Scala项目
  • .1 安装Scala for Eclipse IDE
  • .2 创建Scala项目
  • 使用IntelliJ IDEA创建Scala项目
  • .1 在IDEA中安装Scala插件
  • .2 创建Scala项目
  • 第2章 初识Spark
  • 大数据开发总体架构
  • 什么是Spark
  • Spark主要组件
  • Spark运行时架构
  • .1 YARN集群架构
  • .2 Spark Standalone架构
  • .3 Spark On YARN架构
  • Spark集群搭建与测试
  • .1 Spark Standalone模式的集群搭建
  • .2 Spark On YARN模式的集群搭建
  • .3 Spark HA的搭建
  • Spark应用程序的提交
  • Spark Shell的使用
  • 第3章 Spark RDD弹性分布式数据集
  • 什么是RDD
  • 创建RDD
  • .1 从对象集合创建RDD
  • .2 从外部存储创建RDD
  • RDD的算子
  • .1 转化算子
  • .2 行动算子
  • RDD的分区
  • .1 分区数量
  • .2 自定义分区器
  • RDD的依赖
  • .1 窄依赖
  • .2 宽依赖
  • .3 Stage划分
  • RDD的持久化
  • .1 存储级别
  • .2 查看缓存
  • RDD的检查点
  • 共享变量
  • .1 广播变量
  • .2 累加器
  • 案例分析:Spark RDD实现单词计数
  • 案例分析:Spark RDD实现分组求TopN
  • 案例分析:Spark RDD实现二次排序
  • 案例分析:Spark RDD计算成绩平均分
  • 案例分析:Spark RDD倒排索引统计每日新增用户
  • 案例分析:Spark RDD读写HBase
  • .1 读取HBase表数据
  • .2 写入HBase表数据
  • 案例分析:Spark RDD数据倾斜问题解决
  • .1 数据倾斜的常用解决方法
  • .2 使用随机key进行双重聚合
  • .3 WebUI查看Spark历史作业
  • 第4章 Spark内核源码分析
  • Spark集群启动原理分析
  • Spark应用程序提交原理分析
  • Spark作业工作原理分析
  • .1 MapReduce的工作原理
  • .2 Spark作业工作的原理
  • Spark检查点原理分析
  • 第5章 Spark SQL结构化数据处理引擎
  • 什么是Spark SQL
  • DataFrame和Dataset
  • Spark SQL的基本使用
  • Spark SQL数据源
  • .1 基本操作
  • .2 Parquet文件
  • .3 JSON数据集
  • .4 Hive表
  • .5 JDBC
  • Spark SQL内置函数
  • .1 自定义函数
  • .2 自定义聚合函数
  • .3 开窗函数
  • 案例分析:使用Spark SQL实现单词计数
  • 案例分析:Spark SQL与Hive整合
  • .1 整合Hive的步骤
  • .2 操作Hive的几种方式
  • 案例分析:Spark SQL读写MySQL
  • 案例分析:Spark SQL每日UV统计
  • 案例分析:Spark SQL热点搜索词统计
  • 综合案例:Spark SQL智慧交通数据分析
  • .1 项目介绍
  • .2 数据准备
  • .3 统计正常卡口数量
  • .4 统计车流量排名前3的卡口号
  • .5 统计车辆高速通过的卡口TOP5
  • .6 统计每个卡口通过速度最快的前3辆车
  • .7 车辆轨迹分析
  • 第6章 Kafka分布式消息系统
  • 什么是Kafka
  • Kafka架构
  • 主题与分区
  • 分区副本
  • 消费者组
  • 数据存储机制
  • 集群环境搭建
  • 命令行操作
  • .1 创建主题
  • .2 查询主题
  • .3 创建生产者
  • .4 创建消费者
  • Java API操作
  • .1 创建Java工程
  • .2 创建生产者
  • .3 创建消费者
  • .4 运行程序
  • 案例分析:Kafka生产者拦截器
  • 第7章 Spark Streaming实时流处理引擎
  • 什么是Spark Streaming
  • Spark Streaming工作原理
  • 输入DStream和Receiver
  • 第一个Spark Streaming程序
  • Spark Streaming数据源
  • .1 基本数据源
  • .2 高级数据源
  • .3 自定义数据源
  • DStream操作
  • .1 无状态操作
  • .2 状态操作
  • .3 窗口操作
  • .4 输出操作
  • .5 缓存及持久化
  • .6 检查点
  • 案例分析:Spark Streaming按批次累加单词数量
  • 案例分析:Spark Streaming整合Kafka计算实时单词数量
  • 案例分析:Spark Streaming实时用户日志黑名单过滤
  • 综合案例:微博用户行为分析
  • 第8章 Structured Streaming结构化流处理引擎
  • 什么是Structured Streaming
  • Structured Streaming单词计数
  • Structured Streaming编程模型
  • Structured Streaming查询输出
  • Structured Streaming窗口操作
  • .1 事件时间
  • .2 窗口聚合单词计数
  • .3 延迟数据和水印
  • 案例分析:Structured Streaming整合Kafka实现单词计数
  • 第9章 GraphX图计算引擎
  • 什么是GraphX
  • 第一个GraphX程序
  • GraphX数据结构
  • GraphX图操作
  • .1 基本操作
  • .2 属性操作
  • .3 结构操作
  • .4 连接操作
  • .5 聚合操作
  • 案例分析:使用GraphX计算社交网络中粉丝的平均年龄

评分及书评

  • 李硕 08

    挺不错的工具书

      3

    出版方

    清华大学出版社

    清华大学出版社成立于1980年6月,是由教育部主管、清华大学主办的综合出版单位。植根于“清华”这座久负盛名的高等学府,秉承清华人“自强不息,厚德载物”的人文精神,清华大学出版社在短短二十多年的时间里,迅速成长起来。清华大学出版社始终坚持弘扬科技文化产业、服务科教兴国战略的出版方向,把出版高等学校教学用书和科技图书作为主要任务,并为促进学术交流、繁荣出版事业设立了多项出版基金,逐渐形成了以出版高水平的教材和学术专著为主的鲜明特色,在教育出版领域树立了强势品牌。

    喜欢这本书的也喜欢

  • Hadoop+Spark大数据分析实战
  • Spark最佳实践
  • Spark大数据实时计算:基于Scala开发实战
  • Spark大数据分析实战
  • Hadoop大数据开发实战
  • 关于Spark大数据分析实战的相关词

    互联网发展相关书籍有哪些 互联网教育书籍
    互联网必看书籍 互联网著作权的特征
    互联网下载中文版 官方互联网免费下载
    互联网医院怎么买药 互联网时代书籍

    Spark大数据分析实战(张伟洋)pdf,mobi,epub,txt,kindle【电子版_简介_书评_在线阅读】

    发表评论

    :?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: