- A+
目录【点击切换】
Hadoop大数据处理简介
科技 类型 豆瓣评分 可以朗读 语音朗读 276千字 字数 2011 发行日期
主编推荐语
迅速提升Hadoop使用技巧和运行效率。
内容简介
《Hadoop大数据处理》以大数据处理系统的三大关键要素——“存储”、“计算”与“容错”为起点,深入浅出地介绍了如何使用Hadoop这一高性能分布式技术完成大数据处理任务。本书不仅包含了使用Hadoop进行大数据处理的实践性知识和示例,还以图文并茂的形式系统性地揭示了Hadoop技术族中关键组件的运行原理和优化手段,为读者进一步提升Hadoop使用技巧和运行效率提供了颇具价值的参考。
《Hadoop大数据处理》共10章,涉及的主题包括大数据处理概论、基于Hadoop的大数据处理框架、MapReduce计算模式、使用HDFS存储大数据、HBase大数据库、大数据的分析处理、Hadoop环境下的数据整合、Hadoop集群的管理与维护、基于MapReduce的数据挖掘实践及面向未来的大数据处理技术。最后附有一个在Windows环境下搭建Hadoop开发及调试环境的参考手册。
《Hadoop大数据处理》适合需要使用Hadoop处理大数据的程序员、架构师和产品经理作为技术参考和培训资料,也可作为高校研究生和本科生教材。
目录
- 版权信息
- 内容提要
- 前言
- 第1章 大数据处理概论
- 什么是大数据
- 数据处理平台的基础架构
- 大数据处理的存储
- .1 提升容量
- .2 提升吞吐量
- 大数据处理的计算模式
- .1 多处理技术
- .2 并行计算
- 大数据处理系统的容错性
- .1 数据存储容错
- .2 计算任务容错
- 大数据处理的云计算变革
- 本章参考文献
- 第2章 基于Hadoop的大数据处理架构
- Google核心云计算技术
- .1 并行计算编程模型MapReduce
- .2 分布式文件系统GFS
- .3 分布式结构化数据存储BigTable
- Hadoop云计算技术及发展
- .1 Hadoop的由来
- .2 Hadoop原理与运行机制
- .3 Hadoop相关技术及简介
- .4 Hadoop技术的发展与演进
- 基于云计算的大数据处理架构
- 基于云计算的大数据处理技术的应用
- .1 百度
- .2 阿里巴巴
- .3 腾讯
- .4 华为
- .5 中国移动
- Hadoop运行实践
- 本章参考文献
- 第3章 MapReduce计算模式
- MapReduce原理
- MapReduce工作机制
- .1 MapReduce运行框架的组件
- .2 MapReduce作业的运行流程
- .3 作业调度
- .4 异常处理
- MapReduce应用开发
- .1 MapReduce应用开发流程
- .2 通过Web界面分析MapReduce应用
- .3 MapReduce任务执行的单步跟踪
- .4 多个MapReduce过程的组合模式
- .5 使用其他语言编写MapReduce程序
- .6 不同数据源的数据联结(Join)
- MapReduce设计模式
- .1 计数(Counting)
- .2 分类(Classfication)
- .3 过滤处理(Filtering)
- .4 排序(Sorting)
- .5 去重计数(Distinct Counting)
- .6 相关计数(Cross-Correlation)
- MapReduce算法实践
- .1 最短路径算法
- .2 反向索引算法
- .3 PageRank算法
- MapReduce性能调优
- .1 MapReduce参数配置优化
- .2 使用Cominber减少数据传输
- .3 启用数据压缩
- .4 使用预测执行功能
- .5 重用JVM
- 本章参考文献
- 第4章 使用HDFS存储大数据
- 大数据的云存储需求
- HDFS架构与流程
- .1 系统框架
- .2 数据读取过程
- .3 数据写入过程
- 文件访问与控制
- .1 基于命令行的文件管理
- .2 通过API操作文件
- HDFS性能优化
- .1 调整数据块尺寸
- .2 规划网络与节点
- .3 调整服务队列数量
- .4 预留磁盘空间
- .5 存储平衡
- .6 根据节点功能优化磁盘配置
- .7 其他参数
- HDFS的小文件存储问题
- .1 Hadoop Archive工具
- .2 CombineFileInputFormat
- .3 SequenceFile格式
- .4 相关研究
- HDFS的高可用性问题
- .1 基于配置的元数据备份
- .2 基于DRBD的元数据备份
- .3 Secondary NameNode/Checkpoint Node
- .4 Backup Node
- .5 NameNode热备份
- .6 HDFS的HA方案总结
- 本章参考文献
- 第5章 HBase大数据库
- 大数据环境下的数据库
- HBase架构与原理
- .1 系统架构及组件
- .2 数据模型与物理存储
- .3 RegionServer的查找
- .4 物理部署与读写流程
- 管理HBase中的数据
- .1 Shell
- .2 Java API
- .3 非Java语言访问
- 从RDBMS到HBase
- .1 行到列与主键到行关键字
- .2 联合查询(Join)与去范例化(Denormalization)
- 在HBase上运行MapReduce
- HBase性能优化
- .1 参数配置优化
- .2 表设计优化
- .3 更新数据操作优化
- .4 读数据操作优化
- .5 数据压缩
- .6 JVM GC优化
- .7 负载均衡
- .8 性能测试工具
- 本章参考文献
- 第6章 大数据的分析处理
- 大数据的分析处理概述
- Hive
- .1 系统架构及组件
- .2 Hive数据结构
- .3 数据存储格式
- .4 Hive支持的数据类型
- .5 使用HiveQL访问数据
- .6 自定义函数扩展功能
- Pig
- .1 Pig架构
- .2 Pig Latin语言
- .3 使用Pig处理数据
- Hive与Pig的对比
- 本章参考文献
- 第7章 Hadoop环境下的数据整合
- Hadoop计算环境下的数据整合问题
- 数据库整合工具Sqoop
- .1 使用Sqoop导入数据
- .2 使用Sqoop导出数据
- .3 Sqoop与Hive结合
- .4 Sqoop对大对象数据的处理
- Hadoop平台内部数据整合工具HCatalog
- .1 HCatalog的需求与实现
- .2 MapReduce使用HCatalog管理数据
- .3 Pig使用HCatalog管理数据
- .4 HCatalog的命令行与通知功能
- 本章参考文献
- 第8章 Hadoop集群的管理与维护
- 云计算平台的管理体系
- ZooKeeper——集群中的配置管理与协调者
- .1 集群环境下的配置管理
- .2 ZooKeeper架构
- .3 ZooKeeper的数据模型
- Hadoop集群监控的基础组件
- .1 Nagios
- .2 Ganglia
- .3 JMX
- Ambari——Hadoop集群部署与监控集成工具
- 基于Cacti的Hadoop集群服务器监控
- Chukwa——集群日志收集及分析
- 基于Kerberos的Hadoop安全管理
- Hadoop集群管理工具分析
- 本章参考文献
- 第9章 基于MapReduce的数据挖掘
- 数据挖掘及其分布式并行化
- 基于MapReduce的数据挖掘与Mahout
- 经典数据挖掘算法的MapReduce实例
- .1 矩阵乘法
- .2 相似度计算
- 基于云计算的数据挖掘实践及面临的挑战
- 本章参考文献
- 第10章 面向未来的大数据处理
- 下一代计算框架YARN
- 大数据的实时交互式分析
- .1 Google Dremel
- .2 Cloudera Impala
- 大数据的图计算
- .1 BSP模型
- .2 Google Pregel计算框架
- .3 Apache Hama开源项目
- 本章参考文献
- 附录 基于Cygwin的Hadoop环境搭建
- 附录A 安装和配置Cygwin
- 附录B 安装和配置Hadoop
- 附录C 运行示例程序验证Hadoop安装
- 附录D 安装和配置Eclipse下的Hadoop开发环境
评分及书评
评分不足
出版方
人民邮电出版社
人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。
喜欢这本书的也喜欢
关于Hadoop大数据处理的相关词
互联网金融类书籍 | 互联网医院怎么看病 |
互联网思维畅销书 | 与互联网有关的书籍有哪些推荐 |
互联网营销师培训 | 互联网金融创业规划书 |
互联网营销平台 | 一本书读懂互联网营销推广怎么样 |