Hadoop大数据处理(刘军)pdf,mobi,epub,txt,kindle【电子版_简介_书评_在线阅读】

  • A+
所属分类:得到掌读
       

Hadoop大数据处理简介

科技 类型 豆瓣评分 可以朗读 语音朗读 276千字 字数 2011 发行日期

主编推荐语

迅速提升Hadoop使用技巧和运行效率。

内容简介

《Hadoop大数据处理》以大数据处理系统的三大关键要素——“存储”、“计算”与“容错”为起点,深入浅出地介绍了如何使用Hadoop这一高性能分布式技术完成大数据处理任务。本书不仅包含了使用Hadoop进行大数据处理的实践性知识和示例,还以图文并茂的形式系统性地揭示了Hadoop技术族中关键组件的运行原理和优化手段,为读者进一步提升Hadoop使用技巧和运行效率提供了颇具价值的参考。
  
《Hadoop大数据处理》共10章,涉及的主题包括大数据处理概论、基于Hadoop的大数据处理框架、MapReduce计算模式、使用HDFS存储大数据、HBase大数据库、大数据的分析处理、Hadoop环境下的数据整合、Hadoop集群的管理与维护、基于MapReduce的数据挖掘实践及面向未来的大数据处理技术。最后附有一个在Windows环境下搭建Hadoop开发及调试环境的参考手册。
  
《Hadoop大数据处理》适合需要使用Hadoop处理大数据的程序员、架构师和产品经理作为技术参考和培训资料,也可作为高校研究生和本科生教材。

目录

  • 版权信息
  • 内容提要
  • 前言
  • 第1章 大数据处理概论
  • 什么是大数据
  • 数据处理平台的基础架构
  • 大数据处理的存储
  • .1 提升容量
  • .2 提升吞吐量
  • 大数据处理的计算模式
  • .1 多处理技术
  • .2 并行计算
  • 大数据处理系统的容错性
  • .1 数据存储容错
  • .2 计算任务容错
  • 大数据处理的云计算变革
  • 本章参考文献
  • 第2章 基于Hadoop的大数据处理架构
  • Google核心云计算技术
  • .1 并行计算编程模型MapReduce
  • .2 分布式文件系统GFS
  • .3 分布式结构化数据存储BigTable
  • Hadoop云计算技术及发展
  • .1 Hadoop的由来
  • .2 Hadoop原理与运行机制
  • .3 Hadoop相关技术及简介
  • .4 Hadoop技术的发展与演进
  • 基于云计算的大数据处理架构
  • 基于云计算的大数据处理技术的应用
  • .1 百度
  • .2 阿里巴巴
  • .3 腾讯
  • .4 华为
  • .5 中国移动
  • Hadoop运行实践
  • 本章参考文献
  • 第3章 MapReduce计算模式
  • MapReduce原理
  • MapReduce工作机制
  • .1 MapReduce运行框架的组件
  • .2 MapReduce作业的运行流程
  • .3 作业调度
  • .4 异常处理
  • MapReduce应用开发
  • .1 MapReduce应用开发流程
  • .2 通过Web界面分析MapReduce应用
  • .3 MapReduce任务执行的单步跟踪
  • .4 多个MapReduce过程的组合模式
  • .5 使用其他语言编写MapReduce程序
  • .6 不同数据源的数据联结(Join)
  • MapReduce设计模式
  • .1 计数(Counting)
  • .2 分类(Classfication)
  • .3 过滤处理(Filtering)
  • .4 排序(Sorting)
  • .5 去重计数(Distinct Counting)
  • .6 相关计数(Cross-Correlation)
  • MapReduce算法实践
  • .1 最短路径算法
  • .2 反向索引算法
  • .3 PageRank算法
  • MapReduce性能调优
  • .1 MapReduce参数配置优化
  • .2 使用Cominber减少数据传输
  • .3 启用数据压缩
  • .4 使用预测执行功能
  • .5 重用JVM
  • 本章参考文献
  • 第4章 使用HDFS存储大数据
  • 大数据的云存储需求
  • HDFS架构与流程
  • .1 系统框架
  • .2 数据读取过程
  • .3 数据写入过程
  • 文件访问与控制
  • .1 基于命令行的文件管理
  • .2 通过API操作文件
  • HDFS性能优化
  • .1 调整数据块尺寸
  • .2 规划网络与节点
  • .3 调整服务队列数量
  • .4 预留磁盘空间
  • .5 存储平衡
  • .6 根据节点功能优化磁盘配置
  • .7 其他参数
  • HDFS的小文件存储问题
  • .1 Hadoop Archive工具
  • .2 CombineFileInputFormat
  • .3 SequenceFile格式
  • .4 相关研究
  • HDFS的高可用性问题
  • .1 基于配置的元数据备份
  • .2 基于DRBD的元数据备份
  • .3 Secondary NameNode/Checkpoint Node
  • .4 Backup Node
  • .5 NameNode热备份
  • .6 HDFS的HA方案总结
  • 本章参考文献
  • 第5章 HBase大数据库
  • 大数据环境下的数据库
  • HBase架构与原理
  • .1 系统架构及组件
  • .2 数据模型与物理存储
  • .3 RegionServer的查找
  • .4 物理部署与读写流程
  • 管理HBase中的数据
  • .1 Shell
  • .2 Java API
  • .3 非Java语言访问
  • 从RDBMS到HBase
  • .1 行到列与主键到行关键字
  • .2 联合查询(Join)与去范例化(Denormalization)
  • 在HBase上运行MapReduce
  • HBase性能优化
  • .1 参数配置优化
  • .2 表设计优化
  • .3 更新数据操作优化
  • .4 读数据操作优化
  • .5 数据压缩
  • .6 JVM GC优化
  • .7 负载均衡
  • .8 性能测试工具
  • 本章参考文献
  • 第6章 大数据的分析处理
  • 大数据的分析处理概述
  • Hive
  • .1 系统架构及组件
  • .2 Hive数据结构
  • .3 数据存储格式
  • .4 Hive支持的数据类型
  • .5 使用HiveQL访问数据
  • .6 自定义函数扩展功能
  • Pig
  • .1 Pig架构
  • .2 Pig Latin语言
  • .3 使用Pig处理数据
  • Hive与Pig的对比
  • 本章参考文献
  • 第7章 Hadoop环境下的数据整合
  • Hadoop计算环境下的数据整合问题
  • 数据库整合工具Sqoop
  • .1 使用Sqoop导入数据
  • .2 使用Sqoop导出数据
  • .3 Sqoop与Hive结合
  • .4 Sqoop对大对象数据的处理
  • Hadoop平台内部数据整合工具HCatalog
  • .1 HCatalog的需求与实现
  • .2 MapReduce使用HCatalog管理数据
  • .3 Pig使用HCatalog管理数据
  • .4 HCatalog的命令行与通知功能
  • 本章参考文献
  • 第8章 Hadoop集群的管理与维护
  • 云计算平台的管理体系
  • ZooKeeper——集群中的配置管理与协调者
  • .1 集群环境下的配置管理
  • .2 ZooKeeper架构
  • .3 ZooKeeper的数据模型
  • Hadoop集群监控的基础组件
  • .1 Nagios
  • .2 Ganglia
  • .3 JMX
  • Ambari——Hadoop集群部署与监控集成工具
  • 基于Cacti的Hadoop集群服务器监控
  • Chukwa——集群日志收集及分析
  • 基于Kerberos的Hadoop安全管理
  • Hadoop集群管理工具分析
  • 本章参考文献
  • 第9章 基于MapReduce的数据挖掘
  • 数据挖掘及其分布式并行化
  • 基于MapReduce的数据挖掘与Mahout
  • 经典数据挖掘算法的MapReduce实例
  • .1 矩阵乘法
  • .2 相似度计算
  • 基于云计算的数据挖掘实践及面临的挑战
  • 本章参考文献
  • 第10章 面向未来的大数据处理
  • 下一代计算框架YARN
  • 大数据的实时交互式分析
  • .1 Google Dremel
  • .2 Cloudera Impala
  • 大数据的图计算
  • .1 BSP模型
  • .2 Google Pregel计算框架
  • .3 Apache Hama开源项目
  • 本章参考文献
  • 附录 基于Cygwin的Hadoop环境搭建
  • 附录A 安装和配置Cygwin
  • 附录B 安装和配置Hadoop
  • 附录C 运行示例程序验证Hadoop安装
  • 附录D 安装和配置Eclipse下的Hadoop开发环境

评分及书评

评分不足

  • Robust 02

    本书以大数据处理系统的三大关键要素 ——“存储”、“计算” 与 “容错” 为起点,深入浅出地介绍了如何使用 Hadoop 这一高性能分布式技术完成大数据处理任务。本书不仅包含了使用 Hadoop 进行大数据处理的实践性知识和示例,还以图文并茂的形式系统性地揭示了 Hadoop 技术族中关键组件的运行原理和优化手段,为读者进一步提升 Hadoop 使用技巧和运行效率提供了颇具价值的参考。

      1

    出版方

    人民邮电出版社

    人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。

    喜欢这本书的也喜欢

  • Hadoop 3实战指南
  • Hadoop大数据开发实战
  • Hadoop 3大数据技术快速入门
  • Hadoop应用开发技术详解
  • Hadoop大数据技术开发实战
  • 关于Hadoop大数据处理的相关词

    互联网金融类书籍 互联网医院怎么看病
    互联网思维畅销书 与互联网有关的书籍有哪些推荐
    互联网营销师培训 互联网金融创业规划书
    互联网营销平台 一本书读懂互联网营销推广怎么样

    Hadoop大数据处理(刘军)pdf,mobi,epub,txt,kindle【电子版_简介_书评_在线阅读】

    发表评论

    :?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: