Spark快速大数据分析(第2版)

豆瓣
Spark快速大数据分析(第2版)

登录后可管理标记收藏。

ISBN: 9787115576019
作者: [美] 朱尔斯·S. 达米吉 / [美] 布鲁克·韦尼希 / [印] 泰瑟加塔·达斯 / [美] 丹尼·李
译者: 王道远
出版社: 人民邮电出版社
出品方: 图灵教育
发行时间: 2021 -11
丛书: 图灵程序设计丛书
装订: 平装
价格: 119.80元
页数: 314

/ 10

1 个评分

评分人数不足
借阅或购买

Learning Spark, Second Edition

[美] 朱尔斯·S. 达米吉 / [美] 布鲁克·韦尼希    译者: 王道远

简介

毋庸置疑,数据已经成为现代化企业的重要资产,大数据分析技术则是企业挖掘数据价值的核心利器。一直以来,Spark就是大数据分析领域的佼佼者,也已经成为一站式大数据分析引擎的事实标准。
◎ 编辑推荐
☆ Databricks工程师诚意之作,比官方文档更实用的Spark入门教程
☆ 前一版印刷32次,销量超6万册
☆ 新版全面更新,覆盖Spark 3.0新特性
本书作者均来自Spark的母公司Databricks。他们将带你开始使用Spark,并了解如何利用它适应这个属于大数据和机器学习的新时代。第2版在第1版的基础上做了大量更新,涵盖Spark 3.0的新特性,并着重展示如何利用机器学习算法执行大数据分析。
○ 学习使用Python、Java、Scala的结构化数据API
○ 理解Spark SQL引擎的原理
○ 掌握Spark应用的优化技巧
○ 了解如何读写数据源:JSON、Parquet、CSV、Avro、ORC等
○ 使用Structured Streaming分析批式数据和流式数据
○ 使用Spark和Delta Lake构建湖仓一体的系统
○ 使用MLlib开发机器学习流水线
◎ 内容简介
本书的主角是在大数据时代应运而生的数据处理与分析利器——Spark。你将通过丰富的示例学习如何使用Spark的结构化数据API,利用Spark SQL进行交互式查询,掌握Spark应用的优化之道,用Spark和Delta Lake等开源工具构建可靠的数据湖,并用MLlib库实现机器学习流水线。
随着Spark从2.x版本升级到3.0版本,本书第2版做了全面的更新,以体现Spark生态系统在机器学习、流处理技术等方面的发展,另新增一章详解Spark 3.0引入的新特性。
◎ 业内佳评
“这本书提供了一种系统学习Spark的方法,并介绍了该项目的发展近况,是Spark开发人员上手大数据的好途径。”
——Reynold Xin,Databricks联合创始人、Apache Spark PMC成员
“对于希望学习Spark并想构建可伸缩的可靠大数据应用的数据科学家和数据工程师来说,这本书应成为常备指南。”
——Ben Lorica,Databricks数据科学家、Spark + AI峰会项目主席
“在信息化时代,数据已经成为现代化企业的重要资产,大数据分析技术也已经成为企业挖掘数据价值的核心利器。近10年来,随着开源技术理念的蓬勃发展,开源大数据技术体系已经成为行业的主流选择,Apache Spark就是其中的优秀代表。凭借优秀的架构设计,Spark 可以在数据仓库、数据湖和机器学习领域快速处理海量数据,加速各行各业实现数字化转型。”
——王峰,花名“莫问”,阿里云开源大数据平台负责人
“转眼间Apache Spark已经走过了近12个年头。作为一个12年的项目,Spark并未逐渐凋零,而是在云原生、湖仓一体、AI等方面爆发出更强的生命力。这本书的第2版在为大家介绍Spark基本原理的同时,也花了不少篇幅介绍它在这些新兴领域中的应用。希望你通过此书对Spark的基本原理及未来发展有一个系统的了解,也希望Spark在未来的10年能持续进化,在大数据领域擦出更多的‘火花’。”
——邵赛赛,腾讯专家工程师,数据湖团队负责人
“这是一个数据驱动创新的时代,一个数据改变世界的时代,一个数据成为生产资源和执政资源的时代。Apache Spark是数据分析的事实标准。这本书既是学习Spark的入门指南,也是大数据行业的敲门砖。”
——李潇,Databricks Spark研发部主管,Apache Spark PMC成员

contents

译者序 xiii
对本书的赞誉 xv
序 .xvii
前言 xix
第 1 章 Apache Spark简介:一站式分析引擎 1
1.1 Spark的起源 1
1.2 什么是Spar 3
1.3 一站式数据分析 5
1.4 开发者体验 12
第 2 章 下载并开始使用Apache Spark 16
2.1 第 1 步:下载Spark 16
2.2 第 2 步:使用Scala shell 或PySpark shell 18
2.3 第3 步:理解Spark 应用的相关概念 22
2.4 转化操作、行动操作以及惰性求值 24
2.5 Spark UI 26
2.6 第 一个独立应用 29
2.7 小结 36
第 3 章 Apache Spark 的结构化数据API 37
3.1 RDD 的背后是什么 37
3.2 Spark 支持结构化数据 38
3.3 DataFrame API 41
3.4 Dataset API 60
3.5 对比DataFrame 和Dataset 65
3.6 Spark SQL 及其底层引擎 66
3.7 小结 71
第 4 章 Spark SQL 与DataFrame:内建数据源概览 73
4.1 在Spark 应用中使用Spark SQL 74
4.2 SQL 表和视图 79
4.3 DataFrame 和SQL 表的数据源 83
4.4 小结 98
第 5 章 Spark SQL 与DataFrame:读写外部数据源 100
5.1 Spark SQL 与Apache Hive 100
5.2 用Spark SQL shell、Beeline 和Tableau 查询 106
5.3 外部数据源 114
5.4 DataFrame 和Spark SQL 的高阶函数 121
5.5 常用的DataFrame 操作和Spark SQL 操作 127
5.6 小结 137
第 6 章 Spark SQL 与Dataset 138
6.1 Java 与Scala 共用一套API 138
6.2 操作Dataset 140
6.3 Dataset 与DataFrame 的内存管理 147
6.4 Dataset 编码器 147
6.5 使用Dataset 的开销 149
6.6 小结 151
第 7 章 Spark 应用的优化与调优 152
7.1 为效率而优化与调优 152
7.2 数据的缓存与持久化 160
7.3 Spark 的各种连接算法 164
7.4 查看Spark UI 173
7.5 小结 180
第 8 章 结构化流处理 181
8.1 Spark 流处理引擎的演进过程 181
8.2 Structured Streaming 的编程模型 184
8.3 Structured Streaming 查询 186
8.4 流式数据源与数据池 196
8.5 数据转化 204
8.6 有状态的流式聚合 207
8.7 流式连接 214
8.8 任意的有状态计算 220
8.9 性能调优 227
8.10 小结 229
第 9 章 用Apache Spark 构建可靠的数据湖 230
9.1 最佳存储解决方案的重要特点 230
9.2 数据库 231
9.3 数据湖 233
9.4 湖仓一体:下一代存储解决方案 235
9.5 用Spark 与Delta Lake 构建湖仓一体的系统 237
9.6 小结 246
第 10 章 用MLlib 实现机器学习 247
10.1 什么是机器学习 247
10.2 设计机器学习流水线 251
10.3 超参数调优 266
10.4 小结 279
第 11 章 用Apache Spark管理、部署与伸缩机器学习流水线 280
11.1 模型管理 280
11.2 用MLlib 部署模型所用的选项 286
11.3 利用Spark 使用非MLlib 模型 291
11.4 小结 295
第 12 章 尾声:Apache Spark 3.0 296
12.1 Spark 内核与Spark SQL 296
12.2 Structured Streaming 304
12.3 PySpark、Pandas UDF 和Pandas 函数API 306
12.4 有改动的功能 308
12.5 小结 311
作者简介 313
封面简介 313

其它版本
短评
评论