零基础入门Spark

开篇词 (1讲)



开篇词 | 入门Spark，你需要学会“三步走”

时长 17:10

基础知识 (12讲)



01｜Spark：从“大数据的Hello World”开始

时长 19:54

02 | RDD与编程模型：延迟计算是怎么回事？

时长 19:08

03 | RDD常用算子（一）：RDD内部的数据转换

时长 22:08

04 | 进程模型与分布式部署：分布式计算是怎么回事？

时长 18:36

05 | 调度系统：如何把握分布式计算的精髓？

时长 25:50

06 | Shuffle管理：为什么Shuffle是性能瓶颈？

时长 20:01

07 | RDD常用算子（二）：Spark如何实现数据聚合？

时长 18:45

08 | 内存管理：Spark如何使用内存？

时长 18:26

09 | RDD常用算子（三）：数据的准备、重分布与持久化

时长 23:28

10 | 广播变量 & 累加器：共享变量是用来做什么的？

时长 16:15

11 | 存储系统：数据到底都存哪儿了？

时长 14:55

12 | 基础配置详解：哪些参数会影响应用程序稳定性？

时长 21:12

Spark SQL (10讲)



13 | Spark SQL：让我们从“小汽车摇号分析”开始

时长 17:26

14 | 台前幕后：DataFrame与Spark SQL的由来

时长 20:34

15 | 数据源与数据格式：DataFrame从何而来？

时长 24:57

16 | 数据转换：如何在DataFrame之上做数据处理？

时长 23:40

17 | 数据关联：不同的关联形式与实现机制该怎么选？

时长 20:03

18 | 数据关联优化：都有哪些Join策略，开发者该如何取舍？

时长 17:00

19 | 配置项详解：哪些参数会影响应用程序执行性能？

时长 19:51

20 | Hive + Spark强强联合：分布式数仓的不二之选

时长 24:08

21｜Spark UI（上）：如何高效地定位性能问题？

时长 15:37

22｜Spark UI（下）：如何高效地定位性能问题？

时长 18:04

Spark MLlib (7讲)



23 | Spark MLlib：从“房价预测”开始

时长 20:17

24 | 特征工程（上）：有哪些常用的特征处理函数？

时长 22:01

25 | 特征工程（下）：有哪些常用的特征处理函数？

时长 16:00

26 | 模型训练（上）：决策树系列算法详解

时长 16:17

27 | 模型训练（中）：回归、分类和聚类算法详解

时长 14:19

28 | 模型训练（下）：协同过滤与频繁项集算法详解

时长 14:12

29 | Spark MLlib Pipeline：高效开发机器学习应用

时长 17:40

Structured Streaming (5讲)



30｜Structured Streaming：从“流动的Word Count”开始

时长 15:52

31｜新一代流处理框架：Batch mode和Continuous mode哪家强？

时长 15:08

32｜Window操作&Watermark：流处理引擎提供了哪些优秀机制？

时长 18:16

33｜流计算中的数据关联：流与流、流与批

时长 18:46

34｜Spark + Kafka：流计算中的“万金油”

时长 18:22

用户故事 (1讲)



用户故事 | 小王：保持空杯心态，不做井底之蛙

时长 08:38

结束语 (2讲)



结束语 | 进入时间裂缝，持续学习

时长 09:08

期末测试｜来赴一场100分之约！
隐藏内容
此处内容需要权限查看
普通用户购买价格：1金币
会员用户购买价格：免费
永久会员用户购买价格：免费推荐
会员免费查看

时长 00:37

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。