论坛元老 
   
- 威望
 - 72 
 
- 贡献
 - 97 
 
- 热心值
 - 0 
 
- 金币
 - 14755 
 
- 注册时间
 - 2020-8-31
 
 
 
 
 | 
 
 
课程介绍: 
 
本课程主要对Spark进行了简单介绍,给出了Spark的生态系统综述,同时进行Spark基本概念、计算模型进行了阐述,最后向大家讲解了Spark开发环境的配置。 
 
课程背景:  
 
Apache Spark是自由开源的分布式内存计算平台,目前已经成为 Apache 基金会的顶级项目。该平台可以快速、多计算范式、可靠地处理海量数据,除了基本批处理型外,还支持流计算、图计算、SQL分析和机器学习。  
 
核心内容:  
 
1.Spark生态系统 
2.Spark优点 
3.RDD 
4.Transformation和Action 
5.Spark开发环境搭建  
 
软件环境:Intellij,Linux,Scala  
 
是否提供资料:否  
 
课程等级:中级  
 
适合人群:  
 
数据工程师,数据分析师 
 
课程目录: 
 
1 Spark简介 06:59 
本课时介绍 Apache Spark的前世今生、基本功能。Spark生态系统,并对比传统批处理式系统讲解Spark的优点。 
2 Spark计算模型 08:29 
本课时介绍Spark计算模型,讲解了RDD和RDD上的运算Transformation和Action,以及Spark的运行时模型。 
3 Spark开发环境搭建 13:01 
本课时主要介绍Spark开发环境的搭建,在Windows以及Linux平台搭建Spark开发环境,通过SBT构建Spark项目,通过Spark Shell执行Spark程序。 
 
 
 
 |   
 
 
 
 |