spark 基础
Last updated on November 22, 2024 pm
🧙 Questions
☄️ Ideas
基础概念
Spark是处理大数据的计算引擎,特点:支持集群,采用内存读取数据
支持多语言开发:scala,java,python,R
核心组件
- spark sql: 支持sql语法
- spark streaming: 实时数据处理
数据格式
- RDD(Resilient Distributed Datasets):容错并行数据结构
- DataFrame :分布式数据结构
运行原理
先申请资源,Driver进程开始执行程序,Driver会将Spark作业代码拆分成多个Stage,每个Stage执行部分代码,每个Stage又会生成多个Task
🔗 Links
spark 基础
https://ispong.isxcode.com/hadoop/spark/spark 基础/