spark 基础

Last updated on September 15, 2024 pm

🧙 Questions

☄️ Ideas

基础概念

Spark是处理大数据的计算引擎,特点:支持集群,采用内存读取数据
支持多语言开发:scala,java,python,R

核心组件

  • spark sql: 支持sql语法
  • spark streaming: 实时数据处理

数据格式

  • RDD(Resilient Distributed Datasets):容错并行数据结构
  • DataFrame :分布式数据结构

运行原理

先申请资源,Driver进程开始执行程序,Driver会将Spark作业代码拆分成多个Stage,每个Stage执行部分代码,每个Stage又会生成多个Task


spark 基础
https://ispong.isxcode.com/hadoop/spark/spark 基础/
Author
ispong
Posted on
November 3, 2021
Licensed under