大数据手册(Spark)--Spark 简介
创作时间:
作者:
@小白创作中心
大数据手册(Spark)--Spark 简介
引用
CSDN
1.
https://blog.csdn.net/qq_41518277/article/details/138633647
Apache Spark是一种广泛使用的分布式数据处理框架,以其高速处理能力和丰富的API支持而著称。本文将为您详细介绍Spark的基本架构和核心组件,并简要介绍PySpark的主要功能模块,帮助您快速了解这一强大的大数据处理工具。
Spark 简介
Apache Spark 是一种用于大数据工作负载的分布式开源处理系统。它使用内存中缓存和优化的查询执行方式,可针对任何规模的数据进行快速分析查询。Apache Spark 提供了简明、一致的 Java、Scala、Python 和 R 应用程序编程接口 (API)。
Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark 拥有Hadoop MapReduce所具有的优点,但不同的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
Spark 基本架构
一个完整的Spark应用程序(Application),在提交集群运行时,它涉及到如下图所示的组件:
- Driver Program:(主节点或任务控制节点)执行应用程序主函数并创建SparkContext对象,SparkContext配置Spark应用程序的运行环境,并负责与不同种类的集群资源管理器通信,进行资源申请、任务的分配和监控等。当Executor部分运行完毕后,Driver同时负责将SparkContext关闭。
- Cluster Manager:(集群资源管理器)指的是在集群上进行资源(CPU,内存,宽带等)调度和管理。可以使用Spark自身,Hadoop YARN,Mesos等不同的集群管理方式。
- Worker Node:从节点或工作节点。
- Executor:每个工作节点上都会驻留一个Executor进程,每个进程会派生出若干线程,每个线程都会去执行相关任务。
- Task:(任务)运行在Executor上的工作单元。
PySpark概述
PySpark是Apache Spark的Python API。它使您能够使用Python在分布式环境中执行实时、大规模的数据处理。PySpark支持Spark的所有功能,如Spark SQL、DataFrames、结构化流、机器学习(MLlib)和Spark Core。
- Spark SQL是Spark处理结构化数据的模块,它提供了结构化抽象 DataFrame。
- Pandas API on Spark是分布式 Pandas API。
- Structured Streaming用于增量计算和流处理
- Spark MLlib用于分布式环境下的机器学习
- Spark Core是该平台的基础。它提供RDD(弹性分布式数据集)和内存计算能力。
热门推荐
用户增长策略全解析:从留存到裂变的多维度方法
超级赛亚人 1、2、3 的变身条件有什么不同?
倭寇与明朝和西班牙三国杀的结果证明,戚家军战力与西班牙相当
运动与情绪管理:运动如何缓解压力,提升情绪稳定性
蚕豆病患者饮食指南:这些食物需谨慎
江苏苏州:买全球卖全球 跨境电商“跨”出发展新优势
商标注册国际分类:了解商标分类的重要性及其在全球业务中的应用
JS7坦克怎么画:详细教程与技巧
雨刮器响声如何调整臂?
心理学:当你出现感官过载时,就容易出现不满、委屈和愤怒的情绪
算力市场规模与未来发展趋势分析
眼睛火辣辣的怎么回事
狂犬病早期症状几天会出现
丹青贯古今:探寻苏工苏作的“繁华”之秘
2024年单纯疱疹疫苗最新情况汇总!
Excel班次时间设置完全指南:从基础到进阶的多种实用方法
挣脱心灵的枷锁:如何获得真正的自由?
GAN全新研究成果:模型大幅简化,逆袭扩散模型,AI社区疯传
上下屈服强度和规定塑性延伸强度及屈服强度的测试方法
如何防止脱发?预防脱发的10种食物!
券商十强出炉,位次变化很大|券业年报
吃得少为什么瘦不下来?专家从7个方面解析
粘姓详细信息:一个女真后裔家族的传承与变迁
如何做好API审核资料
公积金贷款计算器对提前还款有什么帮助?
羽衣甘蓝什么时候种植最好
考雅思报班有必要吗?如何选择合适的备考方式【干货】
自己缴纳社保后入职公司怎么办
教你打造办公与电竞双全高效电脑,全程详细攻略尽在这篇
扶贫创业项目:创新模式助力贫困地区脱贫攻坚