大数据手册(Spark)--Spark 简介
创作时间:
作者:
@小白创作中心
大数据手册(Spark)--Spark 简介
引用
CSDN
1.
https://blog.csdn.net/qq_41518277/article/details/138633647
Apache Spark是一种广泛使用的分布式数据处理框架,以其高速处理能力和丰富的API支持而著称。本文将为您详细介绍Spark的基本架构和核心组件,并简要介绍PySpark的主要功能模块,帮助您快速了解这一强大的大数据处理工具。
Spark 简介
Apache Spark 是一种用于大数据工作负载的分布式开源处理系统。它使用内存中缓存和优化的查询执行方式,可针对任何规模的数据进行快速分析查询。Apache Spark 提供了简明、一致的 Java、Scala、Python 和 R 应用程序编程接口 (API)。
Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark 拥有Hadoop MapReduce所具有的优点,但不同的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
Spark 基本架构
一个完整的Spark应用程序(Application),在提交集群运行时,它涉及到如下图所示的组件:
- Driver Program:(主节点或任务控制节点)执行应用程序主函数并创建SparkContext对象,SparkContext配置Spark应用程序的运行环境,并负责与不同种类的集群资源管理器通信,进行资源申请、任务的分配和监控等。当Executor部分运行完毕后,Driver同时负责将SparkContext关闭。
- Cluster Manager:(集群资源管理器)指的是在集群上进行资源(CPU,内存,宽带等)调度和管理。可以使用Spark自身,Hadoop YARN,Mesos等不同的集群管理方式。
- Worker Node:从节点或工作节点。
- Executor:每个工作节点上都会驻留一个Executor进程,每个进程会派生出若干线程,每个线程都会去执行相关任务。
- Task:(任务)运行在Executor上的工作单元。
PySpark概述
PySpark是Apache Spark的Python API。它使您能够使用Python在分布式环境中执行实时、大规模的数据处理。PySpark支持Spark的所有功能,如Spark SQL、DataFrames、结构化流、机器学习(MLlib)和Spark Core。
- Spark SQL是Spark处理结构化数据的模块,它提供了结构化抽象 DataFrame。
- Pandas API on Spark是分布式 Pandas API。
- Structured Streaming用于增量计算和流处理
- Spark MLlib用于分布式环境下的机器学习
- Spark Core是该平台的基础。它提供RDD(弹性分布式数据集)和内存计算能力。
热门推荐
孟晚舟的传奇成长之路
高血压患者必看!新研究:补充维生素D和两种营养,可全面降血压
黑猪肉的营养价值与功效有哪些
手机与音响连接:深度解析音频设备协作及信号传输原理
低脂牛奶和全脂牛奶,你会选择哪一种?两者营养价值差异解析
婴幼儿奶瓶的选择
皮肤小红点或暗藏风险:肝癌早期症状全解析与预防指南
装修方案范本:打造绝美灰白极简风, 有手就会
如何运用有效的沟通技巧,以提升感情关系的稳定性和满意度
毛瑟工厂为德国陆军生产 大名鼎鼎的“大红九”C96的最强变种型号
《明日方舟》5星行医角色哈洛德的玩法技巧
益生菌老熟人了,后生元你造吗?
阿拉斯加犬的日常狗粮摄入量及注意事项(每天应该吃多少狗粮?)
蜂窝移动通信技术是如何一步步发展到现在的5G标准
肚脐周围硬硬的是怎么回事
全球首艘“养殖航母”“湾区伶仃”号命名:8万立方米水体可年产3000吨海鱼
留学申请理由怎么写?如何撰写有说服力的理由?
仓库管理流程如何优化人力资源配置?
旅客损害赔偿请求权的诉讼时效及相关法律规定
网约车个人营运证怎么办理?全流程指南
备份 Windows 11 并创建或恢复系统映像的分步指南
2025年备用机趋势预测与推荐
新能源崛起,燃油车前十仅剩两席,汽车时代大变革已至?
牛油果核是什么东西?它的神奇秘密竟然让人惊艳!
深圳今年力争开通6条新线,城市轨道交通线路长度将增至634.6公里
世界肝炎日:五种病毒性肝炎的全面科普
区情|优化政务服务,提升企业感受,来看这些政务服务新场景→
学信网验证码怎么查找
租房时哪些情况下物品损坏需租客赔偿?
红萝卜种子的种植技巧(从选种到收获)