大数据手册(Spark)--Spark 简介
创作时间:
作者:
@小白创作中心
大数据手册(Spark)--Spark 简介
引用
CSDN
1.
https://blog.csdn.net/qq_41518277/article/details/138633647
Apache Spark是一种广泛使用的分布式数据处理框架,以其高速处理能力和丰富的API支持而著称。本文将为您详细介绍Spark的基本架构和核心组件,并简要介绍PySpark的主要功能模块,帮助您快速了解这一强大的大数据处理工具。
Spark 简介
Apache Spark 是一种用于大数据工作负载的分布式开源处理系统。它使用内存中缓存和优化的查询执行方式,可针对任何规模的数据进行快速分析查询。Apache Spark 提供了简明、一致的 Java、Scala、Python 和 R 应用程序编程接口 (API)。
Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark 拥有Hadoop MapReduce所具有的优点,但不同的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
Spark 基本架构
一个完整的Spark应用程序(Application),在提交集群运行时,它涉及到如下图所示的组件:
- Driver Program:(主节点或任务控制节点)执行应用程序主函数并创建SparkContext对象,SparkContext配置Spark应用程序的运行环境,并负责与不同种类的集群资源管理器通信,进行资源申请、任务的分配和监控等。当Executor部分运行完毕后,Driver同时负责将SparkContext关闭。
- Cluster Manager:(集群资源管理器)指的是在集群上进行资源(CPU,内存,宽带等)调度和管理。可以使用Spark自身,Hadoop YARN,Mesos等不同的集群管理方式。
- Worker Node:从节点或工作节点。
- Executor:每个工作节点上都会驻留一个Executor进程,每个进程会派生出若干线程,每个线程都会去执行相关任务。
- Task:(任务)运行在Executor上的工作单元。
PySpark概述
PySpark是Apache Spark的Python API。它使您能够使用Python在分布式环境中执行实时、大规模的数据处理。PySpark支持Spark的所有功能,如Spark SQL、DataFrames、结构化流、机器学习(MLlib)和Spark Core。
- Spark SQL是Spark处理结构化数据的模块,它提供了结构化抽象 DataFrame。
- Pandas API on Spark是分布式 Pandas API。
- Structured Streaming用于增量计算和流处理
- Spark MLlib用于分布式环境下的机器学习
- Spark Core是该平台的基础。它提供RDD(弹性分布式数据集)和内存计算能力。
热门推荐
手机屏幕到底要不要贴膜?实用性解析!
智能回收行业正在兴起:用人工智能对抗电子垃圾
胸腔积液腹腔积液的原因及治疗方法
生化危机20年:好莱坞最矛盾的电影系列,票房与口碑的终极悖论
旋律:音乐中的情感表达与生活中的美好体验
常用料酒的要留意,牢记4个使用技巧,弄懂再用,去腥增香没怪味
城市更新绽放新活力 新地标引领青年休闲新风尚
根管治疗全流程详解:步骤、时间及2025年国内城市收费标准
图像处理到神经网络:线性代数的跨领域应用探索
大理:文旅产业圈圈突破
P型半导体和N型半导体的区别:揭秘两种半导体背后的原理与应用
《战国策》20句经典名言,字字珠玑,句句富有哲理,值得珍藏
为什么你总是感到焦虑?可能是内在需求在呼唤你!
白世平股权纠纷案:揭示资本市场的法律风险与商业纠纷
量子力学在生活中的十大应用
盘点中国古代二十位草书名家,张芝第二,王羲之第六
智慧农业的未来展望:人工智能如何塑造农业的可持续未来
如何理解房地产政策?
《人民的名义》权力榜:赵立春仅次祁同伟,探秘前十名榜单
高中开学第一课:如何科学规划三年学习蓝图
eSIM技术在新加坡公共交通中的应用与影响
《燕云十六声》前期剧情与战斗体验全解析:江湖魅力与挑战并存
提升员工安全意识的有效策略与实践探索
白居易诗歌的艺术特色
亚里士多德的美学与艺术思想
《黑神话:悟空》全结局达成攻略——揭开隐藏真结局的秘密
北京经纬:探寻首都的地理坐标与文化魅力
大规模事件处理选择Redis,还是Kafka?
洗面奶成分检测分析报告
从农村走出的哈佛演讲者:何江的教育与成长之路