大数据手册(Spark)--Spark 简介
创作时间:
作者:
@小白创作中心
大数据手册(Spark)--Spark 简介
引用
CSDN
1.
https://blog.csdn.net/qq_41518277/article/details/138633647
Apache Spark是一种广泛使用的分布式数据处理框架,以其高速处理能力和丰富的API支持而著称。本文将为您详细介绍Spark的基本架构和核心组件,并简要介绍PySpark的主要功能模块,帮助您快速了解这一强大的大数据处理工具。
Spark 简介
Apache Spark 是一种用于大数据工作负载的分布式开源处理系统。它使用内存中缓存和优化的查询执行方式,可针对任何规模的数据进行快速分析查询。Apache Spark 提供了简明、一致的 Java、Scala、Python 和 R 应用程序编程接口 (API)。
Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark 拥有Hadoop MapReduce所具有的优点,但不同的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
Spark 基本架构
一个完整的Spark应用程序(Application),在提交集群运行时,它涉及到如下图所示的组件:
- Driver Program:(主节点或任务控制节点)执行应用程序主函数并创建SparkContext对象,SparkContext配置Spark应用程序的运行环境,并负责与不同种类的集群资源管理器通信,进行资源申请、任务的分配和监控等。当Executor部分运行完毕后,Driver同时负责将SparkContext关闭。
- Cluster Manager:(集群资源管理器)指的是在集群上进行资源(CPU,内存,宽带等)调度和管理。可以使用Spark自身,Hadoop YARN,Mesos等不同的集群管理方式。
- Worker Node:从节点或工作节点。
- Executor:每个工作节点上都会驻留一个Executor进程,每个进程会派生出若干线程,每个线程都会去执行相关任务。
- Task:(任务)运行在Executor上的工作单元。
PySpark概述
PySpark是Apache Spark的Python API。它使您能够使用Python在分布式环境中执行实时、大规模的数据处理。PySpark支持Spark的所有功能,如Spark SQL、DataFrames、结构化流、机器学习(MLlib)和Spark Core。
- Spark SQL是Spark处理结构化数据的模块,它提供了结构化抽象 DataFrame。
- Pandas API on Spark是分布式 Pandas API。
- Structured Streaming用于增量计算和流处理
- Spark MLlib用于分布式环境下的机器学习
- Spark Core是该平台的基础。它提供RDD(弹性分布式数据集)和内存计算能力。
热门推荐
广州莲花山春节民俗活动大揭秘
广州春节必打卡:白鹅潭烟花&越秀灯会
从K线图到主力资金:股市技术分析实战指南
从莫尔斯到郑观应:电报编码在中国的本土化之路
中文电码:百年通讯技术的传承与创新应用
十二生肖与阴阳五行关系
Faker教你如何应对《英雄联盟》高压
从低谷到巅峰:Faker的电竞传奇之路
亲历“封城”半个月:武汉在发生什么变化?
中国游戏“出海”助力中华文化传播
《星际穿越》同款科幻短剧推广文案秘籍
小红书短剧营销:品牌如何玩转这波流量红利?
“奇巧技”特展亮相苏州,105件核雕精品展现微雕艺术
橄榄核雕刻入门:清洗、打磨、雕刻、抛光四步走
告别油腻!三款低脂小炒让你吃得健康又美味
广清永高铁启动勘察设计招标,永州至广州将缩短至1.5小时
永州到广州北高铁出行全攻略:购票、安检、乘车注意事项
6000道家常小炒一本通:从刀工到火候的烹饪指南
Faker携手UNICEF,助力全球儿童教育
欧体楷书学习攻略:避免误区,掌握笔画变化
中法深化文化遗产保护合作,将重点研究木质遗存与土遗址
田英章去世:他让中国书法走进日本,影响9000万国人
中广核青海冷湖50万千瓦风电项目并网,创新采用光热供暖
“红事礼到人不怪,白事礼到人不收”,啥意思,啥讲究,有道理?
从乡土中国到数字时代:社会学的百年中国之旅
从“不想回家过年”看代际隔阂:如何重建亲情纽带
10 部最适合学习英语的电视节目
漫威属于迪士尼吗:一场娱乐帝国的融合之旅
迪士尼正式收购福斯,片头“号角声”恐再难响起
西游笔绘西行沙僧:传承经典的艺术之旅