大数据手册(Spark)--Spark 简介
创作时间:
作者:
@小白创作中心
大数据手册(Spark)--Spark 简介
引用
CSDN
1.
https://blog.csdn.net/qq_41518277/article/details/138633647
Apache Spark是一种广泛使用的分布式数据处理框架,以其高速处理能力和丰富的API支持而著称。本文将为您详细介绍Spark的基本架构和核心组件,并简要介绍PySpark的主要功能模块,帮助您快速了解这一强大的大数据处理工具。
Spark 简介
Apache Spark 是一种用于大数据工作负载的分布式开源处理系统。它使用内存中缓存和优化的查询执行方式,可针对任何规模的数据进行快速分析查询。Apache Spark 提供了简明、一致的 Java、Scala、Python 和 R 应用程序编程接口 (API)。
Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark 拥有Hadoop MapReduce所具有的优点,但不同的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
Spark 基本架构
一个完整的Spark应用程序(Application),在提交集群运行时,它涉及到如下图所示的组件:
- Driver Program:(主节点或任务控制节点)执行应用程序主函数并创建SparkContext对象,SparkContext配置Spark应用程序的运行环境,并负责与不同种类的集群资源管理器通信,进行资源申请、任务的分配和监控等。当Executor部分运行完毕后,Driver同时负责将SparkContext关闭。
- Cluster Manager:(集群资源管理器)指的是在集群上进行资源(CPU,内存,宽带等)调度和管理。可以使用Spark自身,Hadoop YARN,Mesos等不同的集群管理方式。
- Worker Node:从节点或工作节点。
- Executor:每个工作节点上都会驻留一个Executor进程,每个进程会派生出若干线程,每个线程都会去执行相关任务。
- Task:(任务)运行在Executor上的工作单元。
PySpark概述
PySpark是Apache Spark的Python API。它使您能够使用Python在分布式环境中执行实时、大规模的数据处理。PySpark支持Spark的所有功能,如Spark SQL、DataFrames、结构化流、机器学习(MLlib)和Spark Core。
- Spark SQL是Spark处理结构化数据的模块,它提供了结构化抽象 DataFrame。
- Pandas API on Spark是分布式 Pandas API。
- Structured Streaming用于增量计算和流处理
- Spark MLlib用于分布式环境下的机器学习
- Spark Core是该平台的基础。它提供RDD(弹性分布式数据集)和内存计算能力。
热门推荐
【东湖邀您来过年】在迎新春活动中感受春节的文化魅力
海南昌江旅游攻略自由行:路线与必去景点介绍
“Daddy”一词的演变:从亲密称呼到文化符号的多重意义
从反派到英雄?《哪吒2》申公豹口碑大反转,观众为什么共情?
锻炼是否能缓解神经性头痛
开发商擅自更改小区规划,业主如何维权?
脑梗死出院后的随访应包括哪些内容
户口迁移可以代办吗
牛肉包子蒸多长时间?掌握时间密码,解锁松软多汁的美味秘诀!
【国际残疾人日】多一份尊重与包容,让爱传递到人间每一个角落!
18 个鼓舞人心的动物善良和勇敢故事的温馨天堂
历史上真实的周亚夫
小虎皮鹦鹉吃什么食物,如何为它们提供均衡饮食?
给牡丹鹦鹉喂什么食物比较好?牡丹鹦鹉吃什么食物最好
华山和黄山哪个高?泰山、黄山、华山,哪个山最值得去?
房产证包含哪些信息?如何辨别真伪?
光伏面世70年:效率提升近8倍,成本降至三万分之一
8条实用技巧,教你选购完美沙发避雷指南
“坐月子”需要注意哪些事?
足球战术演变,定义伪九、中锋和边前锋的角色差异大揭秘
APEX精密齿条的主要特点和使用注意事项
猫狗常见病毒性疾病的科学认识
关于河蚌的10个冷知识,如一个河蚌在其一生中可以产生多达20颗珍珠
为什么切削液对于有效的 CNC 加工很重要?
文明6玩家必看:祠堂与谒见厅,哪个才是你的胜利之钥?
5本十分不错的精灵宝可梦小说,文笔清新流畅,量大管饱看得爽
喉咙若出现这些症状,不是咽炎
贫血多久复查一次
offer的用法 和provide的区别
provide和offer在商务沟通中有什么不同?