问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

大数据手册(Spark)--Spark 简介

创作时间:

作者:

@小白创作中心

大数据手册(Spark)--Spark 简介

引用

CSDN

1.

https://blog.csdn.net/qq_41518277/article/details/138633647

Apache Spark是一种广泛使用的分布式数据处理框架，以其高速处理能力和丰富的API支持而著称。本文将为您详细介绍Spark的基本架构和核心组件，并简要介绍PySpark的主要功能模块，帮助您快速了解这一强大的大数据处理工具。

Spark 简介

Apache Spark 是一种用于大数据工作负载的分布式开源处理系统。它使用内存中缓存和优化的查询执行方式，可针对任何规模的数据进行快速分析查询。Apache Spark 提供了简明、一致的 Java、Scala、Python 和 R 应用程序编程接口 (API)。

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark 拥有Hadoop MapReduce所具有的优点，但不同的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

Spark 基本架构

一个完整的Spark应用程序(Application)，在提交集群运行时，它涉及到如下图所示的组件：

Driver Program：（主节点或任务控制节点）执行应用程序主函数并创建SparkContext对象，SparkContext配置Spark应用程序的运行环境，并负责与不同种类的集群资源管理器通信，进行资源申请、任务的分配和监控等。当Executor部分运行完毕后，Driver同时负责将SparkContext关闭。
Cluster Manager：（集群资源管理器）指的是在集群上进行资源（CPU，内存，宽带等）调度和管理。可以使用Spark自身，Hadoop YARN，Mesos等不同的集群管理方式。
Worker Node：从节点或工作节点。
Executor：每个工作节点上都会驻留一个Executor进程，每个进程会派生出若干线程，每个线程都会去执行相关任务。
Task：（任务）运行在Executor上的工作单元。

PySpark概述

PySpark是Apache Spark的Python API。它使您能够使用Python在分布式环境中执行实时、大规模的数据处理。PySpark支持Spark的所有功能，如Spark SQL、DataFrames、结构化流、机器学习（MLlib）和Spark Core。

Spark SQL是Spark处理结构化数据的模块，它提供了结构化抽象 DataFrame。
Pandas API on Spark是分布式 Pandas API。
Structured Streaming用于增量计算和流处理
Spark MLlib用于分布式环境下的机器学习
Spark Core是该平台的基础。它提供RDD（弹性分布式数据集）和内存计算能力。

热门推荐

【东湖邀您来过年】在迎新春活动中感受春节的文化魅力

【东湖邀您来过年】在迎新春活动中感受春节的文化魅力

海南昌江旅游攻略自由行：路线与必去景点介绍

海南昌江旅游攻略自由行：路线与必去景点介绍

“Daddy”一词的演变：从亲密称呼到文化符号的多重意义

“Daddy”一词的演变：从亲密称呼到文化符号的多重意义

从反派到英雄？《哪吒2》申公豹口碑大反转，观众为什么共情？

从反派到英雄？《哪吒2》申公豹口碑大反转，观众为什么共情？

锻炼是否能缓解神经性头痛

锻炼是否能缓解神经性头痛

开发商擅自更改小区规划，业主如何维权？

开发商擅自更改小区规划，业主如何维权？

脑梗死出院后的随访应包括哪些内容

脑梗死出院后的随访应包括哪些内容

户口迁移可以代办吗

户口迁移可以代办吗

牛肉包子蒸多长时间？掌握时间密码，解锁松软多汁的美味秘诀！

牛肉包子蒸多长时间？掌握时间密码，解锁松软多汁的美味秘诀！

【国际残疾人日】多一份尊重与包容，让爱传递到人间每一个角落！

【国际残疾人日】多一份尊重与包容，让爱传递到人间每一个角落！

18 个鼓舞人心的动物善良和勇敢故事的温馨天堂

18 个鼓舞人心的动物善良和勇敢故事的温馨天堂

历史上真实的周亚夫

历史上真实的周亚夫

小虎皮鹦鹉吃什么食物，如何为它们提供均衡饮食？

小虎皮鹦鹉吃什么食物，如何为它们提供均衡饮食？

给牡丹鹦鹉喂什么食物比较好？牡丹鹦鹉吃什么食物最好

给牡丹鹦鹉喂什么食物比较好？牡丹鹦鹉吃什么食物最好

华山和黄山哪个高？泰山、黄山、华山，哪个山最值得去？

华山和黄山哪个高？泰山、黄山、华山，哪个山最值得去？

房产证包含哪些信息？如何辨别真伪？

房产证包含哪些信息？如何辨别真伪？

光伏面世70年：效率提升近8倍，成本降至三万分之一

光伏面世70年：效率提升近8倍，成本降至三万分之一

8条实用技巧，教你选购完美沙发避雷指南

8条实用技巧，教你选购完美沙发避雷指南

“坐月子”需要注意哪些事？

“坐月子”需要注意哪些事？

足球战术演变，定义伪九、中锋和边前锋的角色差异大揭秘

足球战术演变，定义伪九、中锋和边前锋的角色差异大揭秘

APEX精密齿条的主要特点和使用注意事项

APEX精密齿条的主要特点和使用注意事项

猫狗常见病毒性疾病的科学认识

猫狗常见病毒性疾病的科学认识

关于河蚌的10个冷知识，如一个河蚌在其一生中可以产生多达20颗珍珠

关于河蚌的10个冷知识，如一个河蚌在其一生中可以产生多达20颗珍珠

为什么切削液对于有效的 CNC 加工很重要？

为什么切削液对于有效的 CNC 加工很重要？

文明6玩家必看：祠堂与谒见厅，哪个才是你的胜利之钥？

文明6玩家必看：祠堂与谒见厅，哪个才是你的胜利之钥？

5本十分不错的精灵宝可梦小说，文笔清新流畅，量大管饱看得爽

5本十分不错的精灵宝可梦小说，文笔清新流畅，量大管饱看得爽

喉咙若出现这些症状,不是咽炎

喉咙若出现这些症状,不是咽炎

贫血多久复查一次

贫血多久复查一次

offer的用法和provide的区别

offer的用法和provide的区别

provide和offer在商务沟通中有什么不同？

provide和offer在商务沟通中有什么不同？

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号