大数据手册(Spark)--Spark 简介
创作时间:
作者:
@小白创作中心
大数据手册(Spark)--Spark 简介
引用
CSDN
1.
https://blog.csdn.net/qq_41518277/article/details/138633647
Apache Spark是一种广泛使用的分布式数据处理框架,以其高速处理能力和丰富的API支持而著称。本文将为您详细介绍Spark的基本架构和核心组件,并简要介绍PySpark的主要功能模块,帮助您快速了解这一强大的大数据处理工具。
Spark 简介
Apache Spark 是一种用于大数据工作负载的分布式开源处理系统。它使用内存中缓存和优化的查询执行方式,可针对任何规模的数据进行快速分析查询。Apache Spark 提供了简明、一致的 Java、Scala、Python 和 R 应用程序编程接口 (API)。
Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark 拥有Hadoop MapReduce所具有的优点,但不同的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
Spark 基本架构
一个完整的Spark应用程序(Application),在提交集群运行时,它涉及到如下图所示的组件:
- Driver Program:(主节点或任务控制节点)执行应用程序主函数并创建SparkContext对象,SparkContext配置Spark应用程序的运行环境,并负责与不同种类的集群资源管理器通信,进行资源申请、任务的分配和监控等。当Executor部分运行完毕后,Driver同时负责将SparkContext关闭。
- Cluster Manager:(集群资源管理器)指的是在集群上进行资源(CPU,内存,宽带等)调度和管理。可以使用Spark自身,Hadoop YARN,Mesos等不同的集群管理方式。
- Worker Node:从节点或工作节点。
- Executor:每个工作节点上都会驻留一个Executor进程,每个进程会派生出若干线程,每个线程都会去执行相关任务。
- Task:(任务)运行在Executor上的工作单元。
PySpark概述
PySpark是Apache Spark的Python API。它使您能够使用Python在分布式环境中执行实时、大规模的数据处理。PySpark支持Spark的所有功能,如Spark SQL、DataFrames、结构化流、机器学习(MLlib)和Spark Core。
- Spark SQL是Spark处理结构化数据的模块,它提供了结构化抽象 DataFrame。
- Pandas API on Spark是分布式 Pandas API。
- Structured Streaming用于增量计算和流处理
- Spark MLlib用于分布式环境下的机器学习
- Spark Core是该平台的基础。它提供RDD(弹性分布式数据集)和内存计算能力。
热门推荐
当滑雪成为年轻人的新社交标签 冰雪经济热度翻番
如何对天然气露点仪进行定期校准以保证其测量准确性?
电缆:现代社会的隐形动脉与未来发展的关键技术
银行资产证券化业务的交易结构设计要点有哪些?
公共数据资产证券化:让数据像土地一样流通起来
家庭财产纠纷如何解决?民法典提供全面法律依据
手机拍照技巧:春节团圆照这样拍更高级
编制改革来袭,辅导员准备好了吗?
辅导员入编:从“临时工”到“正式工”的转变
Excel单元格自定义格式完全指南
如何优化付款条件以提升企业现金流和客户满意度?
猫行为解密:探究猫咪日常动作背后的心理与社交信号
Excel公式与透视表的秘密:高级数据分析技巧精讲
1.4462不锈钢微观结构及其特性
一条街道的民生答卷
2024医保统计快报:科技赋能监管,让基金流向需要的人
星光熠熠:娱乐圈明星的结婚离婚大事件
揭秘财务密码!财务比率分析的 9 大核心指标
工业电解氯化钠(氯碱工业)
软件如何进行动平衡测试
在家安全染发并达到专业效果的全攻略
高中物理实验:几种常见的测量速度的方法
驾驶体验优化是什么?从技术到设计的全方位解析
光伏逆变器:原理、功能与选购指南
兽耳角色因何备受追捧?
期末考试将至,这20个“加分”锦囊快告诉孩子!
笑是本能吗?探討笑的生理和心理學根源
贫血护理措施
Golang棋牌游戏后端实战
不拘一格降人才!南京高校职称评定改革进行时