资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

Mac M3电脑上使用IntelliJ IDEA搭建Spark开发环境教程

创作时间:

作者:

@小白创作中心

Mac M3电脑上使用IntelliJ IDEA搭建Spark开发环境教程

引用

CSDN

https://m.blog.csdn.net/qq_45257495/article/details/144417685

本文将详细介绍如何在Mac M3电脑上使用IntelliJ IDEA搭建Spark开发环境。从环境准备（JDK、Spark、Maven安装）到IDE配置（Scala插件安装）、项目创建、依赖配置，再到编写和运行第一个Spark程序，手把手教你快速入门Spark开发。

1. 准备工作

1.1 安装 JDK

确保Mac 上已经安装了 JDK 8 或更高版本。可通过以下命令查看是否安装：

java -version

如果输出显示已安装JDK，则说明安装成功。若未安装，可参考JDK8安装教程进行安装。

1.2 安装 Apache Spark

下载 Spark 二进制包：Spark-3.3.1
解压缩到目标目录,例如 /opt/spark
配置环境变量：

export SPARK_HOME=/opt/spark
export PATH=$SPARK_HOME/bin:$PATH

验证 Spark 是否安装成功：

spark-shell

如果出现Spark shell界面，说明Spark安装成功。

1.3 安装 Maven（如果未安装）

安装命令：

brew install maven

验证：

mvn -v

如果显示Maven版本信息，说明安装成功。

2. 配置 IntelliJ IDEA

2.1 打开IDEA

启动IntelliJ IDEA。

2.2 安装 Scala 插件

打开 IDEA -> Preferences -> Plugins -> Marketplace
搜索 Scala 并安装插件。

2.3 创建新项目

选择New Project
选择Maven Archetype
配置JDK，选择已安装的JDK8
填写项目名称和目录，点击Finish
GroupId：你的组织或项目名称，例如 com.example。
ArtifactId：项目的名称，例如 spark-app。
Version：默认即可（例如 1.0-SNAPSHOT）。

2.4 配置 Spark 依赖

打开项目中的 pom.xml 文件，添加 Spark 相关依赖：

<dependencies>
    <!-- Spark Core -->
    <dependency>
        <groupId>org.apache.spark</groupId>
        <artifactId>spark-core_2.12</artifactId>
        <version>3.4.1</version>
    </dependency>
    <!-- Spark SQL -->
    <dependency>
        <groupId>org.apache.spark</groupId>
        <artifactId>spark-sql_2.12</artifactId>
        <version>3.4.1</version>
    </dependency>
</dependencies>

点击 IDEA 中的 Maven 面板，点击刷新按钮（右上角的箭头），下载依赖。

3. 编写 Spark 程序

在 src/main/java 或 src/main/scala 中创建你的程序文件。例如创建一个 WordCountApp.java。
编写 Spark 应用程序：

import org.apache.spark.api.java.function.FlatMapFunction;
import org.apache.spark.sql.*;
import java.util.Arrays;

public class WordCountApp {
    public static void main(String[] args) {
        SparkSession spark = SparkSession.builder()
                .appName("WordCountApp")
                .master("local[*]")  //本地运行模式
                .getOrCreate();
        Dataset<Row> data = spark.read().text("input.txt");
        Dataset<Row> wordCounts = data
                .flatMap((FlatMapFunction<Row,String>)row -> Arrays.asList(row.getString(0).split(" ")).iterator(), Encoders.STRING())
                .groupBy("value")
                .count();
        wordCounts.show();
        spark.stop();
    }
}

input.txt的内容如下：

hello world
hello spark
hello world from java
spark is fun and easy to use
apache spark is a fast and general engine for large-scale data processing
data processing with spark is both fast and simple
spark can be used for streaming batch processing machine learning and graph processing
hello apache spark