问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

Mac M3电脑上使用IntelliJ IDEA搭建Spark开发环境教程

创作时间:
作者:
@小白创作中心

Mac M3电脑上使用IntelliJ IDEA搭建Spark开发环境教程

引用
CSDN
1.
https://m.blog.csdn.net/qq_45257495/article/details/144417685

本文将详细介绍如何在Mac M3电脑上使用IntelliJ IDEA搭建Spark开发环境。从环境准备(JDK、Spark、Maven安装)到IDE配置(Scala插件安装)、项目创建、依赖配置,再到编写和运行第一个Spark程序,手把手教你快速入门Spark开发。

1. 准备工作

1.1 安装 JDK

确保Mac 上已经安装了 JDK 8 或更高版本。可通过以下命令查看是否安装:

java -version

如果输出显示已安装JDK,则说明安装成功。若未安装,可参考JDK8安装教程进行安装。

1.2 安装 Apache Spark

  1. 下载 Spark 二进制包:Spark-3.3.1
  2. 解压缩到目标目录,例如 /opt/spark
  3. 配置环境变量:
export SPARK_HOME=/opt/spark
export PATH=$SPARK_HOME/bin:$PATH
  1. 验证 Spark 是否安装成功:
spark-shell

如果出现Spark shell界面,说明Spark安装成功。

1.3 安装 Maven(如果未安装)

  1. 安装命令:
brew install maven
  1. 验证:
mvn -v

如果显示Maven版本信息,说明安装成功。

2. 配置 IntelliJ IDEA

2.1 打开IDEA

启动IntelliJ IDEA。

2.2 安装 Scala 插件

  1. 打开 IDEA -> Preferences -> Plugins -> Marketplace
  2. 搜索 Scala 并安装插件。

2.3 创建新项目

  1. 选择New Project
  2. 选择Maven Archetype
  3. 配置JDK,选择已安装的JDK8
  4. 填写项目名称和目录,点击Finish
  5. GroupId:你的组织或项目名称,例如 com.example。
  6. ArtifactId:项目的名称,例如 spark-app。
  7. Version:默认即可(例如 1.0-SNAPSHOT)。

2.4 配置 Spark 依赖

  1. 打开项目中的 pom.xml 文件,添加 Spark 相关依赖:
<dependencies>
    <!-- Spark Core -->
    <dependency>
        <groupId>org.apache.spark</groupId>
        <artifactId>spark-core_2.12</artifactId>
        <version>3.4.1</version>
    </dependency>
    <!-- Spark SQL -->
    <dependency>
        <groupId>org.apache.spark</groupId>
        <artifactId>spark-sql_2.12</artifactId>
        <version>3.4.1</version>
    </dependency>
</dependencies>
  1. 点击 IDEA 中的 Maven 面板,点击刷新按钮(右上角的箭头),下载依赖。

3. 编写 Spark 程序

  1. src/main/javasrc/main/scala 中创建你的程序文件。例如创建一个 WordCountApp.java
  2. 编写 Spark 应用程序:
import org.apache.spark.api.java.function.FlatMapFunction;
import org.apache.spark.sql.*;
import java.util.Arrays;

public class WordCountApp {
    public static void main(String[] args) {
        SparkSession spark = SparkSession.builder()
                .appName("WordCountApp")
                .master("local[*]")  //本地运行模式
                .getOrCreate();
        Dataset<Row> data = spark.read().text("input.txt");
        Dataset<Row> wordCounts = data
                .flatMap((FlatMapFunction<Row,String>)row -> Arrays.asList(row.getString(0).split(" ")).iterator(), Encoders.STRING())
                .groupBy("value")
                .count();
        wordCounts.show();
        spark.stop();
    }
}

input.txt的内容如下:

hello world
hello spark
hello world from java
spark is fun and easy to use
apache spark is a fast and general engine for large-scale data processing
data processing with spark is both fast and simple
spark can be used for streaming batch processing machine learning and graph processing
hello apache spark

4. 运行和调试

  1. 在 IDEA 中,右键点击 WordCountApp 文件,选择 Run ‘WordCountApp’。
  2. 如果运行成功,你会看到 Spark 的日志输出以及程序的运行结果。

运行结果如下:

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号