Windows下搭建Spark開發(fā)測試環(huán)境

Windows下使用IDEA開發(fā)Spark應(yīng)用程序配置說明(使用sbt構(gòu)建)。

軟件環(huán)境

  • Hadoop 2.7.7
  • Spark 2.4.0
  • Scala 2.11
  • Java 8

配置Hadoop

Windows環(huán)境下需要先配置Hadoop環(huán)境變量,如圖所示:


同時在PATH環(huán)境變量中添加Hadoop信息:


之后需要下載一個winutils.exe工具,將該文件放到Hadoop的bin目錄下。

打開命令行,輸入echo %PATH%命令,如果輸出中包含Hadoop路徑信息,說明配置成功。

創(chuàng)建SBT項目

使用IDEA創(chuàng)建SBT項目,項目名為sparkDemo:


由于Spark2.4.0默認使用的Scala版本是2.11,這里需要選擇Scala的版本:


創(chuàng)建完畢后,項目結(jié)構(gòu)如下:


build.sbt中添加Spark依賴文件:

name := "sparkDemo"

version := "0.1"

scalaVersion := "2.11.12"

val sparkVersion = "2.4.0"

libraryDependencies ++= Seq(
  "org.apache.spark" %% "spark-core" % sparkVersion,
  "org.apache.spark" %% "spark-sql" % sparkVersion,
  "org.apache.spark" %% "spark-streaming" % sparkVersion,
  "org.scalatest" %% "scalatest" % "3.0.5"
)

編寫Spark應(yīng)用程序

一切準備完畢,可以開始編碼,這里使用的示例是Spark官方程序,本地運行時需要設(shè)置運行模式為local

package com.sparkdemo.app

import org.apache.spark.sql.SparkSession

object SimpleApp {
  def main(args: Array[String]): Unit = {
    val logFile = "d://tools//spark-2.4.0-bin-hadoop2.7//README.md" // Should be some file on your system
    val spark = SparkSession.builder.appName("Simple Application").master("local[2]").getOrCreate()
    val logData = spark.read.textFile(logFile).cache()
    val numAs = logData.filter(line => line.contains("a")).count()
    val numBs = logData.filter(line => line.contains("b")).count()
    println(s"Lines with a: $numAs, Lines with b: $numBs")
    spark.stop()
  }
}

接下來就可以在本地運行調(diào)試Spark程序了。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容