【spark學(xué)習(xí)筆記】在idea搭建開(kāi)發(fā)環(huán)境

1.序

我的工程是maven工程,通過(guò)maven不需要理會(huì)包的加載問(wèn)題,很是方便。如果你還沒(méi)有使用maven來(lái)管理工程的話那強(qiáng)烈建議你使用maven,盡管前期學(xué)習(xí)有點(diǎn)麻煩(主要是maven的默認(rèn)下載鏡像是國(guó)外)

2.搭建詳情

下面是我建工程的截圖

1.jpg
2.jpg
3.jpg
4.jpg
5.jpg
6.jpg
7.jpg
8.jpg
9.jpg
10.jpg
11.jpg

3.測(cè)試wordcount程序

pom.xml

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <groupId>cn.pwsoft</groupId>
    <artifactId>SparkStudy</artifactId>
    <version>1.0-SNAPSHOT</version>

    <dependencies>
        <dependency>
            <groupId>junit</groupId>
            <artifactId>junit</artifactId>
            <version>3.8.1</version>
            <scope>test</scope>
        </dependency>

        <!-- https://mvnrepository.com/artifact/io.netty/netty-all -->
        <dependency>
            <groupId>io.netty</groupId>
            <artifactId>netty-all</artifactId>
            <version>4.1.4.Final</version>
        </dependency>

        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-core_2.11</artifactId>
            <version>2.0.2</version>
        </dependency>

        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-sql_2.11</artifactId>
            <version>2.0.2</version>
        </dependency>

        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-hive_2.11</artifactId>
            <version>2.0.2</version>
        </dependency>
        
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-streaming_2.11</artifactId>
            <version>2.0.2</version>
        </dependency>


        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-streaming-flume_2.11</artifactId>
            <version>2.0.2</version>
        </dependency>

        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-streaming-kafka_2.11</artifactId>
            <version>2.0.2</version>
        </dependency>

        <!-- https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-common -->
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-common</artifactId>
            <version>2.6.4</version>
        </dependency>
        <!-- https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-hdfs -->
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-hdfs</artifactId>
            <version>2.6.4</version>
        </dependency>

    </dependencies>


</project>

wordcount程序源碼



object MyWordCount {
  def main(args: Array[String]) {

    //獲取SparkContext
    val spark = SparkSession
      .builder
      .appName("Spark Pi").master("local")
      .getOrCreate()

    var sc = spark.sparkContext

    //讀取文件,返回這個(gè)文件的行數(shù)
    val count = sc.textFile("F:\\vmware\\share\\soft\\spark-1.6.0-bin-hadoop2.6\\README.md").count()
    println(count)

//    val lines = spark.sparkContext.textFile("F:\\vmware\\share\\soft\\spark-1.6.0-bin-hadoop2.6\\README.md")
//    val wordcount = lines.flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey(_+_).collect()
//    wordcount.foreach(pair => println(pair._1 + "  :  " + pair._2))

    /**
      * flatMap產(chǎn)生 MapPartitionsRDD
      * map 產(chǎn)生 MapPartitionsRDD
      * reduceByKey 產(chǎn)生 ShuffledRDD
      * sortByKey 產(chǎn)生 ShuffledRDD
      */
    spark.sparkContext.textFile("F:\\vmware\\share\\soft\\spark-1.6.0-bin-hadoop2.6\\README.md").flatMap(line => line.split(" "))
      .map(word => (word, 1)).reduceByKey(_+_).map(pair => (pair._2, pair._1)).sortByKey(false).collect()
      .map(pair => (pair._2, pair._1)).foreach(pair => println(pair._1 + "  :  " + pair._2))

    //為了可以通過(guò)web控制臺(tái)看到信息,加一個(gè)寫(xiě)循環(huán)不讓程序結(jié)束
    while (true) {}
    
    
    spark.stop()

  }
}


成功運(yùn)行
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • Spring Cloud為開(kāi)發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見(jiàn)模式的工具(例如配置管理,服務(wù)發(fā)現(xiàn),斷路器,智...
    卡卡羅2017閱讀 136,555評(píng)論 19 139
  • Spring Boot 參考指南 介紹 轉(zhuǎn)載自:https://www.gitbook.com/book/qbgb...
    毛宇鵬閱讀 47,273評(píng)論 6 342
  • 當(dāng)前,JVM生態(tài)圈主要的三大構(gòu)建工具: Apache Ant(帶著Ivy) Maven Gradle 對(duì)于剛開(kāi)始接...
    清楓_小天閱讀 5,986評(píng)論 1 13
  • 概要 目前Spark官方提供Java,Scala,Python三種語(yǔ)言的API。因?yàn)镾park是用Scala開(kāi)發(fā),...
    migle閱讀 5,571評(píng)論 6 13
  • 快要畢業(yè)了。 想找一個(gè)地方,記錄下從學(xué)校到社會(huì)這一段旅程的心情,也記錄下工作中的點(diǎn)滴感悟。 感覺(jué)這里不錯(cuò)!試一下~
    yyxz閱讀 140評(píng)論 0 0

友情鏈接更多精彩內(nèi)容