最近日韩中文字幕在线,97超碰碰

Spark 本地連接OSS

1. 對(duì)象存儲(chǔ) OSS

阿里云對(duì)象存儲(chǔ)服務(wù)（Object Storage Service，簡(jiǎn)稱 OSS），是阿里云提供的海量、安全、低成本、高可靠的云存儲(chǔ)服務(wù)。
在使用Hadoop和Spark及其周邊系統(tǒng)來(lái)處理和分析自己的數(shù)據(jù)時(shí)，則需要?jiǎng)?chuàng)建阿里云的E-MapReduce集群進(jìn)行處理。

但是有時(shí)候，我們需要在本地環(huán)境下對(duì)程序進(jìn)行調(diào)試，所以本地的Spark環(huán)境能連接OSS對(duì)于開發(fā)者來(lái)說(shuō)就顯得尤為重要。

阿里云提供的文檔更新比較久遠(yuǎn)，在使用教程時(shí)，會(huì)出現(xiàn)一些問(wèn)題，所以本文提供一個(gè)可行的方法，讓我們可以在本地環(huán)境讀取OSS的數(shù)據(jù)，進(jìn)行程序調(diào)試。

Maven配置

可以根據(jù)自己的版本進(jìn)行相應(yīng)修改

        <dependency>
            <groupId>org.scala-lang</groupId>
            <artifactId>scala-library</artifactId>
            <version>2.11.8</version>
        </dependency>

        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-core_2.11</artifactId>
            <version>2.2.0</version>
        </dependency>

        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-sql_2.11</artifactId>
            <version>2.2.0</version>
        </dependency>

        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-client</artifactId>
            <version>2.7.3</version>
        </dependency>

        <!--支持OSS數(shù)據(jù)源 -->
        <dependency>
            <groupId>com.aliyun.emr</groupId>
            <artifactId>emr-core</artifactId>
            <version>1.5.0</version>
        </dependency>
 
        <dependency>
        <groupId>com.aliyun.oss</groupId>
        <artifactId>aliyun-sdk-oss</artifactId>
        <version>3.4.0</version>
        </dependency>

        <dependency>
            <groupId>org.apache.httpcomponents</groupId>
            <artifactId>httpcore</artifactId>
            <version>4.4</version>
        </dependency>

        <dependency>
            <groupId>org.apache.httpcomponents</groupId>
            <artifactId>httpclient</artifactId>
            <version>4.4.1</version>
        </dependency>

代碼部分

  val conf = new SparkConf()
      .setAppName("OssWc")
      .setMaster("local[4]")

    conf.set("spark.hadoop.fs.oss.impl", "com.aliyun.fs.oss.nat.NativeOssFileSystem")
    conf.set("spark.hadoop.mapreduce.job.run-local", "true")
    conf.set("spark.hadoop.fs.oss.accessKeyId", "accessKeyId")
    conf.set("spark.hadoop.fs.oss.accessKeySecret", "accessKeySecret")
    

    
    val sc = new SparkContext(conf)

    val input = sc.textFile(inputPath) // 路徑格式 oss://bucket.Endpoint/datapath

    println(input.count())

注意

顯式寫 AK 和 Endpoint 方式訪問(wèn) OSS 數(shù)據(jù)源時(shí) ：

1.spark需要配置 "spark.hadoop.fs.oss.accessKeyId" 和 "spark.hadoop.fs.oss.accessKeySecret"兩個(gè)參數(shù)

2.spark.hadoop.mapreduce.job.run-local 這個(gè)配置項(xiàng)只是針對(duì)需要在本地調(diào)試 Spark 代碼讀寫 OSS 數(shù)據(jù)的場(chǎng)景，除此之外只需要保持默認(rèn)即可。在本地調(diào)試運(yùn)行 Spark 代碼讀寫 OSS 數(shù)據(jù)，將 spark.hadoop.mapreduce.job.run-local設(shè)為 true

3.讀取oss的數(shù)據(jù)路徑的格式如下：oss://bucket.Endpoint/datapath
Endpoint 具體請(qǐng)參見OSS Endpoint

4.使用sparksql 讀取數(shù)據(jù)的配置方式和上述一樣

參考資料

https://help.aliyun.com/document_detail/28118.html?spm=a2c4g.11186623.6.808.36ad4132jjB0lE
https://help.aliyun.com/document_detail/31837.html?spm=a2c4g.11186623.2.11.66cd1aa1e2KPyg#concept-zt4-cvy-5db

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

Spark 本地連接OSS

Spark 本地連接OSS

Spark 本地連接OSS

1. 對(duì)象存儲(chǔ) OSS

Maven配置

代碼部分

注意

參考資料

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

Spark 本地連接OSS

Spark 本地連接OSS

1. 對(duì)象存儲(chǔ) OSS

Maven配置

代碼部分

注意

參考資料

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av