spark集群環(huán)境下使用hanlp進(jìn)行中文分詞

標(biāo)簽:zabtableimportshel--javastandardmastokenizer

1、將下載的hanlp-portable-1.6.2.jar復(fù)制到集群spark/jar文件夾下面

2、啟動spark集群

?????? spark/bin/spark-shell --executor-memory 6g? --driver-memory 1g --executor-cores 2 --num-executors 2 --master spark://master:7077 --jars ansj_seg-5.1.6.jar hanlp-portable-1.6.2.jar

3,執(zhí)行如下指令:

????import com.hankcs.hanlp.tokenizer.StandardTokenizer

??? val data = sc.textFile("hdfs://master:8020/clob.txt")

??? val splits = data.filter(line => !line.contains("BODY")).map(line => line.replace("【","")).map(line => line.replace("】","")).map(line=>StandardTokenizer.segment(line.toString()))

??? ?splits.first

提示結(jié)果沒有序列化:

18/04/06 09:08:25 ERROR TaskSetManager: Task 0.0 in stage 0.0 (TID 0) had a not serializable result: com.hankcs.hanlp.seg.common.Term

Serialization stack:

- object not serializable (class: com.hankcs.hanlp.seg.common.Term, value: 監(jiān)/ng)

- writeObject data (class: java.util.ArrayList)

- object (class java.util.ArrayList, [監(jiān)/ng, 所/u, 每日/r, 動態(tài)/n, 濟(jì)南市/ns, 公安局/n, 監(jiān)管/vn, 支隊/n, 秘書處/n,? /w, 2012/m, 年/q, 9/m, 月/q, 11/m, 日/j, 情況/n, 統(tǒng)計/v, 今天/t, ,/w, 全市/n, 看守所/n, 新/a, 收押/v, 14/m, 人/n, ,/w, 出/v, 所/u, 14/m, 人/n, ,/w, 在押/v, 人員/n, 總數(shù)/n, 2596/m, 人/n, (/w, 其中/r, 包括/v, 死刑犯/n, 27/m, 人/n, ,/w, 死緩/j, 犯/v, 14/m, 人/n, ,/w, 無期徒刑/l, 犯/v, 8/m, 人/n, ,/w, 法/j, 輪功/nr, 人員/n, 1/m, 人/n, )/w, 。/w, 全市/n, 拘留所/n, 新/a, 收押/v, 47/m, 人/n, ,/w, 出/v, 所/u, 20/m, 人/n, ,/w, 在/p, 所/u, 人員/n, 總數(shù)/n, 213/m, 人/n, 。/w, 項目/n, 單位/n, 被/p, 監(jiān)管/vn, 人員/n, 情況/n, 在押/v, 總數(shù)/n, 新/a, 收/v, 出/v, 所/u, 未決犯/n, 法/j, 輪功/nr, 重點/n, 人員/n, 病號/n, 市/n, 看守所/n, 164179144117873/m, 歷城/ns, 看守所/n, 302502550143/m, 章丘/ns, 看守所/n, 24220227066/m, 長/a, 清/a, 看守所/n, 1050292050/m, 平/v, 陰/a, 看守所/n, 860169022/m, 濟(jì)陽/ns, 看守所/n, 14401113091/m, 商/n, 河/n, 看守所/n, 760162020/m, 合計/v, 25961414962121685/m, 市/n, 拘留所/n, 1273315/m, 長/a, 清/a, 拘留所/n, 2420/m, 章丘/ns, 拘留所/n, 2332/m, 平/v, 陰/a, 拘留所/n, 1600/m, 濟(jì)陽/ns, 拘留所/n, 2033/m, 商/n, 河/n, 拘留所/n, 1160/m, 合計/v, 2214720/m, 收/v, 教/v, 所/u, 30001/m])

- element of array (index: 0)

- array (class [Ljava.util.List;, size 1); not retrying



文章來源于網(wǎng)絡(luò)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • One 1 the [e?, ei:] art.這,那 ad.[用于比較級;最高級前] 2 be [bi:,bi]...
    梁培林閱讀 9,618評論 0 10
  • 文/天舒 一對幸福的戀人決定結(jié)婚,但是在結(jié)婚前夜,新娘落跑了,嫁給了別人,新郎很傷心,幾度想結(jié)束自己的生命。有一天...
    天舒閱讀 761評論 0 1
  • 20匡青 在這張照片中,我們可以看到一張白紙中間有一個大小3*4厘米長方形開口,開口里面的物品好像是一只2B鉛筆被...
    匡青閱讀 614評論 1 2
  • ================ 往期有關(guān)鏈接 ================ Bminer測評+教學(xué)篇(ZEC...
    Bminer官方閱讀 696評論 0 3
  • 如果說陳麗華的紫檀博物館雍容華貴,那么馬未都的觀復(fù)博物館就是古色古香。 馬未都是個傳說。 他是我們這一代人,下過鄉(xiāng)...
    暖水瓶dsy閱讀 2,720評論 11 7

友情鏈接更多精彩內(nèi)容