我還是敗了。。。win下的maven一直想弄死我,我就去linux了。
在centos桌面上創(chuàng)建快捷方式:
https://blog.csdn.net/qq_40741855/article/details/97917010?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source=distribute.pc_relevant.none-task
關(guān)于idea2019.3.3破解
有個jetbrains-agent,直接把jar包拖進(jìn)idea再重啟就成了,這也太爽啦。
idea的scala配置
settings里面plugins搜scala插件下載
maven配置
先改好/etc/profile 的環(huán)境變臉,再source一下讓他生效,建個倉庫,記住路徑,(md筆記本鍵盤敲起來真不爽)再改一下settings。xml(在conf里),本地倉庫和mirror改一下。
用阿里云倉庫
export M2_HOME=/usr/local/maven/apache-maven-3.6.3
export M2=$M2_HOME/bin
export PATH=$M2:$PATH
/usr/local/maven/apache-maven-3.6.3
/usr/local/maven/mavenrepo
<localRepository>/usr/local/maven/mavenrepo</localRepository>
<mirror>
<id>aliyunmaven</id>
<mirrorOf>*</mirrorOf>
<name>aliyun maven</name>
<url>https://maven.aliyun.com/repository/public</url>
</mirror>
[Desktop Entry]
Name=IntelliJ IDEA
Comment=IntelliJ IDEA
Exec=/opt/idea/idea-IU-193.6494.35/bin/idea.sh
Icon=/opt/idea/idea-IU-193.6494.35/bin/idea.png
Terminal=false
Type=Application
Categories=Developer;
在idea上maven成功了。。。

一開始報jvm內(nèi)存不夠的問題。
在這里修改


-Xms256m -Xmx1024m
千萬注意spark和scala的版本要對應(yīng)起來。我在win和linux都沒對應(yīng)好。。。所以報錯很多。
spark。2.4.4 對應(yīng)的scala是2.11.12
2020-3-14
安裝kettlehttps://www.cnblogs.com/tjp0210/p/11764394.html
https://sourceforge.net/projects/pentaho/files/Data%20Integration/
安裝xmanager:https://www.newasp.net/soft/467373.html
↑↑記得關(guān)防火墻
打開spoon.sh時報錯,沒有l(wèi)ibwebktgtk包:https://www.linuxidc.com/Linux/2016-06/132101.htm
先在CentOS或RHEL上安裝Nux Dextop倉庫:
https://www.linuxidc.com/Linux/2016-06/132101.htm

這個裝起來好慢啊。。

出現(xiàn)了,一開始不能右鍵的原因是:沒有吧hadoop里的hdfs配置文件弄到kettle里面去
啟動hdfs了,再test。start-all.sh或者start-dfs.sh
報錯:ojava.io.IOException: Cannot run program "lsb_release": error=2, 沒有那個文件或目錄
就是需要yum -y install redhat-lsb來解決。

還是有個erro
報錯:ERROR [KarafLifecycleListener] The Kettle Karaf Lifecycle Listener failed to execute properly after waiting for 100 seconds. Releasing lifecycle hold, but some services may be unavailable
右鍵不成功,鼠標(biāo)點(diǎn)幾下就很卡??!
我覺得是因?yàn)閮?nèi)存不夠的關(guān)系。。。
怎么辦呢
換個ETL工具?

曹樂,我在linux界面直接打開了右鍵真的是,今天裝了個xmanager圖啥呢

2020-3-16
報錯:System memory 425197568 must be at least 471859200. Please increase heap size using the --driver-memory option or spark.driver.memory in Spark configuration.
設(shè)置-Xms256m -Xmx1024m
怎么每個程序都要來一邊。。

spark-submit打印的信息太多,看不到輸出結(jié)果:
https://blog.csdn.net/jiezou12138/article/details/88876960?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source=distribute.pc_relevant.none-task
安裝nodejs:https://blog.csdn.net/qq_31708763/article/details/82690129

突然xshell連不上虛擬機(jī) 了,震驚。
今天下午狗又開始叫了。我打開了窗戶?。?!找到你們了!兩只狗,瑪?shù)?,tmd小狗這么會叫,人家遛狗路過一下你也要叫,真特么煩。
xshell、連上了哈哈哈哈,為啥呢
上午win提醒我系統(tǒng)要更新,原來是1803?好像是,現(xiàn)在是1909了,一開機(jī),提示說vm ware可能用不了,要升級到15.5(我看網(wǎng)上說)。裝的是14.1.3?的vmware,結(jié)果在控制面板里把查看已安裝更新,從上往下刪,刪一個,重啟一次,發(fā)現(xiàn)就能打開vmware了,xshell也連得上,也能ping、通了。
安裝express框架
https://blog.csdn.net/twodogya/article/details/80182328
安裝jade:
https://blog.csdn.net/niewq/article/details/80297853
如果出現(xiàn)找不到j(luò)ade的報錯,就npm install jade --save在那個項(xiàng)目文件下
2020-3-17
又打不開vm了。。。。還是安一個15.5的vmware把。先把原來的卸載:https://blog.csdn.net/Zs0509/article/details/90244569
重新裝了vm15.5.1:
一開始安裝不了,只要把exe名字改掉就行,還是不行就重啟一下吧,把后臺vm的程序都關(guān)了就行,重啟簡單一點(diǎn)。
無法獲取 vmci 驅(qū)動程序版本句柄無效解決辦法:
https://jingyan.baidu.com/article/a3a3f811ea5d2a8da2eb8aa1.html
就可以打開了。
You出問題了。。連不上網(wǎng),要配置網(wǎng)卡。
本機(jī)


虛擬機(jī)這里

在重啟一下網(wǎng)卡
systemctl restart network

虛擬機(jī)內(nèi)存不夠了。。。
于是我去win上面裝了kettle。。。反正在哪清洗數(shù)據(jù)不是清洗嘛
遇到了spoon.bat閃退的情況。
https://bbs.csdn.net/topics/392400324
看這個,↑,改掉spoon.bat里面?zhèn)z參數(shù)就行
我失敗了,還是去master虛擬機(jī)里面擴(kuò)容了(因?yàn)檠bkettle的時候說內(nèi)存不夠了)https://blog.csdn.net/Areigninhell/article/details/90403009
掛載點(diǎn)在/disk4上面,我就把kettle文件夾放到disk4了
還是不行。。test失敗。shim不能loed。。突然發(fā)現(xiàn),權(quán)限不夠??。。。。。?!11
果然是因?yàn)闄?quán)限的關(guān)系。
sudo 打開./spoon.sh tmd!!!!!!!!!!

還是有問題,清理個數(shù)據(jù)怎么這么麻煩。python寫都沒這么麻煩

瑪?shù)拢裩ostname改成主機(jī)名了才√了一個
行了,我差不多已經(jīng)死了,隨便他了,等會看看能不嫩傳輸局
kettle安裝配置可能會出現(xiàn)的一些問題:https://blog.csdn.net/weinierzui/article/details/77931346
https://blog.csdn.net/cdmamata/article/details/56846895
又出現(xiàn)問題了。。。上傳成功,但是沒找到這個文件啊。。尷尬

沒存進(jìn)去:??

給普通用戶root權(quán)限:https://blog.csdn.net/weixin_39849189/article/details/80362767
我把

改了
就√了三個。。

這玩意旁邊那個點(diǎn)點(diǎn)點(diǎn)也能點(diǎn)出來了

之前選擇hdp2.5的時候一直彈窗
You don't seem to be getting a connection to the Hadoop Cluster. Check the c
鬼了,怎么還沒傳進(jìn)去、

有了,我又把start和hadoop copy files刪掉又來了一遍,應(yīng)該是這個原因。yeah~ 清洗數(shù)據(jù):去掉年份

[root@master movielens]# hdfs dfs -cat /input_spark/movies.dat | head -5
1::Toy Story::Animation|Children's|Comedy
2::Jumanji::Adventure|Children's|Fantasy
3::Grumpier Old Men::Comedy|Romance
4::Waiting to Exhale::Comedy|Drama
5::Father of the Bride Part II::Comedy
cat: Unable to write to output stream.
。。。就好了。。。kettle沒事干了。。。。。
報錯:System memory 425197568 must be at least 471859200. Please increase heap size using the --driver-memory option or spark.driver.memory in Spark configuration.
-Xms256m -Xmx1024m
。。尷尬,類名打錯了
出來結(jié)果了:
Movies recommended for you(用戶 ID:推薦電影 ID:推薦分?jǐn)?shù):推薦電影名稱):
1:3233:5.0872846:Smashing Time
1:1930:4.8514404:Cavalcade
1:3512:4.8493347:Return to Me
1:2760:4.8394413:Gambler, Theékos)
1:1131:4.822908:Jean de Florette
1:439:4.7534847:Dangerous Game
1:3517:4.7365184:Bells, The
1:1035:4.7099566:Sound of Music, The
1:2609:4.7043505:King of Masks, TheLian)
1:73:4.702996:Misérables, Les
Process finished with exit code 0

vim全是黃色方放:esc :nohl

spark集群運(yùn)行:https://blog.csdn.net/qq_33689414/article/details/80232605
主要是要之前的jar包刪掉就行,再重新生成jar包,spark-submit 就可以了,
可以看到任務(wù)
spark-submit
--class recommend.MovieLensALS
--master spark://master:7077
--executor-memory 1G
--total-executor-cores 2 ~/IdeaProjects/Spark_Recommend_Dataframe/out/artifacts/Spark_Recommend_Dataframe_jar/Spark_Recommend_Dataframe.jar /input_spark /disk4/movielens/personalRatings.dat 10 5 10

也出來了。。就是還是很慢。。。
也就是說,一開始本地跑的時候,要這么寫:
val spark=SparkSession.builder().appName("MovieLensALS").master("local[2]").getOrCreate()
生成jar包去跑集群的時候改成master("spark://master:7077")