寫(xiě)parquet文件遇到的問(wèn)題

df.write.format("parquet").mode(SaveMode.Overwrite).save(outputPath)

一、操作系統(tǒng)不允許非法字符包含在文件目錄名中(這里的outputPath),所以在命名前需要將特殊字符過(guò)濾:
將不屬于a-z,A-Z,0-9的字符去掉。
val pattern = sc.broadcast(Pattern.compile("[^a-zA-Z0-9]"))
val matcher = pattern.value.matcher(element(1)).replaceAll("").toLowerCase()
從而element(1)過(guò)濾掉非法字符后,用matcher替代即可。

二、目錄的名稱(chēng)限制為255個(gè)字符,由于服務(wù)器這里沒(méi)有權(quán)限改hdfs設(shè)置,所以只能在寫(xiě)入前,將目錄截取為255。

三、parquet寫(xiě)文件時(shí),列不區(qū)分大小寫(xiě),從而可能會(huì)出現(xiàn)重復(fù)列的錯(cuò)誤
例如reference "teacher" is ambiguous。
意思是teacher列出現(xiàn)了重復(fù),但其實(shí)在dataframe中有一個(gè)teacher列和一個(gè)Teacher列。
這樣只能修改列的名稱(chēng),使它們不區(qū)分大小寫(xiě)也不一樣。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容