df.write.format("parquet").mode(SaveMode.Overwrite).save(outputPath)
一、操作系統(tǒng)不允許非法字符包含在文件目錄名中(這里的outputPath),所以在命名前需要將特殊字符過(guò)濾:
將不屬于a-z,A-Z,0-9的字符去掉。
val pattern = sc.broadcast(Pattern.compile("[^a-zA-Z0-9]"))
val matcher = pattern.value.matcher(element(1)).replaceAll("").toLowerCase()
從而element(1)過(guò)濾掉非法字符后,用matcher替代即可。
二、目錄的名稱(chēng)限制為255個(gè)字符,由于服務(wù)器這里沒(méi)有權(quán)限改hdfs設(shè)置,所以只能在寫(xiě)入前,將目錄截取為255。
三、parquet寫(xiě)文件時(shí),列不區(qū)分大小寫(xiě),從而可能會(huì)出現(xiàn)重復(fù)列的錯(cuò)誤
例如reference "teacher" is ambiguous。
意思是teacher列出現(xiàn)了重復(fù),但其實(shí)在dataframe中有一個(gè)teacher列和一個(gè)Teacher列。
這樣只能修改列的名稱(chēng),使它們不區(qū)分大小寫(xiě)也不一樣。