隨著Apache Parquet和Apache ORC等存儲格式以及Presto和Apache Impala等查詢引擎的發(fā)展,Hadoop生態(tài)系統(tǒng)有潛力作為面向分鐘級延時場景...
隨著Apache Parquet和Apache ORC等存儲格式以及Presto和Apache Impala等查詢引擎的發(fā)展,Hadoop生態(tài)系統(tǒng)有潛力作為面向分鐘級延時場景...
1、背景 實際生產(chǎn)中,我們經(jīng)常會面臨導(dǎo)入Excel數(shù)據(jù)到數(shù)據(jù)庫的需求,在沒有編寫導(dǎo)入程序,數(shù)據(jù)庫客戶端工具導(dǎo)入情況下。我們可以通過Excel本身的公式構(gòu)建出sql語句,可復(fù)制...
庫名稱簡介 Chardet 字符編碼探測器,可以自動檢測文本、網(wǎng)頁、xml的編碼。 colorama 主要用來給文本添加各種顏色,并且非常簡單易用。 Prettytable ...
開始時間: 2019-11-26 預(yù)計時間7天。作者:托馬茲[美] 本書常用下載地址:1.RDD章節(jié)文件下載:http://tomdrabas.com/data/VS14M...
數(shù)據(jù)傾斜是大數(shù)據(jù)計算中一個最棘手的問題,出現(xiàn)數(shù)據(jù)傾斜后,Spark 作業(yè)的性能會比期望值差很多。數(shù)據(jù)傾斜的調(diào)優(yōu),就是利用各種技術(shù)方案解決不同類型的數(shù)據(jù)傾斜問題,保證 Spar...
1.模型的區(qū)分度 評分模型的作用是通過分?jǐn)?shù)將好壞樣本進(jìn)行區(qū)分。理想情況下,所有非違約人群的分?jǐn)?shù)均高于違約人群的分?jǐn)?shù)。因此我們需要某些統(tǒng)計量來衡量好壞樣本的分?jǐn)?shù)差異性,...