在了解U統(tǒng)計(jì)量與AUC之間的關(guān)系前,先復(fù)習(xí)一下Mann-Whitney U Test首先放上AUC在統(tǒng)計(jì)上的意義: 隨機(jī)選取一個(gè)正例和一個(gè)負(fù)例,分類器給正例的打分大于分類器給...
在了解U統(tǒng)計(jì)量與AUC之間的關(guān)系前,先復(fù)習(xí)一下Mann-Whitney U Test首先放上AUC在統(tǒng)計(jì)上的意義: 隨機(jī)選取一個(gè)正例和一個(gè)負(fù)例,分類器給正例的打分大于分類器給...
Hassan Kibirige[https://github.com/has2k1]開發(fā)的plydata[https://github.com/has2k1/plydata]...
1. 基本概念 決策樹模型為非參數(shù)監(jiān)督模型,該模型為根據(jù)一系列的if-else邏輯組合而成。樹可以看作是一個(gè)分段函數(shù),并且樹的層數(shù)越深,就會(huì)更貼合數(shù)據(jù)(fitted)。 顯然...
評(píng)估方法 留出法 Hold-out“留出法”將兩個(gè)數(shù)據(jù)集拆分為兩個(gè)互斥的集,一般訓(xùn)練集為70%,測(cè)試集為30%。這樣使用測(cè)試集得出的測(cè)試誤差(testing error)更具...
collect, collect_list, collect_set collect常用的有兩個(gè)函數(shù):collect_list(不去重)和collect_set(去重) co...
Catalyst Optimizers是Spark SQL的一個(gè)重要功能,他會(huì)將數(shù)據(jù)查詢轉(zhuǎn)換為執(zhí)行計(jì)劃。他分為四個(gè)步驟: 分析 邏輯優(yōu)化 物理規(guī)劃 生成代碼 例子: M&Ms...
術(shù)語: Application(應(yīng)用程序):用戶使用API所構(gòu)建的Spark程序,包含了Driver(驅(qū)動(dòng))和Executor(執(zhí)行單元)。 SparkSession(Spa...
Spark SQL為Spark提供了以下幾個(gè)特性: 提供高級(jí)結(jié)構(gòu)框架的API(見Learning Spark [3]) 允許讀取不同格式的數(shù)據(jù)(json, hive, tab...
今天在知乎上看了一個(gè)問題,發(fā)現(xiàn)結(jié)果與自己起初的直覺大相徑庭,同時(shí)回憶起了以前的一些統(tǒng)計(jì)知識(shí)。 問題 房間內(nèi)有 100 人,每人有 100 塊,每次隨機(jī)給另一個(gè)人 1 塊,最后...