lalalllalallal
從零開始AB測試1. AB測試簡介 1.1 什么是AB測試 A/B測試[https://zh.wikipedia.org/wiki/A/B%E6%B8%AC%E8%A9%A6]為一種隨機(jī)測...
在了解U統(tǒng)計量與AUC之間的關(guān)系前,先復(fù)習(xí)一下Mann-Whitney U Test首先放上AUC在統(tǒng)計上的意義: 隨機(jī)選取一個正例和一個負(fù)例,分類器給正例的打分大于分類器給...
Hassan Kibirige[https://github.com/has2k1]開發(fā)的plydata[https://github.com/has2k1/plydata]...
1. 基本概念 決策樹模型為非參數(shù)監(jiān)督模型,該模型為根據(jù)一系列的if-else邏輯組合而成。樹可以看作是一個分段函數(shù),并且樹的層數(shù)越深,就會更貼合數(shù)據(jù)(fitted)。 顯然...
評估方法 留出法 Hold-out“留出法”將兩個數(shù)據(jù)集拆分為兩個互斥的集,一般訓(xùn)練集為70%,測試集為30%。這樣使用測試集得出的測試誤差(testing error)更具...
collect, collect_list, collect_set collect常用的有兩個函數(shù):collect_list(不去重)和collect_set(去重) co...
Catalyst Optimizers是Spark SQL的一個重要功能,他會將數(shù)據(jù)查詢轉(zhuǎn)換為執(zhí)行計劃。他分為四個步驟: 分析 邏輯優(yōu)化 物理規(guī)劃 生成代碼 例子: M&Ms...
哥哥你好厲害
Learning Spark [4] - Spark SQLSpark SQL為Spark提供了以下幾個特性: 提供高級結(jié)構(gòu)框架的API(見Learning Spark [3]) 允許讀取不同格式的數(shù)據(jù)(json, hive, tab...
術(shù)語: Application(應(yīng)用程序):用戶使用API所構(gòu)建的Spark程序,包含了Driver(驅(qū)動)和Executor(執(zhí)行單元)。 SparkSession(Spa...
Spark SQL為Spark提供了以下幾個特性: 提供高級結(jié)構(gòu)框架的API(見Learning Spark [3]) 允許讀取不同格式的數(shù)據(jù)(json, hive, tab...
今天在知乎上看了一個問題,發(fā)現(xiàn)結(jié)果與自己起初的直覺大相徑庭,同時回憶起了以前的一些統(tǒng)計知識。 問題 房間內(nèi)有 100 人,每人有 100 塊,每次隨機(jī)給另一個人 1 塊,最后...