回不回去過(guò)年在結(jié)婚第一年就要談好,不是臨了才決定的,他這么不顧你和二寶,估計(jì)不是他一個(gè)人的問(wèn)題,你們要好好交流交流,找到問(wèn)題所在,找到解決問(wèn)題的方法,不能聽(tīng)之任之,家庭是需要經(jīng)營(yíng)的,出問(wèn)題也不是哪一個(gè)人的問(wèn)題,應(yīng)該雙方都有責(zé)任!
1. AB測(cè)試簡(jiǎn)介 1.1 什么是AB測(cè)試 A/B測(cè)試[https://zh.wikipedia.org/wiki/A/B%E6%B8%AC%E8%A9%A6]為一種隨機(jī)測(cè)...
1. 簡(jiǎn)介 正則表達(dá)式[https://zh.wikipedia.org/wiki/%E6%AD%A3%E5%88%99%E8%A1%A8%E8%BE%BE%E5%BC%8F...
1. 啟發(fā) 在業(yè)務(wù)上,我們常常會(huì)碰到這樣的需求例如原始表如下: uidstatetimea10anull1anull2a33bnull4b25bnull6 需要變成如下: u...
在了解U統(tǒng)計(jì)量與AUC之間的關(guān)系前,先復(fù)習(xí)一下Mann-Whitney U Test首先放上AUC在統(tǒng)計(jì)上的意義: 隨機(jī)選取一個(gè)正例和一個(gè)負(fù)例,分類器給正例的打分大于分類器給...
1. 基本概念 決策樹(shù)模型為非參數(shù)監(jiān)督模型,該模型為根據(jù)一系列的if-else邏輯組合而成。樹(shù)可以看作是一個(gè)分段函數(shù),并且樹(shù)的層數(shù)越深,就會(huì)更貼合數(shù)據(jù)(fitted)。 顯然...
評(píng)估方法 留出法 Hold-out“留出法”將兩個(gè)數(shù)據(jù)集拆分為兩個(gè)互斥的集,一般訓(xùn)練集為70%,測(cè)試集為30%。這樣使用測(cè)試集得出的測(cè)試誤差(testing error)更具...
關(guān)于機(jī)器學(xué)習(xí)整體的概念,例如監(jiān)督模型與無(wú)監(jiān)督模型的概念,見(jiàn)筆者的之前的一篇文章機(jī)器學(xué)習(xí)入門[http://www.itdecent.cn/p/7bb45c460e6b] 線...
Hassan Kibirige[https://github.com/has2k1]開(kāi)發(fā)的plydata[https://github.com/has2k1/plydata]...
多維Index Columns和Rows都可以創(chuàng)建多層Index 每層的index也可以擁有自己的名字 Index排序 根據(jù)Level聚合 表連接 表拼接 數(shù)據(jù)透視&逆透視 ...
Series Series是一個(gè)一維的向量,每個(gè)值都會(huì)有對(duì)應(yīng)標(biāo)簽,該標(biāo)簽我們稱之為Index 通過(guò)Index可以對(duì)Series進(jìn)行查詢以及修改 Numpy函數(shù),以及其他類Nu...
ndarry: 多維度的向量 Numpy為Numerical Python的縮寫,是數(shù)據(jù)分析最重要的包之一,很多數(shù)據(jù)分析相關(guān)的包會(huì)依賴Numpy中的向量類型。 向量類的數(shù)據(jù)配...
Python基礎(chǔ) 數(shù)據(jù)類型 tuple tuple是一個(gè)固定長(zhǎng)度,不可修改的對(duì)象 tuple可以tuple中的一個(gè)元素 tuple可以將一個(gè)Sequence轉(zhuǎn)換為tuple ...
基于樹(shù)模型(Tree-Based Models) 基于樹(shù)模型,比如決策樹(shù),梯度提升樹(shù),隨機(jī)森林等,相對(duì)比回歸模型,是較為好解釋的(Interpret) 決策樹(shù)(Decisio...
機(jī)器學(xué)習(xí)數(shù)據(jù)管道(Machine Learning Pipeline) Pipeline的概念,在很多機(jī)器學(xué)習(xí)的模型中都存在,是一個(gè)種整理以及操控?cái)?shù)據(jù)的方法。在MLlib中,...
在學(xué)習(xí)Spark的MLlib之前,我們簡(jiǎn)略的回憶整理一下機(jī)器學(xué)習(xí)的概念。 Machine Learning(機(jī)器學(xué)習(xí)) 機(jī)器學(xué)習(xí)模型主要有以下幾種分類: Supervised...
前言 Hive是數(shù)倉(cāng)建設(shè)使用頻率最高的一項(xiàng)技術(shù),基于各種業(yè)務(wù)需求,使用功能函數(shù)會(huì)為我們的開(kāi)發(fā)提高了很多效率。本篇是基于筆者在日常開(kāi)發(fā)中使用頻率較高的函數(shù)做一次總結(jié)(同時(shí)也會(huì)給...
collect, collect_list, collect_set collect常用的有兩個(gè)函數(shù):collect_list(不去重)和collect_set(去重) co...
UDF 為了滿足用戶的不同的分析需求,Spark允許使用者自己定義函數(shù),供用戶在Spark SQL中使用。例如數(shù)據(jù)科學(xué)家可以將一個(gè)機(jī)器學(xué)習(xí)模型封裝在一個(gè)函數(shù)內(nèi),提供給數(shù)據(jù)分析...
Spark SQL為Spark提供了以下幾個(gè)特性: 提供高級(jí)結(jié)構(gòu)框架的API(見(jiàn)Learning Spark [3]) 允許讀取不同格式的數(shù)據(jù)(json, hive, tab...