DataWhale 組隊(duì)學(xué)習(xí) 2021.05 組隊(duì)學(xué)習(xí)系列筆記五 孤立森林思想:用一個(gè)隨機(jī)超平面來(lái)切割數(shù)據(jù)空間,切一次生成兩個(gè)子空間,然后不斷用隨機(jī)超平面來(lái)切割,直至每個(gè)子空...
DataWhale 組隊(duì)學(xué)習(xí) 2021.05 組隊(duì)學(xué)習(xí)系列筆記五 孤立森林思想:用一個(gè)隨機(jī)超平面來(lái)切割數(shù)據(jù)空間,切一次生成兩個(gè)子空間,然后不斷用隨機(jī)超平面來(lái)切割,直至每個(gè)子空...
DataWhale 組隊(duì)學(xué)習(xí) 2021.05 組隊(duì)學(xué)習(xí)系列筆記四 LOF 方法是一種典型的基于密度的高精度離群點(diǎn)檢測(cè)方法。在 LOF 方法中,通過(guò)給每個(gè)數(shù)據(jù)點(diǎn)都分配一個(gè)依賴于...
DataWhale 組隊(duì)學(xué)習(xí) 2021.05 組隊(duì)學(xué)習(xí)系列筆記三 補(bǔ)充內(nèi)容:一、PCA實(shí)現(xiàn)流程,設(shè)有 m 條 n 維數(shù)據(jù): S1. 將原始數(shù)據(jù)按列組成 n 行 m 列矩陣...
DataWhale 組隊(duì)學(xué)習(xí) 2021.05 組隊(duì)學(xué)習(xí)系列筆記二 先上整體大綱 HBOS流程: 為每個(gè)數(shù)據(jù)維度做出數(shù)據(jù)直方圖。對(duì)分類數(shù)據(jù)統(tǒng)計(jì)每個(gè)值的頻數(shù)并計(jì)算相對(duì)頻率。 對(duì)每...
DataWhale 組隊(duì)學(xué)習(xí) 2021.05 組隊(duì)學(xué)習(xí)系列筆記一 核心內(nèi)容: 一、 異常檢測(cè)是做什么:劃分正常數(shù)據(jù)(預(yù)期行為數(shù)據(jù))與非正常數(shù)據(jù)(預(yù)期行為差異數(shù)據(jù)) 二、 實(shí)現(xiàn)...
當(dāng)你擁有地域相關(guān)數(shù)據(jù)時(shí),首先想到的制作工具是什么呢?Echarts、basemap(后期更新)、pyecharts、matplotlib、seaborn等等?不過(guò)今天我們先以...
話說(shuō)日本國(guó)小地狹,所以日本人是「恒念物力維艱」。面臨頻繁的物資匱缺,在很多事物上日本人養(yǎng)成了「精雕細(xì)琢」的習(xí)慣,取物之精巧,得事之細(xì)致。 「斷舍離」就是這樣一個(gè)典型的日本生活...
one-hot encoding one-hot的基本思想:將離散型特征的每一種取值都看成一種狀態(tài),若你的這一特征中有N個(gè)不相同的取值,那么我們就可以將該特征抽象成N種不同的...
提升你的洞察的最好方法之一是通過(guò)可視化你的數(shù)據(jù):這樣,你可以更容易地識(shí)別模式,掌握到困難的概念以及注意到關(guān)鍵的要素,當(dāng)你使用數(shù)據(jù)科學(xué)中的Python時(shí),你很有可能已經(jīng)用了Ma...
Frechet 距離是衡量數(shù)字曲線距離的一種距離。從直觀的意義來(lái)看,也可以稱之為狗繩距離。 線狀要素是離散的數(shù)字曲線,計(jì)算算法的大體思路用一個(gè)公式表示即為 line1=[[1...
一直對(duì)我們的微博保持關(guān)注的朋友應(yīng)該知道,今年年初的時(shí)候,我們同時(shí)開通了 GitHubDaily 公眾號(hào)與知乎賬號(hào)。 在開通知乎賬號(hào)后,我們回答的第一個(gè)問(wèn)題是《你在 GitHu...
全篇哪里出現(xiàn)頻率了
2019-04-10用戶畫像,是企業(yè)通過(guò)收集與分析消費(fèi)者社會(huì)屬性、生活習(xí)慣、消費(fèi)行為等主要信息的數(shù)據(jù)之后,完美地抽象出一個(gè)用戶的商業(yè)全貌,可以看作是企業(yè)應(yīng)用大數(shù)據(jù)技術(shù)的基本方式。用戶畫像為企業(yè)提...