1、背景 目的:平臺每日活躍用戶沒有顯著提升,但用戶構(gòu)成比例中新訪客比率逐漸上升,老用戶的留存率逐漸下降,根據(jù)需求進(jìn)行付費(fèi)用戶流失情況作一個專題分析,內(nèi)容包括:流失用戶識別,...
1、背景 目的:平臺每日活躍用戶沒有顯著提升,但用戶構(gòu)成比例中新訪客比率逐漸上升,老用戶的留存率逐漸下降,根據(jù)需求進(jìn)行付費(fèi)用戶流失情況作一個專題分析,內(nèi)容包括:流失用戶識別,...
1. duplicated() 和 drop_duplicated() duplicated() 檢測重復(fù)值,drop_duplicated() 去掉重復(fù)值。 1.1 查看重...
1. 分組,透視,交叉 2. 分組 多層級的數(shù)據(jù)邏輯 導(dǎo)入英雄數(shù)據(jù): 分組: 第一步:groupby,拿到一個對象。 通過對象的groups的屬性可以拿到一個字典 第二步:將...
1.plt顏色設(shè)置 常用的顏色: 2. Seaborn顏色設(shè)置 調(diào)色板:(1)sns.set_palette() (2) sns.color_palette() 一般用調(diào)色...
知識點 1.置信水平 2. 1. 數(shù)據(jù)集下載 2. 以鳶尾花數(shù)據(jù)和泰坦尼克號為例 2.1 線型圖 iris = sns.load_dataset('iris')iris.h...
1.集成學(xué)習(xí)原理 Bagging思想,把強(qiáng)變?nèi)?,一起出主意,投票或平均。Boosting思想,通過線性組合把弱變強(qiáng)。 2. Boosting實現(xiàn) 2.1 導(dǎo)入數(shù)據(jù),KNN建模...
1. 3種繪圖 pandas 和 seaborn 繪圖都是基于 matplotlib的 變化趨勢用線性圖,對應(yīng)關(guān)系用散點圖,大小比較用條形圖,數(shù)據(jù)分布用直方圖,數(shù)據(jù)組成用餅圖...
1. stacking 功能:模型融合 bagging 和 boosting基于同一個算法。stacking不受方法限制,可以把不同的方法封裝成1個投票器,一起工作。 2.實...
1. KMeans原理 使用歐式距離,相似的事物的距離測量更短,不相似的距離更長。 分類和聚類的區(qū)別 兩者的目標(biāo)不一樣,操作對象不一樣分類:拿到點,進(jìn)行類別的劃分,屬于哪個類...
1.聚類分析 2.聚類的基本使用 2.1 思路 1.生成有2個特征,分布有3個中心的假數(shù)據(jù)2.用散點圖展示3.訓(xùn)練預(yù)測并展示 2.2 實現(xiàn) 2.2.1導(dǎo)包 import nu...
1.圖例繪制 2種方法 導(dǎo)入各包: 2.展示吸煙者和不吸煙者的平均消費(fèi)賬單 注: ci 是置信水平的意思,在此處只能設(shè)置95,即置信水平為95% ,對應(yīng)接近2倍的標(biāo)準(zhǔn)差。 1...
1.圖形種類 seaborn 常用 基于matplotlib, 解決分組問題。【橫軸,縱軸,數(shù)據(jù)集】往往畫的聚合指標(biāo)圖像barplot() 條形圖scatterplot(...
1.知識點 2.實現(xiàn) 2.1 導(dǎo)包和讀取數(shù)據(jù)集 import numpy as npimport pandas as pdfrom pandas import Series,...
1.知識點 2.實現(xiàn) 2.1 導(dǎo)包 from sklearn.tree import DecisionTreeClassifierimport seaborn as snsi...
1. 多輸出問題 多個y值,y也為VSM結(jié)構(gòu) from sklearn.tree import DecisionTreeRegressorX(VSM) yX Y(VSM)...
1. 數(shù)據(jù)集鳶尾花分析 2.用決策樹分析 2.1 導(dǎo)包 基于Cart樹的實現(xiàn) 只劃分二叉樹 from sklearn.tree import DecisionTreeClas...
1. 決策樹 https://blog.csdn.net/dorisi_h_n_q/article/details/82787295[https://blog.csdn.ne...
1. 知識點 所有字段都為離散的,犯罪是有原因的,因素和結(jié)果是有概率關(guān)系。 2.實現(xiàn) 2.1導(dǎo)包 import numpy as npimport pandas as pdf...
1.混淆矩陣 接受者操作特征(Receiver Operating Characteristic Curve,ROC)曲線是顯示分類器真正率和假正率之間折中的?種圖形化?法,...