一、基礎(chǔ)概念 決策樹是一類極為常用的機(jī)器學(xué)習(xí)方法,尤其是在分類場景。決策樹通過樹形結(jié)構(gòu)來遞歸地將樣本分割到不同的葉子結(jié)點中去,并根據(jù)每個葉子結(jié)點中的樣本構(gòu)成對該結(jié)點中的樣本進(jìn)...
一、基礎(chǔ)概念 決策樹是一類極為常用的機(jī)器學(xué)習(xí)方法,尤其是在分類場景。決策樹通過樹形結(jié)構(gòu)來遞歸地將樣本分割到不同的葉子結(jié)點中去,并根據(jù)每個葉子結(jié)點中的樣本構(gòu)成對該結(jié)點中的樣本進(jìn)...
最近這幾個月,新冠疫情牽動了全國乃至全世界人民的心。股市崩盤、經(jīng)濟(jì)發(fā)展開倒車都已經(jīng)是小事情了,最令人擔(dān)憂的是每天都有許多家庭在面對令人難以承受的別離。非常感謝我們偉大的政府,...
不要把所有的雞蛋放在同一個籃子里,這是投資界中歷久彌新的至理名言。 為了避免風(fēng)險,投資人往往會將資產(chǎn)分散到不同的金融工具中,比如信托、債券、基金、股票、期貨、期權(quán)甚至房地產(chǎn)市...
今天,我們將介紹非常重要的一部分:風(fēng)險的量化。我們會從原理以及Python實戰(zhàn)兩個角度來學(xué)習(xí)。 我們開始今天的內(nèi)容。 一、方差 1952年,Markowitz發(fā)表了均值-方差...
之前我們曾經(jīng)學(xué)習(xí)了簡單線性回歸模型的推導(dǎo)、sklearn實戰(zhàn),并嘗試從零搭建了一個簡單線性回歸的模型工具。 但是我們遇到的數(shù)據(jù)并不總是線性的,這時如果我們還拿線性模型去擬合,...
溫故知新: 在昨天,我們學(xué)習(xí)了使用seaborn.lmplot()來繪制回歸圖,用來表示變量之間的線性關(guān)系。它主要是在散點圖的基礎(chǔ)上,繪制了一條直線,而這條直線(也可以是曲線...
今天我們的目的并不是完全掌握Python量化分析,僅僅是作為入門引領(lǐng),開啟一扇新的大門。在之后的日子里,我會不定時地分享更多關(guān)于時間序列分析、量化分析的內(nèi)容,歡迎關(guān)注、收藏、...
現(xiàn)代人的時間越來越碎片化,因此我們準(zhǔn)備拋棄那種長篇大論的教程,希望大家每天花上幾分鐘就可以學(xué)到一個小竅門或者某種圖的繪制方法。只要每天都認(rèn)真看一遍文章,有時間的時候花幾分鐘練...
讓圖形充滿魅力是非常重要的。當(dāng)我們探索一個數(shù)據(jù)集并且要進(jìn)行可視化,那么,把圖畫得令人愉悅終究是不錯的??梢暬?,是與聽眾交流大量信息時的核心方法,在這種情況下,讓圖形變得能瞬間...
當(dāng)探索具有中等數(shù)量(不多不少的意思……)維度的數(shù)據(jù)集時,一個很好的方式是基于不同的子數(shù)據(jù)集構(gòu)建不同的實例,并將它們以網(wǎng)格的方式組織在一張圖之中。這種技術(shù)有時被稱為“l(fā)atti...
許多數(shù)據(jù)集含有多個定量變量(數(shù)值型變量),而我們分析的目的往往是將他們關(guān)聯(lián)起來。我們曾討論過通過兩個變量的聯(lián)合分布來實現(xiàn)這一點。然而,使用統(tǒng)計模型來為兩組帶有噪聲數(shù)據(jù)的觀測值...
當(dāng)我們上手一個數(shù)據(jù)集時,往往第一件事就是了解每個變量是如何分布的。這一章節(jié)會簡單地教大家如何在seaborn中檢驗一元分布和二元(維)分布。你也許會對如何對比一個變量在其他變...
在統(tǒng)計關(guān)系可視化教程中,我們學(xué)會了使用多種不同的方式來展示一個數(shù)據(jù)集中多個變量之間的關(guān)系。在一系列的例子中,我們聚焦于那些關(guān)系主要存在于兩個數(shù)值型變量之間的情況。然而當(dāng)其中一...
眾所周知,Seaborn“可能”是Python下最友好、易用的可視化工具了,可視化效果也非常好。但是截止目前,并沒有一份中文教程供廣大國內(nèi)Python使用者查閱學(xué)習(xí)。怎么能因...
在統(tǒng)計學(xué)中,線性回歸是利用稱為線性回歸方程的最小二乘函數(shù)對一個或多個自變量和因變量之間關(guān)系進(jìn)行建模的一種回歸分析。這種函數(shù)是一個或多個稱為回歸系數(shù)的模型參數(shù)的線性組合。當(dāng)因變...
K-近鄰算法又稱KNN算法(K-Nearest Neighbors),既可以用來解決分類問題,也可以用來解決回歸問題。 如標(biāo)題所言,KNN算法的核心原理就是讓距離最近的“鄰居...
在上一篇文章中,我們實戰(zhàn)使用urllib和BeautifulSoup抓取了關(guān)于豆瓣電影TOP250的非常豐富的信息,包括導(dǎo)演、編劇、演員、上映時間和地區(qū)、語言、別名、短評數(shù)、...
我們曾經(jīng)抓取過貓眼電影TOP100,并進(jìn)行了簡單的分析。但是眾所周知,豆瓣的用戶比較小眾、比較獨特,那么豆瓣的TOP250又會是哪些電影呢? 我在整理代碼的時候突然發(fā)現(xiàn)一年多...