項(xiàng)目進(jìn)行到后期,基于目前試驗(yàn)結(jié)果和所有數(shù)據(jù),已經(jīng)完成初步的模型建立,需要根據(jù)現(xiàn)有模型和算法,對算法和模型進(jìn)行包裝,完成black box黑盒子,所以對我們的程序進(jìn)行了簡單的小...
1. 基于tree base的特征選擇 以決策樹為基礎(chǔ)的模型有很多,包括最常用的randomforest,deep-forest和GBDT之類,這些集成模型相較于基礎(chǔ)模型,擁...
Backgroud 最近在處理比對后的bam文件,文件大小約為15G左右,由于內(nèi)存限制,準(zhǔn)備使用生成器的模型分塊讀取文件,同時(shí)進(jìn)行多進(jìn)程的處理,大致思路如下:定義處理函數(shù),使...
python中常用的數(shù)據(jù)圖形化庫有matplotlib,seaborn,plotnine以及pandas自帶的圖形化功能等(目前我接觸的)。在這幾種圖形化中,pandas自帶...
在我們進(jìn)行數(shù)據(jù)處理時(shí),相關(guān)性分析是我們最常使用的分析方法之一。相關(guān)性,即衡量二個(gè)特征或者兩個(gè)變量之間的關(guān)聯(lián)程度。兩個(gè)變量的相關(guān)關(guān)系意味著二者之間存在著某種數(shù)學(xué)關(guān)系。我們并不知...
在日常的工作學(xué)習(xí)中,我們肯定會遇到排列組合問題,比如,在5種顏色的球中,任意取3個(gè),共有多少種組合方式,這也包括有放回和無放回抽樣。在python中,自帶的排列組合函數(shù),都在...
歸一化與標(biāo)準(zhǔn)化操作是數(shù)據(jù)預(yù)處理過程中常見的數(shù)據(jù)處理(特征縮放)方法。常見的歸一化標(biāo)準(zhǔn)化有四種。 1、極大極小歸一化在數(shù)據(jù)集中,使用數(shù)據(jù)的值減去極小值處以極差,得到數(shù)值范圍在(...
Python matplotlib問題如果出現(xiàn)在shell5里跑程序,需要畫圖,但是運(yùn)行到最后會報(bào)錯(cuò)如下:QXcbConnection: Could not connect ...
我們下載的nr數(shù)據(jù)庫非常大,2017年9月更新后所有nr的fasta文件已達(dá)72G,因而在進(jìn)行nr比對時(shí),如果不對nr庫以類別進(jìn)行區(qū)分,會非常耗我們的計(jì)算資源和時(shí)間,因而最好...
二項(xiàng)檢驗(yàn) 二項(xiàng)分布是指統(tǒng)計(jì)變量中只有性質(zhì)不同的兩箱群體的概率分布,兩個(gè)觀測值是對立的。二項(xiàng)分布描述了n次實(shí)驗(yàn)中恰好有k次成功的概率。二項(xiàng)分布定義: 任意一次事件中,A只有發(fā)生...
使用anaconda構(gòu)建單細(xì)胞的分析環(huán)境 進(jìn)行單細(xì)胞分析軟件包的調(diào)研時(shí),發(fā)現(xiàn)anaconda真是個(gè)好東西,使用anaconda可以輕松的創(chuàng)建不同的python環(huán)境R環(huán)境 co...
推導(dǎo)式comprehension(又稱解析式),是python的一種獨(dú)有特性。推導(dǎo)式是從一個(gè)數(shù)據(jù)序列構(gòu)建另外一個(gè)數(shù)據(jù)序列結(jié)構(gòu)體。共有三種推導(dǎo)。 字典推導(dǎo)式 列表推導(dǎo)式 集合推...
給定一個(gè)列表 如上圖所示,當(dāng)在python中我們使用賦值號將a 列表賦值給 b 時(shí) 當(dāng)a 使用remove 方法對列表內(nèi)的元素進(jìn)行操作時(shí),則在b中的元素會進(jìn)行同樣的操作 又或...