NCBI數(shù)據(jù)庫(kù)

NCBI編號(hào)的解釋

? ? AC：一些可供選擇的注釋的基因組序列，主要用來(lái)標(biāo)記病毒和原核生物。

? ? AP：AC標(biāo)記對(duì)應(yīng)的蛋白產(chǎn)物。

????NC：完整的基因組分子序列，標(biāo)記的類別為基因組、染色體、細(xì)胞器、質(zhì)粒。

? ? NG：不完整的基因組。

? ? NM：轉(zhuǎn)錄產(chǎn)物序列，成熟mRNA轉(zhuǎn)錄本序列。

? ? NP：蛋白產(chǎn)物，主要是全長(zhǎng)轉(zhuǎn)錄氨基酸序列，有一些只有部分蛋白質(zhì)的部分氨基酸序列。

? ? NR：非編碼的轉(zhuǎn)錄子序列，包括結(jié)構(gòu)RNAs，假基因轉(zhuǎn)子。

????NT：BAC或鳥(niǎo)槍法的還未完全注釋的測(cè)序序列。

? ? NW：BAC或鳥(niǎo)槍法的還未完全注釋的測(cè)序序列。

? ? NZ：automated 收集的各種利用鳥(niǎo)槍法測(cè)序的測(cè)序計(jì)劃。

? ? XM：automated 轉(zhuǎn)錄產(chǎn)物，mRNA來(lái)自基因組注釋，序列相當(dāng)于基因組重疊群。

? ? XP：automated 蛋白產(chǎn)物。

? ? XR：automated 轉(zhuǎn)錄產(chǎn)物。

? ? YP：蛋白產(chǎn)物，不涉及到轉(zhuǎn)錄，主要用來(lái)標(biāo)記細(xì)菌、病毒和線粒體。

? ? ZP：automated 蛋白產(chǎn)物，主要是用電腦自動(dòng)注釋。

? ? NS：automated 未知生物分子基因組序列。

Entrez

? ? 對(duì)GenBank, EMBL, DDBJ, PIR-International, PRF, Swiss-Prot, and PDB數(shù)據(jù)庫(kù)中的核酸和蛋白，包括了物種的序列序列數(shù)據(jù)提供整合的訪問(wèn)，同時(shí)提供對(duì)3D蛋白結(jié)構(gòu)，基因組圖譜信息和 PubMed MEDLINE 的訪問(wèn)。

使用Entrez Direct

? ??esearch

esearch -db nucleotide/sra/protein -query ... #-db是指定數(shù)據(jù)庫(kù)類型，而query是跟著你要搜索的關(guān)鍵詞

? ??efetch

esearch -db nucleotide/sra/protein -query ... |?efetch -format fasta #將搜索結(jié)果的fasta格式存儲(chǔ)

Linux

? ??tr

????從標(biāo)準(zhǔn)輸入刪除或替換字符，并將結(jié)果寫(xiě)入標(biāo)準(zhǔn)輸出

tr '{}' '()' < textfile > newfile 大括號(hào)轉(zhuǎn)換為小括號(hào)

tr 'a-z' 'A-Z' < textfile > newfile 大小寫(xiě)

tr -cs '[:lower:][:upper:]' '[\n*]' < textfile > newfile?這便將每一序列的字符（除大、小寫(xiě)字母外）都轉(zhuǎn)換成單個(gè)換行符。*（星號(hào)）可以使 tr 命令重復(fù)換行符足夠多次以使第二個(gè)字符串與第一個(gè)字符串一樣長(zhǎng)。

tr -d '\0' < textfile > newfile?刪除所有空字符

echo "thissss is a text linnnnnnne." | tr -s ' sn' this is a text line. ?用tr壓縮字符，可以壓縮輸入中重復(fù)的字符

cat file | tr -s "\r" "\n" > new_file ? ?／?cat file | tr -d "\r" > new_file ?刪除Windows文件“造成”的'^M’字符

? ??datamash

????文本數(shù)據(jù)處理

seq 10 | datamash sum 1

DATA=$(printf "%s\t%d\n" a 1 b 2 a 3 b 4 a 3 a 6)；echo "$DATA" | datamash -s -g1 collapse 2

具體例子：https://www.gnu.org/software/datamash/alternatives/

R-PCA

一些注意點(diǎn)：

#apply PCA - scale. = TRUE is highly advisable, but default is FALSE.

#standardize the variables prior to the application of PCA

????ir.pca <-prcomp(log.ir,center =TRUE,scale. =TRUE)

#數(shù)據(jù)大于變量，即行大于列，則應(yīng)該是R mode的數(shù)據(jù) ,轉(zhuǎn)置后變?yōu)镼 mode——研究observation之間的關(guān)系

（這周的筆記是個(gè)大雜燴，把這周學(xué)到的內(nèi)容都記下來(lái)，方便以后查找。未完待續(xù)～）

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

Biostar(3)

Biostar(3)

NCBI數(shù)據(jù)庫(kù)

Linux

R-PCA

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

Biostar(3)

NCBI數(shù)據(jù)庫(kù)

Linux

R-PCA

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av