NCBI數(shù)據(jù)庫(kù)
NCBI編號(hào)的解釋
? ? AC:一些可供選擇的注釋的基因組序列,主要用來(lái)標(biāo)記病毒和原核生物。
? ? AP:AC標(biāo)記對(duì)應(yīng)的蛋白產(chǎn)物。
????NC:完整的基因組分子序列,標(biāo)記的類別為基因組、染色體、細(xì)胞器、質(zhì)粒。
? ? NG:不完整的基因組。
? ? NM:轉(zhuǎn)錄產(chǎn)物序列,成熟mRNA轉(zhuǎn)錄本序列。
? ? NP:蛋白產(chǎn)物,主要是全長(zhǎng)轉(zhuǎn)錄氨基酸序列,有一些只有部分蛋白質(zhì)的部分氨基酸序列。
? ? NR:非編碼的轉(zhuǎn)錄子序列,包括結(jié)構(gòu)RNAs,假基因轉(zhuǎn)子。
????NT:BAC或鳥(niǎo)槍法的還未完全注釋的測(cè)序序列。
? ? NW:BAC或鳥(niǎo)槍法的還未完全注釋的測(cè)序序列。
? ? NZ:automated 收集的各種利用鳥(niǎo)槍法測(cè)序的測(cè)序計(jì)劃。
? ? XM:automated 轉(zhuǎn)錄產(chǎn)物,mRNA來(lái)自基因組注釋,序列相當(dāng)于基因組重疊群。
? ? XP:automated 蛋白產(chǎn)物。
? ? XR:automated 轉(zhuǎn)錄產(chǎn)物。
? ? YP:蛋白產(chǎn)物,不涉及到轉(zhuǎn)錄,主要用來(lái)標(biāo)記細(xì)菌、病毒和線粒體。
? ? ZP:automated 蛋白產(chǎn)物,主要是用電腦自動(dòng)注釋。
? ? NS:automated 未知生物分子基因組序列。
Entrez
? ? 對(duì)GenBank, EMBL, DDBJ, PIR-International, PRF, Swiss-Prot, and PDB數(shù)據(jù)庫(kù)中的核酸和蛋白,包括了物種的序列序列數(shù)據(jù)提供整合的訪問(wèn),同時(shí)提供對(duì)3D蛋白結(jié)構(gòu),基因組圖譜信息和 PubMed MEDLINE 的訪問(wèn)。
使用Entrez Direct
? ??esearch
esearch -db nucleotide/sra/protein -query ... #-db是指定數(shù)據(jù)庫(kù)類型,而query是跟著你要搜索的關(guān)鍵詞
? ??efetch
esearch -db nucleotide/sra/protein -query ... |?efetch -format fasta #將搜索結(jié)果的fasta格式存儲(chǔ)
Linux
? ??tr
????從標(biāo)準(zhǔn)輸入刪除或替換字符,并將結(jié)果寫(xiě)入標(biāo)準(zhǔn)輸出
tr '{}' '()' < textfile > newfile 大括號(hào)轉(zhuǎn)換為小括號(hào)
tr 'a-z' 'A-Z' < textfile > newfile 大小寫(xiě)
tr -cs '[:lower:][:upper:]' '[\n*]' < textfile > newfile?這便將每一序列的字符(除大、小寫(xiě)字母外)都轉(zhuǎn)換成單個(gè)換行符。*(星號(hào))可以使 tr 命令重復(fù)換行符足夠多次以使第二個(gè)字符串與第一個(gè)字符串一樣長(zhǎng)。
tr -d '\0' < textfile > newfile?刪除所有空字符
echo "thissss is a text linnnnnnne." | tr -s ' sn' this is a text line. ?用tr壓縮字符,可以壓縮輸入中重復(fù)的字符
cat file | tr -s "\r" "\n" > new_file ? ?/?cat file | tr -d "\r" > new_file ?刪除Windows文件“造成”的'^M’字符
? ??datamash
????文本數(shù)據(jù)處理
seq 10 | datamash sum 1
DATA=$(printf "%s\t%d\n" a 1 b 2 a 3 b 4 a 3 a 6);echo "$DATA" | datamash -s -g1 collapse 2
具體例子:https://www.gnu.org/software/datamash/alternatives/
R-PCA
一些注意點(diǎn):
#apply PCA - scale. = TRUE is highly advisable, but default is FALSE.
#standardize the variables prior to the application of PCA
????ir.pca <-prcomp(log.ir,center =TRUE,scale. =TRUE)
#數(shù)據(jù)大于變量,即行大于列,則應(yīng)該是R mode的數(shù)據(jù) ,轉(zhuǎn)置后變?yōu)镼 mode——研究observation之間的關(guān)系
(這周的筆記是個(gè)大雜燴,把這周學(xué)到的內(nèi)容都記下來(lái),方便以后查找。未完待續(xù)~)