Biostar(3)

NCBI數(shù)據(jù)庫(kù)

NCBI編號(hào)的解釋

? ? AC:一些可供選擇的注釋的基因組序列,主要用來(lái)標(biāo)記病毒和原核生物。

? ? AP:AC標(biāo)記對(duì)應(yīng)的蛋白產(chǎn)物。

????NC:完整的基因組分子序列,標(biāo)記的類別為基因組、染色體、細(xì)胞器、質(zhì)粒。

? ? NG:不完整的基因組。

? ? NM:轉(zhuǎn)錄產(chǎn)物序列,成熟mRNA轉(zhuǎn)錄本序列。

? ? NP:蛋白產(chǎn)物,主要是全長(zhǎng)轉(zhuǎn)錄氨基酸序列,有一些只有部分蛋白質(zhì)的部分氨基酸序列。

? ? NR:非編碼的轉(zhuǎn)錄子序列,包括結(jié)構(gòu)RNAs,假基因轉(zhuǎn)子。

????NT:BAC或鳥(niǎo)槍法的還未完全注釋的測(cè)序序列。

? ? NW:BAC或鳥(niǎo)槍法的還未完全注釋的測(cè)序序列。

? ? NZ:automated 收集的各種利用鳥(niǎo)槍法測(cè)序的測(cè)序計(jì)劃。

? ? XM:automated 轉(zhuǎn)錄產(chǎn)物,mRNA來(lái)自基因組注釋,序列相當(dāng)于基因組重疊群。

? ? XP:automated 蛋白產(chǎn)物。

? ? XR:automated 轉(zhuǎn)錄產(chǎn)物。

? ? YP:蛋白產(chǎn)物,不涉及到轉(zhuǎn)錄,主要用來(lái)標(biāo)記細(xì)菌、病毒和線粒體。

? ? ZP:automated 蛋白產(chǎn)物,主要是用電腦自動(dòng)注釋。

? ? NS:automated 未知生物分子基因組序列。

Entrez

? ? 對(duì)GenBank, EMBL, DDBJ, PIR-International, PRF, Swiss-Prot, and PDB數(shù)據(jù)庫(kù)中的核酸和蛋白,包括了物種的序列序列數(shù)據(jù)提供整合的訪問(wèn),同時(shí)提供對(duì)3D蛋白結(jié)構(gòu),基因組圖譜信息和 PubMed MEDLINE 的訪問(wèn)。

使用Entrez Direct

? ??esearch

esearch -db nucleotide/sra/protein -query ... #-db是指定數(shù)據(jù)庫(kù)類型,而query是跟著你要搜索的關(guān)鍵詞

? ??efetch

esearch -db nucleotide/sra/protein -query ... |?efetch -format fasta #將搜索結(jié)果的fasta格式存儲(chǔ)


Linux

? ??tr

????從標(biāo)準(zhǔn)輸入刪除或替換字符,并將結(jié)果寫(xiě)入標(biāo)準(zhǔn)輸出

tr '{}' '()' < textfile > newfile 大括號(hào)轉(zhuǎn)換為小括號(hào)

tr 'a-z' 'A-Z' < textfile > newfile 大小寫(xiě)

tr -cs '[:lower:][:upper:]' '[\n*]' < textfile > newfile?這便將每一序列的字符(除大、小寫(xiě)字母外)都轉(zhuǎn)換成單個(gè)換行符。*(星號(hào))可以使 tr 命令重復(fù)換行符足夠多次以使第二個(gè)字符串與第一個(gè)字符串一樣長(zhǎng)。

tr -d '\0' < textfile > newfile?刪除所有空字符

echo "thissss is a text linnnnnnne." | tr -s ' sn' this is a text line. ?用tr壓縮字符,可以壓縮輸入中重復(fù)的字符

cat file | tr -s "\r" "\n" > new_file ? ?/?cat file | tr -d "\r" > new_file ?刪除Windows文件“造成”的'^M’字符

? ??datamash

????文本數(shù)據(jù)處理

seq 10 | datamash sum 1

DATA=$(printf "%s\t%d\n" a 1 b 2 a 3 b 4 a 3 a 6);echo "$DATA" | datamash -s -g1 collapse 2

具體例子:https://www.gnu.org/software/datamash/alternatives/


R-PCA

一些注意點(diǎn):

#apply PCA - scale. = TRUE is highly advisable, but default is FALSE.

#standardize the variables prior to the application of PCA

????ir.pca <-prcomp(log.ir,center =TRUE,scale. =TRUE)

#數(shù)據(jù)大于變量,即行大于列,則應(yīng)該是R mode的數(shù)據(jù) ,轉(zhuǎn)置后變?yōu)镼 mode——研究observation之間的關(guān)系

(這周的筆記是個(gè)大雜燴,把這周學(xué)到的內(nèi)容都記下來(lái),方便以后查找。未完待續(xù)~)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 基因的基本組成 基因是具有功能的DNA序列片段,由編碼序列和非編碼序列交替構(gòu)成,我們又稱為割裂基因 split g...
    墻壁上的人閱讀 1,901評(píng)論 0 5
  • 《DNA:生命的秘密》 作者: 詹姆斯·沃森(James D. Watson) / 安德魯·貝瑞(Andrew B...
    kevinou2007閱讀 8,897評(píng)論 0 8
  • 你說(shuō)愛(ài)只不過(guò)是個(gè)傳說(shuō) 我不信 曾試著走進(jìn)你荒唐的世界里 愛(ài)本無(wú)受罪 受罪的是那個(gè)終究不肯放棄的人 我堅(jiān)信只要彼此的...
    雪域之子閱讀 225評(píng)論 0 0
  • 老實(shí)說(shuō),不是每個(gè)人都能按著健身課的課表來(lái)安排自己的時(shí)間,但不管是伏案工作或者是玩手機(jī),時(shí)間長(zhǎng)了身體就就容易感到各種...
    聯(lián)橋健康生活閱讀 357評(píng)論 0 1
  • 高一的時(shí)候輪流換組,輪到我們組做窗邊。 好像是冬季來(lái)著,又加上那天刮風(fēng),有點(diǎn)冷。當(dāng)然那是對(duì)我而言。因?yàn)樘貏e怕冷。 ...
    白落年閱讀 194評(píng)論 0 0

友情鏈接更多精彩內(nèi)容