第二周已經(jīng)結(jié)束了,我不確定大家對(duì)Linux到底了解到了什么程度,但是我覺得再給一周時(shí)間讓初學(xué)者去熟悉Linux肯定是必要的。于是這一周的任務(wù)不會(huì)太難,只需要讓大家去理解本體論(ontology)。
筆記匯總
這周有一些小伙伴開始遭遇人生抉擇,有一些則是要出差趕路,所以上交作業(yè)不算太多。可能大家對(duì)自己的要求有點(diǎn)高了,其實(shí)我一直強(qiáng)調(diào)的是筆記的不斷迭代,只要你寫了一點(diǎn)內(nèi)容就可以發(fā)出來,后來不斷修改,趨于完善。
- grep基礎(chǔ)命令選項(xiàng)
- 文檔查看與處理工具
- 基礎(chǔ)正則表達(dá)式
- 作業(yè)2 無法逾越的鴻溝——CPU及其指令集(arm、x86、avx)
- Biostar學(xué)習(xí)筆記(2)
- Linux 常用命令(一)
- Biostar handbook學(xué)習(xí)筆記二—linux常用命令的學(xué)習(xí)與使用
- YXF-biostar 基本命令
- Linux常用的命令及初窺正則表達(dá)式--The learning notes of the biostar handbook(2)
- biostar lesson3 linux學(xué)習(xí)日記;java版本;awk
- bash 命令
- biostarhandbook(二)|命令行世界生存法則
- linux基礎(chǔ)命令和相關(guān)幫助文檔說明
- Biostar入門學(xué)習(xí)筆記(1):Some basic but useful code
- Biostar_Handbook(2)Linux命令行學(xué)習(xí)
任務(wù)布置
本周的學(xué)習(xí)任務(wù)是第五章。我們不求多,不求快,只要穩(wěn)扎穩(wěn)打,所以就只要學(xué)習(xí)這一章。但是下一周的任務(wù),我有種要一次性學(xué)習(xí)6~9章的內(nèi)容。不過不用慌,這一次就第五章。
作為一位大學(xué)統(tǒng)計(jì)棉花表皮毛的苦逼生物狗,深刻體會(huì)什么叫做經(jīng)驗(yàn),也就是人類模式識(shí)別能力的強(qiáng)大和不精確性。當(dāng)時(shí)的導(dǎo)師教我如何根據(jù)表皮毛的長短和濃密進(jìn)行基因型的判定,但是我一直糾結(jié)長和短,密和疏之間的分界。在讀研的時(shí)候,師姐會(huì)讓我提供基因Genomic序列,這來自于TAIR的定義,此外TAIR還定義了full length cDNA和full length CDS。我經(jīng)常糾結(jié)這些序列和我GFF里面的CDS,mRNA,gene的關(guān)系是什么?直到我把所有序列都拿出來,進(jìn)行多序列聯(lián)配才發(fā)現(xiàn)它們之間的差異。
計(jì)算機(jī)科學(xué)來自于多學(xué)科的交互,比如說數(shù)學(xué),語言學(xué),邏輯學(xué)等。為了保證互聯(lián)網(wǎng)的通信,代碼的復(fù)用,API的調(diào)用等,計(jì)算機(jī)協(xié)會(huì)制定了很多協(xié)議進(jìn)行標(biāo)準(zhǔn)化。比如說“意思意思”這句話在中文的語境千變?nèi)f化,但是在計(jì)算機(jī)里面可能就會(huì)翻譯成mean of mean。為了能讓計(jì)算機(jī)分析生物數(shù)據(jù),就要生物學(xué)的一些概念進(jìn)行精確定義,而不是“只可意會(huì),不可言傳”
Unfortunately, biological terminology is notoriously ambiguous; the same word is often used to describe more than one thing and there are many dialects. For example, does a coding sequence (CDS) contain the stop codon or is the stop codon part of the 3'-untranslated region (3' UTR)?
There really is no right or wrong answer to such questions, but consistency is crucial when attempting to compare annotations from different sources, or even when comparing annotations performed by the same group over an extended period of time.
因此,大家需要去理解一下什么叫做基因本體論,還有序列本體論,也就是gff文件里面的其中兩列內(nèi)容。
然后你就開始嘗試去理解什么叫做富集分析。也就是別人要你去做富集分析,計(jì)算機(jī)做的事情是啥。這會(huì)涉及到一些統(tǒng)計(jì)學(xué)知識(shí),比如說超幾何分布,你就可以去翻翻教科書了。這部分內(nèi)容請參考Y叔和Jimmy激烈交流的故事。
最后用unix的命令行分析你研究物種的gff文件,問題則是靠你自己提出了,比如說最多的feature是什么?