Biostar_handbook || Charpter 5. 本體論(Ontologies)

Ontology

概念: 個人理解就是生物信息學界對生物上的一些重要信息,如序列和基因信息 制定一個通用的標準化協(xié)議,對一些概念、信息進行精準的定義。而非復雜模棱兩可的解釋。

在文章 The Sequence Ontology: a tool for the unification of genome annotations,作者這樣強調(diào)一致性consistency的重要性:

Unfortunately, biological terminology is notoriously ambiguous; the same word is often used to describe more than one thing and there are many dialects. For example, does a coding sequence (CDS) contain the stop codon or is the stop codon part of the 3'-untranslated region (3' UTR)?
There really is no right or wrong answer to such questions, but consistency is crucial when attempting to compare annotations from different sources, or even when comparing annotations performed by the same group over an extended period of time.

  • Ontology主要包括兩個部分
  1. what a piece of DNA is: annotations or classification:注釋,分類。
  2. what a piece of DNA does: functional analyses.

Sequence Ontology 序列本體論

某一段序列的注釋,分類,genetic features。
Sequence Ontology Browser有對序列信息進行詳細分類、定義。

例如,對于CDS來說,準確的定義是

A contiguous sequence which begins with, and includes, a start codon and ends with, and includes, a stop codon.

image

可以對Sequence ontology信息下載進行一些探索

URL=https://raw.githubusercontent.com/The-Sequence-Ontology/SO-Ontologies/master/so-simple.obo
wget $URL

cat so-simple.obo | grep 'name: gene$' -B 1 -A 6
cat so-simple.obo | grep 'PCR' -B 2 -A 2


基因本體論 Gene Ontology

對基因的功能進行注釋,分類。對gene products分類,每一個基因可能含有多個功能信息。

兩個重要網(wǎng)站Gene Ontology, Quick GO

GO主要包括3個子類

  • Cellular component (CC)細胞組分:基因產(chǎn)物的定位,如細胞核、線粒體基質(zhì)
  • Molecular function (MF)分子功能:元件的活性,如催化活性、結(jié)合活性
  • Biological process (BP)生物學過程:某些代謝從開始到終止的過程,如嘧啶代謝、配糖基的運輸?shù)取?/li>

對GO數(shù)據(jù)的一些探索:

wget http://geneontology.org/gene-associations/goa_human.gaf.gz
grep -v ! goa_human.gaf |cut -f 2|sort |uniq -c \
sort -k1nr |less -S


grep -v ! goa_human.gaf \
|cut -f 14 \
|perl -alne 'print substr($_,0,4)' \
|sort |uniq -c \
|sort -k2nr \
|perl -alne 'print"$F[1]\t$F[0]"'



生信數(shù)據(jù)的功能分析

對于生物數(shù)據(jù)的處理,科學家希望能將其從生物的角度做出合理的解釋。
當你得到一堆基因或蛋白之后(基因/序列)接下來就可以用通路分析(pathway analysis)或者叫功能分析(functional analysis)

功能通路分析functional pathway analysis主要包括三個層次:

  1. 過表征分析Over-Representation Analysis

    看某功能是否有更加明顯的趨勢;ORA attempts to find representative functions of a list of genes by comparing the number of times a function is observed to a baseline.

  2. Functional Class Scoring (FCS算法)

    強調(diào)非單個基因的顯著影響,而是那些功能相關(guān)的類似微效基因累加后其代表的功能通路也有顯著的效果。
    FCS methods use this information to detect coordinated changes in the expression of genes in the same pathway. Finally, by considering the coordinated changes in gene expression, FCS methods account for dependence between genes in a pathway, which ORA does not.

    基本步驟包括:1. 單個基因的基因水平的統(tǒng)計值;2. 同一通路上所有基因的基因水平的統(tǒng)計值 聚合成單個通路水平的統(tǒng)計值 3. 評估通路水平的統(tǒng)計顯著值。

  3. Pathway Topology (PT)通路拓撲學

    基于通路拓撲學的方法,需要用到給定通路互作的信息。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 胡適(1891.12.17—1962.2.24),漢族,安徽績溪上莊村人,因提倡文學革命而成為新文化運動的領(lǐng)袖之一...
    牧哥的草原閱讀 729評論 0 0
  • 1.沒有自動裝箱的masonry的使用 2.獲取系統(tǒng)返回pop手勢 3.忽略未使用變量警告 4.忽略方法未聲明警告...
    倚樓聽風雨wing閱讀 900評論 0 27
  • 一周總結(jié): 1. 破窗效應:由畸形公平心理引發(fā)的,對錯誤行為的從中效應。防止此效應的發(fā)生,就要防微杜漸,問題出現(xiàn)就...
    423429d90f38閱讀 170評論 0 0

友情鏈接更多精彩內(nèi)容