背景
GEO2R是一個交互式web工具,它允許用戶比較GEO系列中的兩組或兩組以上的樣本,以便識別在不同實驗條件下表達不同的基因。結果顯示為按重要性排序的基因表。
GEO2R使用Bioconductor項目中的GEOquery和limma R包對原始提交者提供的處理過的數據表執(zhí)行比較。
與GEO的其他數據集分析工具不同,GEO2R不依賴于精心設計的數據集,而是直接查詢原始的系列矩陣數據文件。這使得及時分析更多的地理數據成為可能。然而,重要的是要認識到,無論數據類型和質量如何,這個工具幾乎可以訪問和分析任何GEO系列。
使用方法
1.輸入一個序列登錄號
2.定義樣本分組(sample groups)
比如test和control分組,分組至少兩個,最多十個。
3.為每組分配樣本
通過選擇每行來分配樣本,各組會有相同的背景顏色標記
注意不一定要選擇所有行來進行分析
4.進行測試
點擊頁面下方“TOP 250”進行分析(在默認參數下)
或者可以使用其他選項卡中的features來首先評估示例值分布,或者編輯默認測試參數。例如,你可以在Options選項卡中選擇一個可選的P-value調整方法,然后回到GEO2R選項卡,單擊[Top 250]以修改參數運行測試。
5.整合結果表
結果在瀏覽器中顯示為按p值排列的前250個基因的表。p值最小的基因最顯著。單擊一行顯示該基因的基因表達譜圖。圖中的每個紅條表示從原始提交者提供的樣例記錄的value列中提取的表達式度量。
使用Select columns特性修改表中包含哪些數據和注釋列。有關數據列含義的信息在Summary statistics部分中提供。
在Options選項卡中編輯測試參數,然后回到GEO2R選項卡并單擊Recalculate來應用編輯。
要查看超過前250個結果,或者如果想保存結果,可以使用save all results按鈕下載完整的結果表。下載的文件以制表符分隔,適合在Excel等電子表格應用程序中打開。

編輯options和features
1.Value distribution
計算和查看所選示例值的分布。值是提交者提供的原始數據,在此基礎上執(zhí)行GEO2R計算。查看分布對于確定選擇的樣本是否適合進行比較非常重要。通常,以中間值為中心的值表示數據是標準化的和可交叉比較的。
2.Options
· Apply adjustment to the P-values
Limma包提供了幾個p值調整選項。這些調整,也稱為多次測試糾正,試圖糾正錯誤陽性結果的發(fā)生。默認選擇Benjamini & Hochberg錯誤發(fā)現率方法,因為它是對微陣列數據最常用的調整,并在發(fā)現統計上重要的基因和限制假陽性之間提供了良好的平衡。
· Apply log transformation to the data
GEO數據庫接受各種數據值類型,包括logged和未logged的數據。Limma包需要使用logged數據為了解決這個問題,GEO2R有一個自動檢測特性,它檢查所選樣本的值,并自動執(zhí)行l(wèi)og2轉換??蛇x擇是否自動轉換。
· Category of Platform annotation to display on results
選擇要在結果上顯示的注釋類別。基因注釋來自于相應的平臺記錄。有兩種注釋類型:
NCBI生成的注釋可用于許多記錄。這些注釋是通過從平臺中提取穩(wěn)定的序列識別信息,定期查詢Entrez基因和UniGene數據庫,生成一致的、最新的注釋而得到的。默認情況下選擇基因符號和基因標題注釋。NCBI生成的注釋的其他類別包括GO術語和染色體位置信息。
提交者提供的注釋可用于所有記錄。這些表示提交者提供的原始平臺注釋。請注意,提交者提供的注釋在樣式和內容上有很多多樣性,而且自提交時起可能就沒有更新過。
3.Profile graph
通過從平臺記錄的ID列輸入相應的標識符來查看特定的基因表達譜圖。此功能不執(zhí)行任何計算;它只是在樣本間顯示基因的表達值。要使此功能正常工作,不需要定義示例組。
4.R script
此選項卡打印用于執(zhí)行計算的R腳本。這些信息可以保存下來,作為計算結果的參考。
限制和注意事項
1.檢查樣本值是否具有可比性
GEO2R操作一系列矩陣文件,其中包含直接從示例表的值列中提取的數據。提交者被要求在VALUE列中提供規(guī)范化的數據,從而使示例具有交叉可比性。大部分的GEO數據都符合這一規(guī)律。GEO只應用于對確定不在日志空間中的值執(zhí)行l(wèi)og2轉換(請參閱選項部分)。然而,一些研究,如雙通道環(huán)路設計數據,可能會產生沒有共同參考和不能直接比較的值。有些研究可能包含沒有標準化的樣本值數據,或者設計的樣本從未打算直接進行比較。然而,其他研究沒有足夠的重復樣本來進行穩(wěn)健的統計分析。用戶應檢查原始系列以了解實驗設計,并檢查原始樣本記錄中的“數據處理”字段或值描述,以了解值表示的信息。Value distribution選項卡上的box plot特性用于幫助用戶評估不同樣本之間的值分布是否以中介為中心,這通常表示數據是標準化的,并且具有交叉可比性。
2.數據類型限制
GEO2R操作序列矩陣文件中的數據,其中包含直接從示例表的值列中提取的數據。某些類別的GEO樣本沒有數據表(例如,高通量測序或基因組平鋪陣列),因此不能使用GEO2R進行分析。
3.序列內限制
GEO2R對序列矩陣文件進行操作。因此,分析僅限于發(fā)生在一個系列中的樣本;不可能執(zhí)行跨序列比較。
4.操作失敗
有時候,GEO2R分析會失敗,因為輸入數據的某些方面與GEOquery或limma包不兼容。
5.255樣本顯示
最多分析255個樣本
6.十分鐘限制
GEO2R目前為作業(yè)處理設置了10分鐘的截止時間。如果你要分析的序列有大量的樣本和/或基因,那么分析可能無法完成。
數據參考:GEO網站&&生信技能樹
友情鏈接:
課程分享
生信技能樹全球公益巡講
(https://mp.weixin.qq.com/s/E9ykuIbc-2Ja9HOY0bn_6g)
B站公益74小時生信工程師教學視頻合輯
(https://mp.weixin.qq.com/s/IyFK7l_WBAiUgqQi8O7Hxw)
招學徒:
(https://mp.weixin.qq.com/s/KgbilzXnFjbKKunuw7NVfw)
歡迎關注公眾號:青島生信菜鳥團