Multi-omics Hammer軟件之fasta格式整理和保守結(jié)構域查找

上一篇推文主要介紹了一下Multi-omics Hammer軟件的Aligment功能,本篇就接著上一篇推文繼續(xù)介紹如何使用該軟件進行fasta格式的整理和保守結(jié)構域(或可變剪切位點)的查找。

一?功能開發(fā)

與上一篇推文一樣,本推文也先介紹一下開發(fā)這些功能的初衷吧。遙想當年剛接觸fasta文件時,對這些格式懵懵懂懂。殊不知,這些文件所包含的信息貫穿整個學生生涯(也可能在以后的科研生涯)。然后,在使用這些文件進行數(shù)據(jù)分析的時候卻發(fā)現(xiàn)諸多不便,因此想要開發(fā)一些簡單的功能來解決這些問題。下面將依次介紹各個功能希望解決的痛點。

1.1 對于一個位于fasta文件中的A基因而言,如果它的序列片段有幾千bp,那么這些序列以fasta文件保存的時候就會被切分為許多行。這時如果需要檢索這個A基因是否包含幾百個bp的片段part1時,就需要人工將A基因被fasta格式切分成幾十段的序列拼接成一段。只是,這種操作繁瑣又無任何意義,因此就想是否能夠通過代碼實現(xiàn)這一簡單的不能再簡單的功能呢。于是就有了fa_to_primer_format功能的開發(fā)。

1.2 當然,許多軟件需要的文件格式為fasta格式。因此,同一遇到A基因,但是它的序列按照不同的長度被分割為數(shù)行,這時如何整理文件??咳斯た梢酝瓿蓭讉€基因的操作,但是成千上萬的基因就無法實現(xiàn)了。這里提供一個小技巧,可以通過兩步實現(xiàn)fasta格式的整理。首先,將序列文件通過fa_to_primer_format功能整理成單行基因名單行序列的形式。隨后,通過primer_to_fa_format功能將文件格式整理成fasta格式。最后,該文件就可以用做其他軟件的輸入文件。

1.3 對于一個基因組文件而言,或許用戶需要查找其中的可變剪切位點或保守結(jié)構域part1(特定序列)。那么逐個基因依次查找會是一個方法,只是明顯不夠高效,于是便有sequence_verified功能的提出。

1.4 對于這個功能,可能是基于在之前實驗室的習慣吧。因為當時保存單個引物序列時通過下面這種格式(行數(shù)據(jù):基因名{制表符}上游基因{制表符}下游基因)進行保存。只是這種保存方式,不利于后續(xù)對單個序列的特異性(Blast)進行檢測,因此便有了sangon功能,但是這一功能不具有普適性。

二?軟件調(diào)用

介紹完上述功能需要解決的問題,下面便介紹如何通過軟件完成相關分析。

2.1 我們需要先打開‘Primer’選項,如圖1所示。


圖1

那么,我們就可以看見我們的Primer對話框了(圖2)。這一對話框運算部分提供了三個選項。首先是‘is save’選項,這個選項是用來表明是否保存數(shù)據(jù);其次是‘simple alig?’選項,這一選項則表明是否僅用對話框中呈現(xiàn)的數(shù)據(jù)進行運算(如果不勾選,則使用拖入到比對文件對話框的文件內(nèi)容進行運算)。需要注意的是對于一些童鞋而言,可能只是簡單看一下結(jié)果,沒有必要特意生成兩個文件(比對文件和背景文件)。因此,僅使用這個‘simple alig?’選項,我們可以將數(shù)據(jù)直接輸入到比對文件對話框和背景文件對話框中即可。注意:這兩個對話框如果直接將文件拖入,則會直接讀取文件的內(nèi)容,并展示前100行的數(shù)據(jù)。而結(jié)果文件對話框則只會顯示文件的路徑。因為,已經(jīng)提供了結(jié)果預覽部分。最后,最重要的選項就是‘start’選項了,點擊后即可直接進行運算。除了上述選項外,本軟件的其他界面部分也將以行為主進行逐一介紹。

Conversion方法:可以選擇fasta轉(zhuǎn)為primer格式(fa_to_primer_format)、primer轉(zhuǎn)為fasta格式(primer_to_fa_format)、生工引物轉(zhuǎn)換(sangon)和序列驗證(sequence_verified)。

輸入文件:需要統(tǒng)計的文件。

結(jié)果預覽:預覽輸出結(jié)果。

結(jié)果文件輸出:輸出結(jié)果的文件。

因為功能較為簡單,所以可選的選項也不多。


圖2

2.2 為了方便用戶了解這一功能,本軟件也提供了示例文件,通過點擊圖3的方框3的‘load test’選項即可加載示例數(shù)據(jù),如方框4和方框5,均為加載示例文件的數(shù)據(jù)。隨后,點擊‘start’即可得出結(jié)果。


圖3

當然,用戶也可以直接將文件拖入進入相應的為對話框(輸入文件對話框)。如圖4所示,用戶可以直接將文件分別拖入到對話框中,軟件會自動識別并加載數(shù)據(jù)。


圖4

如果用戶想要切換方法,可以在Conversion方法部分下拉菜單中重新選擇。


圖5

2.3為方便用戶了解產(chǎn)生的結(jié)果文件,下面將以功能為單位,從輸入數(shù)據(jù)和結(jié)果數(shù)據(jù)兩個方面去展示各個功能。部分功能過于簡單,相信讀者可以直接從這兩組數(shù)據(jù)中得出結(jié)論,便不再贅述。

2.3.1 fasta轉(zhuǎn)為primer格式(fa_to_primer_format)

輸入數(shù)據(jù)為:


>TCONS_00003073 gene=XLOC_002970TATACATGTTATCATTGAGGGCTAAAACTTCAATGTCAGTGATTAGCAGTTTAGCATAGACTTATGTGGCAATATAATCCTTTGTTGTTTGCTCTCCCCATTTTTATAATAAGTATGAACTTACAAGGCTGCCCTAGAATTGTTCTTACAGGTTTTTGTTTACCGGTCATGGGCATCAGTTCGGGTTATGACAGCTGAACAGCGTGCTAAGCTCCTGAGGCGTATAGTGAAGGACAATGTACATGAAAAGCTTCCATTCAAAGAGTGTGAGAAGATTGCGAAGGATCTTAACCTGACCTTAGAGCAGGTGCTGCGTGTGTATTATGATAAGAAACGCCAGCGTCTTAATAGATCTCAGGGTGCTTTTATTGCCGACAGGGAGGAGCATCGATTGTTAAGGAATAAGTCCTCTCCATCGCCTCGAAAAAGAAAGAAGTCTTTAGAAGAAAGATCTGTAAAGCGTACAAGAGTTGATGCTGTAATTGGACAGCTGGTTGGGCAGAGGATTGCTACATCCCCTGATACTGCAAACAAATTTATAGAAGAACAAAATCCACACATATTAAATTTAGGAGAAGATGACTCTCATTTGCCTGGATGTGAGGAGGATGATCATCCAGAAACTGTTGAAGAGCCAGGACCAAATGAAGAAGATGAAGACTGCAATGCTTTACTTAGTCAGTGTGCCTTTCCAAATGTAAAGCGATCACGTCAAAAAAGATTTATGTGGACAGATGAAGCAGATAGGTAAA>TCONS_00003074 gene=XLOC_002971ATGTATTCTTCGGCTGGAAAGTGGGAGAAGGTGAAGGAATTGAGGATGTTTATGAAAGAGGAAGGAATCCAAACTACACCAGGTTGTAGTACGATTGAACTGAAAGGAGTGTTACATGAGTTTGTGGCGGATGATGTTTCACATCCGCGAAAGGATGAGATCTATGACATGCTGGATGAGATTAATCAGCAGCTCAAAATTGGTGGTTATGTTGCTGAAATAACATCTGAATTGCACAATTTGAGTGCTGAAGAAAAGGAGTATGTGCTCTCTTATCACAGTGAGAAGTTGGCCATTGCTTTTGGGGTACTTAAAACACCACCTGGCACAACTATACGAGTGGCTAAGAATCTGAGGACCTGTGTTGACTGTCATAATTTTGCTAAAGCTCTTTCAGAGGTATACAATAGACAAGTAATTATTAGGGATCGAGCGCGTTTTCATCATTTCCAAAACGGACGCTGCTCTTGTAATGACTATTGGTGA

結(jié)果數(shù)據(jù)為:

>TCONS_00003073 gene=XLOC_002970TATACATGTTATCATTGAGGGCTAAAACTTCAATGTCAGTGATTAGCAGTTTAGCATAGACTTATGTGGCAATATAATCCTTTGTTGTTTGCTCTCCCCATTTTTATAATAAGTATGAACTTACAAGGCTGCCCTAGAATTGTTCTTACAGGTTTTTGTTTACCGGTCATGGGCATCAGTTCGGGTTATGACAGCTGAACAGCGTGCTAAGCTCCTGAGGCGTATAGTGAAGGACAATGTACATGAAAAGCTTCCATTCAAAGAGTGTGAGAAGATTGCGAAGGATCTTAACCTGACCTTAGAGCAGGTGCTGCGTGTGTATTATGATAAGAAACGCCAGCGTCTTAATAGATCTCAGGGTGCTTTTATTGCCGACAGGGAGGAGCATCGATTGTTAAGGAATAAGTCCTCTCCATCGCCTCGAAAAAGAAAGAAGTCTTTAGAAGAAAGATCTGTAAAGCGTACAAGAGTTGATGCTGTAATTGGACAGCTGGTTGGGCAGAGGATTGCTACATCCCCTGATACTGCAAACAAATTTATAGAAGAACAAAATCCACACATATTAAATTTAGGAGAAGATGACTCTCATTTGCCTGGATGTGAGGAGGATGATCATCCAGAAACTGTTGAAGAGCCAGGACCAAATGAAGAAGATGAAGACTGCAATGCTTTACTTAGTCAGTGTGCCTTTCCAAATGTAAAGCGATCACGTCAAAAAAGATTTATGTGGACAGATGAAGCAGATAGGTAAA>TCONS_00003074 gene=XLOC_002971ATGTATTCTTCGGCTGGAAAGTGGGAGAAGGTGAAGGAATTGAGGATGTTTATGAAAGAGGAAGGAATCCAAACTACACCAGGTTGTAGTACGATTGAACTGAAAGGAGTGTTACATGAGTTTGTGGCGGATGATGTTTCACATCCGCGAAAGGATGAGATCTATGACATGCTGGATGAGATTAATCAGCAGCTCAAAATTGGTGGTTATGTTGCTGAAATAACATCTGAATTGCACAATTTGAGTGCTGAAGAAAAGGAGTATGTGCTCTCTTATCACAGTGAGAAGTTGGCCATTGCTTTTGGGGTACTTAAAACACCACCTGGCACAACTATACGAGTGGCTAAGAATCTGAGGACCTGTGTTGACTGTCATAATTTTGCTAAAGCTCTTTCAGAGGTATACAATAGACAAGTAATTATTAGGGATCGAGCGCGTTTTCATCATTTCCAAAACGGACGCTGCTCTTGTAATGACTATTGGTGA

2.3.2 primer轉(zhuǎn)為fasta格式(primer_to_fasta_format)

輸入數(shù)據(jù)為


>TCONS_00003073 gene=XLOC_002970TATACATGTTATCATTGAGGGCTAAAACTTCAATGTCAGTGATTAGCAGTTTAGCATAGACTTATGTGGCAATATAATCCTTTGTTGTTTGCTCTCCCCATTTTTATAATAAGTATGAACTTACAAGGCTGCCCTAGAATTGTTCTTACAGGTTTTTGTTTACCGGTCATGGGCATCAGTTCGGGTTATGACAGCTGAACAGCGTGCTAAGCTCCTGAGGCGTATAGTGAAGGACAATGTACATGAAAAGCTTCCATTCAAAGAGTGTGAGAAGATTGCGAAGGATCTTAACCTGACCTTAGAGCAGGTGCTGCGTGTGTATTATGATAAGAAACGCCAGCGTCTTAATAGATCTCAGGGTGCTTTTATTGCCGACAGGGAGGAGCATCGATTGTTAAGGAATAAGTCCTCTCCATCGCCTCGAAAAAGAAAGAAGTCTTTAGAAGAAAGATCTGTAAAGCGTACAAGAGTTGATGCTGTAATTGGACAGCTGGTTGGGCAGAGGATTGCTACATCCCCTGATACTGCAAACAAATTTATAGAAGAACAAAATCCACACATATTAAATTTAGGAGAAGATGACTCTCATTTGCCTGGATGTGAGGAGGATGATCATCCAGAAACTGTTGAAGAGCCAGGACCAAATGAAGAAGATGAAGACTGCAATGCTTTACTTAGTCAGTGTGCCTTTCCAAATGTAAAGCGATCACGTCAAAAAAGATTTATGTGGACAGATGAAGCAGATAGGTAAA>TCONS_00003074 gene=XLOC_002971ATGTATTCTTCGGCTGGAAAGTGGGAGAAGGTGAAGGAATTGAGGATGTTTATGAAAGAGGAAGGAATCCAAACTACACCAGGTTGTAGTACGATTGAACTGAAAGGAGTGTTACATGAGTTTGTGGCGGATGATGTTTCACATCCGCGAAAGGATGAGATCTATGACATGCTGGATGAGATTAATCAGCAGCTCAAAATTGGTGGTTATGTTGCTGAAATAACATCTGAATTGCACAATTTGAGTGCTGAAGAAAAGGAGTATGTGCTCTCTTATCACAGTGAGAAGTTGGCCATTGCTTTTGGGGTACTTAAAACACCACCTGGCACAACTATACGAGTGGCTAAGAATCTGAGGACCTGTGTTGACTGTCATAATTTTGCTAAAGCTCTTTCAGAGGTATACAATAGACAAGTAATTATTAGGGATCGAGCGCGTTTTCATCATTTCCAAAACGGACGCTGCTCTTGTAATGACTATTGGTGA

結(jié)果數(shù)據(jù)為:

>TCONS_00003073 gene=XLOC_002970TATACATGTTATCATTGAGGGCTAAAACTTCAATGTCAGTGATTAGCAGTTTAGCATAGACTTATGTGGCAATATAATCCTTTGTTGTTTGCTCTCCCCATTTTTATAATAAGTATGAACTTACAAGGCTGCCCTAGAATTGTTCTTACAGGTTTTTGTTTACCGGTCATGGGCATCAGTTCGGGTTATGACAGCTGAACAGCGTGCTAAGCTCCTGAGGCGTATAGTGAAGGACAATGTACATGAAAAGCTTCCATTCAAAGAGTGTGAGAAGATTGCGAAGGATCTTAACCTGACCTTAGAGCAGGTGCTGCGTGTGTATTATGATAAGAAACGCCAGCGTCTTAATAGATCTCAGGGTGCTTTTATTGCCGACAGGGAGGAGCATCGATTGTTAAGGAATAAGTCCTCTCCATCGCCTCGAAAAAGAAAGAAGTCTTTAGAAGAAAGATCTGTAAAGCGTACAAGAGTTGATGCTGTAATTGGACAGCTGGTTGGGCAGAGGATTGCTACATCCCCTGATACTGCAAACAAATTTATAGAAGAACAAAATCCACACATATTAAATTTAGGAGAAGATGACTCTCATTTGCCTGGATGTGAGGAGGATGATCATCCAGAAACTGTTGAAGAGCCAGGACCAAATGAAGAAGATGAAGACTGCAATGCTTTACTTAGTCAGTGTGCCTTTCCAAATGTAAAGCGATCACGTCAAAAAAGATTTATGTGGACAGATGAAGCAGATAGGTAAA>TCONS_00003074 gene=XLOC_002971ATGTATTCTTCGGCTGGAAAGTGGGAGAAGGTGAAGGAATTGAGGATGTTTATGAAAGAGGAAGGAATCCAAACTACACCAGGTTGTAGTACGATTGAACTGAAAGGAGTGTTACATGAGTTTGTGGCGGATGATGTTTCACATCCGCGAAAGGATGAGATCTATGACATGCTGGATGAGATTAATCAGCAGCTCAAAATTGGTGGTTATGTTGCTGAAATAACATCTGAATTGCACAATTTGAGTGCTGAAGAAAAGGAGTATGTGCTCTCTTATCACAGTGAGAAGTTGGCCATTGCTTTTGGGGTACTTAAAACACCACCTGGCACAACTATACGAGTGGCTAAGAATCTGAGGACCTGTGTTGACTGTCATAATTTTGCTAAAGCTCTTTCAGAGGTATACAATAGACAAGTAATTATTAGGGATCGAGCGCGTTTTCATCATTTCCAAAACGGACGCTGCTCTTGTAATGACTATTGGTGA

2.3.3生工引物轉(zhuǎn)換(sangon)

輸入數(shù)據(jù)為:

XLOC_002435_az101_t35' GGCGAAACAAGAAGCCACTT 3'5' GTCCCTTATCTCAGCAGCAAACT 3'

XLOC_004822_az102_t35' TGTGACATAAAAGAGTGAGGAAACC 3'5' AGCAACTGCCAAGCCAAAAC 3'

XLOC_008806_az104_t35'??CAAGGGAGACGGAGGGTATG??3'5'??AGGCCGCCATGAGACTAAAC??3'

結(jié)果數(shù)據(jù)為:


XLOC_002435_az101_t3_F5'? GGCGAAACAAGAAGCCACTT? 3'

XLOC_002435_az101_t3_R5'? GTCCCTTATCTCAGCAGCAAACT? 3'

XLOC_004822_az102_t3_F5'? TGTGACATAAAAGAGTGAGGAAACC? 3'

XLOC_004822_az102_t3_R5'? AGCAACTGCCAAGCCAAAAC? 3'

XLOC_008806_az104_t3_F5'? CAAGGGAGACGGAGGGTATG? 3'

XLOC_008806_az104_t3_R5'??AGGCCGCCATGAGACTAAAC??3'

2.3.4 序列驗證(sequence_verified)

輸入數(shù)據(jù)為:

abc

>as

ccabcaa

結(jié)果數(shù)據(jù)為:

>as T 1

這里需要簡單介紹一下這個功能的使用介紹。其中輸入數(shù)據(jù)的首行為需要進行檢索的可變剪切位點或者保守結(jié)構域,隨后的數(shù)據(jù)為單行基因名,單行基因序列的格式依次展現(xiàn)。結(jié)果數(shù)據(jù)為三列,第一列為基因名,第二列為邏輯值(T表示該基因有可變剪切位點或者保守結(jié)構域,F(xiàn)則表示無),第三列為檢索到的可變剪切位點或者保守結(jié)構域數(shù)量。

三 日常小結(jié)

通過上述步驟,即可實現(xiàn)通過fasta格式的文件進行一些簡單的操作。如果讀者覺得還有什么功能需要實現(xiàn),也可直接通過公眾號留言。不過還是那句話,改進的進度可能要全憑本人時間安排,無法強求(因為主業(yè)更重要)。最后的最后,歡迎大家多用Multi-omics Hammer軟件,多提寶貴建議。也歡迎大家多關注公眾號(個人介紹)。

軟件下載地址:

https://github.com/wangjun258/Multi-omics-Hammer

?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容