統(tǒng)計(jì)fasta/fastq的序列長(zhǎng)度及其分布展示

首先得到每條序列的長(zhǎng)度,在這里使用seqkit軟件。
seqkit軟件是一個(gè)強(qiáng)大的序列處理工具,安裝方法參見官方網(wǎng)站.
代碼如下:

seqkit fx2tab -j 30 -l  -n -i -H file.fastq.gz  > Length.txt
#參數(shù):
# -j 是線程數(shù)
#-B, --base-content value   要輸出的堿基含量e.g. -B AT -B N
#-g, --gc                   print GC content
#-l, --length               print sequence length
#-n, --name                only print names
#-i, --only-id              print ID instead of full head
head  Length.txt  # 查看Length.txt

結(jié)果如下所示:


Length.txt

提取長(zhǎng)度分布:

 seqkit fx2tab -j 30 -l  -n -i -H file.fastq.gz  |cut -f 2 > length.txt

將得到結(jié)果length.txt導(dǎo)入到R中繪制序列長(zhǎng)度分布圖,
代碼如下:

library(tidyverse)

length <- read_tsv("Length.txt") %>% group_by(length) %>% summarise(Count = n())
sum <- sum(length$Count)
ggplot(length) + 
  geom_col(aes(length, Count), width = 0.8) + 
  geom_line(aes(length, Count), group = 1) + 
  geom_point(aes(length, Count)) + 
  scale_y_continuous(sec.axis = sec_axis(~.*100/sum, name = "% Relative Abundance")) + 
  xlab("R1.Length") +
  theme_bw() + theme(panel.grid = element_blank(), 
                     axis.title = element_text(size = 15))

ggsave("Length.png", height = 5, width = 8)
ggsave("Length.pdf", height = 5, width = 8)

結(jié)果如下:

圖1

上圖由于數(shù)據(jù)太多,去掉點(diǎn)和連線更清晰

library(tidyverse)

length <- read_tsv("Length.txt") %>% group_by(length) %>% summarise(Count = n())
sum <- sum(length$Count)
ggplot(length) + 
  geom_col(aes(length, Count), width = 0.8) + 
#  geom_line(aes(length, Count), group = 1) + 
#  geom_point(aes(length, Count)) + 
  scale_y_continuous(sec.axis = sec_axis(~.*100/sum, name = "% Relative Abundance")) + 
  xlab("Length") +
  theme_bw() + theme(panel.grid = element_blank(), 
                     axis.title = element_text(size = 15))

ggsave("Length.png", height = 5, width = 8)
ggsave("Length.pdf", height = 5, width = 8)

結(jié)果如下:

圖2

---------------------------------------------------------------------------------------------------------------------------------------------------I`m a line ! Thanks !-------------------------------------------------------------------------------------------------------------------------------------------------------------------------

參考:http://www.itdecent.cn/p/31244fb42da1

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容