午夜视频在线网站,日韩视频精品在线,中文字幕精品一区二区三区在线,在线播放精品,1024你懂我懂的旧版人,欧美日韩一级黄色片,一区二区三区在线观看视频

分享

為什么我的測序質(zhì)控會報錯!?

 微微悅明 2021-12-13

測序質(zhì)控是我們拿到測序數(shù)據(jù)后第一時間要做的事情。

高質(zhì)量的測序數(shù)據(jù)對我們后續(xù)工作的質(zhì)量提供了保證。

fastqc提供可視化的質(zhì)控報告,通過三種顏色來標注測序質(zhì)量,綠色:完全正常,橙色:略有異常,紅色:異常

原則上,全部為綠色的報告代表測序質(zhì)量合格。然而事實上,實際產(chǎn)生的測序數(shù)據(jù)報告不會是全部綠色的,那么報告為什么會異常?何種異常我們需要重新測序,何種異常我們可以忽略不計呢?

在本文中,我們將質(zhì)控報告分段式依次進行解說,并標記關(guān)注程度,以及出現(xiàn)異常后的處理方法。

1)Per base sequence quality (很重要,重點關(guān)注!)

橫軸為read位置,縱軸是質(zhì)量值quality,質(zhì)量值越高,代表質(zhì)量越好

堿基質(zhì)量很好 (綠色)、堿基質(zhì)量一般(黃色) 以及堿基質(zhì)量差 (紅色)。

像這樣的圖,基本都在綠色區(qū)域,代表測序質(zhì)量很好


像下面這樣的圖,很快就進入紅色區(qū)域,代表測序質(zhì)量不好。建議重新測序,或者將低質(zhì)量序列切除后再繼續(xù)后續(xù)分析。

2) Per Tile sequence quality (不重要,可略過)

一般是這樣藍汪汪的一片,代表比較好。

3)Per sequence quality score (一般重要)

橫軸為測序質(zhì)量值,縱軸為 reads 數(shù)量;峰值越靠右,代表越好;如出現(xiàn)雙峰,或者峰值比較靠左,代表有異常,即測序中存在一定比例的低質(zhì)量位點。

4)Per Base Sequence Content (不重要,可略過)

這步是fastqc報告中經(jīng)常黃色甚至紅色報錯的部分,但實際報警不一定代表質(zhì)量不合格,需要分別對待。

這部分示意圖橫坐標是指堿基位置,縱坐標是該位置上ATCG堿基的比例。理論上,一個完美的文庫,其ATCG是應(yīng)該隨機存在的,即圖中的四條顏色的線應(yīng)為互相接近的四條平行線。然而實際上的質(zhì)控結(jié)果經(jīng)常如上圖所示,存在ATCG的波動。

如整條片段存在波動,這種情況一般出現(xiàn)在擴增子測序中,屬于正常情況(雖然報告中標黃或紅色),這是因為擴增的片段,如16S本身就具有一定的GC特點,并非完全隨機。

如開頭片段出現(xiàn)波動,這種情況一般出現(xiàn)在基于轉(zhuǎn)座酶或內(nèi)切酶的建庫方法的測序數(shù)據(jù)中。這是因為酶的識別區(qū)域存在一定的偏好性,所以開頭10bp左右并非ATCG隨機出現(xiàn)。這種情況屬于正常,即使是有黃色或紅色報錯也一般無需額外處理。

如結(jié)尾片段出現(xiàn)波動,可能是接頭沒有去除干凈,建議采用生信的方法去除這部分序列。

5)Per Sequence GC Content (很重要)

這一步雖然統(tǒng)計的只是每條序列的GC含量的分布,但我們可以用它來評估樣本中的污染情況。

對于一個正常的菌基因組文庫,其GC含量分布應(yīng)該接近正態(tài)分布,在圖中應(yīng)該是個單峰。但在實際的測序過程中,常常會發(fā)現(xiàn)雙峰的情況,則說明文庫有污染(有雜菌,或者核酸污染,或者文庫污染)。

因此,如此部分報錯,需要高度警惕,回查可能的原因。如為污染,需重新提取核酸后建庫測序。

6)Perbase N Content(不重要)

每個位置上N的比例。

不重要。一般不會報錯,或報錯影響不大。

7)Sequence Length Distribution (不重要)

read長度分布。對于下機原始數(shù)據(jù)就應(yīng)該是上機時設(shè)置的read 長度。此部分一般不會報錯,或報錯影響不大。

8)Sequence Duplication Level (一般重要)

測序read中重復(fù)序列出現(xiàn)的情況。

理論上,一個完美的文庫應(yīng)該都是unique read或duplicate很少。但,實際上考慮到二代建庫過程中PCR步驟的存在,文庫中存在duplication 序列無法避免。且這部分數(shù)據(jù)可后續(xù)通過生信的方法很容易去除。

因此,即使報錯,對結(jié)果影響不大。

因此此部分評估結(jié)果,可以作為對文庫質(zhì)量控制的指標,但不用過于糾結(jié)要求必須通過。

9)Overrepresented sequences(一般重要)

顯示超過0.1% 總read數(shù)的序列。對于基因組測序和宏基因組測序,正常文庫內(nèi)都不應(yīng)該有一條序列這么高的豐度,如出現(xiàn)則說明可能有異常。

對于擴增子測序,出現(xiàn)結(jié)果則屬于正常。

10)Adaptor content(一般重要)

接頭含量。正常的測序結(jié)果接頭應(yīng)該都被自動去除了,如此步還存在一定的接頭序列,則說明未去除干凈,可采用生物信息方法重新去除。

簡單的小結(jié)一下,雖然fastqc報告很長,對多個環(huán)節(jié)開展了質(zhì)控,但其實我們并不需要追求完美,只要重點關(guān)注

Basic Statistics (基本信息統(tǒng)計)、Per base sequence quality(堿基質(zhì)控圖)、Sequence GC Content(GC分布圖,用于評估污染)這三個部分。

此外,再一般關(guān)注下Sequence Duplication Level、Overrepresented sequences等4個部分就足夠了。

其余的幾個環(huán)節(jié),如有報錯,具體情況具體分析,但個人認為就無需強求必須全部通過了呢。

以上是筆者對于細菌基因組測序、宏基因組測序數(shù)據(jù)結(jié)果質(zhì)量控制報告解讀的解讀。您怎么看?歡迎討論點評~

長按關(guān)注




公眾號名稱:微微悅明

科學的樂趣是獲得新知識的喜悅~

高通量測序、大數(shù)據(jù)病原微生物檢測和監(jiān)測健康大數(shù)據(jù)行業(yè)資訊記錄與分享



    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多