fastqc質(zhì)控報告查看

cmu小孩 2021-12-26

展開全文

1.Summary

為保證下游分析輸入數(shù)據(jù)的可靠性，需要對下機的原始測序數(shù)據(jù)進行質(zhì)控。通常我們會使用FASTQC軟件對測序數(shù)據(jù)進行質(zhì)控。fastqC會生成一個html的結(jié)果報告，下面是軟件對質(zhì)控結(jié)果進行判斷：綠色代表PASS；黃色代表WARN；紅色代表FAIL（當出現(xiàn)黃色時說明需要查看結(jié)果）。

fastq文件了解,可觀看課程:https://study.163.com/course/courseMain.htm?share=2&shareId=400000000234009&courseId=1005231058

2.Basic Statistics

Filename:文件名

File type: 文件類型

Encoding：測序平臺的版本和相應(yīng)的編碼版本號

Total Sequences: total reads的數(shù)量

Sequence length: 測序長度

%GC: GC含量，表示整體序列的GC含量，由于二代測序GC偏好性高，且深度越高，GC含量會越高。

3.Per base sequence quality:堿基質(zhì)量統(tǒng)計

所有reads堿基的測序質(zhì)量統(tǒng)計結(jié)果。箱線圖中紅色線表示中位數(shù)，黃色是25%-75%區(qū)間，延伸線是10%-90%區(qū)間，藍線是平均數(shù)曲線。若任一位置堿基的下四分位數(shù)低于10或中位數(shù)低于25，報'WARN'；若任一位置的下四分位數(shù)低于5或中位數(shù)低于20，報'FAIL'。

4.Per tile sequence quality

流通池中不同芯片（tile）的堿基測序質(zhì)量平均值對比，顯示了測序儀的系統(tǒng)差錯。熱圖中藍色部分是質(zhì)量較好的點，紅色越明顯則是測序質(zhì)量越低?？v坐標為tile編號，如果某tile的測序質(zhì)量很低，可以考慮去除該tile的序列數(shù)據(jù)。

5.Per sequence quality scores

每條read的堿基質(zhì)量均值的統(tǒng)計結(jié)果。橫軸為測序質(zhì)量quality，縱軸是read數(shù)目。從圖中可以容易得看出不同質(zhì)量范圍內(nèi)的read數(shù)量。其中當峰值也即最大read質(zhì)量小于27（錯誤率0.2%）時報'WARN'，當峰值小于20（錯誤率1%）時報'FAIL'。

6.Per base sequence content

對所有reads的每一個位置，統(tǒng)計ATCG四種堿基（正常情況）比例的分布情況。橫軸為堿基位置，縱軸為百分比。正常情況下四種堿基的出現(xiàn)頻率應(yīng)該是接近的，而且沒有位置差異。因此好的樣本中四條線應(yīng)該平行且接近。當部分位置堿基的比例出現(xiàn)bias時，即四條線在某些位置紛亂交織，往往提示我們有overrepresentedsequence的污染。當所有位置的堿基比例一致的表現(xiàn)出bias時，即四條線平行但分開，往往代表文庫有bias(建庫過程或本身特點)，或者是測序中的系統(tǒng)誤差。當任一位置的A/T比例與G/C比例相差超過10%，報'WARN'；當任一位置的A/T比例與G/C比例相差超過20%，報'FAIL'。

7.Per sequence GC content

統(tǒng)計reads的平均GC含量的分布。橫軸為GC比例，縱軸為reads數(shù)量。紅線是實際情況，藍線是理論分布（正態(tài)分布，均值不一定在50%，而是由平均GC含量推斷的）。曲線形狀的偏差往往是由于文庫的污染或是部分reads構(gòu)成的子集有偏差（overrepresentedreads）。形狀接近正態(tài)但偏離理論分布的情況提示我們可能有系統(tǒng)偏差。偏離理論分布的reads超過15%時，報'WARN'；偏離理論分布的reads超過30%時，報'FAIL'。

8.Per base N content

正常情況下N的比例是很小的，所以圖上常?？吹揭粭l直線，但放大Y軸之后會發(fā)現(xiàn)還是有N的存在，這不算問題。當Y軸在0%-100%的范圍內(nèi)也能看到“凸起”時，說明測序系統(tǒng)出了問題。當任意位置的N的比例超過5%，報'WARN'；當任意位置的N的比例超過20%，報'FAIL'。

9.Sequence Length Distribution

統(tǒng)計reads長度的分布。橫軸為片段長度，縱軸為read數(shù)量。當reads長度不一致時報'WARN'；當有長度為0的read時報'FAIL'。

10.Sequence Duplication Levels

統(tǒng)計序列的重復(fù)度（duplication level，也即一個文庫中某條序列的copy數(shù)），理論上大部分序列都只出現(xiàn)一次，低的重復(fù)度意味著高的基因組覆蓋率。測序深度越高，越容易產(chǎn)生一定程度的重復(fù)，這是正常的現(xiàn)象；但如果duplication的程度很高，就提示我們可能有bias的存在（如建庫過程中的PCR duplication）。可以想象，如果原始數(shù)據(jù)很大（事實往往如此），對所有序列的比較將會需要很大內(nèi)存，所以FastQC只用前100,000條reads來進行統(tǒng)計，以反映全部數(shù)據(jù)中序列重復(fù)度情況。而且，大于75bp的reads只取前50bp進行比較，由于reads越長越不容易完全相同（由測序錯誤導(dǎo)致），所以這樣做使得重復(fù)度的統(tǒng)計更加嚴格。序列duplication level分布圖將會展示文庫中不同重復(fù)度的序列所占比例，其中橫坐標是duplication levels，縱坐標是duplicated reads的比例。圖中藍色線展示了全部序列中不同重復(fù)度序列的百分比，紅線顯示的是有重復(fù)序列中不同重復(fù)度序列的百分比（所有序列的重復(fù)度減去1）。

由于展示范圍的限制，重復(fù)數(shù)目大于等于10的reads會被按照區(qū)間合并統(tǒng)計，造成在duplicationlevel為10的時候曲線突然凸起，結(jié)果如下所示：

當非unique（也即duplication level大于1）的reads占總數(shù)的比例大于20%時，報'WARN'；當非unique的reads占總數(shù)的比例大于50%時，報'FAIL'。

11.Overrepresented sequences

如果有某個序列大量出現(xiàn)，就叫做over-represented。FastQC的標準是占全部reads的0.1%以上。和上面的duplicate analysis一樣，為了計算方便，只取了fastq數(shù)據(jù)的前100,000條reads進行統(tǒng)計，所以有可能over-represented reads不全在里面。而且大于75bp的reads也是只取50bp。統(tǒng)計結(jié)果以列表形式展示，當發(fā)現(xiàn)超過總reads數(shù)0.1%的reads時報'WARN'，當發(fā)現(xiàn)超過總reads數(shù)1%的reads時報'FAIL'。