1.Summary為保證下游分析輸入數(shù)據(jù)的可靠性,需要對下機的原始測序數(shù)據(jù)進行質(zhì)控。通常我們會使用FASTQC軟件對測序數(shù)據(jù)進行質(zhì)控。fastqC會生成一個html的結(jié)果報告,下面是軟件對質(zhì)控結(jié)果進行判斷:綠色代表PASS;黃色代表WARN;紅色代表FAIL(當出現(xiàn)黃色時說明需要查看結(jié)果)。 fastq文件了解,可觀看課程:https://study.163.com/course/courseMain.htm?share=2&shareId=400000000234009&courseId=1005231058 2.Basic StatisticsFilename:文件名 File type: 文件類型 Encoding:測序平臺的版本和相應(yīng)的編碼版本號 Total Sequences: total reads的數(shù)量 Sequence length: 測序長度 %GC: GC含量,表示整體序列的GC含量,由于二代測序GC偏好性高,且深度越高,GC含量會越高。 3.Per base sequence quality:堿基質(zhì)量統(tǒng)計所有reads堿基的測序質(zhì)量統(tǒng)計結(jié)果。箱線圖中紅色線表示中位數(shù),黃色是25%-75%區(qū)間,延伸線是10%-90%區(qū)間,藍線是平均數(shù)曲線。若任一位置堿基的下四分位數(shù)低于10或中位數(shù)低于25,報'WARN';若任一位置的下四分位數(shù)低于5或中位數(shù)低于20,報'FAIL'。 4.Per tile sequence quality流通池中不同芯片(tile)的堿基測序質(zhì)量平均值對比,顯示了測序儀的系統(tǒng)差錯。熱圖中藍色部分是質(zhì)量較好的點,紅色越明顯則是測序質(zhì)量越低??v坐標為tile編號,如果某tile的測序質(zhì)量很低,可以考慮去除該tile的序列數(shù)據(jù)。 5.Per sequence quality scores每條read的堿基質(zhì)量均值的統(tǒng)計結(jié)果。橫軸為測序質(zhì)量quality,縱軸是read數(shù)目。從圖中可以容易得看出不同質(zhì)量范圍內(nèi)的read數(shù)量。其中當峰值也即最大read質(zhì)量小于27(錯誤率0.2%)時報'WARN',當峰值小于20(錯誤率1%)時報'FAIL'。 6.Per base sequence content對所有reads的每一個位置,統(tǒng)計ATCG四種堿基(正常情況)比例的分布情況。橫軸為堿基位置,縱軸為百分比。正常情況下四種堿基的出現(xiàn)頻率應(yīng)該是接近的,而且沒有位置差異。因此好的樣本中四條線應(yīng)該平行且接近。當部分位置堿基的比例出現(xiàn)bias時,即四條線在某些位置紛亂交織,往往提示我們有overrepresentedsequence的污染。當所有位置的堿基比例一致的表現(xiàn)出bias時,即四條線平行但分開,往往代表文庫有bias(建庫過程或本身特點),或者是測序中的系統(tǒng)誤差。當任一位置的A/T比例與G/C比例相差超過10%,報'WARN';當任一位置的A/T比例與G/C比例相差超過20%,報'FAIL'。 7.Per sequence GC content統(tǒng)計reads的平均GC含量的分布。橫軸為GC比例,縱軸為reads數(shù)量。紅線是實際情況,藍線是理論分布(正態(tài)分布,均值不一定在50%,而是由平均GC含量推斷的)。曲線形狀的偏差往往是由于文庫的污染或是部分reads構(gòu)成的子集有偏差(overrepresentedreads)。形狀接近正態(tài)但偏離理論分布的情況提示我們可能有系統(tǒng)偏差。偏離理論分布的reads超過15%時,報'WARN';偏離理論分布的reads超過30%時,報'FAIL'。 8.Per base N content正常情況下N的比例是很小的,所以圖上常??吹揭粭l直線,但放大Y軸之后會發(fā)現(xiàn)還是有N的存在,這不算問題。當Y軸在0%-100%的范圍內(nèi)也能看到“凸起”時,說明測序系統(tǒng)出了問題。當任意位置的N的比例超過5%,報'WARN';當任意位置的N的比例超過20%,報'FAIL'。 9.Sequence Length Distribution統(tǒng)計reads長度的分布。橫軸為片段長度,縱軸為read數(shù)量。當reads長度不一致時報'WARN';當有長度為0的read時報'FAIL'。 10.Sequence Duplication Levels統(tǒng)計序列的重復(fù)度(duplication level,也即一個文庫中某條序列的copy數(shù)),理論上大部分序列都只出現(xiàn)一次,低的重復(fù)度意味著高的基因組覆蓋率。測序深度越高,越容易產(chǎn)生一定程度的重復(fù),這是正常的現(xiàn)象;但如果duplication的程度很高,就提示我們可能有bias的存在(如建庫過程中的PCR duplication)。可以想象,如果原始數(shù)據(jù)很大(事實往往如此),對所有序列的比較將會需要很大內(nèi)存,所以FastQC只用前100,000條reads來進行統(tǒng)計,以反映全部數(shù)據(jù)中序列重復(fù)度情況。而且,大于75bp的reads只取前50bp進行比較,由于reads越長越不容易完全相同(由測序錯誤導(dǎo)致),所以這樣做使得重復(fù)度的統(tǒng)計更加嚴格。序列duplication level分布圖將會展示文庫中不同重復(fù)度的序列所占比例,其中橫坐標是duplication levels,縱坐標是duplicated reads的比例。圖中藍色線展示了全部序列中不同重復(fù)度序列的百分比,紅線顯示的是有重復(fù)序列中不同重復(fù)度序列的百分比(所有序列的重復(fù)度減去1)。 由于展示范圍的限制,重復(fù)數(shù)目大于等于10的reads會被按照區(qū)間合并統(tǒng)計,造成在duplicationlevel為10的時候曲線突然凸起,結(jié)果如下所示: 當非unique(也即duplication level大于1)的reads占總數(shù)的比例大于20%時,報'WARN';當非unique的reads占總數(shù)的比例大于50%時,報'FAIL'。 11.Overrepresented sequences如果有某個序列大量出現(xiàn),就叫做over-represented。FastQC的標準是占全部reads的0.1%以上。和上面的duplicate analysis一樣,為了計算方便,只取了fastq數(shù)據(jù)的前100,000條reads進行統(tǒng)計,所以有可能over-represented reads不全在里面。而且大于75bp的reads也是只取50bp。統(tǒng)計結(jié)果以列表形式展示,當發(fā)現(xiàn)超過總reads數(shù)0.1%的reads時報'WARN',當發(fā)現(xiàn)超過總reads數(shù)1%的reads時報'FAIL'。 12.Adapter Content統(tǒng)計接頭序列的含量。一般測序儀自帶軟件會切去接頭序列,所以下機數(shù)據(jù)并沒有接頭序列。 測序數(shù)據(jù)分析相關(guān)課程:轉(zhuǎn)錄組數(shù)據(jù)分析,重測序數(shù)據(jù)分析 |
|