午夜视频在线网站,日韩视频精品在线,中文字幕精品一区二区三区在线,在线播放精品,1024你懂我懂的旧版人,欧美日韩一级黄色片,一区二区三区在线观看视频

分享

fastqc質(zhì)控報告查看

 cmu小孩 2021-12-26

1.Summary

為保證下游分析輸入數(shù)據(jù)的可靠性,需要對下機的原始測序數(shù)據(jù)進行質(zhì)控。通常我們會使用FASTQC軟件對測序數(shù)據(jù)進行質(zhì)控fastqC會生成一個html的結(jié)果報告,下面是軟件對質(zhì)控結(jié)果進行判斷:綠色代表PASS;黃色代表WARN;紅色代表FAIL(當出現(xiàn)黃色時說明需要查看結(jié)果)。

fastq文件了解,可觀看課程:https://study.163.com/course/courseMain.htm?share=2&shareId=400000000234009&courseId=1005231058

attachments-2020-04-GZgs7tCJ5e96b26bc7771.png

2.Basic Statistics

attachments-2020-04-eWxRwgm55e96b2e18bf7d.png

Filename:文件名

File type: 文件類型

Encoding:測序平臺的版本和相應(yīng)的編碼版本號

Total Sequences: total reads的數(shù)量

Sequence length: 測序長度

%GC: GC含量,表示整體序列的GC含量,由于二代測序GC偏好性高,且深度越高,GC含量會越高。

3.Per base sequence quality:堿基質(zhì)量統(tǒng)計

attachments-2020-04-kOnWpjHf5e96b485833d3.png

所有reads堿基的測序質(zhì)量統(tǒng)計結(jié)果。箱線圖中紅色線表示中位數(shù),黃色是25%-75%區(qū)間,延伸線是10%-90%區(qū)間,藍線是平均數(shù)曲線。若任一位置堿基的下四分位數(shù)低于10或中位數(shù)低于25,報'WARN';若任一位置的下四分位數(shù)低于5或中位數(shù)低于20,報'FAIL'。

4.Per tile sequence quality

attachments-2020-04-VLotW3AN5e96b4fb080cf.png流通池中不同芯片(tile)的堿基測序質(zhì)量平均值對比,顯示了測序儀的系統(tǒng)差錯。熱圖中藍色部分是質(zhì)量較好的點,紅色越明顯則是測序質(zhì)量越低??v坐標為tile編號,如果某tile的測序質(zhì)量很低,可以考慮去除該tile的序列數(shù)據(jù)。

5.Per sequence quality scores

attachments-2020-04-g6ecaSyI5e96b55e55a9e.png每條read的堿基質(zhì)量均值的統(tǒng)計結(jié)果。橫軸為測序質(zhì)量quality,縱軸是read數(shù)目。從圖中可以容易得看出不同質(zhì)量范圍內(nèi)的read數(shù)量。其中當峰值也即最大read質(zhì)量小于27(錯誤率0.2%)時報'WARN',當峰值小于20(錯誤率1%)時報'FAIL'。

6.Per base sequence content

attachments-2020-04-Y4JlBFg15e96b5ac65d6d.png對所有reads的每一個位置,統(tǒng)計ATCG四種堿基(正常情況)比例的分布情況。橫軸為堿基位置,縱軸為百分比。正常情況下四種堿基的出現(xiàn)頻率應(yīng)該是接近的,而且沒有位置差異。因此好的樣本中四條線應(yīng)該平行且接近。當部分位置堿基的比例出現(xiàn)bias時,即四條線在某些位置紛亂交織,往往提示我們有overrepresentedsequence的污染。當所有位置的堿基比例一致的表現(xiàn)出bias時,即四條線平行但分開,往往代表文庫有bias(建庫過程或本身特點),或者是測序中的系統(tǒng)誤差。當任一位置的A/T比例與G/C比例相差超過10%,報'WARN';當任一位置的A/T比例與G/C比例相差超過20%,報'FAIL'。

7.Per sequence GC content

attachments-2020-04-l7VJ96P95e96b64599113.png統(tǒng)計reads的平均GC含量的分布。橫軸為GC比例,縱軸為reads數(shù)量。紅線是實際情況,藍線是理論分布(正態(tài)分布,均值不一定在50%,而是由平均GC含量推斷的)。曲線形狀的偏差往往是由于文庫的污染或是部分reads構(gòu)成的子集有偏差(overrepresentedreads)。形狀接近正態(tài)但偏離理論分布的情況提示我們可能有系統(tǒng)偏差。偏離理論分布的reads超過15%時,報'WARN';偏離理論分布的reads超過30%時,報'FAIL'。

8.Per base N content

attachments-2020-04-1cbUqzro5e96b6a136c7d.png正常情況下N的比例是很小的,所以圖上常??吹揭粭l直線,但放大Y軸之后會發(fā)現(xiàn)還是有N的存在,這不算問題。Y軸在0%-100%的范圍內(nèi)也能看到凸起時,說明測序系統(tǒng)出了問題。當任意位置的N的比例超過5%,報'WARN';當任意位置的N的比例超過20%,報'FAIL'。

9.Sequence Length Distribution

attachments-2020-04-h9Jw52T55e96b6cf07309.png統(tǒng)計reads長度的分布。橫軸為片段長度,縱軸為read數(shù)量。reads長度不一致時報'WARN';當有長度為0read時報'FAIL'。

10.Sequence Duplication Levels

統(tǒng)計序列的重復(fù)度(duplication level,也即一個文庫中某條序列的copy數(shù)),理論上大部分序列都只出現(xiàn)一次,低的重復(fù)度意味著高的基因組覆蓋率。測序深度越高,越容易產(chǎn)生一定程度的重復(fù),這是正常的現(xiàn)象;但如果duplication的程度很高,就提示我們可能有bias的存在(如建庫過程中的PCR duplication)。可以想象,如果原始數(shù)據(jù)很大(事實往往如此),對所有序列的比較將會需要很大內(nèi)存,所以FastQC只用前100,000reads來進行統(tǒng)計,以反映全部數(shù)據(jù)中序列重復(fù)度情況。而且,大于75bpreads只取前50bp進行比較,由于reads越長越不容易完全相同(由測序錯誤導(dǎo)致),所以這樣做使得重復(fù)度的統(tǒng)計更加嚴格。序列duplication level分布圖將會展示文庫中不同重復(fù)度的序列所占比例,其中橫坐標是duplication levels,縱坐標是duplicated reads的比例。圖中藍色線展示了全部序列中不同重復(fù)度序列的百分比,紅線顯示的是有重復(fù)序列中不同重復(fù)度序列的百分比(所有序列的重復(fù)度減去1)。

由于展示范圍的限制,重復(fù)數(shù)目大于等于10reads會被按照區(qū)間合并統(tǒng)計,造成在duplicationlevel10的時候曲線突然凸起,結(jié)果如下所示:

attachments-2020-04-fS8gB3gQ5e96b78b72507.png

當非unique(也即duplication level大于1)的reads占總數(shù)的比例大于20%時,報'WARN'當非uniquereads占總數(shù)的比例大于50%時,報'FAIL'。

11.Overrepresented sequences

如果有某個序列大量出現(xiàn),就叫做over-represented。FastQC的標準是占全部reads0.1%以上。和上面的duplicate analysis一樣,為了計算方便,只取了fastq數(shù)據(jù)的前100,000reads進行統(tǒng)計,所以有可能over-represented reads不全在里面。而且大于75bpreads也是只取50bp。統(tǒng)計結(jié)果以列表形式展示,當發(fā)現(xiàn)超過總reads數(shù)0.1%reads時報'WARN',當發(fā)現(xiàn)超過總reads數(shù)1%reads時報'FAIL'。

attachments-2020-04-ksmj39ba5e96b7fd22dae.png

12.Adapter Content

統(tǒng)計接頭序列的含量。一般測序儀自帶軟件會切去接頭序列,所以下機數(shù)據(jù)并沒有接頭序列。
attachments-2020-04-5DUDIPLf5e96b8299376e.png

測序數(shù)據(jù)分析相關(guān)課程:轉(zhuǎn)錄組數(shù)據(jù)分析,重測序數(shù)據(jù)分析

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多