FASTQC結(jié)果解讀 | miRNA專欄

生物_醫(yī)藥_科研 2019-05-28

展開全文

FASTQC結(jié)果解讀

為保證下游分析輸入數(shù)據(jù)的可靠性，需要對(duì)下機(jī)的原始測(cè)序數(shù)據(jù)進(jìn)行質(zhì)控。通常我們會(huì)使用FASTQC軟件對(duì)測(cè)序數(shù)據(jù)進(jìn)行質(zhì)控。fastqC會(huì)生成一個(gè)html的結(jié)果報(bào)告，下面是軟件對(duì)質(zhì)控結(jié)果進(jìn)行判斷：綠色代表PASS；黃色代表WARN；紅色代表FAIL（當(dāng)出現(xiàn)黃色時(shí)說明需要查看結(jié)果）。

1. Basic Statics：基本統(tǒng)計(jì)信

Filename:文件名

File type: 文件類型

Encoding：測(cè)序平臺(tái)的版本和相應(yīng)的編碼版本號(hào)

Total Sequences: total reads的數(shù)量

Sequence length: 測(cè)序長(zhǎng)度

%GC: GC含量，表示整體序列的GC含量，由于二代測(cè)序GC偏好性高，且深度越高，GC含量會(huì)越高。

2. Per base sequence quality：序列測(cè)序質(zhì)量統(tǒng)計(jì)

堿基質(zhì)量分?jǐn)?shù)與錯(cuò)誤率是衡量測(cè)序質(zhì)量的重要指標(biāo)，質(zhì)量值越高代表堿基被測(cè)錯(cuò)的概率越小。

橫軸是測(cè)序序列的第一個(gè)堿基到第90個(gè)堿基（read長(zhǎng)度），縱軸是質(zhì)量得分。紅線表示中位數(shù)，黃色是25%-75%區(qū)間，誤差線是10%-90%區(qū)間，藍(lán)線是平均值。

任何堿基質(zhì)量低于10或是任何中位數(shù)低于25，報(bào)“WARN”；任何堿基質(zhì)量低于5，或是任何中位數(shù)低于20，報(bào)“FAIL”。

Q = -10*log10（error P） P為測(cè)錯(cuò)的概率，Q20表示1%的錯(cuò)誤率，Q30表示0.1%的錯(cuò)誤率。

3. Per sequence quality scores：序列的測(cè)序質(zhì)量

用來查看堿基質(zhì)量是否存在普遍過低的情況。

橫軸為序列平均堿基質(zhì)量值，縱坐標(biāo)為序列的數(shù)量。

絕大部分堿基序列的平均質(zhì)量值的峰值大于30，可判斷序列質(zhì)量較好，在質(zhì)量較低的坐標(biāo)位置出現(xiàn)另一個(gè)或多個(gè)峰，說明測(cè)序數(shù)據(jù)中有一部分序列質(zhì)量較差，當(dāng)峰值小于27（錯(cuò)誤率0.2%）時(shí)報(bào)'WARN'，當(dāng)峰值小于20（錯(cuò)誤率1%）時(shí)報(bào)'FAIL'。

4. Per base sequence content：序列堿基含量

統(tǒng)計(jì)在序列中的每一個(gè)位置，四種不同堿基占總堿基數(shù)的比例，檢測(cè)有無AT、GC分離的現(xiàn)象。橫軸為位置，縱軸為百分比。

正常情況下四種堿基出現(xiàn)的頻率應(yīng)是接近的，且沒有位置差異，因此好的樣品中四條線應(yīng)該是平行且接近的，由于剛開始測(cè)序儀狀態(tài)不穩(wěn)定，造成前幾個(gè)堿基有波動(dòng)。在 reads 開頭出現(xiàn)堿基組成偏離往往是我們的建庫操作造成的，比如建 GBS 文庫時(shí)在 reads 開頭加了 barcode；barcode 的堿基組成不是均一的，酶切位點(diǎn)的堿基組成是固定不變的，這樣會(huì)造成明顯的堿基組成偏離；在 reads 結(jié)尾出現(xiàn)的堿基組成偏離，往往是測(cè)序接頭的污染造成的。

當(dāng)所有位置的堿基比例一致現(xiàn)出偏差時(shí)，即四條線平行且分開，代表文庫有偏差，或測(cè)序中的系統(tǒng)誤差；當(dāng)部分位置堿基的比例出現(xiàn)偏差時(shí)，即四條線在某些位置紛亂交織，則有overrepresented?sequence的污染。

當(dāng)任一位置的A/T比例與G/C比例相差超過10%，報(bào)'WARN'；當(dāng)任一位置的A/T比例與G/C比例相差超過20%，報(bào)'FAIL'。

5. Per base GC content：GC含量統(tǒng)計(jì)

對(duì)所有reads的每個(gè)位置統(tǒng)計(jì)GC含量，反映樣品的GC含量，如果建庫足夠均勻，reads的每個(gè)位置應(yīng)當(dāng)是沒有差異的，所以GC含量的線應(yīng)當(dāng)平行于X軸。當(dāng)部分位置GC含量出現(xiàn)偏差時(shí)，往往提示我們有污染；當(dāng)所有位置GC含量一致出現(xiàn)偏差時(shí)，往往表示文庫有偏差或是測(cè)序中的系統(tǒng)誤差。

當(dāng)任一位置的GC含量偏離均值的5%時(shí)，報(bào)“WARN”；當(dāng)任一位置的GC含量偏離均值的10%時(shí)，報(bào)“FAIL”。

6. Per sequence GC content：reads的平均GC含量的分布

藍(lán)線是理論分布（正態(tài)分布，通過從所測(cè)數(shù)據(jù)計(jì)算并構(gòu)建理論分布），紅色是實(shí)際情況，兩個(gè)比較接近判為好的。曲線形狀的偏差往往是由于文庫的污染或是部分reads構(gòu)成的子集有偏差（overrepresented reads）；形狀接近正態(tài)分布但偏離理論分布的情況提示我們可能有系統(tǒng)偏差；如果出現(xiàn)兩個(gè)或多個(gè)峰值，表明測(cè)序數(shù)據(jù)里可能有其他來源的DNA序列污染，或者有接頭序列的二聚體污染。

偏離理論分布的reads超過15%時(shí)，報(bào)'WARN'；偏離理論分布的reads超過30%時(shí)，報(bào)'FAIL'。

7. Per base N content：統(tǒng)計(jì)reads每個(gè)位置N的比率

當(dāng)測(cè)序儀器不能辨別某條reads的某個(gè)位置都是ATCG哪個(gè)堿基時(shí)，就會(huì)產(chǎn)生'N'，對(duì)所有reads的每個(gè)位置統(tǒng)計(jì)N的比率。

正常情況下N的比例是很小的，所以圖上?？吹揭粭l直線，但放大Y軸之后會(huì)發(fā)現(xiàn)還是有N的存在，這不算問題。當(dāng)Y軸在0%-100%的范圍內(nèi)也能看到“鼓包”時(shí)，說明測(cè)序系統(tǒng)出了問題。

當(dāng)任意位置的N的比例超過5%報(bào)“WARN”；當(dāng)任意位置的N的比例超過20%，報(bào)“FAIL”。

8. Sequence Length Distribution：reads的長(zhǎng)度分布

為了防止建庫或者測(cè)序時(shí)有一些不規(guī)則長(zhǎng)度的序列，也要對(duì)被測(cè)序序列進(jìn)行一個(gè)長(zhǎng)度的統(tǒng)計(jì)。

當(dāng)reads長(zhǎng)度不一致時(shí)報(bào)“WARN”；當(dāng)長(zhǎng)度為0的reads時(shí)報(bào)“FAIL”。

9. Sequence Duplication Levels：重復(fù)reads的次數(shù)統(tǒng)計(jì)

統(tǒng)計(jì)完全一樣reads的頻率，橫坐標(biāo)是duplication的次數(shù)，縱坐標(biāo)是duplicated reads的數(shù)目，以u(píng)nique reads的總數(shù)作為100%。上圖的情況中，相當(dāng)于unique reads數(shù)目的18%的reads是觀察到兩個(gè)重復(fù)的，大約5%是觀察到三次重復(fù)的，依此類推。

測(cè)序深度越高，越容易產(chǎn)生一定程度的重復(fù)，但重復(fù)程度很高，可能是有偏差的存在。Fastqc中用測(cè)序數(shù)據(jù)的前200000條reads統(tǒng)計(jì)其在全部數(shù)據(jù)中的重復(fù)情況。重復(fù)數(shù)目≥10的reads被合并統(tǒng)計(jì)，這也是為什么上圖的最右側(cè)略有上揚(yáng)。>75bp的reads只取50bp進(jìn)行比較。但由于reads越長(zhǎng)越不容易完全相同（由測(cè)序錯(cuò)誤導(dǎo)致），所以其重復(fù)程度仍有可能被低估。

當(dāng)非unique的reads占總數(shù)的比例>20%時(shí)報(bào)“WARN”；當(dāng)非unique的reads占總數(shù)的比例>50%時(shí)報(bào)“FAIL”。

10. Overrepresented sequences：過多的重復(fù)序列

如果有某個(gè)序列大量出現(xiàn)，就叫做over-represented，F(xiàn)astqc的標(biāo)準(zhǔn)是占全部reads的0.1%以上，為計(jì)算方便只取測(cè)序數(shù)據(jù)前200000條reads進(jìn)行統(tǒng)計(jì)，所以有可能over-represented reads不在里面。而>75bp的reads也是只取50bp。若在運(yùn)行時(shí)加入-c contaminant file，出現(xiàn)的over-represented sequence會(huì)從contaminant file里面找匹配的hit（至少20bp且最多一個(gè)mismatch）。

發(fā)現(xiàn)超總數(shù)0.1%的reads報(bào)“WARN”；超過總數(shù)1%的reads時(shí)報(bào)“FAIL”。

11. Kmer Content：Kmer含量

Kmer：將一條reads連續(xù)切割，挨個(gè)堿基滑動(dòng)，得到的一組序列長(zhǎng)度為k的核苷酸序列。

例：read序列為：ACT GGT GCT AAT GAC GAT。采用7-mer分析

結(jié)果為：

ACT GGT G

CT GGT GC

T GGT GCT

GGT GCT A

第一行以reads第一個(gè)堿基為起點(diǎn)，第二行以reads第二個(gè)堿基為起點(diǎn)，以此類推。每行的長(zhǎng)度都是7。

如果某k個(gè)bp的短序列在reads中大量出現(xiàn)，其頻率高于統(tǒng)計(jì)期望的話（出現(xiàn)頻率總體上3倍于期望或是在某位置上5倍于期望的k-mer），fastqc將其記為over-represented?k-mer，通?？梢栽趏verrepresented sequences圖中找到，并查看它的來源。

如果任何k-mer的p值<0.01時(shí)報(bào)“WARN”；p值<10-5時(shí)報(bào)“FAIL”。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：生物_醫(yī)藥_科研 > 《待分類》

舉報(bào)/認(rèn)領(lǐng)

0條評(píng)論

發(fā)表

請(qǐng)遵守用戶評(píng)論公約

類似文章 更多

生物_醫(yī)藥_科研

關(guān)注對(duì)話

TA的最新館藏

國產(chǎn)第2款MET抑制劑獲批，盤點(diǎn)30億級(jí)賽道的入局者和新機(jī)會(huì)
黑色素瘤一線治療又添新方案！FDA批準(zhǔn)首個(gè)免疫+雙靶向療法用于BRAFV600突變晚期黑色素瘤
國際視野丨膽道惡性腫瘤的靶點(diǎn)及耐藥機(jī)制
恒瑞創(chuàng)新藥卡瑞利珠單抗聯(lián)合阿帕替尼非小細(xì)胞肺癌研究發(fā)表于JTO
17 款四代靶向藥，全面攻堅(jiān) EGFR 耐藥
最全整理匯總：HER2陽性乳腺癌靶向治療研究進(jìn)展

喜歡該文的人也喜歡更多

熱門閱讀換一換

午夜视频在线网站,日韩视频精品在线,中文字幕精品一区二区三区在线,在线播放精品,1024你懂我懂的旧版人,欧美日韩一级黄色片,一区二区三区在线观看视频