午夜视频在线网站,日韩视频精品在线,中文字幕精品一区二区三区在线,在线播放精品,1024你懂我懂的旧版人,欧美日韩一级黄色片,一区二区三区在线观看视频

分享

FASTQC結(jié)果解讀 | miRNA專欄

 生物_醫(yī)藥_科研 2019-05-28

FASTQC結(jié)果解讀

為保證下游分析輸入數(shù)據(jù)的可靠性,需要對(duì)下機(jī)的原始測(cè)序數(shù)據(jù)進(jìn)行質(zhì)控。通常我們會(huì)使用FASTQC軟件對(duì)測(cè)序數(shù)據(jù)進(jìn)行質(zhì)控fastqC會(huì)生成一個(gè)html的結(jié)果報(bào)告,下面是軟件對(duì)質(zhì)控結(jié)果進(jìn)行判斷:綠色代表PASS;黃色代表WARN;紅色代表FAIL(當(dāng)出現(xiàn)黃色時(shí)說明需要查看結(jié)果)。

 

1. Basic Statics:基本統(tǒng)計(jì)信

Filename:文件名

File type: 文件類型

Encoding:測(cè)序平臺(tái)的版本和相應(yīng)的編碼版本號(hào)

Total Sequences: total reads的數(shù)量

Sequence length: 測(cè)序長(zhǎng)度

%GC: GC含量,表示整體序列的GC含量,由于二代測(cè)序GC偏好性高,且深度越高,GC含量會(huì)越高。

2. Per base sequence quality:序列測(cè)序質(zhì)量統(tǒng)計(jì)

基質(zhì)量分?jǐn)?shù)與錯(cuò)誤率是衡量測(cè)序質(zhì)量的重要指標(biāo),質(zhì)量值越高代表堿基被測(cè)錯(cuò)的概率越小。

橫軸是測(cè)序序列的第一個(gè)堿基到第90個(gè)堿基(read長(zhǎng)度),縱軸是質(zhì)量得分。紅線表示中位數(shù),黃色是25%-75%區(qū)間,誤差線是10%-90%區(qū)間,藍(lán)線是平均值。

任何堿基質(zhì)量低于10或是任何中位數(shù)低于25,報(bào)“WARN”;任何堿基質(zhì)量低于5,或是任何中位數(shù)低于20,報(bào)“FAIL”。

Q = -10*log10(error P) P為測(cè)錯(cuò)的概率,Q20表示1%的錯(cuò)誤率,Q30表示0.1%的錯(cuò)誤率。

3. Per sequence quality scores:序列的測(cè)序質(zhì)量

用來查看堿基質(zhì)量是否存在普遍過低的情況。

橫軸為序列平均堿基質(zhì)量值,縱坐標(biāo)為序列的數(shù)量

絕大部分堿基序列的平均質(zhì)量值的峰值大于30,可判斷序列質(zhì)量較好,在質(zhì)量較低的坐標(biāo)位置出現(xiàn)另一個(gè)或多個(gè)峰,說明測(cè)序數(shù)據(jù)中有一部分序列質(zhì)量較差,當(dāng)峰值小于27(錯(cuò)誤率0.2%)時(shí)報(bào)'WARN',當(dāng)峰值小于20(錯(cuò)誤率1%)時(shí)報(bào)'FAIL'。

4. Per base sequence content:序列堿基含量

統(tǒng)計(jì)在序列中的每一個(gè)位置,四種不同堿基占總堿基數(shù)的比例,檢測(cè)有無AT、GC分離的現(xiàn)象。橫軸為位置,縱軸為百分比。

正常情況下四種堿基出現(xiàn)的頻率應(yīng)是接近的,且沒有位置差異,因此好的樣品中四條線應(yīng)該是平行且接近的,由于剛開始測(cè)序儀狀態(tài)不穩(wěn)定,造成前幾個(gè)堿基有波動(dòng)。在 reads 開頭出現(xiàn)堿基組成偏離往往是我們的建庫操作造成的,比如建 GBS 文庫時(shí)在 reads 開頭加了 barcode;barcode 的堿基組成不是均一的,酶切位點(diǎn)的堿基組成是固定不變的,這樣會(huì)造成明顯的堿基組成偏離;在 reads 結(jié)尾出現(xiàn)的堿基組成偏離,往往是測(cè)序接頭的污染造成的。

當(dāng)所有位置的堿基比例一致現(xiàn)出偏差時(shí),即四條線平行且分開,代表文庫有偏差,或測(cè)序中的系統(tǒng)誤差;當(dāng)部分位置堿基的比例出現(xiàn)偏差時(shí),即四條線在某些位置紛亂交織,則有overrepresented?sequence的污染。

當(dāng)任一位置的A/T比例與G/C比例相差超過10%,報(bào)'WARN';當(dāng)任一位置的A/T比例與G/C比例相差超過20%,報(bào)'FAIL'。

5. Per base GC content:GC含量統(tǒng)計(jì)

對(duì)所有reads的每個(gè)位置統(tǒng)計(jì)GC含量,反映樣品的GC含量,如果建庫足夠均勻,reads的每個(gè)位置應(yīng)當(dāng)是沒有差異的,所以GC含量的線應(yīng)當(dāng)平行于X軸。當(dāng)部分位置GC含量出現(xiàn)偏差時(shí),往往提示我們有污染;當(dāng)所有位置GC含量一致出現(xiàn)偏差時(shí),往往表示文庫有偏差或是測(cè)序中的系統(tǒng)誤差。

當(dāng)任一位置的GC含量偏離均值的5%時(shí),報(bào)“WARN”;當(dāng)任一位置的GC含量偏離均值的10%時(shí),報(bào)“FAIL”。

6. Per sequence GC content:reads的平均GC含量的分布

藍(lán)線是理論分布(正態(tài)分布,通過從所測(cè)數(shù)據(jù)計(jì)算并構(gòu)建理論分布),紅色是實(shí)際情況,兩個(gè)比較接近判為好的。曲線形狀的偏差往往是由于文庫的污染或是部分reads構(gòu)成的子集有偏差(overrepresented reads);形狀接近正態(tài)分布但偏離理論分布的情況提示我們可能有系統(tǒng)偏差;如果出現(xiàn)兩個(gè)或多個(gè)峰值,表明測(cè)序數(shù)據(jù)里可能有其他來源的DNA序列污染,或者有接頭序列的二聚體污染。

偏離理論分布的reads超過15%時(shí),報(bào)'WARN';偏離理論分布的reads超過30%時(shí),報(bào)'FAIL'。

7. Per base N content:統(tǒng)計(jì)reads每個(gè)位置N的比率

當(dāng)測(cè)序儀器不能辨別某條reads的某個(gè)位置都是ATCG哪個(gè)堿基時(shí),就會(huì)產(chǎn)生'N',對(duì)所有reads的每個(gè)位置統(tǒng)計(jì)N的比率。

正常情況下N的比例是很小的,所以圖上??吹揭粭l直線,但放大Y軸之后會(huì)發(fā)現(xiàn)還是有N的存在,這不算問題。當(dāng)Y軸在0%-100%的范圍內(nèi)也能看到“鼓包”時(shí),說明測(cè)序系統(tǒng)出了問題。

當(dāng)任意位置的N的比例超過5%報(bào)“WARN”;當(dāng)任意位置的N的比例超過20%,報(bào)“FAIL”。

8. Sequence Length Distribution:reads的長(zhǎng)度分布

為了防止建庫或者測(cè)序時(shí)有一些不規(guī)則長(zhǎng)度的序列,也要對(duì)被測(cè)序序列進(jìn)行一個(gè)長(zhǎng)度的統(tǒng)計(jì)。

當(dāng)reads長(zhǎng)度不一致時(shí)報(bào)“WARN”;當(dāng)長(zhǎng)度為0的reads時(shí)報(bào)“FAIL”。

9. Sequence Duplication Levels:重復(fù)reads的次數(shù)統(tǒng)計(jì)

統(tǒng)計(jì)完全一樣reads的頻率,橫坐標(biāo)是duplication的次數(shù),縱坐標(biāo)是duplicated reads的數(shù)目,以u(píng)nique reads的總數(shù)作為100%。上圖的情況中,相當(dāng)于unique reads數(shù)目的18%的reads是觀察到兩個(gè)重復(fù)的,大約5%是觀察到三次重復(fù)的,依此類推。

測(cè)序深度越高,越容易產(chǎn)生一定程度的重復(fù),但重復(fù)程度很高,可能是有偏差的存在。Fastqc中用測(cè)序數(shù)據(jù)的前200000條reads統(tǒng)計(jì)其在全部數(shù)據(jù)中的重復(fù)情況。重復(fù)數(shù)目≥10的reads被合并統(tǒng)計(jì),這也是為什么上圖的最右側(cè)略有上揚(yáng)。>75bp的reads只取50bp進(jìn)行比較。但由于reads越長(zhǎng)越不容易完全相同(由測(cè)序錯(cuò)誤導(dǎo)致),所以其重復(fù)程度仍有可能被低估。

當(dāng)非unique的reads占總數(shù)的比例>20%時(shí)報(bào)“WARN”;當(dāng)非unique的reads占總數(shù)的比例>50%時(shí)報(bào)“FAIL”。

10. Overrepresented sequences:過多的重復(fù)序列

如果有某個(gè)序列大量出現(xiàn),就叫做over-represented,F(xiàn)astqc的標(biāo)準(zhǔn)是占全部reads的0.1%以上,為計(jì)算方便只取測(cè)序數(shù)據(jù)前200000條reads進(jìn)行統(tǒng)計(jì),所以有可能over-represented reads不在里面。而>75bp的reads也是只取50bp。若在運(yùn)行時(shí)加入-c contaminant file,出現(xiàn)的over-represented sequence會(huì)從contaminant file里面找匹配的hit(至少20bp且最多一個(gè)mismatch)。

發(fā)現(xiàn)超總數(shù)0.1%的reads報(bào)“WARN”;超過總數(shù)1%的reads時(shí)報(bào)“FAIL”。

11. Kmer Content:Kmer含量

Kmer:將一條reads連續(xù)切割,挨個(gè)堿基滑動(dòng),得到的一組序列長(zhǎng)度為k的核苷酸序列。

例:read序列為:ACT GGT GCT AAT GAC GAT。采用7-mer分析

結(jié)果為:

ACT GGT G

CT GGT GC

T GGT GCT

GGT GCT A

第一行以reads第一個(gè)堿基為起點(diǎn),第二行以reads第二個(gè)堿基為起點(diǎn),以此類推。每行的長(zhǎng)度都是7

如果某k個(gè)bp的短序列在reads中大量出現(xiàn),其頻率高于統(tǒng)計(jì)期望的話(出現(xiàn)頻率總體上3倍于期望或是在某位置上5倍于期望的k-mer),fastqc將其記為over-represented?k-mer,通??梢栽趏verrepresented sequences圖中找到,并查看它的來源。

如果任何k-mer的p值<0.01時(shí)報(bào)“WARN”;p值<10-5時(shí)報(bào)“FAIL”。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多