為保證下游分析輸入數(shù)據(jù)的可靠性,需要對(duì)下機(jī)的原始測(cè)序數(shù)據(jù)進(jìn)行質(zhì)控。通常我們會(huì)使用FASTQC軟件對(duì)測(cè)序數(shù)據(jù)進(jìn)行質(zhì)控。fastqC會(huì)生成一個(gè)html的結(jié)果報(bào)告,下面是軟件對(duì)質(zhì)控結(jié)果進(jìn)行判斷:綠色代表PASS;黃色代表WARN;紅色代表FAIL(當(dāng)出現(xiàn)黃色時(shí)說明需要查看結(jié)果)。
1. Basic Statics:基本統(tǒng)計(jì)信
Filename:文件名
File type: 文件類型
Encoding:測(cè)序平臺(tái)的版本和相應(yīng)的編碼版本號(hào)
Total Sequences: total reads的數(shù)量
Sequence length: 測(cè)序長(zhǎng)度
%GC: GC含量,表示整體序列的GC含量,由于二代測(cè)序GC偏好性高,且深度越高,GC含量會(huì)越高。
2. Per base sequence quality:序列測(cè)序質(zhì)量統(tǒng)計(jì)
堿基質(zhì)量分?jǐn)?shù)與錯(cuò)誤率是衡量測(cè)序質(zhì)量的重要指標(biāo),質(zhì)量值越高代表堿基被測(cè)錯(cuò)的概率越小。
橫軸是測(cè)序序列的第一個(gè)堿基到第90個(gè)堿基(read長(zhǎng)度),縱軸是質(zhì)量得分。紅線表示中位數(shù),黃色是25%-75%區(qū)間,誤差線是10%-90%區(qū)間,藍(lán)線是平均值。
任何堿基質(zhì)量低于10或是任何中位數(shù)低于25,報(bào)“WARN”;任何堿基質(zhì)量低于5,或是任何中位數(shù)低于20,報(bào)“FAIL”。
Q = -10*log10(error P) P為測(cè)錯(cuò)的概率,Q20表示1%的錯(cuò)誤率,Q30表示0.1%的錯(cuò)誤率。
3. Per sequence quality scores:序列的測(cè)序質(zhì)量
用來查看堿基質(zhì)量是否存在普遍過低的情況。
橫軸為序列平均堿基質(zhì)量值,縱坐標(biāo)為序列的數(shù)量。
絕大部分堿基序列的平均質(zhì)量值的峰值大于30,可判斷序列質(zhì)量較好,在質(zhì)量較低的坐標(biāo)位置出現(xiàn)另一個(gè)或多個(gè)峰,說明測(cè)序數(shù)據(jù)中有一部分序列質(zhì)量較差,當(dāng)峰值小于27(錯(cuò)誤率0.2%)時(shí)報(bào)'WARN',當(dāng)峰值小于20(錯(cuò)誤率1%)時(shí)報(bào)'FAIL'。
4. Per base sequence content:序列堿基含量
統(tǒng)計(jì)在序列中的每一個(gè)位置,四種不同堿基占總堿基數(shù)的比例,檢測(cè)有無AT、GC分離的現(xiàn)象。橫軸為位置,縱軸為百分比。
正常情況下四種堿基出現(xiàn)的頻率應(yīng)是接近的,且沒有位置差異,因此好的樣品中四條線應(yīng)該是平行且接近的,由于剛開始測(cè)序儀狀態(tài)不穩(wěn)定,造成前幾個(gè)堿基有波動(dòng)。在 reads 開頭出現(xiàn)堿基組成偏離往往是我們的建庫操作造成的,比如建 GBS 文庫時(shí)在 reads 開頭加了 barcode;barcode 的堿基組成不是均一的,酶切位點(diǎn)的堿基組成是固定不變的,這樣會(huì)造成明顯的堿基組成偏離;在 reads 結(jié)尾出現(xiàn)的堿基組成偏離,往往是測(cè)序接頭的污染造成的。
當(dāng)所有位置的堿基比例一致現(xiàn)出偏差時(shí),即四條線平行且分開,代表文庫有偏差,或測(cè)序中的系統(tǒng)誤差;當(dāng)部分位置堿基的比例出現(xiàn)偏差時(shí),即四條線在某些位置紛亂交織,則有overrepresented?sequence的污染。
當(dāng)任一位置的A/T比例與G/C比例相差超過10%,報(bào)'WARN';當(dāng)任一位置的A/T比例與G/C比例相差超過20%,報(bào)'FAIL'。
5. Per base GC content:GC含量統(tǒng)計(jì)
對(duì)所有reads的每個(gè)位置統(tǒng)計(jì)GC含量,反映樣品的GC含量,如果建庫足夠均勻,reads的每個(gè)位置應(yīng)當(dāng)是沒有差異的,所以GC含量的線應(yīng)當(dāng)平行于X軸。當(dāng)部分位置GC含量出現(xiàn)偏差時(shí),往往提示我們有污染;當(dāng)所有位置GC含量一致出現(xiàn)偏差時(shí),往往表示文庫有偏差或是測(cè)序中的系統(tǒng)誤差。
當(dāng)任一位置的GC含量偏離均值的5%時(shí),報(bào)“WARN”;當(dāng)任一位置的GC含量偏離均值的10%時(shí),報(bào)“FAIL”。
6. Per sequence GC content:reads的平均GC含量的分布
藍(lán)線是理論分布(正態(tài)分布,通過從所測(cè)數(shù)據(jù)計(jì)算并構(gòu)建理論分布),紅色是實(shí)際情況,兩個(gè)比較接近判為好的。曲線形狀的偏差往往是由于文庫的污染或是部分reads構(gòu)成的子集有偏差(overrepresented reads);形狀接近正態(tài)分布但偏離理論分布的情況提示我們可能有系統(tǒng)偏差;如果出現(xiàn)兩個(gè)或多個(gè)峰值,表明測(cè)序數(shù)據(jù)里可能有其他來源的DNA序列污染,或者有接頭序列的二聚體污染。
偏離理論分布的reads超過15%時(shí),報(bào)'WARN';偏離理論分布的reads超過30%時(shí),報(bào)'FAIL'。
7. Per base N content:統(tǒng)計(jì)reads每個(gè)位置N的比率
當(dāng)測(cè)序儀器不能辨別某條reads的某個(gè)位置都是ATCG哪個(gè)堿基時(shí),就會(huì)產(chǎn)生'N',對(duì)所有reads的每個(gè)位置統(tǒng)計(jì)N的比率。
正常情況下N的比例是很小的,所以圖上??吹揭粭l直線,但放大Y軸之后會(huì)發(fā)現(xiàn)還是有N的存在,這不算問題。當(dāng)Y軸在0%-100%的范圍內(nèi)也能看到“鼓包”時(shí),說明測(cè)序系統(tǒng)出了問題。
當(dāng)任意位置的N的比例超過5%報(bào)“WARN”;當(dāng)任意位置的N的比例超過20%,報(bào)“FAIL”。
8. Sequence Length Distribution:reads的長(zhǎng)度分布
為了防止建庫或者測(cè)序時(shí)有一些不規(guī)則長(zhǎng)度的序列,也要對(duì)被測(cè)序序列進(jìn)行一個(gè)長(zhǎng)度的統(tǒng)計(jì)。
當(dāng)reads長(zhǎng)度不一致時(shí)報(bào)“WARN”;當(dāng)長(zhǎng)度為0的reads時(shí)報(bào)“FAIL”。
9. Sequence Duplication Levels:重復(fù)reads的次數(shù)統(tǒng)計(jì)
統(tǒng)計(jì)完全一樣reads的頻率,橫坐標(biāo)是duplication的次數(shù),縱坐標(biāo)是duplicated reads的數(shù)目,以u(píng)nique reads的總數(shù)作為100%。上圖的情況中,相當(dāng)于unique reads數(shù)目的18%的reads是觀察到兩個(gè)重復(fù)的,大約5%是觀察到三次重復(fù)的,依此類推。
測(cè)序深度越高,越容易產(chǎn)生一定程度的重復(fù),但重復(fù)程度很高,可能是有偏差的存在。Fastqc中用測(cè)序數(shù)據(jù)的前200000條reads統(tǒng)計(jì)其在全部數(shù)據(jù)中的重復(fù)情況。重復(fù)數(shù)目≥10的reads被合并統(tǒng)計(jì),這也是為什么上圖的最右側(cè)略有上揚(yáng)。>75bp的reads只取50bp進(jìn)行比較。但由于reads越長(zhǎng)越不容易完全相同(由測(cè)序錯(cuò)誤導(dǎo)致),所以其重復(fù)程度仍有可能被低估。
當(dāng)非unique的reads占總數(shù)的比例>20%時(shí)報(bào)“WARN”;當(dāng)非unique的reads占總數(shù)的比例>50%時(shí)報(bào)“FAIL”。
10. Overrepresented sequences:過多的重復(fù)序列
如果有某個(gè)序列大量出現(xiàn),就叫做over-represented,F(xiàn)astqc的標(biāo)準(zhǔn)是占全部reads的0.1%以上,為計(jì)算方便只取測(cè)序數(shù)據(jù)前200000條reads進(jìn)行統(tǒng)計(jì),所以有可能over-represented reads不在里面。而>75bp的reads也是只取50bp。若在運(yùn)行時(shí)加入-c contaminant file,出現(xiàn)的over-represented sequence會(huì)從contaminant file里面找匹配的hit(至少20bp且最多一個(gè)mismatch)。
發(fā)現(xiàn)超總數(shù)0.1%的reads報(bào)“WARN”;超過總數(shù)1%的reads時(shí)報(bào)“FAIL”。
11. Kmer Content:Kmer含量
Kmer:將一條reads連續(xù)切割,挨個(gè)堿基滑動(dòng),得到的一組序列長(zhǎng)度為k的核苷酸序列。
例:read序列為:ACT GGT GCT AAT GAC GAT。采用7-mer分析
結(jié)果為:
ACT GGT G
CT GGT GC
T GGT GCT
GGT GCT A
第一行以reads第一個(gè)堿基為起點(diǎn),第二行以reads第二個(gè)堿基為起點(diǎn),以此類推。每行的長(zhǎng)度都是7。
如果某k個(gè)bp的短序列在reads中大量出現(xiàn),其頻率高于統(tǒng)計(jì)期望的話(出現(xiàn)頻率總體上3倍于期望或是在某位置上5倍于期望的k-mer),fastqc將其記為over-represented?k-mer,通??梢栽趏verrepresented sequences圖中找到,并查看它的來源。
如果任何k-mer的p值<0.01時(shí)報(bào)“WARN”;p值<10-5時(shí)報(bào)“FAIL”。