今天是生信星球陪你的第239天
大神一句話,菜鳥跑半年。我不是大神,但我可以縮短你走彎路的半年~ 就像歌兒唱的那樣,如果你不知道該往哪兒走,就留在這學(xué)點生信好不好~ 這里有豆豆和花花的學(xué)習(xí)歷程,從新手到進階,生信路上有你有我!
豆豆寫于19.1.4 今天隨便寫了些關(guān)于外顯子的介紹,來到大橫琴見了一群小伙伴,十分開心 花花講師明日上線,期待ing...
WES(Whole Exome Sequencing)全外顯子測序是對基因組中所有外顯子進行測序分析的方法。首先利用DNA或RNA探針,將全基因組中外顯子區(qū)域DNA進行捕獲,然后對捕獲的DNA進行PCR擴增,最后對擴增后的產(chǎn)物進行高通量測序。 什么是外顯子?外顯子只占基因組的2%,卻含有85%的已知致病變異,物美價廉 WES優(yōu)勢總花費低:雖然WES一般比WGS測序深度高(100X vs 30X), 但是WES的測序序列主要在占基因組2%的外顯子區(qū)域,因此總的測序文件比WGS的測序文件小得多【平均測序深度為100X的全外顯子測序文件的大小是6GB左右,而30X的全基因組測序文件的大小一般是90GB左右】 測序深度高,WES更容易檢測出罕見變異 數(shù)據(jù)文件小,數(shù)據(jù)分析的速度就快 跟非編碼區(qū)相比,蛋白編碼區(qū)的研究更透測,注釋度更高
WES不足評價質(zhì)量指標(biāo)堿基質(zhì)量分?jǐn)?shù):測序過程中堿基被測序儀錯誤識別的概率 比對質(zhì)量分?jǐn)?shù):一個序列在參考基因組上比對正確與否的可信度 變異質(zhì)量分?jǐn)?shù):檢測到的變異是否是生物變異的可信度【變異質(zhì)量分?jǐn)?shù)是變異位點所有序列比對質(zhì)量分?jǐn)?shù)的均方根】
數(shù)據(jù)分析流程第一部分:前處理流程原始fq質(zhì)控第一步一定要查看fastq文件是否完整,是否存在錯誤 過濾過濾的話一般是:去除低質(zhì)量或者過短序列,剪切末端低質(zhì)量的堿基,去除接頭污染以及可能的外源污染序列 比對比對:序列比對到可信度最高的一個或者少數(shù)幾個位置上去,可信度就是比對質(zhì)量分?jǐn)?shù)(mapping quality )【問題:由于參考基因組中存在重復(fù)序列等原因,有些序列可以同等地比對到不同的位置】 比對后可視化:IGV【用加過索引的BAM文件】,結(jié)果顯示,外顯子區(qū)域以外也有比對的序列。 一般情況下,這些序列不要去除,大范圍內(nèi)更多的比對序列有利于下游更精確的變異檢測 IGV默認(rèn)顏色:灰色表示該序列在基因組上的比對結(jié)果是單一的,且和序列對中另一個序列間的距離在正常范圍內(nèi);白色說明該序列比對到2個或者2個以上的位置;其他顏色,說明與該序列配對的序列比對到了其它的染色體, 或者兩個序列間的距離大于或小于正常的插入序列長度
比對后質(zhì)控看比對情況:samtools flagstat 可以看總的比對率,成功比對的序列里多少個是pair-end序列,多少是單個的序列;idxstat 查看每個染色體的長度,該染色體上比對的序列數(shù)以及沒有比對的序列數(shù)。 原始比對結(jié)果質(zhì)控:如果有一些比對質(zhì)量較低或者錯誤比對的序列,為了下游變異識別的敏感性和精確性,減少假陽性生物變異的識別,需要質(zhì)控,比如:去除重復(fù)序列、可疑的比對區(qū)域進行重新比對(Local Realignment)、重新校正堿基質(zhì)量分?jǐn)?shù) 關(guān)于重復(fù)序列:建庫過程中,需要進行多輪的PCR擴增。理想情況是每次PCR,每個區(qū)域擴增一次,得到兩份。但是每次PCR中,擴增引物和不同模板結(jié)合力會存在差異,因此有的區(qū)域擴增產(chǎn)物大于一,就得到許多份,造成后續(xù)等位基因頻率的定義以及基因型識別不準(zhǔn)確。一般用Markduplcate 功能去除重復(fù)序列 關(guān)于可疑的比對區(qū)域進行重新比對:最初的比對過程中,比對軟件將每個序列單獨和參考基因組進行比對,但有時比對軟件無法確定INDEL處是INDEL還是多個SNP,導(dǎo)致INDEL無法檢測、SNP假陽性。GATK local realignment 就是對這些區(qū)域重新比對,使所有序列錯配(mismatch)的堿基數(shù)目總和最小【例如:本來參考基因組中存在7個連續(xù)的T,測序數(shù)據(jù)中在這個位置出現(xiàn)了一個deletion,但是比對軟件偏偏認(rèn)為它是多個堿基錯配,導(dǎo)致結(jié)果中少了一個deletion,反倒多了多幾個SNV】 關(guān)于堿基的質(zhì)量分?jǐn)?shù)校正:由于系統(tǒng)誤差(可能來源測序過程化學(xué)反應(yīng)試劑或者儀器報告不準(zhǔn)),測序儀報告的堿基質(zhì)量不精確,比實際質(zhì)量分?jǐn)?shù)偏高或者偏低。系統(tǒng)誤差不同于隨機誤差,它是錯誤,應(yīng)該被去除。
GATK recalibration 利用機器學(xué)習(xí)的方法建立誤差模型,然后對堿基分?jǐn)?shù)進行調(diào)整,調(diào)整后可以提高后續(xù)變異識別的準(zhǔn)確率,減少假陽性和假陰性的變異識別。但是,這個分?jǐn)?shù)校正不能糾正堿基【例如:有一個低質(zhì)量的C堿基,我們不知道它是不是應(yīng)該是G,但是可以知道我們相信C是正確的概率是多少】
第二部分:變異檢測流程目的:找出比對結(jié)果中,樣品數(shù)據(jù)和參考基因組不同的位點,并計算這些位點的基因型
假陽性的存在:變異識別軟件(variant caller)不可避免會識別一些非生物變異(也就是沒有生物學(xué)意義的變異,例如:比對或者測序錯誤帶來的數(shù)據(jù)和參考基因組之間的差異)。我們要努力去除假陽性帶來的影響。 但是如何區(qū)分真正的生物學(xué)變異和系統(tǒng)誤差的非生物學(xué)變異呢? 目前最經(jīng)常使用的就是:GATK VQSR (Variant Quality Score Recalibration) 關(guān)于VQSR變異軟件識別的每個原始變異都有一套對應(yīng)的注釋參數(shù)(如VCF的header行),根據(jù)這些參數(shù)進行聚類分析,真正的變異趨向于聚集在一起。 VQSR基于機器學(xué)習(xí),基于群體遺傳的原理,構(gòu)建GMM模型,挑出和已知的變異集合Overlap的位點(如:已知且被嚴(yán)格驗證的HapMap數(shù)據(jù)集)并分配相應(yīng)的可信度權(quán)重來進行訓(xùn)練,訓(xùn)練出一個區(qū)分好變異的GMM,然后對全部數(shù)據(jù)進行打分,再把評分最低的那些拿出來,構(gòu)成一個最不像正確變異的集合,用來構(gòu)造一個區(qū)分壞變異的GMM,用來專門識別壞變異。最后同時用好和壞的GMM再一次同時對變異進行打分,看每個變異更像誰,就能夠評判出這個變異可信的質(zhì)量值。 VQSR要求比較高:好和壞變異可供訓(xùn)練的數(shù)目必須超過5000個,如果Overlap位點太少,無法有效訓(xùn)練出一個模型。因此對于WGS問題不大,但是單個的WES中加起來全部區(qū)域也就50Mb左右,外顯子比較短,一般都小200bp,其中變異數(shù)目大約30K-40K,位點并不多,那么和已知的高質(zhì)量變異集的overlap就更少。因此對于單個WES或者小panel(低于30 sample) 的都不適用,起碼要30 sample+吧 VQSR過程一般需要SNP與Indel分別校正 ,但是也可以連續(xù)進行兩次VQSR校正(第一次只對SNP校正,第二次只對Indel校正,最后再合并) 當(dāng)然,如果sample不夠多,數(shù)據(jù)集不夠大,也可以設(shè)定閾值來手工過濾非生物學(xué)變異【注意:先分離SNP和INDEL,分別手工過濾后再重新合并】 第三部分 變異篩選、注釋篩選因為比對會比對到參考基因組外顯子區(qū)域外,因此變異識別軟件識別出的變異也會有一些是分布在外顯子區(qū)域之外的,可以可用bedtools和捕獲區(qū)域文件,去除外顯子區(qū)域外的變異,只保留外顯子區(qū)域內(nèi)的變異 注釋得到了外顯子區(qū)域內(nèi)高可信度的變異以后,可以在OMIM、HGMD、Clinvar、dbSNP等數(shù)據(jù)庫進行注釋 補充:關(guān)于WES:https://ghr.nlm./primer/testing/sequencing https:///tests/whole-exome-sequencing/ 關(guān)于gVCF:https://gatkforums./gatk/discussion/4017/what-is-a-gvcf-and-how-is-it-different-from-a-regular-vcf
|