EGIS系統(tǒng),自7月初正式推出以來(lái),收到了很多老師的青睞。生信的全自動(dòng)化、解讀的高效與智能化,讓很多老師對(duì)遺傳數(shù)據(jù)的解讀有了新的想法。當(dāng)然,我們?cè)诜?wù)的過(guò)程中,也發(fā)現(xiàn)一個(gè)問(wèn)題,就是大家手上拿到的VCF數(shù)據(jù),真的是各種各種。
因此,本期內(nèi)容我們想專門介紹一下,如何得到高質(zhì)量的VCF數(shù)據(jù)。限于篇幅,本期重點(diǎn)介紹一下VCF文件在生成過(guò)程中經(jīng)歷的兩步重要處理,gVCF與變異過(guò)濾。
文末有驚喜哦~
gVCF與變異過(guò)濾
如何得到更準(zhǔn)確的變異數(shù)據(jù)
很多做遺傳分析的朋友可能對(duì)gVCF文件比較陌生
因?yàn)檫z傳分析時(shí)拿到的是VCF文件
而gVCF文件,可能只是聽(tīng)過(guò)卻沒(méi)有實(shí)際見(jiàn)過(guò)
那么,
為什么最終得到的變異文件沒(méi)有g(shù)VCF文件呢?
gVCF文件在分析過(guò)程中又有什么作用呢?
gVCF其實(shí)也是一種VCF文件
和通常見(jiàn)到的VCF不同的是
gVCF文件中包括了測(cè)序中的所有序列信息
與參考基因組序列一致的測(cè)序信息
(測(cè)序覆蓋但未出現(xiàn)變異)
gVCF通常由HaplotypeCaller分析得到
如上圖右邊藍(lán)色部分中所示
測(cè)序覆蓋但未發(fā)生變異
通過(guò)Cohort分析后
轉(zhuǎn)化為通常見(jiàn)到的VCF文件
通常的VCF文件(左)和gVCF文件(右)的區(qū)別
HaplotypeCaller分析流程之前有專門寫到,感興趣可以點(diǎn)擊圖片閱讀。
上文提到
gVCF通過(guò)Cohort分析后變?yōu)槌R?guī)的VCF文件
那么Cohort分析的過(guò)程又是什么樣的呢
其實(shí)理解Cohort的分析原理并不難
所謂Cohort分析,就是集中多個(gè)樣本的測(cè)序數(shù)據(jù)
通過(guò)人群變異信息來(lái)增加個(gè)體變異的可信度
Cohort分析時(shí),將多個(gè)樣本的測(cè)序結(jié)果合并
包括所有變異及非變異但測(cè)序覆蓋的數(shù)據(jù)
將人群變異信息合并分析的好處是
當(dāng)某樣本的某個(gè)變異的測(cè)序質(zhì)量較差時(shí)
可以通過(guò)人群變異信息提供參考
變異可信度 = 變異自身質(zhì)量 + 人群變異信息
當(dāng)測(cè)序質(zhì)量高時(shí),變異可信度由自身決定
當(dāng)測(cè)序質(zhì)量低時(shí),人群變異數(shù)據(jù)便提供參考信息
左圖為覆蓋度較差的位點(diǎn)
單個(gè)樣本對(duì)雜合子判斷能力有限
右圖為人群變異數(shù)據(jù)
為某樣本覆蓋度差的區(qū)域提供變異信息支持
當(dāng)人群數(shù)據(jù)積累后
人群中的等位基因的數(shù)量為變異提供證據(jù)支持
Cohort數(shù)據(jù)可以通過(guò)不斷積累
形成越來(lái)越準(zhǔn)確的人群變異數(shù)據(jù)
Cohort分析詳細(xì)介紹,點(diǎn)擊圖片閱讀
經(jīng)過(guò)Cohort分析后
VCF數(shù)據(jù)的質(zhì)量有了顯著提高
但對(duì)于人群數(shù)據(jù)無(wú)法提供信息的變異
需要通過(guò)另一步分析來(lái)評(píng)價(jià)其質(zhì)量
這一步分析就是VQSR
Variant Quality Score Recalibration
也就是變異質(zhì)量校正
其本質(zhì)是
通過(guò)VCF中認(rèn)為可信的變異
訓(xùn)練一個(gè)統(tǒng)計(jì)學(xué)習(xí)模型
然后通過(guò)訓(xùn)練的模型來(lái)預(yù)測(cè)所有變異的質(zhì)量
這個(gè)模型叫做GMM,即
高斯混合模型
模型的原理很好理解
通過(guò)推測(cè)高可信變異數(shù)據(jù)的質(zhì)量分布
高可信變異數(shù)據(jù)通常選為1kg,dpSNP或HapMap數(shù)據(jù)
給所有變異賦予相應(yīng)的概率值
概率越大表示越接近可信變異
如圖所示
左邊部分為模型訓(xùn)練的分布
綠色越深表示和高質(zhì)量變異越接近
右邊為模型預(yù)測(cè)的結(jié)果
與所有統(tǒng)計(jì)模型一樣
VQSR也需要注意過(guò)濾參數(shù)的設(shè)定
提高召回率也意味著精度的下降
VQSR詳細(xì)介紹,點(diǎn)擊圖片閱讀
gVCF和變異過(guò)濾
本質(zhì)上都是通過(guò)統(tǒng)計(jì)學(xué)習(xí)的方法
來(lái)提高最終VCF的數(shù)據(jù)質(zhì)量
但要注意的是統(tǒng)計(jì)學(xué)習(xí)本身的局限性
例如Cohort分析時(shí)需要注意
人群樣本與分析樣本的背景一致性
VQSR需要注意
訓(xùn)練數(shù)據(jù)的選取和訓(xùn)練參數(shù)的選擇
以避免錯(cuò)誤的參考數(shù)據(jù)造成分析質(zhì)量下降
參考資料:
gVCF相關(guān):https://software./gatk/documentation/article?id=11004
變異過(guò)濾相關(guān):
VQSR:https://software./gatk/documentation/article?id=11084
高斯混合模型 :
https://baike.baidu.com/item/高斯混合模型
VQSR訓(xùn)練數(shù)據(jù)說(shuō)明:
https://software./gatk/documentation/article?id=1259
留言區(qū)說(shuō)說(shuō)你對(duì)VCF數(shù)據(jù)的感想,我們會(huì)隨機(jī)選取1名小伙伴送出豌豆sir的#生而不凡#日歷手帳一本。
(此手賬由瀚垚生物醫(yī)學(xué)支持遺傳病公益事業(yè)購(gòu)買。)