午夜视频在线网站,日韩视频精品在线,中文字幕精品一区二区三区在线,在线播放精品,1024你懂我懂的旧版人,欧美日韩一级黄色片,一区二区三区在线观看视频

分享

都是VCF數(shù)據(jù),什么才是高質(zhì)量的VCF?

 生物_醫(yī)藥_科研 2019-07-31

寫在前面

EGIS系統(tǒng),自7月初正式推出以來(lái),收到了很多老師的青睞。生信的全自動(dòng)化、解讀的高效與智能化,讓很多老師對(duì)遺傳數(shù)據(jù)的解讀有了新的想法。當(dāng)然,我們?cè)诜?wù)的過(guò)程中,也發(fā)現(xiàn)一個(gè)問(wèn)題,就是大家手上拿到的VCF數(shù)據(jù),真的是各種各種。

因此,本期內(nèi)容我們想專門介紹一下,如何得到高質(zhì)量的VCF數(shù)據(jù)。限于篇幅,本期重點(diǎn)介紹一下VCF文件在生成過(guò)程中經(jīng)歷的兩步重要處理,gVCF與變異過(guò)濾。

文末有驚喜哦~

gVCF與變異過(guò)濾

如何得到更準(zhǔn)確的變異數(shù)據(jù)

      gVCF      

很多做遺傳分析的朋友可能對(duì)gVCF文件比較陌生

因?yàn)檫z傳分析時(shí)拿到的是VCF文件

而gVCF文件,可能只是聽(tīng)過(guò)卻沒(méi)有實(shí)際見(jiàn)過(guò)

那么,

為什么最終得到的變異文件沒(méi)有g(shù)VCF文件呢?

gVCF文件在分析過(guò)程中又有什么作用呢?

1

gVCF是什么

gVCF其實(shí)也是一種VCF文件

和通常見(jiàn)到的VCF不同的是

gVCF文件中包括了測(cè)序中的所有序列信息

變異序列的信息,如snp和indel等

與參考基因組序列一致的測(cè)序信息

(測(cè)序覆蓋但未出現(xiàn)變異)

而最終的VCF只有變異序列的信息

gVCF通常由HaplotypeCaller分析得到

如上圖右邊藍(lán)色部分中所示

測(cè)序覆蓋但未發(fā)生變異

通過(guò)Cohort分析后

轉(zhuǎn)化為通常見(jiàn)到的VCF文件

通常的VCF文件(左)和gVCF文件(右)的區(qū)別

HaplotypeCaller分析流程之前有專門寫到,感興趣可以點(diǎn)擊圖片閱讀。

2

gVCF的作用

上文提到

gVCF通過(guò)Cohort分析后變?yōu)槌R?guī)的VCF文件

那么Cohort分析的過(guò)程又是什么樣的呢

其實(shí)理解Cohort的分析原理并不難

所謂Cohort分析,就是集中多個(gè)樣本的測(cè)序數(shù)據(jù)

通過(guò)人群變異信息來(lái)增加個(gè)體變異的可信度

Cohort分析時(shí),將多個(gè)樣本的測(cè)序結(jié)果合并

包括所有變異及非變異但測(cè)序覆蓋的數(shù)據(jù)

將人群變異信息合并分析的好處是

當(dāng)某樣本的某個(gè)變異的測(cè)序質(zhì)量較差時(shí)

可以通過(guò)人群變異信息提供參考

簡(jiǎn)單的說(shuō)就是

變異可信度 = 變異自身質(zhì)量 + 人群變異信息

當(dāng)測(cè)序質(zhì)量高時(shí),變異可信度由自身決定

當(dāng)測(cè)序質(zhì)量低時(shí),人群變異數(shù)據(jù)便提供參考信息

左圖為覆蓋度較差的位點(diǎn)

單個(gè)樣本對(duì)雜合子判斷能力有限

右圖為人群變異數(shù)據(jù)

為某樣本覆蓋度差的區(qū)域提供變異信息支持

當(dāng)人群數(shù)據(jù)積累后

人群中的等位基因的數(shù)量為變異提供證據(jù)支持

Cohort數(shù)據(jù)可以通過(guò)不斷積累

形成越來(lái)越準(zhǔn)確的人群變異數(shù)據(jù)

Cohort分析詳細(xì)介紹,點(diǎn)擊圖片閱讀

     變異過(guò)濾    

經(jīng)過(guò)Cohort分析后

VCF數(shù)據(jù)的質(zhì)量有了顯著提高

但對(duì)于人群數(shù)據(jù)無(wú)法提供信息的變異

需要通過(guò)另一步分析來(lái)評(píng)價(jià)其質(zhì)量

這一步分析就是VQSR

Variant Quality Score Recalibration

也就是變異質(zhì)量校正

其本質(zhì)是

通過(guò)VCF中認(rèn)為可信的變異

訓(xùn)練一個(gè)統(tǒng)計(jì)學(xué)習(xí)模型

然后通過(guò)訓(xùn)練的模型來(lái)預(yù)測(cè)所有變異的質(zhì)量

這個(gè)模型叫做GMM,即

高斯混合模型

模型的原理很好理解

通過(guò)推測(cè)高可信變異數(shù)據(jù)的質(zhì)量分布

高可信變異數(shù)據(jù)通常選為1kg,dpSNP或HapMap數(shù)據(jù)

給所有變異賦予相應(yīng)的概率值

概率越大表示越接近可信變異

如圖所示

左邊部分為模型訓(xùn)練的分布

綠色越深表示和高質(zhì)量變異越接近

右邊為模型預(yù)測(cè)的結(jié)果

與所有統(tǒng)計(jì)模型一樣

VQSR也需要注意過(guò)濾參數(shù)的設(shè)定

提高召回率也意味著精度的下降

VQSR詳細(xì)介紹,點(diǎn)擊圖片閱讀

小結(jié)

gVCF和變異過(guò)濾

本質(zhì)上都是通過(guò)統(tǒng)計(jì)學(xué)習(xí)的方法

來(lái)提高最終VCF的數(shù)據(jù)質(zhì)量

但要注意的是統(tǒng)計(jì)學(xué)習(xí)本身的局限性

例如Cohort分析時(shí)需要注意

人群樣本與分析樣本的背景一致性

VQSR需要注意

訓(xùn)練數(shù)據(jù)的選取和訓(xùn)練參數(shù)的選擇

以避免錯(cuò)誤的參考數(shù)據(jù)造成分析質(zhì)量下降

參考資料:

gVCF相關(guān):https://software./gatk/documentation/article?id=11004

變異過(guò)濾相關(guān):

VQSR:https://software./gatk/documentation/article?id=11084

高斯混合模型 :

https://baike.baidu.com/item/高斯混合模型

VQSR訓(xùn)練數(shù)據(jù)說(shuō)明:

https://software./gatk/documentation/article?id=1259

驚喜驚喜來(lái)啦!

★本期互動(dòng)★

留言區(qū)說(shuō)說(shuō)你對(duì)VCF數(shù)據(jù)的感想,我們會(huì)隨機(jī)選取1名小伙伴送出豌豆sir的#生而不凡#日歷手帳一本。

(此手賬由瀚垚生物醫(yī)學(xué)支持遺傳病公益事業(yè)購(gòu)買。)

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多