午夜视频在线网站,日韩视频精品在线,中文字幕精品一区二区三区在线,在线播放精品,1024你懂我懂的旧版人,欧美日韩一级黄色片,一区二区三区在线观看视频

分享

Go! WES

 微笑如酒 2019-01-05

 今天是生信星球陪你的第239天


   大神一句話,菜鳥跑半年。我不是大神,但我可以縮短你走彎路的半年~

   就像歌兒唱的那樣,如果你不知道該往哪兒走,就留在這學(xué)點生信好不好~

   這里有豆豆和花花的學(xué)習(xí)歷程,從新手到進階,生信路上有你有我!


豆豆寫于19.1.4
今天隨便寫了些關(guān)于外顯子的介紹,來到大橫琴見了一群小伙伴,十分開心

花花講師明日上線,期待ing...

WES(Whole Exome Sequencing)全外顯子測序是對基因組中所有外顯子進行測序分析的方法。首先利用DNA或RNA探針,將全基因組中外顯子區(qū)域DNA進行捕獲,然后對捕獲的DNA進行PCR擴增,最后對擴增后的產(chǎn)物進行高通量測序。

什么是外顯子?

外顯子只占基因組的2%,卻含有85%的已知致病變異,物美價廉

WES優(yōu)勢

  • 總花費低:雖然WES一般比WGS測序深度高(100X vs 30X), 但是WES的測序序列主要在占基因組2%的外顯子區(qū)域,因此總的測序文件比WGS的測序文件小得多【平均測序深度為100X的全外顯子測序文件的大小是6GB左右,而30X的全基因組測序文件的大小一般是90GB左右】

  • 測序深度高,WES更容易檢測出罕見變異

  • 數(shù)據(jù)文件小,數(shù)據(jù)分析的速度就快

  • 跟非編碼區(qū)相比,蛋白編碼區(qū)的研究更透測,注釋度更高

WES不足

  • 測序深度不均一,一些區(qū)域測序深度過高造成浪費,一些區(qū)域測序深度過低而無法檢測到存在的變異。例如:一些SNP密集的區(qū)域,富集過程中RNA或DNA探針無法和該區(qū)域雜交導(dǎo)致無法有效捕獲,該區(qū)域的測序深度就會過低;

  • 只測外顯子區(qū)域(人類的外顯子區(qū)域長度一般小于200bp),因而無法有效檢測CNV、SV,一般用來檢測SNV、INDEL

  • 受探針限制,新的編碼基因無法捕獲

評價質(zhì)量指標(biāo)

  • 堿基質(zhì)量分?jǐn)?shù):測序過程中堿基被測序儀錯誤識別的概率

  • 比對質(zhì)量分?jǐn)?shù):一個序列在參考基因組上比對正確與否的可信度

  • 變異質(zhì)量分?jǐn)?shù):檢測到的變異是否是生物變異的可信度【變異質(zhì)量分?jǐn)?shù)是變異位點所有序列比對質(zhì)量分?jǐn)?shù)的均方根

數(shù)據(jù)分析流程

第一部分:前處理流程

原始fq質(zhì)控

第一步一定要查看fastq文件是否完整,是否存在錯誤

過濾

過濾的話一般是:去除低質(zhì)量或者過短序列,剪切末端低質(zhì)量的堿基,去除接頭污染以及可能的外源污染序列

比對
  • 比對:序列比對到可信度最高的一個或者少數(shù)幾個位置上去,可信度就是比對質(zhì)量分?jǐn)?shù)(mapping quality )【問題:由于參考基因組中存在重復(fù)序列等原因,有些序列可以同等地比對到不同的位置

  • 比對后可視化:IGV【用加過索引的BAM文件】,結(jié)果顯示,外顯子區(qū)域以外也有比對的序列。 一般情況下,這些序列不要去除,大范圍內(nèi)更多的比對序列有利于下游更精確的變異檢測
    IGV默認(rèn)顏色灰色表示該序列在基因組上的比對結(jié)果是單一的,且和序列對中另一個序列間的距離在正常范圍內(nèi);白色說明該序列比對到2個或者2個以上的位置;其他顏色,說明與該序列配對的序列比對到了其它的染色體, 或者兩個序列間的距離大于或小于正常的插入序列長度

比對后質(zhì)控
  • 看比對情況:samtools flagstat 可以看總的比對率,成功比對的序列里多少個是pair-end序列,多少是單個的序列;idxstat 查看每個染色體的長度,該染色體上比對的序列數(shù)以及沒有比對的序列數(shù)。

  • 原始比對結(jié)果質(zhì)控:如果有一些比對質(zhì)量較低或者錯誤比對的序列,為了下游變異識別的敏感性和精確性,減少假陽性生物變異的識別,需要質(zhì)控,比如:去除重復(fù)序列、可疑的比對區(qū)域進行重新比對(Local Realignment)、重新校正堿基質(zhì)量分?jǐn)?shù)

  • 關(guān)于重復(fù)序列:建庫過程中,需要進行多輪的PCR擴增。理想情況是每次PCR,每個區(qū)域擴增一次,得到兩份。但是每次PCR中,擴增引物和不同模板結(jié)合力會存在差異,因此有的區(qū)域擴增產(chǎn)物大于一,就得到許多份,造成后續(xù)等位基因頻率的定義以及基因型識別不準(zhǔn)確。一般用Markduplcate功能去除重復(fù)序列

  • 關(guān)于可疑的比對區(qū)域進行重新比對:最初的比對過程中,比對軟件將每個序列單獨和參考基因組進行比對,但有時比對軟件無法確定INDEL處是INDEL還是多個SNP,導(dǎo)致INDEL無法檢測、SNP假陽性。GATK local realignment 就是對這些區(qū)域重新比對,使所有序列錯配(mismatch)的堿基數(shù)目總和最小【例如:本來參考基因組中存在7個連續(xù)的T,測序數(shù)據(jù)中在這個位置出現(xiàn)了一個deletion,但是比對軟件偏偏認(rèn)為它是多個堿基錯配,導(dǎo)致結(jié)果中少了一個deletion,反倒多了多幾個SNV】

  • 關(guān)于堿基的質(zhì)量分?jǐn)?shù)校正:由于系統(tǒng)誤差(可能來源測序過程化學(xué)反應(yīng)試劑或者儀器報告不準(zhǔn)),測序儀報告的堿基質(zhì)量不精確,比實際質(zhì)量分?jǐn)?shù)偏高或者偏低。系統(tǒng)誤差不同于隨機誤差,它是錯誤,應(yīng)該被去除。
    GATK recalibration 利用機器學(xué)習(xí)的方法建立誤差模型,然后對堿基分?jǐn)?shù)進行調(diào)整,調(diào)整后可以提高后續(xù)變異識別的準(zhǔn)確率,減少假陽性和假陰性的變異識別。但是,這個分?jǐn)?shù)校正不能糾正堿基【例如:有一個低質(zhì)量的C堿基,我們不知道它是不是應(yīng)該是G,但是可以知道我們相信C是正確的概率是多少】

第二部分:變異檢測流程

目的:找出比對結(jié)果中,樣品數(shù)據(jù)和參考基因組不同的位點,并計算這些位點的基因型

假陽性的存在:

變異識別軟件(variant caller)不可避免會識別一些非生物變異(也就是沒有生物學(xué)意義的變異,例如:比對或者測序錯誤帶來的數(shù)據(jù)和參考基因組之間的差異)。我們要努力去除假陽性帶來的影響。

但是如何區(qū)分真正的生物學(xué)變異系統(tǒng)誤差的非生物學(xué)變異呢?

目前最經(jīng)常使用的就是:GATK VQSR (Variant Quality Score Recalibration)

關(guān)于VQSR

變異軟件識別的每個原始變異都有一套對應(yīng)的注釋參數(shù)(如VCF的header行),根據(jù)這些參數(shù)進行聚類分析,真正的變異趨向于聚集在一起。

VQSR基于機器學(xué)習(xí),基于群體遺傳的原理,構(gòu)建GMM模型,挑出和已知的變異集合Overlap的位點(如:已知且被嚴(yán)格驗證的HapMap數(shù)據(jù)集)并分配相應(yīng)的可信度權(quán)重來進行訓(xùn)練,訓(xùn)練出一個區(qū)分好變異的GMM,然后對全部數(shù)據(jù)進行打分,再把評分最低的那些拿出來,構(gòu)成一個最不像正確變異的集合,用來構(gòu)造一個區(qū)分壞變異的GMM,用來專門識別壞變異。最后同時用好和壞的GMM再一次同時對變異進行打分,看每個變異更像誰,就能夠評判出這個變異可信的質(zhì)量值。

VQSR要求比較高:好和壞變異可供訓(xùn)練的數(shù)目必須超過5000個,如果Overlap位點太少,無法有效訓(xùn)練出一個模型。因此對于WGS問題不大,但是單個的WES中加起來全部區(qū)域也就50Mb左右,外顯子比較短,一般都小200bp,其中變異數(shù)目大約30K-40K,位點并不多,那么和已知的高質(zhì)量變異集的overlap就更少。因此對于單個WES或者小panel(低于30 sample) 的都不適用,起碼要30 sample+吧

VQSR過程一般需要SNP與Indel分別校正 ,但是也可以連續(xù)進行兩次VQSR校正(第一次只對SNP校正,第二次只對Indel校正,最后再合并)

當(dāng)然,如果sample不夠多,數(shù)據(jù)集不夠大,也可以設(shè)定閾值來手工過濾非生物學(xué)變異【注意:先分離SNP和INDEL,分別手工過濾后再重新合并】

第三部分 變異篩選、注釋

篩選

因為比對會比對到參考基因組外顯子區(qū)域外,因此變異識別軟件識別出的變異也會有一些是分布在外顯子區(qū)域之外的,可以可用bedtools和捕獲區(qū)域文件,去除外顯子區(qū)域外的變異,只保留外顯子區(qū)域內(nèi)的變異

注釋

得到了外顯子區(qū)域內(nèi)高可信度的變異以后,可以在OMIM、HGMD、Clinvar、dbSNP等數(shù)據(jù)庫進行注釋

補充:

  • 接頭污染問題:接頭序列里一般包含三個重要組成部分:區(qū)分樣品的barcode序列,PCR  primer序列和測序引物結(jié)合的序列。插入測序列過短時,測序反應(yīng)會超過待測序列而測到3’-端的接頭序列,從而造成接頭序列的污染

  • gVCF:gVCF 和VCF最大的區(qū)別是gVCF里含有基因組(或者感興趣的區(qū)間)所有位點的堿基信息,不論該位點是否存在變異。

關(guān)于WES:https://ghr.nlm./primer/testing/sequencing

https:///tests/whole-exome-sequencing/

關(guān)于gVCF:https://gatkforums./gatk/discussion/4017/what-is-a-gvcf-and-how-is-it-different-from-a-regular-vcf


    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多