前言:后天我們的多組學(xué)文獻(xiàn)精讀會分享一篇有關(guān) 染色質(zhì)可接近性的文章,考慮到大部分人可能對其中的一些概念還不了解,所以今天我們就來提前學(xué)習(xí)一下有關(guān)ChIP-seq和ATAC-seq的一些基礎(chǔ)知識。 (視頻講者:張健教授團(tuán)隊張月明) 主要內(nèi)容
01 啟動子、增強(qiáng)子的概念 增強(qiáng)子和啟動子的關(guān)系:增強(qiáng)子是通過啟動子來增加轉(zhuǎn)錄的。
增強(qiáng)子和啟動子之間的相互作用 有效的增強(qiáng)子可以位于基因的5’端,也可位于基因的3’端,有的還可位于基因的內(nèi)含子中。可以看到增強(qiáng)子和調(diào)控的基因的關(guān)系相對于啟動子和其調(diào)控的基因要復(fù)雜得多。所以在下周的另一篇有關(guān)染色質(zhì)可接近性的文章中,作者預(yù)測增強(qiáng)子和基因之間的關(guān)聯(lián)時用到了一項技術(shù)——HiChIP。 在這里我們就簡單介紹一下什么是HiChIP:以啟動子和增強(qiáng)子為例,我們已經(jīng)知道他們倆是可以通過轉(zhuǎn)錄因子這個蛋白產(chǎn)生相互作用的,我們用一些試劑將他們這種相互作用在細(xì)胞內(nèi)固定下來,然后將染色質(zhì)打斷,加上特定的接頭,使這些斷裂的末端可以相互連接,然后再用靶向目標(biāo)轉(zhuǎn)錄因子的抗體將他們拉下來,將DNA和蛋白分離,送DNA去測序,我們就可以知道哪些染色質(zhì)之間存在相互作用了。也就是說,知道了增強(qiáng)子和啟動子之間的聯(lián)系,又通過啟動子和靶基因的聯(lián)系,我們就可以知道增強(qiáng)子可以調(diào)節(jié)哪些基因了。
HiChIP的原理圖 02 什么是基序(motif) 轉(zhuǎn)錄因子在與DNA序列結(jié)合時,其結(jié)合位點的序列是具有一定的特異性的。個人認(rèn)為基序可以理解為不同轉(zhuǎn)錄因子結(jié)合的DNA序列的一個模式。為什么說是一個模式?因為基序并不是特指某一段DNA的具體序列信息。如下圖所示是同一個轉(zhuǎn)錄因子在多個基因上的結(jié)合位點的序列信息:
如果我們要用一段序列來描述以上所有的序列的堿基組成,我們就把這一段序列稱之為一致性序列。既然如此,我們就需要一個統(tǒng)一的規(guī)則來進(jìn)行這個轉(zhuǎn)換。下圖是IUPAC標(biāo)準(zhǔn)的堿基表示法,不同字母對應(yīng)的堿基如下所示:
有了這個規(guī)則,我們就可以將上述例子表示為如下的一致性序列,也就是我們理解的基序(motif): 03 什么是染色質(zhì)可接近性 染色體/質(zhì)的結(jié)構(gòu):真核生物的核DNA并不是裸露的,上面有組蛋白相結(jié)合。DNA一圈一圈地纏繞在組蛋白上,形成串珠式的結(jié)構(gòu)。進(jìn)一步折疊、濃聚,便形成染色體,不具有轉(zhuǎn)錄活性。 染色質(zhì)可接近性:DNA的復(fù)制和轉(zhuǎn)錄,都需要將DNA的高級結(jié)構(gòu)打開。但是并不需要將整個DNA全部打開,只需要打開需要表達(dá)基因的那一部分即可。而這一個過程,主要由染色體組蛋白的修飾來實現(xiàn)的。這部分松散的染色質(zhì)被稱為開放染色質(zhì)(open chromatin)或可接近性染色質(zhì)(accessible chromatin)。染色質(zhì)的可接近性也可以翻譯為可及性或可獲得性。染色質(zhì)一旦打開,就允許一些調(diào)控蛋白(比如轉(zhuǎn)錄因子和輔因子)與之相結(jié)合,并發(fā)揮相應(yīng)的作用。 04 什么是組蛋白修飾 組蛋白包含五個組分,按照分子量由大到小分別稱為H1、H3、H2A、H2B和H4。 組蛋白修飾是指組蛋白在相關(guān)酶作用下發(fā)生甲基化、乙酰化、磷酸化、腺苷酸化、泛素化、ADP核糖基化等修飾的過程。 我們需要簡單了解以下4點:
05 研究染色質(zhì)可接近性的測序技術(shù) 在這里,我們主要講解4種相關(guān)的測序技術(shù): ChIP-seq、DNase-seq、MNase-seq、ATAC-seq。當(dāng)然除了這四種技術(shù),也還有其他的,感興趣的可以自行了解。 ChIP-seq ChIP全稱:染色質(zhì)免疫共沉淀(Chromatin immunoprecipitation ,ChIP),seq表示測序。 原理:首先通過染色質(zhì)免疫共沉淀技術(shù)(ChIP)特異性地將目的蛋白及其結(jié)合的DNA片段一起拉下來,并對DNA進(jìn)行純化與文庫構(gòu)建;然后對富集得到的DNA片段進(jìn)行高通量測序。再將獲得的數(shù)百萬條序列精確定位到基因組上,從而獲得全基因組范圍內(nèi)與組蛋白、轉(zhuǎn)錄因子等互作的DNA序列信息。 ChIP的實驗流程:DNA與蛋白質(zhì)交聯(lián)→超聲裂解→免疫沉淀→PCR擴(kuò)增→測序(如下圖所示) ChIP的分析流程: (1) 質(zhì)控 (2) 序列比對:將原始的fastq序列文件mapping 到參考基因組上,生成 sam 格式文件(個人理解比對就是知道每條reads在參考基因組的具體位置,即在哪一條染色體的哪個位置)。下圖是使用IGV查看比對的結(jié)果,圖中看到的這些峰就是我們常說的peaks,最后一組是對照組。
IGV查看比對結(jié)果 (3) peak calling:尋找peak出現(xiàn)的位置,而這些位置可能就是我們感興趣的靶蛋白結(jié)合的位點。以下兩張圖顯示的是ChIP peak在TSS位點上的富集情況。 下圖中的0點即為TSS位點,橫坐標(biāo)表示的是基因組的位置(TSS位點上下游3000bp的范圍)。紅色表示富集程度。可以看到這些peaks在TSS位點上顯著富集。
下圖攜帶的信息和上圖是一致的(網(wǎng)上找的圖片,像素不佳,望見諒)。橫軸依然是基因組的位置,中間表示TSS位點,縱軸表示peaks的數(shù)目。可以看到peaks也是在TSS位點上顯著富集的。
(4) peaks注釋:個人理解為尋找ChIP peaks所對應(yīng)的靶基因。 (5) 下游分析:pathway富集分析、尋找motif、結(jié)合其他組學(xué)數(shù)據(jù). DNase-seq 原理:DNase-seq使用了限制性內(nèi)切酶(DNase I)對樣品進(jìn)行了處理。在染色質(zhì)壓縮區(qū)域,DNA鏈被致密結(jié)構(gòu)很好地保護(hù)起來,使得內(nèi)切酶無法接近,只能切割開放區(qū)域的DNA。同樣的,在開放區(qū)域,纏繞在核小體上的DNA被核小體結(jié)構(gòu)所保護(hù),只有核小體之間的DNA序列能夠被DNase I切割,這些區(qū)域內(nèi)能夠被DNase切割的位點也被稱為DHS,即DNase超敏感位點。 MNase-seq 這種測序方法和DNase-seq原理類似,但是探測的區(qū)域是互補(bǔ)的。因為MNase-seq使用的酶是限制性外切酶,將不受保護(hù)的區(qū)域統(tǒng)統(tǒng)切除,只留下核小體上纏繞的DNA序列。 以上兩種方法把切割完的DNA拿來測序,和已知的全基因組序列相比較,就能發(fā)現(xiàn)被切掉的是哪些地方,沒有被切掉的地方又在哪里,從而獲知開放的染色質(zhì)區(qū)域。但這兩種方法都需要限制性酶,具有序列的特異性,所以缺點是切割下來的片段都不是完整的開放染色質(zhì)信息。 ATAC-seq 我們需要先理解一個概念:轉(zhuǎn)座是指一段DNA片段從DNA 的一個位點移到另一個位點。通過轉(zhuǎn)座酶來實現(xiàn),也是需要插入位點的染色質(zhì)是開放的。 原理:ATAC-seq使用改造的Tn5轉(zhuǎn)座酶,將轉(zhuǎn)座DNA(已知DNA序列)設(shè)計為接頭,隨機(jī)插入染色質(zhì)的開放區(qū)域。開放染色質(zhì)都具有轉(zhuǎn)座酶敏感性,所以他可以得到完整的開放染色質(zhì)的區(qū)域。再利用已知序列的標(biāo)簽進(jìn)行PCR后送去測序,就知道哪些區(qū)域是開放染色質(zhì)了。ATAC-seq中的峰,往往是啟動子、增強(qiáng)子序列,以及一些反式調(diào)控因子結(jié)合的位點。
ATAC-seq有一個特點:兩個接頭置換出來的有可能是開放性染色質(zhì)的區(qū)域,也有可能是轉(zhuǎn)錄因子上的DNA序列。這一點從上圖中就可以看出來。所以在ATAC-seq的峰中,既有對應(yīng)開放性染色質(zhì)的,也有對應(yīng)核小體的DNA片段上的。
ATAC-seq的實驗流程:裂解細(xì)胞獲得細(xì)胞核→使用Tn5轉(zhuǎn)座酶酶切并純化,最后回收DNA片段→PCR擴(kuò)增→測序。 ATAC-seq的分析流程: 1、數(shù)據(jù)預(yù)處理 (1)比對前質(zhì)量控制:FastQC可用于在測序數(shù)據(jù)中可視化堿基質(zhì)量得分、GC含量、序列長度分布等。 (2)原始序列比對:將過濾的read比對到參考基因組。 (3)比對后處理和質(zhì)量控制: 比對后處理就是去除重復(fù)序列和細(xì)胞器序列。 通常,成功的ATAC-seq實驗應(yīng)生成片段大小分布圖(從bam文件得到),其具有遞減的和周期性的峰,對應(yīng)于無核小體區(qū)域(NFR)(<100 bp)和單核、雙核和三核小體(~200, 400,600堿基對)。因為大多數(shù)的Linker DNA的大小介于10-80bp之間,所有得到的大多數(shù)片段都會是小于100bp的(前面那段毛毛刺刺的,密度又很高的)。而每個Nucleosome的DNA大小為180bp左右,加上兩邊插入進(jìn)的冗余,我們會得到大約200bp長度是mono-nucleosome的DNA。如果是兩個Nucleosome之間的片段的話,就是400bp左右。依此類推。如下圖是典型的ATAC-seq片段大小分布圖。
無核小體區(qū)域的片段應(yīng)該在基因的轉(zhuǎn)錄起始位點(TSS)周圍富集,而核小體結(jié)合區(qū)域的片段應(yīng)該在TSS處被形成低谷,TSS周圍的側(cè)翼區(qū)域會稍微富集。可以使用工具ATACseqQC進(jìn)行評估。
TSS附近信號的分布也可以用熱圖來顯示。
2、Peak-calling:也就是從比對得到BAM文件中找出reads的覆蓋區(qū),也就是那個峰出現(xiàn)的位置。 3、高級分析 (1)peak差異分析:尋找不同分組之間的差異peaks (2)peak注釋:峰的注釋可將染色質(zhì)的可及性與基因調(diào)控聯(lián)系起來。通常,峰會被注釋到最接近的基因或調(diào)控元件。獲得最接近的基因之類的基因列表后,還可以使用GO,KEGG和Reactome等數(shù)據(jù)庫進(jìn)行功能富集分析。 (3)motif富集分析:得到每個peak region里motif的位置和頻率,再和隨機(jī)背景或其它條件比較,就可以做motif的富集分析。 (4)footprint分析:ATAC-seq中的footprint是指一個TF結(jié)合在DNA上,阻止Tn5切割,在染色質(zhì)開放區(qū)域留下一個相對缺失的位置。而TF周圍的組蛋白因為TF造成的空間的推擠反而形成了開放度比較高的區(qū)域。
(5) 核小體定位分析:分析核小體的結(jié)合區(qū)域。 ATAC-seq數(shù)據(jù)與多組學(xué)數(shù)據(jù)整合:
通過聯(lián)合轉(zhuǎn)錄組測序結(jié)果,看ATAC上測到的一些開放性高的DNA序列區(qū)域,是否對應(yīng)的轉(zhuǎn)錄本表達(dá)量也有增加,也可以找到對應(yīng)的轉(zhuǎn)錄本相關(guān)基因的上游調(diào)控序列,從而從整體上分析從DNA到RNA的轉(zhuǎn)錄過程。進(jìn)一步對基因進(jìn)行功能分析,再結(jié)合實驗表型進(jìn)行討論,我們就可以理清楚表觀調(diào)控-表達(dá)-功能-表型這樣一個過程的相關(guān)機(jī)制。
ATAC測序≠ChIP-seq。ATAC測序之后也需要做ChIP-seq來做進(jìn)一步的驗證,通過ChIP的測序結(jié)果,來進(jìn)一步對ATAC所預(yù)測到的一些轉(zhuǎn)錄因子結(jié)合區(qū)域是否真的有轉(zhuǎn)錄因子結(jié)合進(jìn)行驗證。
已證明在整個基因組上核小體的定位影響DNA的甲基化狀態(tài),從同一個DNA分子得到DNA甲基化和核小體的定位可以使我們能夠更好地了解DNA甲基化和核小體定位是如何共同控制染色質(zhì)的可接近性。 參考資料: https://www./article/18583.html https://www.jianshu.com/p/68f99d4bcb7b https://mp.weixin.qq.com/s/vgXrscsUkfYdC5qt_PUNlw https://www.jianshu.com/p/a7b6ce208f98?utm_campaign=haruki&utm_content=note&utm_medium=reader_share&utm_source=weixin https://www.jianshu.com/p/2b8e2ea26665 https://www.jianshu.com/p/32b2fab75c24 http://www./archives/13555 http:///new/book/ |
|
來自: 新用戶049551KQ > 《待分類》