ChIP

新用戶049551KQ 2022-11-28 發(fā)布于廣西

展開全文

前言：后天我們的多組學(xué)文獻(xiàn)精讀會分享一篇有關(guān) 染色質(zhì)可接近性的文章，考慮到大部分人可能對其中的一些概念還不了解，所以今天我們就來提前學(xué)習(xí)一下有關(guān)ChIP-seq和ATAC-seq的一些基礎(chǔ)知識。

（視頻講者：張健教授團(tuán)隊張月明）

主要內(nèi)容

啟動子、增強(qiáng)子的概念
什么是基序（motif）
什么是染色質(zhì)可接近性
什么是組蛋白修飾
研究染色質(zhì)可接近性的測序技術(shù)

啟動子、增強(qiáng)子的概念

增強(qiáng)子和啟動子的關(guān)系：增強(qiáng)子是通過啟動子來增加轉(zhuǎn)錄的。

增強(qiáng)子和啟動子之間的相互作用

有效的增強(qiáng)子可以位于基因的5’端，也可位于基因的3’端，有的還可位于基因的內(nèi)含子中。可以看到增強(qiáng)子和調(diào)控的基因的關(guān)系相對于啟動子和其調(diào)控的基因要復(fù)雜得多。所以在下周的另一篇有關(guān)染色質(zhì)可接近性的文章中，作者預(yù)測增強(qiáng)子和基因之間的關(guān)聯(lián)時用到了一項技術(shù)——HiChIP。

在這里我們就簡單介紹一下什么是HiChIP：以啟動子和增強(qiáng)子為例，我們已經(jīng)知道他們倆是可以通過轉(zhuǎn)錄因子這個蛋白產(chǎn)生相互作用的，我們用一些試劑將他們這種相互作用在細(xì)胞內(nèi)固定下來，然后將染色質(zhì)打斷，加上特定的接頭，使這些斷裂的末端可以相互連接，然后再用靶向目標(biāo)轉(zhuǎn)錄因子的抗體將他們拉下來，將DNA和蛋白分離，送DNA去測序，我們就可以知道哪些染色質(zhì)之間存在相互作用了。也就是說，知道了增強(qiáng)子和啟動子之間的聯(lián)系，又通過啟動子和靶基因的聯(lián)系，我們就可以知道增強(qiáng)子可以調(diào)節(jié)哪些基因了。

HiChIP的原理圖

什么是基序（motif）

轉(zhuǎn)錄因子在與DNA序列結(jié)合時，其結(jié)合位點的序列是具有一定的特異性的。個人認(rèn)為基序可以理解為不同轉(zhuǎn)錄因子結(jié)合的DNA序列的一個模式。為什么說是一個模式？因為基序并不是特指某一段DNA的具體序列信息。如下圖所示是同一個轉(zhuǎn)錄因子在多個基因上的結(jié)合位點的序列信息：

如果我們要用一段序列來描述以上所有的序列的堿基組成，我們就把這一段序列稱之為一致性序列。既然如此，我們就需要一個統(tǒng)一的規(guī)則來進(jìn)行這個轉(zhuǎn)換。下圖是IUPAC標(biāo)準(zhǔn)的堿基表示法,不同字母對應(yīng)的堿基如下所示：

有了這個規(guī)則，我們就可以將上述例子表示為如下的一致性序列，也就是我們理解的基序（motif）：

什么是染色質(zhì)可接近性

染色體/質(zhì)的結(jié)構(gòu)：真核生物的核DNA并不是裸露的，上面有組蛋白相結(jié)合。DNA一圈一圈地纏繞在組蛋白上，形成串珠式的結(jié)構(gòu)。進(jìn)一步折疊、濃聚，便形成染色體，不具有轉(zhuǎn)錄活性。

染色質(zhì)可接近性：DNA的復(fù)制和轉(zhuǎn)錄，都需要將DNA的高級結(jié)構(gòu)打開。但是并不需要將整個DNA全部打開，只需要打開需要表達(dá)基因的那一部分即可。而這一個過程，主要由染色體組蛋白的修飾來實現(xiàn)的。這部分松散的染色質(zhì)被稱為開放染色質(zhì)（open chromatin）或可接近性染色質(zhì)（accessible chromatin）。染色質(zhì)的可接近性也可以翻譯為可及性或可獲得性。染色質(zhì)一旦打開，就允許一些調(diào)控蛋白（比如轉(zhuǎn)錄因子和輔因子）與之相結(jié)合，并發(fā)揮相應(yīng)的作用。

什么是組蛋白修飾

組蛋白包含五個組分，按照分子量由大到小分別稱為H1、H3、H2A、H2B和H4。 組蛋白修飾是指組蛋白在相關(guān)酶作用下發(fā)生甲基化、乙酰化、磷酸化、腺苷酸化、泛素化、ADP核糖基化等修飾的過程。

我們需要簡單了解以下4點：

H3·H4 的乙?；尚纬梢粋€開放的染色質(zhì)結(jié)構(gòu), 增加基因的表達(dá)；
組蛋白甲基化修飾多發(fā)生在H3、H4，與基因抑制及基因的激活相關(guān)，取決于被修飾的位置和程度；
組蛋白磷酸化修飾一般與基因活化相關(guān)；
組蛋白泛素化修飾則是啟動基因表達(dá)。

研究染色質(zhì)可接近性的測序技術(shù)

在這里，我們主要講解4種相關(guān)的測序技術(shù)： ChIP-seq、DNase-seq、MNase-seq、ATAC-seq。當(dāng)然除了這四種技術(shù)，也還有其他的，感興趣的可以自行了解。

ChIP-seq

ChIP全稱：染色質(zhì)免疫共沉淀（Chromatin immunoprecipitation ，ChIP），seq表示測序。

原理：首先通過染色質(zhì)免疫共沉淀技術(shù)（ChIP）特異性地將目的蛋白及其結(jié)合的DNA片段一起拉下來，并對DNA進(jìn)行純化與文庫構(gòu)建；然后對富集得到的DNA片段進(jìn)行高通量測序。再將獲得的數(shù)百萬條序列精確定位到基因組上，從而獲得全基因組范圍內(nèi)與組蛋白、轉(zhuǎn)錄因子等互作的DNA序列信息。

ChIP的實驗流程：DNA與蛋白質(zhì)交聯(lián)→超聲裂解→免疫沉淀→PCR擴(kuò)增→測序（如下圖所示）

ChIP的分析流程：

(1) 質(zhì)控

(2) 序列比對：將原始的fastq序列文件mapping 到參考基因組上，生成 sam 格式文件（個人理解比對就是知道每條reads在參考基因組的具體位置，即在哪一條染色體的哪個位置）。下圖是使用IGV查看比對的結(jié)果，圖中看到的這些峰就是我們常說的peaks，最后一組是對照組。

IGV查看比對結(jié)果

(3) peak calling：尋找peak出現(xiàn)的位置，而這些位置可能就是我們感興趣的靶蛋白結(jié)合的位點。以下兩張圖顯示的是ChIP peak在TSS位點上的富集情況。

下圖中的0點即為TSS位點，橫坐標(biāo)表示的是基因組的位置（TSS位點上下游3000bp的范圍）。紅色表示富集程度。可以看到這些peaks在TSS位點上顯著富集。

下圖攜帶的信息和上圖是一致的（網(wǎng)上找的圖片，像素不佳，望見諒）。橫軸依然是基因組的位置，中間表示TSS位點，縱軸表示peaks的數(shù)目。可以看到peaks也是在TSS位點上顯著富集的。

(4) peaks注釋：個人理解為尋找ChIP peaks所對應(yīng)的靶基因。

(5) 下游分析：pathway富集分析、尋找motif、結(jié)合其他組學(xué)數(shù)據(jù).

DNase-seq

原理：DNase-seq使用了限制性內(nèi)切酶（DNase I）對樣品進(jìn)行了處理。在染色質(zhì)壓縮區(qū)域，DNA鏈被致密結(jié)構(gòu)很好地保護(hù)起來，使得內(nèi)切酶無法接近，只能切割開放區(qū)域的DNA。同樣的，在開放區(qū)域，纏繞在核小體上的DNA被核小體結(jié)構(gòu)所保護(hù)，只有核小體之間的DNA序列能夠被DNase I切割，這些區(qū)域內(nèi)能夠被DNase切割的位點也被稱為DHS，即DNase超敏感位點。

MNase-seq

這種測序方法和DNase-seq原理類似，但是探測的區(qū)域是互補(bǔ)的。因為MNase-seq使用的酶是限制性外切酶，將不受保護(hù)的區(qū)域統(tǒng)統(tǒng)切除，只留下核小體上纏繞的DNA序列。

以上兩種方法把切割完的DNA拿來測序，和已知的全基因組序列相比較，就能發(fā)現(xiàn)被切掉的是哪些地方，沒有被切掉的地方又在哪里，從而獲知開放的染色質(zhì)區(qū)域。但這兩種方法都需要限制性酶，具有序列的特異性，所以缺點是切割下來的片段都不是完整的開放染色質(zhì)信息。

ATAC-seq

我們需要先理解一個概念：轉(zhuǎn)座是指一段DNA片段從DNA 的一個位點移到另一個位點。通過轉(zhuǎn)座酶來實現(xiàn)，也是需要插入位點的染色質(zhì)是開放的。

原理：ATAC-seq使用改造的Tn5轉(zhuǎn)座酶，將轉(zhuǎn)座DNA（已知DNA序列）設(shè)計為接頭，隨機(jī)插入染色質(zhì)的開放區(qū)域。開放染色質(zhì)都具有轉(zhuǎn)座酶敏感性，所以他可以得到完整的開放染色質(zhì)的區(qū)域。再利用已知序列的標(biāo)簽進(jìn)行PCR后送去測序，就知道哪些區(qū)域是開放染色質(zhì)了。ATAC-seq中的峰，往往是啟動子、增強(qiáng)子序列，以及一些反式調(diào)控因子結(jié)合的位點。

ATAC-seq有一個特點：兩個接頭置換出來的有可能是開放性染色質(zhì)的區(qū)域，也有可能是轉(zhuǎn)錄因子上的DNA序列。這一點從上圖中就可以看出來。所以在ATAC-seq的峰中，既有對應(yīng)開放性染色質(zhì)的，也有對應(yīng)核小體的DNA片段上的。

ATAC-seq的實驗流程：裂解細(xì)胞獲得細(xì)胞核→使用Tn5轉(zhuǎn)座酶酶切并純化，最后回收DNA片段→PCR擴(kuò)增→測序。

ATAC-seq的分析流程：

1、數(shù)據(jù)預(yù)處理

（1）比對前質(zhì)量控制：FastQC可用于在測序數(shù)據(jù)中可視化堿基質(zhì)量得分、GC含量、序列長度分布等。

（2）原始序列比對：將過濾的read比對到參考基因組。

（3）比對后處理和質(zhì)量控制：

比對后處理就是去除重復(fù)序列和細(xì)胞器序列。

通常，成功的ATAC-seq實驗應(yīng)生成片段大小分布圖（從bam文件得到），其具有遞減的和周期性的峰，對應(yīng)于無核小體區(qū)域（NFR）（<100 bp）和單核、雙核和三核小體（~200， 400，600堿基對）。因為大多數(shù)的Linker DNA的大小介于10-80bp之間，所有得到的大多數(shù)片段都會是小于100bp的（前面那段毛毛刺刺的，密度又很高的）。而每個Nucleosome的DNA大小為180bp左右，加上兩邊插入進(jìn)的冗余，我們會得到大約200bp長度是mono-nucleosome的DNA。如果是兩個Nucleosome之間的片段的話，就是400bp左右。依此類推。如下圖是典型的ATAC-seq片段大小分布圖。

無核小體區(qū)域的片段應(yīng)該在基因的轉(zhuǎn)錄起始位點（TSS）周圍富集，而核小體結(jié)合區(qū)域的片段應(yīng)該在TSS處被形成低谷，TSS周圍的側(cè)翼區(qū)域會稍微富集。可以使用工具ATACseqQC進(jìn)行評估。

TSS附近信號的分布也可以用熱圖來顯示。

2、Peak-calling：也就是從比對得到BAM文件中找出reads的覆蓋區(qū)，也就是那個峰出現(xiàn)的位置。

3、高級分析

（1）peak差異分析：尋找不同分組之間的差異peaks

（2）peak注釋：峰的注釋可將染色質(zhì)的可及性與基因調(diào)控聯(lián)系起來。通常，峰會被注釋到最接近的基因或調(diào)控元件。獲得最接近的基因之類的基因列表后，還可以使用GO，KEGG和Reactome等數(shù)據(jù)庫進(jìn)行功能富集分析。

（3）motif富集分析：得到每個peak region里motif的位置和頻率，再和隨機(jī)背景或其它條件比較，就可以做motif的富集分析。

（4）footprint分析：ATAC-seq中的footprint是指一個TF結(jié)合在DNA上，阻止Tn5切割，在染色質(zhì)開放區(qū)域留下一個相對缺失的位置。而TF周圍的組蛋白因為TF造成的空間的推擠反而形成了開放度比較高的區(qū)域。

（5）核小體定位分析：分析核小體的結(jié)合區(qū)域。

ATAC-seq數(shù)據(jù)與多組學(xué)數(shù)據(jù)整合：

ATAC測序+轉(zhuǎn)錄組數(shù)據(jù)

通過聯(lián)合轉(zhuǎn)錄組測序結(jié)果，看ATAC上測到的一些開放性高的DNA序列區(qū)域，是否對應(yīng)的轉(zhuǎn)錄本表達(dá)量也有增加，也可以找到對應(yīng)的轉(zhuǎn)錄本相關(guān)基因的上游調(diào)控序列，從而從整體上分析從DNA到RNA的轉(zhuǎn)錄過程。進(jìn)一步對基因進(jìn)行功能分析，再結(jié)合實驗表型進(jìn)行討論，我們就可以理清楚表觀調(diào)控-表達(dá)-功能-表型這樣一個過程的相關(guān)機(jī)制。