文獻分享-目前關于ATAC-seq分析的現(xiàn)狀

昵稱44608199 2022-05-24 發(fā)布于浙江

展開全文

內(nèi)容目錄

前言背景知識關于ATAC-seq發(fā)展現(xiàn)狀關于染色質(zhì)可及性測序的方法小結MNase-seqDNase-seqFAIRE-seqATAC-seq小結關于Tn5轉座酶原理ChIP-seq中陰性對照的設置pioneer factor關于ATAC-seq數(shù)據(jù)分析shift-extend方法預測peaks的原理第一部分——pre-analysis比對前質(zhì)控比對比對后質(zhì)控小結第二部分——peak calling小結第三部分——高級分析PeaksPeak differential analysisPeak annotationMotifsMotif database and scanMotif enrichment and activity analysisFootprintsDe novo toolsMotif-centric tools對于footprint分析的評價Nucleosome positioning第四部分——多組學數(shù)據(jù)聯(lián)合分析建立調(diào)控網(wǎng)絡結構與ChIP-seq聯(lián)合分析與RNA-seq聯(lián)合分析建立調(diào)控網(wǎng)絡未來展望和總結生信教程補充后記

前言

今天分享一篇文獻，主要介紹ATAC-seq中的一些主要問題。

文獻標題：From reads to insight: a hitchhikers guide to atAC-seq data analysis

文獻地址：https://genomebiology./articles/10.1186/s13059-020-1929-3

下載地址：https://genomebiology./track/pdf/10.1186/s13059-020-1929-3

在閱讀這篇文章的過程中，前面因為我自己跑過流程，所以看起來還是比較輕松，但是到了后面的高級分析部分，就有些難度了，很多之前模模糊糊的地方都要再去查找文獻去找到答案，這里放一個我覺得收獲許多背景知識的中文博士論文：

ATAC-seq數(shù)據(jù)分析軟件開發(fā)及其在肥胖誘導的慢性炎癥研究中的應用，作者：左祖奇

因為在知網(wǎng)可以下載，但是沒有賬號你們可能還是沒法下載，所以我把它也放到了百度網(wǎng)盤里，有需要的在公眾號回復 “ATAC” 拿到我下好的pdf文件吧。

背景知識

關于ATAC-seq發(fā)展現(xiàn)狀

DNA序列包裝成核小體→染色質(zhì)→染色體

因為人體基因組是高度壓縮狀態(tài)，而轉錄和翻譯都是需要在松散結構下的染色質(zhì)情況下才可以進行，所以認為染色質(zhì)的開放程度和基因轉錄密切相關。

關于ATAC-seq的原理，我之前寫過推文介紹：

CHIP-seq 2013年Greenleaf的第一篇文章

不過又來又學到了更多知識，只不過一直沒有補充進入，今天發(fā)現(xiàn)了一個寫的還不錯的推文，在這里推薦給大家去學習相關的基礎知識：

ChIP-seq和ATAC-seq基礎知識（視頻）

近些年來ATAC-seq技術的發(fā)展非常的迅速，從2013年greenleaf發(fā)表的第一篇關于ATAC-seq的文章后，這項技術迅速得到大家的喜愛：

包括在去年，greenleaf與10xGenomics公司和做，開發(fā)了10XscATAC-seq的測序方法，各種新技術層出不窮。

但是針對ATAC-seq的數(shù)據(jù)分析工具不多，因為ChIP-seq數(shù)據(jù)和ATAC-seq數(shù)據(jù)的相似性，目前主要使用的都是以前開發(fā)用于ChIP-seq的工具，默認為這兩種數(shù)據(jù)分布結構是相似的，但是并沒有人真正系統(tǒng)地去評估這兩種數(shù)據(jù)分布。

今天分享的這篇綜述主要是介紹在ATAC-seq分析過程中的一些思路和套路流程。主要包括4個方面：

pre-analysis：質(zhì)控和比對
peak calling
高級分析：例如peak的注釋，找motif，找核小體，找TF的印記（footprints）等方面
多組學數(shù)據(jù)聯(lián)合分析

關于染色質(zhì)可及性測序的方法小結

目前用于研究染色質(zhì)可及性的方法主要有以下四種：MNase-seq、DNase-seq、FAIRE-seq和ATAC-seq：MNase-seq是通過對核小體保護的DNA片段測序，從而間接反映染色質(zhì)可及性的方法，其他三種均為對檢測染色質(zhì)上的開放區(qū)域測序，直接反映染色質(zhì)的可及性。

MNase-seq

微球菌核酸酶（ Micrococcal nuclease， MNase）是來源于金黃色葡萄球菌分泌的一種核酸酶，同時具備核酸內(nèi)切酶和外切酶的活性。MNase優(yōu)先對裸露的DNA或核小體之間起連接作用的DNA進行切割和消化。所以這種方法一般用于檢測開放區(qū)域。

標準的 MNase-seq的流程主要用于對核小體片段（~150bp）或更長的片段進行測序。

DNase-seq

脫氧核糖核酸酶I（ DNase I）是由人的基因 DNASEI編碼的核酸內(nèi)切酶，可以非特異性的對雙鏈DNA進行切割。但是沒有外切酶活性。
在基因組學和染色質(zhì)的研究中DNase I敏感的位點被認為是開放的，可接近的染色質(zhì)的特征。低濃度的 DNase i對基因組上非核小體占據(jù)的的開放區(qū)域進行切割，這些區(qū)域被稱為DNase I敏感位點（ DNase I hypersensitive sites，DHSs）。
DNase-seq目前已成為檢測染色質(zhì)可及性的“金標準”。
DHSs中序列特異性的轉錄因子的結合也會阻止 DNase I對DNA的切割，從而可以在單個堿基水平觀察到轉錄因子的占據(jù)情況，即轉錄因子的印跡分析（footprint）。轉錄因子的印跡分析已被用于發(fā)掘人類細胞中細胞特異性的轉錄因子結合的“基序”（motif），并揭示了轉錄因子結合與染色質(zhì)結構、基因表達和細胞分化的相關性。

FAIRE-seq

甲醛輔助的調(diào)控元件的分離（ Formaldehyde-Assisted Isolation of Regulatory Elements，F(xiàn)ARE）是一種直接檢測無核小體占據(jù)的DNA序列的方法。其原理是，纏繞有DNA的核小體和無核小體結合的DNA，在苯酚和氯仿中的溶解度不同，因而在苯酚和氯仿形成的兩相液體中呈現(xiàn)差異分布：纏繞有DNA的核小體分布于兩相界面處，而無核小體結合的DNA分布于親水相中。
具體的實驗流程包括：

使用甲醛對染色質(zhì)進行交聯(lián)以便鞏固蛋白質(zhì)-DNA的結合。
通過超聲處理，打斷染色質(zhì)，形成DNA片段或者DNA-核小體復合物。
通過苯酚-氯仿抽提純化無核小體結合的DNA片段。
建庫測序

FAIRE直接富集了活化染色質(zhì)的區(qū)域，同時無核小體占據(jù)的區(qū)域并沒有被酶解。

ATAC-seq

該方法已被用于真核生物細胞全基因組范圍內(nèi)的：

開放染色體區(qū)域檢測
核小體位置確定
轉錄因子的印跡描繪

ATAC-seq建庫過程簡單快捷，只需要兩步操作，同時僅需要較少的細胞數(shù)目，而且可以在很高的分辨率下揭示染色質(zhì)的結構。
ATAC-seq僅僅使用500到50000個細胞就可以實現(xiàn)與 DNase-seq使用百萬數(shù)量級的細胞才能達到的靈敏度和特異性。
ATAC-seq目前亟待解決的問題是對測序數(shù)據(jù)分析，原有的分析方法不適用于ATAC-seq的數(shù)據(jù)分析或僅可以有限度的使用。

小結

關于Tn5轉座酶原理

http://www./sub/showarticle.asp?newsid=72268

Tn5轉座子是一種細菌轉座子，最早由E. coli中發(fā)現(xiàn)，是一段含有若干抗性基因和編碼轉座酶基因的DNA片段。

其中IS50R和IS50L的序列高度同源，只是IS50L的一個堿基存在突變。

IS50具有19bp的倒置末端（外末端outside end，OE和內(nèi)末端inside end，IE），兩末端倒置有7個堿基不同。此倒置末端是轉座酶（Tnp）的作用位點。

IS50L和IS50R均含有編碼轉座酶（TnP）以及轉座阻遏蛋白（lnh）的基因，但由于IS50L中的堿基突變，造成翻譯提前終止，所以僅有IS50R可以產(chǎn)生正常的有活性的TnP和lnh。

兩個轉座酶（Tnp）分子結合到Tn5轉座子的OE末端，形成兩個Tnp-OE復合體，隨后兩個復合體通過Tnp的C末端相互作用進行聯(lián)會，形成一個Tn5轉座復合體，此時Tnp產(chǎn)生切割DNA的活性。

隨后Tnp利用切割活性，經(jīng)過一系列化學反應切除供體DNA，離開供體鏈。

結合到靶DNA上時，Tn5轉座復合體識別并攻擊靶序列（Target site），將轉座子插入到靶序列中，粘性末端通過DNA聚合酶、連接酶作用進行填補，兩端形成9bp正向重復序列。整個轉座過程完成了基因從原始DNA被剪切之后粘貼在另一受體DNA的過程，實現(xiàn)了基因的“跳躍”。

（解釋1）

（解釋2）

根據(jù)之前的報道，Tn5轉座酶以同源二聚體的形式結合到DNA上，在兩個Tn5分子間隔著9-bp的DNA序列。根據(jù)這個情況，每個Tn5同源二聚體的結合事件會產(chǎn)生2個「Insertions」，中間隔著9bp。因此，真實的"開放"位置的中心在Tn5二聚體的正中間，而不是Tn5的插入位置。為了盡可能的還原真實情況，我們對Tn5的「Insertions」進行了校正，即正鏈的插入結果往右移動4bp(+4 bp), 負鏈的插入結果往左偏移5bp(-5 bp)。

ChIP-seq中陰性對照的設置

推薦看一篇推文：

ChIP-seq的實驗對照與偏差來源

簡單歸納后要點如下：

為什么需要設置陰性對照：

因為超聲破碎過程中DNA的斷裂不均一，尤其是一些開放染色質(zhì)區(qū)域在超聲樣本中優(yōu)先累積，未經(jīng)過IP的樣本超聲破碎后會產(chǎn)生數(shù)量不小的peaks。
可以有去除背景噪音的作用（排除因本身表達水平高或一些非特異性結合所造成的假陽性peaks）。
還可以根據(jù)Input中的靶序列的含量以及染色質(zhì)沉淀中的靶序列的含量，按照取樣比例換算出ChIP的效率（如果用同一引物進行PCR，ChIP組和input組亮度差不多，說明ChIP效率高，樣本中所有的目的基因片段都被ChIP下來了）。

如何設置對照：

input對照：少了加抗體的步驟，在交聯(lián)和超聲裂解后，并沒有加入抗體，跳過了免疫沉淀過程，直接將這些DNA進行測序。
Mock-ip對照：使用與目標蛋白無關的非目標抗體（IgG或者標簽）進行“模擬”的IP，為了防止抗體的非特異性結合。

pioneer factor

pioneer factor，先驅轉錄因子，是一種特殊的TF，可以結合在核小體DNA上，直接介導染色質(zhì)可及性的改變。

關于ATAC-seq數(shù)據(jù)分析

有幾點是我之前沒有太注意到的，這里標注下。

ATAC-seq數(shù)據(jù)中包括了開放染色體區(qū)域檢測（call peaks），核小體位置的檢測以及轉錄因子的印跡（footprints）的分析。
由于真核細胞的轉錄起始位點被報道處于開放狀態(tài)，因而可將TSS信號的強度作為檢測 DNase-seq和ATAC-seq信噪比的標準，同時，在全基因組范圍內(nèi)，DNase-seq和ATAC-seq的所獲得的片段長度分布，應可以見明顯的核小體占據(jù)“峰”。
由于其建庫過程中，可能引入線粒體DNA，因此需要檢測其中線粒體DNA的比例。
染色質(zhì)可及性分析的首要目的是尋找到基因組上的開放區(qū)域。所謂信號峰搜尋（call peaks），就是在全基因組范圍內(nèi)找出測序讀長累積形成的脈沖峰的位置及信號強度。這些峰的位置代表了基因組上的開放區(qū)域，峰的髙度或面積代表了該區(qū)域的開放程度。同時，由于這些區(qū)域與基因的表達調(diào)控密切相關，他們與各自附近的基因在基因組上的位置關系和功能注釋也值得關注。
信號峰的搜尋一般會產(chǎn)生存儲有信號峰位置信息的BED格式的文件。對信峰上信號強度統(tǒng)計，可以獲得每個開放區(qū)域的可及性。在具體的生物學比較分析中，研究者可通過比較不同組別之間信號峰的強度差異，或對差異信號進行聚類分析，篩選出感興趣的開放區(qū)域。
染色質(zhì)上的開放位點意味著沒有核小體的占據(jù)，這些區(qū)域里往往包含大量的轉錄因子結合位點。轉錄因子與DNA的結合，也對結合區(qū)域提供了保護，避免了被 DNase或Tn5酶的剪切。轉錄因子在DNA上的結合區(qū)域很短，一般為8-30bp長，相比于結合區(qū)域周圍，轉錄因子結合區(qū)域酶切的信號強度往往更弱，統(tǒng)計結合區(qū)域及附近區(qū)域遂個堿基上的酶切信號強度可以看到結合區(qū)域呈現(xiàn)明顯的凹陷，該凹陷指示該轉錄因子在該區(qū)域的確發(fā)生了結合。染色質(zhì)可及性分析的目的之一就是找到在開放區(qū)域上富集有哪些轉錄因子的結合位點，以及描述這些位點上轉錄因子的結合情況。
根據(jù)算法的不同，轉錄因子富集分析的方法主要有兩大類：

一類是根據(jù)已知的轉錄因子在基因組上結合位點的偏好位點信息，在提供的DNA序列上進行比對，進而獲得轉錄因子的富集情況，這類分析只能找到已知的轉錄因子
一類是對提供的DNA序列進行 de novo分析，這類分析有可能發(fā)現(xiàn)新的轉錄因子結合區(qū)域

對已知轉錄因子的搜尋，依賴于已知的轉錄因子結合的位點信息，這些住息來源于前人對轉錄因子所做的ChP-seq分析，且往往以位置權重矩陣position weight matrices，pwMs）的形式存儲。專門存儲轉錄因子PwMS的數(shù)據(jù)庫主要有 MatBase， JASPAR， TRANSFAC和 UniPROBE。

shift-extend方法預測peaks的原理

文中提到了一個shift-extend方法來預測peaks，于是我找了很多資料，最后終于找到了一個不錯的解釋：

ChIP-seq 分析------原理：https://www.jianshu.com/p/dc493cb7b1b3

對于一個DNA序列來說（有正負鏈的），它mapping的位置正負鏈都有的，對這些reads位置進行統(tǒng)計畫圖可以看到一個紅色的peak，一個藍色的peak。這兩個peak說明的是一個事情，就是這個地方有富集。最后對這兩個peak進行merge，最后變成了一個富集區(qū)域。灰色的peak!

所謂的shift-extend，就是把PE測序片段進行延伸，然后這樣就可以直接得到灰色的覆蓋區(qū)域最多，peaks也就最高了。

通過看圖示，發(fā)現(xiàn)具體過程如下：

先將片段向外移動s個單位，然后再向內(nèi)延伸2s個單位。

第一部分——pre-analysis

比對前質(zhì)控

這個是所有測序技術都需要進行的QC流程，主要是看看接頭有沒有去除干凈，GC比例是否合格，測序質(zhì)量情況如何等等，可以使用linux平臺的工具如：FastQC

測序文件在5'開始時和3'端結束前，測序質(zhì)量可能會有一個大幅降低，這個是可以接受的，原因和測序中酶活性以及機器設計原理相關。

比對

一般在我們運行完去除接頭這些比對前質(zhì)控操作后，一般會再運行一次FastQC來查看質(zhì)控效果。

然后就對通過質(zhì)控fastq文件進行mapping。一般使用BWA或者Bowtie2工具。

對于比對完成的bam文件我們可以使用samtools或者經(jīng)典的Picard工具來分析下比對后的情況，文獻這里建議：

unique mapping rate > 80% 屬于合格，會比較好。
對于哺乳動物來說，ATAC-seq結果中應該至少檢測到 50 million的reads用于分析開放區(qū)和做差異分析。找到200 million的reads用于分析TF 的footprints

比對后質(zhì)控

做完比對后，我們?nèi)匀恍枰鲑|(zhì)控，從unique mapping reads/rates，duplicated read percentages，fragment size distribution等等方面去評估。

如果遇到下面的情況，則reads需要被去除：

測序數(shù)據(jù)質(zhì)量太差
PE測序中無法找到overlap區(qū)域
線粒體基因（因為線粒體基因都是可接近的，所以ATAC-seq數(shù)據(jù)中會有較多線粒體的序列，這部分需要需要我們?nèi)コ?/span>
ENCODE數(shù)據(jù)庫中記錄的需要被去除的區(qū)域
PCR重復序列

上述的質(zhì)控可以提高數(shù)據(jù)的準確性，降低假陽性率。

但是，上述的可能并不是ATAC-seq質(zhì)控的特異指標，因為我們在做RNA-seq或者ChIP-seq數(shù)據(jù)分析中也會做這些質(zhì)控，下面有幾個ATAC-seq質(zhì)控的特異指標：

片段長度分布圖如下：

這個圖如何看可以看我之前寫的推文：

CHIP-seq 2013年Greenleaf的第一篇文章

對于nucleosome-free regions（NFR）片段 < 100 bp，這些片段理論上是富集在不同基因的TSS區(qū)域的。
對于核小體結合區(qū)域片段，在TSS區(qū)域應該存在一個低谷，而在TSS兩側翼區(qū)則應該存在富集現(xiàn)象。

如下：

上述這種評估可以使用ATACseqQC工具進行評估。

還有一個比較容易忽視的細節(jié)，也是比較重要的，根據(jù)一個朋友的經(jīng)驗，他提醒我關于reads需要移動的一個tips——"+4和-5"規(guī)則：

正鏈+4bp
負鏈-5bp

小結

作者提供了他們自己分析所使用到的工具pipeline：

FastQC? trimmomatic?BWA-MEM?ATACseqQC

第二部分——peak calling

目前存在的一些用于peak calling的工具以及他們背后用到的統(tǒng)計學分布總結：

一般call peaks都是使用MACS2工具，在ENCODE官網(wǎng)上的ATAC-seq的pipeline上也推薦使用MACS2來call peaks。
目前存在的call peaks工具99%都是和ChIP-seq分析混用的，只有一個工具是專門針對ATAC-seq數(shù)據(jù)而開發(fā)的——HMMRATAC。
我們知道，在做ChIP-seq時，需要有正常input control對照。但是在ATAC-seq中一般不設置input control對照。
對于ATAC-seq的PE數(shù)據(jù)，在經(jīng)過比對后，得到的范圍涉及到了NFR和核小體結合區(qū)：

而對于所謂的開放區(qū)，其實是來自NFR區(qū)域的比對結果的，或者使用一種生信方法——shift-extend。

目前call peaks的工具大致分為2大類：①基于計數(shù) ②基于分析形狀
基于計數(shù)的call peaks使用不同的統(tǒng)計方法來比較某個特定區(qū)域內(nèi)的reads分布和隨機情況下的reads分布形狀。如MACS2、HOMER、SICER/epic2都是假設是泊松分布；而ZINBA則假定是零膨脹負二項分布；等等。
因為F-seq和ZINBA 并不是經(jīng)常有人維護，所以作者不建議使用。
總的來說，基于計數(shù)的call peaks使用更多，更容易解釋。
基于分析形狀的call peaks不常使用。
HMMRATAC是唯一一個專門針對ATAC-seq的call peaks工具。優(yōu)點在于：結果比MACS2和Fseq等工具找到更好，并且可以同時提供給我們核小體的位置信息。缺點在于：計算量非常大，用到很多機器學習方面的算法，如三態(tài)半監(jiān)督隱馬爾可夫模型（一聽就很厲害，讓人不想去看，哈哈哈哈哈哈）
關于實驗中的設置生物學重復問題：設置生物學重復可以減低假陽性，同時提高可重復性。大多數(shù)工具在使用時都可以通過參數(shù)設置處理生物學重復。
放一個真實數(shù)據(jù)的ATAC-seq圖：

分成3大部分：HMM based工具、count-based工具以及shape-based工具。

RUNX1 motif track：是從JASPAR公共數(shù)據(jù)庫里得到的RUNX1 footprint結果

K562 ChIP-seq track ：是從ENCODE公共數(shù)據(jù)庫里得到的RUNX1的ChIP-seq結果。（相當于是一個標準答案，因為是直接用ChIP拉下來的片段）

count-based工具之間結果相似，但是和shape-based工具之間結果有出入。
這些數(shù)據(jù)證明，可以通過peaks的結果找到已知轉錄因子的motifs。反過來，也說明這些轉錄因子與染色質(zhì)的可及性密切相關。

小結

目前沒有工作去比較ATAC-seq中peak calling的表現(xiàn)性能，作者推薦使用MACS2和HOMER這種工具來peak calling，如果服務器足夠強大，就推薦使用HMMRATAC去call peaks。

第三部分——高級分析

Peaks

Peak differential analysis

目前存在的一些Peak differential analysis的工具總結：

目前沒有專門針對ATAC-seq數(shù)據(jù)找差異peaks的工具。
目前存在的工具一般分成2種：

consensus peak-based工具：如HOMER，DBChIP，DiffBind。他們內(nèi)部其實主要依賴于差異基因分析的統(tǒng)計學原理，例如我們常用的edgeR、DESeq2等。我們很清楚這些工具的前提是他們假設數(shù)據(jù)分布是負二項分布（NB）。

consensus peak是指：不同生物學樣本重復得到的peaks進行合并后，找到的一些所有重復樣本中都存在的peaks。這樣可以減少假陽性結果。HOMER默認會用將所有樣本的peaks混合pool在一起后算出consensus peak。而DBChIP，DiffBind則通過在不同樣本之間取交集來得到consensus peak。

Sliding window-based工具：使用這種方法的話，無須去生成consensus peak，他們會評估所有全基因組上每個bin區(qū)域，這樣當然會有更多的假陽性情況，于是需要做FDR進行校正p值。
獨立工具有：PePr和DiffReps，他們使用負二項分布檢驗、G檢驗或卡方檢驗。ChIPDiff則應用HMM去計算2個臨近窗口的相關性。
還有些工具，如csaw，則是依賴于其他的DE分析的R包edgeR。

Sliding window-based工具因為是對整個基因組范圍進行分析，所以是一種unbiased的方法，但是這也提示，使用這種方法進行分析時，需要一個很嚴格的過濾標準！

目前絕大多數(shù)的研究都證實ATAC-seq數(shù)據(jù)中reads的分布符合泊松分布，這和RNA-seq數(shù)據(jù)的分布是一致的。
shape-based的差異peaks分析工具沒有專門針對ATAC-seq數(shù)據(jù)的，但是因為shape-based的方法可以用到同一個數(shù)據(jù)的2個維度——reads+分布形狀，所以作者認為這種方法應該會給我們提供更多的信息。并且作者推薦使用csaw，因為這個工具核心是依賴于edgeR，這樣結果更好解釋。

Peak annotation

使用工具：HOMER，ChIPseeker和ChIPpeakAnno使用最多。
一般對于peaks的注釋，都是找離peaks距離最近的gene（內(nèi)含子或外顯子）或者調(diào)節(jié)元件（promoter，5′ UTR，3′ UTR等）。

簡單來說，就是exon與intron是互斥的，exon包含UTR和CDS。具體的關系可以看我之前分析CCDS文件的系列過程：

探索hg19中基因exon坐標問題

再次探索hg19中基因exon坐標問題

探索CCDS文件

一般來說生信分析的軟件，對于peaks注釋后的可視化展示最經(jīng)典的如下餅圖：

代碼的話其實直接用Y叔的R包就可以了，非常的簡單，有空了把相關畫圖代碼找找放上來吧~

得到這些注釋結果后，可以通過GO/KEGG/Reactome等數(shù)據(jù)庫進行富集分析，其實代碼也非常的簡單。日后用到再整理吧~

Motifs

所謂的Motifs就是那些可以結合TF的DNA序列，而TF結合的位置稱為TFBS（TF binding sites）。TF如果想要對轉錄進行調(diào)控，就必須和DNA上的順式作用元件結合，而TF結合的前提通常來說是這段DNA序列是可接近的，也就是ATAC-seq中可以測到。不過也有少數(shù)TF可以和那些非開放區(qū)域進行結合。
TF調(diào)節(jié)轉錄的機制：1）競爭組蛋?或?組蛋?；2）co-factor互作

具體介紹TF調(diào)節(jié)轉錄機制的綜述推薦：

文章地址：https://www./articles/s41576-018-0089-8

下載地址：https://www./articles/s41576-018-0089-8.pdf

Motif database and scan

和其他的生信分析思路類似，想要探索Motifs的信息，我們需要先有一個Motifs的數(shù)據(jù)庫，例如：

JASPAR（包括多個物種，可以通過API進行訪問、存在Bioconductor的R包）
CIS-BP和TRANSFAC（真核生物）
HOCOMOCO（人和鼠的數(shù)據(jù)）
RegulonDB（大腸桿菌數(shù)據(jù)庫）

HOMER（Linux）以及Bioconductor上的一些R包（TFBSTools和motifmatchr）都可以通過檢索給定的DNA序列來判斷TFBSs。
PWMScan可以直接在線使用，需要提供bowtie index后的文件。
MEME工具（之前使用過）包括幾個組件組成，其中：

FIMO去搜索Motif
MAST合并多個Motif
MCAST推斷調(diào)節(jié)模塊

推薦使用的工具——MEME和PWMScan

Motif enrichment and activity analysis

前面的工具，找到了Motif的位置和發(fā)生頻率，接下來就看這些Motif在peaks里的頻率了。HOMER用到的統(tǒng)計學原理是超幾何檢驗，這個比較好理解，不懂的可以去看我之前寫過關于超幾何檢驗的推文。MEME-AME則用到的是秩和檢驗 。DAStk通過計算MD分數(shù)來判斷。當然還有更多其他的方法，不過這些方法都是通過應用不同的統(tǒng)計學方法來比較Motif在peaks中的頻率，從而得到真正的Motif吧。
通過計數(shù)fragments的讀數(shù)，可以得到TFBS的可及性，這個和TF的活性相關。而ChromVAR工具就是針對scATAC-seq數(shù)據(jù)而設計的，但是是否可以應用于bulk ATAC-seq數(shù)據(jù)目前沒有研究。DiffTF則針對所有TFBS計算一個可及性改變FC
這里提到的所有工具都是用來間接預測peaks區(qū)域內(nèi)的TFBSs。但是這里找到的TFBSs可能有一些是錯誤的。因為目前并不是所有的TF都有明確的Motif序列，而且，來自相同家族的TF可以有共同的Motif結合序列。

Footprints

我們解析TF調(diào)節(jié)也可以用Footprints。所謂的Footprints是指：激活的TF結合的DNA序列，這段序列因為和TF結合而不受Tn5酶切處理。
使用Footprints進行分析存在的幾個要點：

前面提到關于read的移動，需要正鏈的插入結果往右移動4bp(+4 bp), 負鏈的插入結果往左偏移5bp(-5 bp)。
因為Tn5酶具有偏好性，所以對于一些短暫結合的TF，F(xiàn)ootprints的檢測存在困難。在過去用DNase-seq時這種困難也存在。

分析Footprints的工具主要分成2大類：

de novo：根據(jù)Footprints的典型特征，預測所有peaks區(qū)域的Footprints，得到的結果和已知的Motif去做匹配，少數(shù)無法匹配到的則為新發(fā)現(xiàn)的Motif。
motif-centric：需要我們提供一個TFBSs的信息文件，并通過機器學習的思想去區(qū)分這些屬于結合狀態(tài)和非結合狀態(tài)。

De novo tools

這種方法的一個重點在于要用數(shù)學方法上去定義什么是一個footprint，并且盡量降低由于Tn5酶切偏好性引起的footprint噪音。
這里列舉HINT-ATAC工具，使用隱馬爾科夫模型（HMM），同時矯正了Tn5酶切偏好性：

HINT-ATAC找到的footprint，同樣在K562細胞系中，用RUNX1的ChIP-seq結果中得到了驗證。

對于使用HMM的工具，本質(zhì)上都是需要監(jiān)督學習的，所以也就是說，需要我們手動去注釋一些基因區(qū)域，因此這類工具在更大范圍內(nèi)的使用問題仍需測評。

Motif-centric tools

利用非監(jiān)督學習的方法進行聚類，基于一系列參數(shù)如：距離TSS距離，PWM分數(shù)，reads分布，reads數(shù)目等等將可能的TFBSs分成結合狀態(tài)和非結合狀態(tài)。CENTIPEDE工具對于參數(shù)的變化比較敏感；msCentipde可以提高低深度和低質(zhì)量數(shù)據(jù)的表現(xiàn)；PIQ在有生物重復的情況下可以提高結果的魯棒性。
利用監(jiān)督學習的方法進行聚類，基于高質(zhì)量的ChIP-seq數(shù)據(jù)來注釋真正的TFBSs。MILLIPEDE和BinDNase使用邏輯回歸，DeFCoM使用支持向量機SVM，BPAC使用隨機森林進行鑒定。

對于footprint分析的評價

一般來說，監(jiān)督學習工具會比非監(jiān)督學習工具和de novo工具效果更好，但是其通用性就稍遜一籌。
偏差校正在DNase-seq和ATAC-seq足跡檢測中都很重要。
能夠有效實現(xiàn)足跡分析的ATAC-seq最小測序深度是多少，目前沒有標準。雖然建議每個樣品read數(shù)超過2億，但有報道稱DeFCoM對于更少的測序read數(shù)也能有不粗的表現(xiàn)。
對于低質(zhì)量和之前未報道過的motif，de novo方法仍然具有優(yōu)勢。
作者認為HINT-ATAC可以是一個不錯的選擇，因為它具有ATAC-seq特異性的偏好校正。
同樣的，研究人員可以結合多種工具的結果來獲得高度可靠的足跡。

Nucleosome positioning

在ATAC-seq數(shù)據(jù)中，較長的reads片段對應著開放區(qū)中纏繞核小體的DNA片段。有許多工具用來分析檢測這些纏繞核小體的DNA序列，但是根據(jù)研究證明，由于ATAC-seq數(shù)據(jù)中這些區(qū)域的覆蓋深度較淺，所以相比與MNase-seq數(shù)據(jù)來說，分析更加困難。
針對MNase-seq開發(fā)的軟件如DANPOS2，PuFFIN，INPS，和NucTools，可以在ATAC-seq數(shù)據(jù)過濾得到核小體相關片段后使用，而NucleoATAC和HMMRATAC是專為ATAC-seq開發(fā)的。
所有這些工具都具有典型ATAC-seq實驗的相同潛在缺點，即染色質(zhì)開放區(qū)之外的覆蓋率較低。期待未來開發(fā)用于ATAC-seq的生物信息學方法，以更有效和精確地捕獲核小體的占位。目前作者認為HMMRATAC和NucleoATAC是用于ATAC-seq核小體檢測的兩個有用且特異性的工具。

第四部分——多組學數(shù)據(jù)聯(lián)合分析建立調(diào)控網(wǎng)絡結構

與ChIP-seq聯(lián)合分析

由于開放染色質(zhì)是大多數(shù)TF結合的前提條件，但是不是所有開放染色質(zhì)都有TF的結合，因此ATAC-seq峰通常與TF ChIP-seq峰重疊，但通常更寬。聯(lián)合TF ChIP-seq和ATAC-seq可以相互驗證彼此的質(zhì)量和可靠性。
ChIP-seq中存在TF的峰，而在ATAC-seq中不存在，可能指示了先驅轉錄因子（pioneer factor），它結合到封閉染色質(zhì)，然后招募染色質(zhì)重塑因子或其他轉錄因子并起始轉錄。
ATAC-seq也可以與標記組蛋白修飾的ChIP-seq聯(lián)合分析，驗證與活躍染色質(zhì)標記（如H3K4me3的，H3K4me1，H3K27ac等）正相關，與不活躍的染色質(zhì)標記（如H3K27me3）負相關。
由于ATAC-seq實驗方法的\簡便性和樣品需求較少，因此可以在做ChIP-seq實驗之前，把ATAC-seq當成一種預實驗。

與RNA-seq聯(lián)合分析

我們可以驗證差異基因在各自的TSS周圍是否也具有明顯的染色質(zhì)可及性差異，從而從染色質(zhì)可及性的角度驗證自己的理論假說。
可以推定差異基因受到開放染色質(zhì)中特定TF的調(diào)控。

建立調(diào)控網(wǎng)絡

關于增強子的作用機理：

可以看到，啟動子promoter一般在target gene的上游，而Enhancer的話可以在gene的上/下游，或者在更遠的位置。發(fā)揮作用時，只需增強子和TF結合后，通過增強TF的活性，促進Promoter的轉錄活性。

增強子在線性基因組中可能非常遙遠，但在空間上接近其目標基因。這導致增強子的直接靶基因難以預測，因為很多研究都是直接把遠端增強子聯(lián)系到最近的基因上，而非真正的target gene。
對于scATAC-seq，Pliner等人推出了Cicero，可將增強子和啟動子聯(lián)系到同一靶基因。盡管已證明Cicero可以用于scATAC-seq，但是沒有證據(jù)證明Cicero否適用于樣本量小的bulk ATAC-seq數(shù)據(jù)。

未來展望和總結

ATAC-seq近年來發(fā)展迅速，在實驗protocol取得了較大的進展，但生物信息學分析工具的進展緩慢，沒有成熟的分析pipeline。
在整個分析過程中，比對到參考基因組和質(zhì)控步驟與RNA-seq和ChIP-seq中類似。至于call peak，大多數(shù)ChIP-seq的工具都與ATAC-seq數(shù)據(jù)兼容，ATAC-seq特異性的call peak工具較少。
對于下游分析，peak差異分析可以概述染色質(zhì)可及性的變化。為了推斷生物學功能和相關的TF，peak注釋和motif富集分析是初步了解的首選。
motif和footprint分別是調(diào)控事件的直接和間接指標。檢測footprint的困難來自酶切偏倚和TF結合DNA時間短引起的信號微弱。
由于ATAC-seq數(shù)據(jù)固有的弱點（峰以外的區(qū)域read覆蓋率很低），核小體檢測仍然很困難。
作者建議的分析流程：