生信人工具盒目前已經(jīng)升級(jí),原來(lái)的工具盒已經(jīng)不能連接到生信人服務(wù)器,因此已經(jīng)不能進(jìn)行正常使用。 下載新提供的生信人工具盒,由于后續(xù)差異分析時(shí)需要用到DECenter,該工具的使用需要在工具盒中內(nèi)置R語(yǔ)言,因此,需要單獨(dú)另外下載R語(yǔ)言,并導(dǎo)入至生信人工具盒。 生信人工具盒的安裝與之前的要求相同,需要放置于全英文路徑中,進(jìn)入后點(diǎn)擊升級(jí),進(jìn)入升級(jí)欄目中導(dǎo)入Rscrpit。 1、Rscript安裝及導(dǎo)入 可以直接導(dǎo)入之前電腦中已安裝的Rscript,也可以重新安裝。 Rscript插入路徑為:所安裝的R語(yǔ)言包路徑,R語(yǔ)言包中bin文件夾下的Rscript.exe。比如E:\R\R-3.5.0\bin。 2、在主界面中安裝小工具 點(diǎn)擊小工具下方的啟動(dòng)軟件,就可以安裝所需的小工具,并且會(huì)同時(shí)打開(kāi)。為了避免網(wǎng)速問(wèn)題導(dǎo)致拖延后續(xù)分析時(shí)間,建議先將所需工具打開(kāi)一次,安裝好小工具。 安裝好了以后進(jìn)行TCGA數(shù)據(jù)下載及差異分析。 ● 首先是TCGA數(shù)據(jù)的下載 ● 接著下載數(shù)據(jù)選擇及合并 ● 數(shù)據(jù)標(biāo)準(zhǔn)化處理:【啟動(dòng)軟件】-【選擇矩陣】-【TPM】-【轉(zhuǎn)換并導(dǎo)出】 ● 數(shù)據(jù)ID轉(zhuǎn)換 ● 準(zhǔn)備分組文件 在使用生信人工具盒做TCGA差異分析時(shí),需要自己手動(dòng)準(zhǔn)備分組文件。 ● 根據(jù)TCGA編號(hào)判斷樣本類型 TCGA的樣本編號(hào)有自己的一個(gè)特征,例如在本例中樣本編號(hào)方式為:TCGA-3T-AA9L-01。 在這個(gè)編號(hào)中,TCGA表示該數(shù)據(jù)來(lái)源于TCGA數(shù)據(jù)庫(kù),TCGA數(shù)據(jù)庫(kù)中的所有樣本均以TCGA為開(kāi)頭,3T表示組織來(lái)源編碼,不同的字母和數(shù)字表示不同的組織來(lái)源; 比如3T表示該組織來(lái)自于Emory University(https://gdc./resources-tcga-users/tcga-code-tables/tissue-source-site-codes),AA9L則表示該樣本來(lái)源的參與者編號(hào)。 最關(guān)鍵的是第四位的數(shù)字,它表示樣本類型,在TCGA中,01-09編號(hào)表示腫瘤,10-19表示正常對(duì)照(https://gdc./resources-tcga-users/tcga-code-tables/sample-type-codes),在TCGA樣本名中,這個(gè)位置最常見(jiàn)的就是01和11。 因此,通過(guò)對(duì)TCGA樣本命名編號(hào),可以對(duì)每個(gè)樣本的類型進(jìn)行判斷。 ● 接著對(duì)樣本進(jìn)行分類 如果對(duì)每一個(gè)樣本編號(hào)進(jìn)行查看,然后進(jìn)行分組,工作量會(huì)非常大。利用Excel自帶的篩選工具,可以快速的篩查出編號(hào)為01或編號(hào)為11的樣本。 ● 差異基因分析 logFC下的負(fù)數(shù)表示該基因在腫瘤組中低表達(dá),正數(shù)表示該基因在腫瘤組中高表達(dá)。 ● 差異基因熱圖,火山圖等 獲得差異基因數(shù)據(jù)后,就可以相應(yīng)的繪制火山圖,熱圖等。具體操作步驟和之前分享過(guò)的利用工具盒對(duì)GEO數(shù)據(jù)差異分析中的方法一致。 注意事項(xiàng)及難點(diǎn): ● 生信人工具盒需要升級(jí),并且升級(jí)后不能直接利用工具盒下載Rscript,因?yàn)楣ぞ吆心壳斑€不能自動(dòng)識(shí)別所下載的Rscript目錄,因此需要手動(dòng)下載并導(dǎo)入。 ● 下載TCGA數(shù)據(jù)時(shí),需要注意選擇數(shù)據(jù)類型,目前生信人工具盒對(duì)數(shù)據(jù)類型分成了轉(zhuǎn)錄組數(shù)據(jù),甲基化數(shù)據(jù)等,在轉(zhuǎn)錄組數(shù)據(jù)中,不同的數(shù)據(jù)類型,進(jìn)行差異分析時(shí)選擇的方法是不同的。 ● 數(shù)據(jù)下載時(shí)要同時(shí)選擇癌旁組織和癌組織,并且要注意,在所選擇的腫瘤中,包含有癌胖組織的數(shù)據(jù)。 ● 在進(jìn)行ID轉(zhuǎn)換時(shí),注意TCGA轉(zhuǎn)換方式中的選擇,下載的數(shù)據(jù)為HTSeq-FPKM時(shí),選擇編碼基因或長(zhǎng)非編碼基因,下載的數(shù)據(jù)為miRNA profiling。isoform數(shù)據(jù)時(shí),選擇miRNA。 ● 對(duì)TCGA樣本數(shù)據(jù)進(jìn)行分組時(shí),一定要注意樣本編號(hào),如果分組出現(xiàn)錯(cuò)誤,后續(xù)所有差異分析結(jié)果都是不可用的。 |
|
來(lái)自: 生物_醫(yī)藥_科研 > 《TCGA 》