【原】物種鑒定筆記 | Taxometer：改進宏基因組contigs的分類

尐尐呅 2024-12-18 發(fā)布于湖北

展開全文

▼

對于基于分類學的宏基因組組裝contigs分類，當前方法使用序列相似性來確定其最可能的分類學。然而，在宏基因組分類的相關(guān)領(lǐng)域中，contigs通常使用contigs序列及其豐度的信息進行聚類。Taxometer是一種基于神經(jīng)網(wǎng)絡(luò)的方法，旨在通過使用測序豐度和四核苷酸頻率（TNFs）提高宏基因組組裝片段的分類注釋質(zhì)量。其能夠顯著提升現(xiàn)有分類器的性能，尤其是在物種水平上，同時減少錯誤的物種水平注釋。

所有代碼都可以在GitHub上獲?。篽ttps://github.com/RasmussenLab/vamb

Taxometer方法詳細概述

Taxometer基于一個神經(jīng)網(wǎng)絡(luò)，該網(wǎng)絡(luò)使用來自任何宏基因組分類器的TNF、豐度和分類標簽。通過使用豐度向量，Taxometer利用了多樣本實驗設(shè)置（據(jù)開發(fā)團隊介紹，以前從未在分類學分類的背景下嘗試過這種設(shè)置）。然后訓練神經(jīng)網(wǎng)絡(luò)，使用具有注釋的contigs子集預(yù)測該特定數(shù)據(jù)集的分類。最后，將訓練好的網(wǎng)絡(luò)應(yīng)用于輸入的contigs，得到精細的contigs分類標簽，以及沒有分類標簽的contigs注釋。

使用Taxometer的分類分析工作流程

Taxometer 可以預(yù)測所有分類級別，并伴有從 0.5 到 1 的分數(shù)。在選擇通過用戶定義閾值的標簽后，工作流程會產(chǎn)生精細的分類注釋，與輸入分類相比，包含更多真陽性和更少假陽性。

Taxometer的性能測試

在多個真實和模擬數(shù)據(jù)集上的測試結(jié)果表明：Taxometer 填補了注釋空白并刪除了不正確的標簽。此外，Taxometer 被設(shè)計為一種輕量級工具，其計算密集程度低于分類注釋本身。例如，使用 MMSeqs2 注釋 CAMI2 和長讀數(shù)據(jù)集需要 2-4 小時，而使用單個 GPU 訓練 Taxometer 對所有數(shù)據(jù)集只需不到 30 分鐘。

基于五個CAMI2短讀數(shù)據(jù)集，Taxometer將MMSeqs2工具正確注釋物種水平片段比例從66.6%提高到86.2%，且在CAMI2根際土壤數(shù)據(jù)集中，對于Metabuli、Centrifuge和Kraken2，將錯誤的物種水平注釋份額降低兩倍。