午夜视频在线网站,日韩视频精品在线,中文字幕精品一区二区三区在线,在线播放精品,1024你懂我懂的旧版人,欧美日韩一级黄色片,一区二区三区在线观看视频

分享

物種鑒定筆記 | Taxometer:改進宏基因組contigs的分類

 尐尐呅 2024-12-18 發(fā)布于湖北

對于基于分類學的宏基因組組裝contigs分類,當前方法使用序列相似性來確定其最可能的分類學。然而,在宏基因組分類的相關(guān)領(lǐng)域中,contigs通常使用contigs序列及其豐度的信息進行聚類。Taxometer是一種基于神經(jīng)網(wǎng)絡(luò)的方法,旨在通過使用測序豐度和四核苷酸頻率(TNFs)提高宏基因組組裝片段的分類注釋質(zhì)量。其能夠顯著提升現(xiàn)有分類器的性能,尤其是在物種水平上,同時減少錯誤的物種水平注釋。

所有代碼都可以在GitHub上獲?。篽ttps://github.com/RasmussenLab/vamb

01

Taxometer方法詳細概述

Taxometer基于一個神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)使用來自任何宏基因組分類器的TNF、豐度和分類標簽。通過使用豐度向量,Taxometer利用了多樣本實驗設(shè)置(據(jù)開發(fā)團隊介紹,以前從未在分類學分類的背景下嘗試過這種設(shè)置)。然后訓練神經(jīng)網(wǎng)絡(luò),使用具有注釋的contigs子集預(yù)測該特定數(shù)據(jù)集的分類。最后,將訓練好的網(wǎng)絡(luò)應(yīng)用于輸入的contigs,得到精細的contigs分類標簽,以及沒有分類標簽的contigs注釋。

使用Taxometer的分類分析工作流程

Taxometer 可以預(yù)測所有分類級別,并伴有從 0.5 到 1 的分數(shù)。在選擇通過用戶定義閾值的標簽后,工作流程會產(chǎn)生精細的分類注釋,與輸入分類相比,包含更多真陽性和更少假陽性。

02

Taxometer的性能測試

在多個真實和模擬數(shù)據(jù)集上的測試結(jié)果表明:Taxometer 填補了注釋空白并刪除了不正確的標簽。此外,Taxometer 被設(shè)計為一種輕量級工具,其計算密集程度低于分類注釋本身。例如,使用 MMSeqs2 注釋 CAMI2 和長讀數(shù)據(jù)集需要 2-4 小時,而使用單個 GPU 訓練 Taxometer 對所有數(shù)據(jù)集只需不到 30 分鐘。

基于五個CAMI2短讀數(shù)據(jù)集,Taxometer將MMSeqs2工具正確注釋物種水平片段比例從66.6%提高到86.2%,且在CAMI2根際土壤數(shù)據(jù)集中,對于Metabuli、Centrifuge和Kraken2,將錯誤的物種水平注釋份額降低兩倍。

CAMI2 測試結(jié)果

Taxometer還被用于評估兩個復雜的長讀宏基因組數(shù)據(jù)集上的分類器性能,盡管沒有已知的真實值,但Taxometer作為一個開源軟件,可增強任何宏基因組片段的分類注釋。

* 建議對技術(shù)細節(jié)感興趣的小伙伴請參考文獻原文~對于文獻整理過程中有翻譯不當或錯誤也歡迎大家在評論區(qū)留言指出,互相交流學習!

>>>>

New Series

物種鑒定筆記

    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多