10月24日,国际权威期刊《Nature Communications》在线发表资源与环境科学学院沈其荣院士团队LorMe实验室与智慧农业学院(人工智能学院)BioAI实验室的交叉学科研究成果《LorBin: Efficient binning of long-read metagenomes by multiscale adaptive clustering and evaluation》。该研究针对环境微生物组中成员构成复杂、未知物种多、高质量基因组难挖掘等共性科技难题,成功研发了针对三代宏基因组智能分箱算法LorBin,提升了基因组重构的质量和数量,为新物种的挖掘、致病菌与耐药基因等环境生物污染物的高效识别提供技术支撑。
微生物虽看不见、摸不着,却与我们的生活紧密相连。一克土、一片叶,甚至一滴水水中都活跃着数之不尽、种类复杂的微生物。这些微生物相互影响、互相制衡,形成复杂的微生物群落(也叫微生物组),时刻影响着土壤化学元素的循环、肠道养分的吸收与转运以及动植物的健康。然而,我们对地球上微生物种类及其遗传密码的认知还不足1%,微生物组因此也被称为地球生命的“暗物质”。
近年来,宏基因组测序逐渐成为揭秘微生物暗物质的前沿技术。特别是三代测序技术的发展,使得碱基序列的检测长度更长、质量更高、误差更低,在挖掘动植物与环境样品中功能基因和稀有物种以及重构单菌基因组草图中发挥重要作用。然而,三代宏基因组测序分析的研究,依然面临原始数据量庞大、碱基序列错误率高、以及分析算法不完善等卡脖子难题,尤其是在分箱重构高质量单菌基因组这一关键环节。宏基因组分箱是指将测序得到的碱基序列(reads)进行组装,形成更长的序列片段(contigs),随后将这些片段分配到若干个箱(bins)的过程。在理想情况下,每个箱对应一个微生物的基因组,即宏基因组组装基因组(MAGs:Metagenome-Assembled Genomes)。宏基因组分箱的核心目标是从复杂微生物组中重构出高质量单菌基因组。

宏基因组分箱看似简单,但挑战很大。既要克服复杂微生物群落中物种组成与丰度的不确定性、未知物种参考基因组缺失的限制,还需有效区分高度相似近缘物种、甚至菌株水平的遗传变异规律,更要突破三代宏基因组测序的原始数据利用率、长序列编码、特征提取、异形分布数据聚类与簇质量评估算法等一系列技术难题。为此,LorMe实验室联合BioAI实验室协同攻关,创新了一种三代宏基因组长读分箱的无监督深度学习工具LorBin。该工具针对分箱全过程的卡点,从技术原理上提出四项针对性创新设计:1)适配变分自编码器训练学习复杂生境中DNA序列片段的特征分布,克服DNA大语言模型在处理长序列时面临的诸多挑战;2)构建两阶段多尺度自适应迭代聚类算法应对复杂物种空间分布,回收更多独特的未知微生物类群;3)在聚类过程中引入单拷贝基因集等信息引导的循环分箱质量评估模型,突破类内评估瓶颈,提升分箱质量和原始数据利用率;4)采用Transformer模型与统计概率模型,评估簇在高维空间的凹凸性对分箱效果的影响,解决高维生物数据嵌入特征在降维前后空间分布一致性评估的难题。
基准测试表明,LorBin的性能卓越,整体优于SemiBin2、VAMB和COMEBin等6种高性能深度学习算法。LorBin分箱的质量更高、捕获稀有物种的能力更强,重构的高质量单菌基因组比现有工具多15–189%,识别特有物种数量更是其他工具的2.4–17倍。真实样品应用结果表明,LorBin能高效识别出致病菌及其携带的高风险耐药基因与毒力因子,揭示了水平基因转移在驱动耐药基因传播扩散中的作用。该工具的运行效率高、可扩展性强、易用,在32核CPU、64GB内存和0.3*NVIDIA A800 GPU配置下,比SemiBin2和COMEBin等高性能工具快2.3–25.9倍。LorBin的研发思路为三代宏基因组长读分箱处理不平衡微生物分布和重构新物种基因组提供了解决方案。研究为深入解析复杂微生物群落提供了强大工具,尤其适用于生物多样性高、先验知识匮乏的环境,为农业、环境、医学等领域微生物组分析,以及环境生物污染物的识别与扩散机制研究提供新方法、新技术。
资环学院韦中教授和江高飞副教授为共同通讯作者,智慧农业学院(人工智能学院)薛卫副教授、研究生刘佐(已毕业)和资环学院博士生张耀中为共一作者,资环学院Alexandre Jousset教授(国家外籍杰青获得者)、Waseem Raza副教授(现中国热带农业科学院热带生物技术研究所)、博士生李亚蓉、上海凌恩生物科技有限公司陶晔和钱俊博士以及美国贝勒医学院Fritz Sedlazeck副教授和微软中国高级工程师姜立博士等参与该研究,沈其荣院士、赵方杰教授和徐阳春教授等共同指导该研究。该研究得到国家自然科学基金(重大项目、杰出青年项目和面上项目)和中央高校基本业务费等项目的资助。
全文链接:https://www.nature.com/articles/s41467-025-64916-8
阅读次数:10
【 转载本网文章请注明出处 】