返回 >

NC | Ribo-seq应用:浙江大学侯廷军和谢昌谕团队开发基于通用语言模型和综合数据集的mRNA序列设计模型

来源:新使生物时间:2025-12-09 08:08

导读

近年来,mRNA疗法已成为一种革命性的技术,在基因治疗和疫苗开发领域展现出巨大潜力。特别是新冠mRNA疫苗的成功,凸显了其在应对新发病原体和肿瘤方面的强大能力。

DNA疫苗相比,mRNA疫苗避免了插入宿主基因组的风险,同时能够实现可控的抗原表达。此外,其高效的体外转录生产方式使其成为一种快速且具成本效益的解决方案,预示着一个全新的药物设计时代。

尽管mRNA的设计具有高度灵活性,但如何优化其序列以提高翻译效率和稳定性,仍然是一个复杂且艰巨的挑战。受蛋白质设计领域成功的启发,研究者开始将语言模型应用于RNA序列分析,但这一进展常因缺乏全面的mRNA训练数据、模型局限于特定区域而受阻。

2025年11月24日,浙江大学侯廷军和谢昌谕团队在Nature Communications上发表了题为mRNABERT: advancing mRNA sequence design with a universal language model and comprehensive dataset的论文。本研究提出了mRNABERT,这是一个在超过1800万条非冗余mRNA序列上预训练的通用mRNA语言模型,采用创新的双重分词策略和线性偏置注意力机制来处理全长序列。

undefined


文章索引

【标题】mRNABERT: advancing mRNA sequence design with a universal language model and comprehensive dataset

【发表期刊】Nature Communications

【发表日期】2025年11月24日

【作者及团队】浙江大学侯廷军和谢昌谕团队

IF】15.7


研究结果

一、mRNABERT能捕获mRNA的多维度生物学信息

通过创新的对比学习方法,mRNABERT成功学习到了遗传密码的内在规律,能够将编码相同或性质相似氨基酸的密码子在向量空间中有效聚类。

此外,模型还能准确区分mRNA的不同功能区域(如5' UTR和3' UTR)以及不同物种的序列,证明其深度捕获了序列中蕴含的生物学功能与进化信息。

undefined


二、mRNABERT能准确预测5' UTR的核糖体负载

在预测5' UTR介导的翻译效率任务中,mRNABERT的表现与顶尖的专用模型UTR-LM相当,并在多个Ribo-seq核糖体印迹分析数据库中取得领先。

特别是在规模最大的随机UTR数据集上,mRNABERT取得了当前最优的预测性能,证明了其在UTR功能预测方面的强大能力。

undefined

undefined


三、mRNABERT在CDS相关预测任务中表现卓越

在包括蛋白表达、mRNA稳定性、核糖开关功能在内的6项CDS相关预测任务中,mRNABERT的表现全面超越或持平于所有基准模型。

该模型通过整合核苷酸和密码子信息,有效弥补了以往模型仅关注单一信息维度的不足,尤其在依赖RNA二级结构的任务上展现出显著优势。

undefined

undefined


四、mRNABERT可高效检测3' UTR中的功能位点

在预测22种RBP蛋白结合位点和9种细胞系中的m6A修饰位点这两个3' UTR关键任务中,mRNABERT的性能与专门为3' UTR设计的最佳模型3UTRBERT不相上下。

这一结果表明,mRNABERT虽是通用模型,但其从全长mRNA序列中学到的知识足以媲美在特定区域上深度训练的专用模型。

undefined

undefined


五、mRNABERT在蛋白质工程相关任务中超越了大型蛋白质模型

通过与蛋白质语言模型进行对比学习,mRNABERT有效整合了氨基酸的语义信息,使其在多个蛋白质工程任务中表现出色。

在蛋白质熔点、溶解度以及跨物种转录本丰度预测中,mRNABERT的性能不仅优于其他RNA模型,甚至在部分任务中超越了ESM2、ProtT5等大型蛋白质专用模型。

undefined


六、mRNABERT在全长mRNA属性预测中展现出巨大应用潜力

针对包含不同UTR和CDS组合的全长mRNA序列,mRNABERT在预测其细胞内翻译效率和稳定性方面显著优于所有基准模型。

由于采用了双重分词和ALiBi机制,该模型能够处理超长序列并有效捕捉全局特征,解决了以往模型因截断或局部关注导致的性能瓶颈。

undefined

undefined


总结

本研究成功构建了一个名为mRNABERT的通用mRNA基础模型,该模型通过在海量数据上预训练并结合多模态信息,能够全面学习mRNA序列的复杂生物学规律。其在覆盖5' UTR、CDS、3' UTR及全长序列的各项基准测试中的卓越表现,证明了它作为一体化mRNA设计和分析工具的强大能力与广阔应用前景。

新使生物专业翻译组一站式服务平台
产品名称

超高分辨率Ribo-seq

超高分辨率Disome-seq

Polysome profiling多聚核糖体分析

Polysome-seq
酶切Polysome profiling
RNC-seq(2代测序)

isoRNC-seq(3代测序)

肿瘤新生抗原挖掘与鉴定

新使生物NeoRibo推出国内首个低起始量超高分辨率翻译组Ribo-seq服务
开创性的建库技术使得Ribo-seq核糖体印迹分析(QEZ-seq®)具有超高的分辨率且适用于哺乳动物、植物、真菌等多类物种。

我们能够针对微量细胞或组织,如卵母细胞、卵巢、临床穿刺样品等产出高质量翻译组数据结果。

超高的准确性为研究非经典的开放阅读框
(ORFs)提供极大便利,提高微肽(肿瘤新生抗原)的挖掘效率。

另外新使生物提供多物种
多聚核糖体分析(Polysome profiling),了解更多翻译组技术信息可登录 www.neoribo.com

点击图片查看

点击图片查看