干细胞之家 - 中国干细胞行业门户第一站

 

 

搜索
干细胞之家 - 中国干细胞行业门户第一站 干细胞之家论坛 干细胞行业新闻 王梦迪最新论文,开发能读懂mRNA的语言模型,助力mRNA疫 ...
朗日生物

免疫细胞治疗专区

欢迎关注干细胞微信公众号

  
查看: 734|回复: 0
go

王梦迪最新论文,开发能读懂mRNA的语言模型,助力mRNA疫苗设计 [复制链接]

Rank: 7Rank: 7Rank: 7

积分
24651 
威望
24651  
包包
140391  

优秀版主 博览群书 美女研究员 优秀会员

楼主
发表于 2024-4-16 00:28 |只看该作者 |倒序浏览 |打印
14岁上清华,29岁获普林斯顿终身教职,王梦迪最新论文,开发能读懂mRNA的语言模型,助力mRNA疫苗设计1 _/ t' j3 s6 f* R7 \6 v+ }$ H  w
来源:生物世界 2024-04-15 09:28' K. G! J5 N; C# ~* e  e
研究团队使用经过训练的UTR-LM模型创建了一个包括211个新序列的库。每个序列都被优化以实现所需功能,主要是提高蛋白质翻译效率,例如提高mRNA新冠疫苗所编码的刺突蛋白(S蛋白)。
$ z5 y# V1 B1 ?/ \4 d, \7 L: {9 @2 O普林斯顿大学王梦迪团队(褚晏伊、于丹为共同第一作者)在 Nature Machine Intelligence 上发表了题为:A 5′ UTR language model for decoding untranslated regions of mRNA and function predictions 的研究论文,该论文此前于2023年10月在预印本平台bioRxiv上线。  M, M6 H+ E7 ~+ i. Y
该研究开发了一种语言模型(language model)——UTR-LM,该模型利用其语义表征能力解码mRNA的5'UTR区并预测其功能,并在此基础上生成mRNA的5'UTR序列,其中,生成的新冠病毒S蛋白的mRNA的5'UTR区,相比现有的优化的5'UTR区,能够将S蛋白生成水平大幅提高32.5%,从而帮助开发更有效的mRNA疫苗。2 T5 @+ g  H8 C

. w- @1 A# N5 g ) O4 q4 m+ F0 r0 Y) @% F5 a
王梦迪教授
1 @1 G5 X4 O1 l( z8 p6 q$ g王梦迪,14岁时考入清华大学自动化系,23岁时获得麻省理工学院(MIT)电子工程与计算机博士学位,同年加入普林斯顿大学任助理教授,29岁时获得普林斯顿大学终身教职。
; r$ A7 ?0 K- W3 ?自然界中的生命都遵循一个基本法则——中心法则,即细胞生命的遗传信息从DNA向RNA再向蛋白质的流动,DNA储存了遗传信息,蛋白组负责了细胞的结构和功能,而mRNA将DNA中的遗传信息翻译为蛋白组。实际上,mRNA中只有一部分会被翻译为蛋白质,其余部分是非翻译区,发挥着调控翻译的功能。
6 A2 ~# k# D- \! O4 \) g5'非翻译区(5 ' UTR)是mRNA序列开头的一段区域,位于蛋白质编码序列之前。它影响着mRNA分子的稳定性、定位和翻译,在调控mRNA到蛋白质的翻译过程中发挥着至关重要的作用。
* e' h( u6 _# b: `/ k对于mRNA疫苗,控制其蛋白质产生的效率非常关键。在这项研究中,研究团队将他们开发的语言模型集中于mRNA的5'非翻译区(5′ UTR)——UTR-LM,以了解如何优化mRNA翻译效率和改进疫苗。% y2 w- n; q+ a3 c- E3 o
与驱动ChatGPT等聊天机器人的大语言模型(LLM)相比,该研究开发的这个语言模型(UTR-LM)在程度上不同,前者是在互联网上数十亿页的文本上进行训练,而UTR-LM是在几十万个来自不同物种的mRNA序列上进行基于Transformer模型的预训练,并纳入了mRNA二级结构和最小自由能(MFE)等监督信息。训练后的UTR-LM模型能够准确预测mRNA的平均核糖体结合数量(MRL)、mRNA的翻译效率(TE)和表达水平(EL),还可预测mRNA非翻译区上未被注释的核糖体进入位点(IRES)。这些预测的准确率均显著高于现有工具。, g# t7 F; I: _/ ]( X

; e! P# U! n/ X4 S0 A9 G5′UTR功能预测与设计的UTR-LM模型
8 T+ y4 l+ W8 m! k  Q然后,研究团队使用经过训练的UTR-LM模型创建了一个包括211个新序列的库。每个序列都被优化以实现所需功能,主要是提高蛋白质翻译效率,例如提高mRNA新冠疫苗所编码的刺突蛋白(S蛋白)。研究团队通过实验室实验进一步验证了这些生成的序列,其中最佳序列优于现有的能够显著提高S蛋白表达效率的5'UTR序列——NCA-7d-5'UTR,将S蛋白的生产水平提高了32.5%。这一提高幅度足以对包括传染病疫苗、癌症疫在内的mRNA疫苗和疗法带来巨大推动。
2 a5 e( [' j# `2 C( z- R( K9 W( I 3 O( R( P$ `4 L: V5 U" M& J8 i
对UTR-LM模型及由UTR-LM生成的5'UTR序的实验验证0 x& K7 _/ K& N
以前的研究已经创建了语言模型来解码各种生物序列,包括蛋白质序列和DNA序列,而UTR-LM是第一个专注于mRNA非翻译区的语言模型,其除了提高mRNA的整体翻译效率外,还能够预测序列在各种相关任务中的表现。5 V! n  d6 X7 e8 `
论文通讯作者王梦迪教授表示,创建这个语言模型的真正挑战在于让其理解可用数据的完整上下文,训练模型不仅需要具有所有特征的原始数据,还需要这些特征的下游结果。该模型的成功还指向了一个更基本的可能性——通过对少数物种的mRNA进行训练,它能够解码核酸序列,并揭示有关基因调控的新知识。基因调控是生命最基本的功能之一,掌握着解锁疾病和疾病起源的关键。像这样的语言模型可以提供一种探索基因调控的新方式。
3 L' W: A" C6 x0 e9 F该论文此前已于2023年10月在预印本平台bioRxiv上线。: ~2 v( ~$ o- z" z) ^( c- Z! J
2 }( ]! n: b3 b
附件: 你需要登录才可以下载或查看附件。没有帐号?注册
‹ 上一主题|下一主题
你需要登录后才可以回帖 登录 | 注册
验证问答 换一个

Archiver|干细胞之家 ( 吉ICP备2021004615号-3 )

GMT+8, 2024-5-1 12:53

Powered by Discuz! X1.5

© 2001-2010 Comsenz Inc.