Science Advances | 功能基因智能挖掘大模型SYMPLEX推動生物制造與合成生物元件開發(fā)
隨著生物測序技術突破,全球天然基因庫已積累數十億量級序列,其中蘊藏海量高價值功能基因。然而,當前僅有少數明星基因被深度挖掘,絕大多數仍處于“沉睡”狀態(tài)。如何突破傳統(tǒng)注釋與建模局限,利用AI等手段激活“基因寶庫”,正成為合成生物學與生物制造領域的關鍵挑戰(zhàn)。
4月9日,中國科學院深圳先進技術研究院定量合成生物學全國重點實驗室、合成生物學研究所婁春波團隊與北京大學定量生物學中心錢瓏團隊合作在國際學術期刊Science Advances上發(fā)表題為"Discovery of Diverse and High-quality mRNA Capping Enzymes through a Language Model-enabled Platform"的研究論文,報道了全球首個面向合成生物學元件挖掘與生物制造應用的大語言模型——"SYMPLEX",并將SYMPLEX模型應用于mRNA加帽酶基因的挖掘,展示了大語言模型賦能生物制造的巨大潛力。
該模型通過融合領域大語言模型訓練、合成生物專家知識對齊和大規(guī)模生物信息分析,實現了從海量文獻中自動化挖掘功能基因元件,并精準評估其工程化應用潛力。研究團隊將SYMPLEX應用于mRNA疫苗生物制造關鍵酶——加帽酶的挖掘,成功獲得多種高性能新型加帽酶。第三方公司實驗驗證顯示,這些酶在催化效率上超越國際頭部企業(yè)New England Biolabs(NEB)商業(yè)化加帽酶2倍以上,顯著提升了mRNA疫苗生產率和成本效益。此項成果不僅為合成生物學元件設計提供了AI驅動的新范式,更展現了大語言模型等人工智能技術在生物制造中的廣闊應用前景。
?
■ 破局傳統(tǒng):功能基因深度挖掘的大語言模型
天然生物基因組蘊藏著海量功能基因,這些基因在進化過程中不斷優(yōu)化,形成了多樣化的序列空間和復雜精巧的功能活性,賦予生物體適應復雜環(huán)境的獨特優(yōu)勢。隨著高通量測序技術的發(fā)展,全球生物序列數據庫已突破數十億規(guī)模,為生物制造和合成生物學提供了前所未有的基因元件資源庫。然而,盡管這些天然基因蘊含著巨大的應用潛力,目前僅有少數明星基因(如基因編輯工具酶)得到了系統(tǒng)的注釋和結構解析。這種研究的不均衡導致現有基于序列、結構或深度學習的基因挖掘技術和蛋白質設計方法難以應用于更復雜的基因系統(tǒng),嚴重制約了高價值功能基因的開發(fā)與利用。
針對上述問題,研究團隊創(chuàng)造性地將大型語言模型(LLM)與結構化生物知識庫深度融合,開發(fā)出SYMPLEX智能基因挖掘平臺(圖1)。SYMPLEX是強大的功能基因搜索引擎,通過自動化閱讀和理解千萬級體量的生物學文獻,在基因、功能和知識水平上提取分析文獻內容,并與專家數據庫進行概念對齊、交互和基于先進生物信息技術的統(tǒng)計模式生成,從而提供證據鏈完整的高質量候選基因集合。SYMPLEX不僅有效規(guī)避了大語言模型幻覺,還能自動生成基因功能相關的細粒度知識樹,引導科學家探索廣泛的生物機制和分子過程(圖1)。
對比結果表明,SYMPLEX大模型在挖掘基因的深度、數量和多樣性上均顯著優(yōu)于傳統(tǒng)生物信息學方法,其挖掘的基因多樣性也超越了現有蛋白質功能預測模型的邊界(圖2)。
■ 應用案例:解鎖mRNA疫苗高效生產的蛋白質密碼
近年來,mRNA疫苗以其高效、可快速開發(fā)等特點在全球抗疫中發(fā)揮了關鍵作用。然而,mRNA疫苗背后的一項關鍵工藝——mRNA 5’端加帽(capping),卻因其效率較低、成本高昂成為“卡脖子”環(huán)節(jié)。加帽過程對穩(wěn)定mRNA、促進翻譯和減少免疫反應至關重要,而目前mRNA疫苗生產工藝中使用的仍是傳統(tǒng)的痘病毒雙蛋白(Vaccinia D1/D12)加帽酶,選擇有限且價格昂貴。
研究團隊利用SYMPLEX大規(guī)模挖掘mRNA加帽酶,并進行了實驗驗證。SYMPLEX通過批量處理生物學文獻和生物信息分析,識別出16,685個與 mRNA 加帽相關的基因,并進一步篩選出75類(18,779 條序列)高置信度的完整加帽酶基因。經過46種候選基因實測,研究團隊獲得了14種可在哺乳動物和酵母細胞中穩(wěn)定發(fā)揮作用的加帽酶,其中2種新型加帽酶的體外活性比商業(yè)化痘病毒加帽酶高出兩倍(圖3)。值得一提的是,本研究挖掘的新型加帽酶與已知加帽酶的序列相似性低于20%,且編碼序列長度縮減30%,有望為mRNA疫苗和基于mRNA的基因療法研究提供關鍵使能技術支持。
此外,SYMPLEX的挖掘還揭示了加帽酶在自然界中多樣的構型與進化策略。研究發(fā)現,加帽酶TPase功能域的桶狀外圍結構具有保守與可設計區(qū)間,而MTase功能域則存在新的酶活中心模體。這些發(fā)現表明,SYMPLEX不僅能助力于理解生物過程的多樣化策略,還可為酶的理性工程優(yōu)化或生成式蛋白設計提供高質量數據集。
?
■ 平臺賦能:合成生物制造的“智能基座”
目前,SYMPLEX在線交互式平臺已上線供研究人員免費使用(https://bdainformatics.org/page?type=SYMPLEX)(圖4)。平臺采用模塊化設計,提供三個核心功能:
(1)文獻智能提取引擎PubEngine:支持高通量的文獻智能檢索分析與可視化交互;
(2)基因功能標注系統(tǒng)GeneTagger:實現從分子機制到生物過程的細粒度自動化基因與功能提?。?/span>
(3)標準化知識中樞GeneNorm:實現與專家知識庫的概念對齊與標準化,支持知識樹構建和功能模式識別。
各模塊既可無縫協(xié)同實現高效數據流轉,又能獨立運行,以加速功能基因挖掘以及蛋白質設計。平臺現有注冊用戶200余人,2024年訪問量達6000余次。
本項研究開創(chuàng)了功能基因深度挖掘的新范式,利用大語言模型高效推動生物知識轉化,為mRNA疫苗規(guī)?;a提供了關鍵酶資源庫。研究團隊正利用SYMPLEX挖掘更多可用于生物制造和合成生物學的關鍵酶元件,并將該平臺拓展至合成通路設計等領域,有望推動生物制造進入“AI for Science”新紀元。
北京大學研究員錢瓏、中國科學院深圳先進技術研究院研究員婁春波為本文共同通訊作者。北京大學博士研究生王天澤、覃博文、厲思宏,中國科學院深圳先進技術研究院博士研究生王子陌為共同第一作者。本研究獲得了浙江大學歐陽頎教授團隊和北京遠軒科技有限公司的大力支持,并得到國家重點研發(fā)計劃、國家自然科學基金、北京市重點基金以及深圳合成生物學創(chuàng)新研究院等項目的資助。
?
??
圖1.SYMPLEX大模型的技術路線及其與傳統(tǒng)基因挖掘流程對比
圖2.SYMPLEX挖掘結果多樣性對比和細粒度知識樹生成
圖3. 候選加帽酶在細胞體系和體外轉錄體系中表現出跨物種、跨體系的高加帽效率
?圖4.SYMPLEX平臺
附件下載: