Slide
Slide
Slide
Hitachi_AI_HCI
Hitachi_HCI
HCI
previous arrow
next arrow

醫療創新| 破解mRNA疫苗大海撈針 巧借語言處理按圖索驥

Nature
《Nature》正刊發表了百度與合作單位在生物計算領域成果,套用自然語言處理算法到基因計算,11分鐘之內就可找到最穩定的mRNA候選序列。

[醫療創新]

COVID-19新冠疫苗研究過程,mRNA或者「信使核糖核酸」大放異彩。mRNA研究從上世紀六十年代開始,研究人員開始嘗試以DNA或mRNA結合細胞,令人體自行做出目標蛋白質,可用於開發疫苗,亦可用於治療癌症或罕見病。

自從mRNA應用在新冠疫苗開發,癌症和多種疾病亦找到潛在治療新方法。mRNA是將遺傳指令從DNA,傳遞到細胞蛋白質製造機器的信使,mRNA可為人體各種功能創造特定蛋白質。

mRNA在安全、有效性和生產具有優勢,迅速應用到COVID-19疫苗開發。但是mRNA本身先天極不穩定,有時導致蛋白質表達不足,削弱疫苗刺激免疫反應能力。mRNA疫苗的不穩定也令儲存和運輸不便,限制發展中國家採用,妨礙mRNA疫苗普及率。

不少研究均顯示,mRNA與基因最佳密碼子結合,可優化mRNA的二級結構穩定性,有機會改善蛋白質表達,令疫苗更穩定,保護效用更好。不過,mRNA基因設計空間是同義的密碼子,序列空間龐大,大約有10的632次方個mRNA序列,可翻譯成相同的SARS-CoV-2刺突蛋白結構,才能發展出有效疫苗。

傳統運算無法破解

逐一計算10的632次方的mRNA序列,所須算力幾乎是天文數字。假設利用一台超級電腦,每秒計算一個序列,逐條序列去尋找,即使是從宇宙誕生直至現在138億年不停計算,沿著搜索路線,依次每個節點均做一次計算,要在潛在mRNA序列中尋找,連億萬分之一計算都無法完成。

乍看之下,自然語言處理(NLP)和生物學似乎無關,但這兩者著極強的數學聯繫。人類語言中,句子是由多個字的序列,加上帶有名詞和動詞短語的基本樹狀句法組成,兩者疊加以共同傳達了含義。RNA鏈是具有核苷酸序列和基於其摺疊模式相關的二級結構,借助NLP算法,有可能減省找出候選mRNA序列的計算時間。

百度與俄勒岡州立大學、StemiRNA Therapeutics、羅切斯特大學醫學中心合作,提出mRNA序列優化演算法LinearDesign,11分鐘內找出最穩定候選序列,有機會加快設計出穩定、成藥性更好的mRNA序列。有關論文《Algorithm for Optimized mRNA Design Improves Stability and Immunogenicity》,刊出在《Nature》上;也是中國科企首次以第一完成單位身份在《Nature》期刊發表論文。

LatticeParsing
自然語言處理中網格解析(Lattice Parsing)技術優化mRNA疫苗序列,大大縮短了篩選候選序列的時間。

借用他山之石

百度運用NLP的「網格解析」(Lattice Parsing)技術,優化mRNA疫苗序列,提升了疫苗穩定和有效性。LinearDesign巧妙將序列設計大量計算工作,簡化為NLP經典算法,將尋找序列從「大海撈針」變成「按圖索驥」。

根據實驗數據,LinearDesign演算法在設計序列,有助生物醫藥快速研發有效mRNA疫苗,包括縮短研發週期及降低研發成本,此述演算法已於新冠mRNA和帶狀皰疹mRNA疫苗研發,獲得了具體驗證。

LinearDesign顯著改善體外mRNA半衰期和蛋白質表達,與傳統的基準相比,體內抗體反應增強128倍,美國Moderna前計算RNA生物學家Dave Mauger指,新方法計算效率,確實令人印象深刻。

Leave a Reply

Your email address will not be published. Required fields are marked *