[新科技速遞]
剛獲諾貝爾化學獎的DeepMind創辦人Demis Hassabis發表諾貝爾演講,以「AI加速科學發展」為題,闡述AI在科學研究中的影響,並推測數碼生物學即將出現。
Hassabis認為,透過AI可以計算出一些自然界中的難解數學問題,從而大大加快科學進步的步伐。許多自然界的難題屬於計算複雜問題,隨著問題規模的增大,其計算複雜度的增長速度可能仍然使經典電腦難以承受,這些問題可能需要量子電腦的規模化才能解決。
儘管DeepMind的母公司Google公佈了新型量子晶片Willow,標誌量子計算重大突破,但距離實際應用,仍有一段長距離。如果AI能解決一些計算理論中難解的問題,將帶來巨大商業價值。
DeepMind於2010年成立,最初專注通過強化學習訓練圍棋AI。2016年,AlphaGo在韓國首爾,擊敗世界圍棋冠軍李世石,一舉成名。然而,DeepMind並沒有止步於此,將對弈學習的模型應用在AlphaFold深度學習模型,成功預測出蛋白質三維結構,即從蛋白質的氨基酸序列直接計算出空間結構,確定每個原子的位置。
三特性有利AI研究
三維結構可幫助我們理解蛋白質的功能、相互作用以及在各種疾病中的作用。DeepMind通過準確預測蛋白質結構,加速藥物研發,設計出針對特定蛋白質靶點的藥物分子。優化藥物分子與蛋白質的結合通常依賴於蛋白質的三維結構,疫苗研發就是一個很好的例子。
Hassabis解釋,AI之所以能解決問題,可歸納須具三大特性:包括大規模搜索空間、明確的指導目標函數,以及豐富數據集或高效的模擬器。以圍棋為例,落子位置有10^170個,遠超宇宙原子的數量。AlphaGo通過深度神經網絡,先學習下棋策略,縮小搜索空間,合理時間內找到落子點,而不需要搜索所有可能性。
AI根據目標函數,指導學習和決策進程。訓練過程中,通過調整模型參數,系統可以朝著目標函數定義的最佳方向發展。例如,在預測蛋白折疊時,AI根據目標函數,不斷計算誤差反饋,改進預測能力。
訓練AI最重要的就是數據。在預測蛋白質折疊時,PDB積累了大量蛋白質結構數據,成為AlphaGo訓練的基礎。
不少科學問題都具備上述三個特性,密碼破解則不在此列。也就是說,AI不能取代量子電腦破解因素分解(Factorization)。密碼學中,特別公鑰加密系統RSA和數字簽名,因素分解具重要意義。但因數分解沒有指導目標函數,無法縮窄搜索空間。
數碼生物學應運而生
生物學的許多問題恰好具備上述三個特性,AI可能是生物學最好的描述工具。AlphaFold一舉攻克了困擾生物學50年蛋白質折疊難題,從氨基酸序列預測出蛋白質三維結構。過去,測定單個蛋白質結構可能需要實驗室耗時多年,如今AlphaFold已預測完二億個人類已知蛋白結構。
AlphaFold研究成果,廣泛利用發現分解塑膠的酶以控制污染、藥物發現、解決抗藥性、結構生物學以及生殖機制研究,這也是獲得諾貝爾獎的主要原因。
1994年起,CASP是學術界預測蛋白質結構的競賽,但準確度一直不高。直到2020年的CASP14,DeepMind參賽並利用公開的蛋白質數據庫(PDB)內約17萬個已知蛋白結構,訓練出AlphaFold,終於成為CASP競賽的分水嶺,該競賽自此告一段落。
許多生物學問題,如蛋白質結構,具備AI可解決的共通性。例如,學習生物數據,AI可發現其中隱藏模式和規律,這些規律往往難以通過傳統生物學方法發現。AI模型可以分析基因表達數據、蛋白質之間作用等數據,識別出生物系統關鍵調控因素、信號通路及分子機制,為生物學研究開創全新方向。
Hassabis創辦了Isomorphic Labs,利用AI深度學習推動藥物發現。該實驗室利用物理第一性原理,特別是量子力學,從原子和分子層面描述藥物分子與靶點之間的作用,從而優化藥物的分子結構。
然而,AI在生物學中影響,仍處於起步。Hassabis推測,未來將是生物學的黃金時代。任何在自然界中能產生或被發現的模式,都可通過演算法有效發現和建立AI模型。只要通過預訓練開發大模型,利用模型探索和理解空間結構,不需要等待量子電腦,甚至只是基於量子系統建立的大模型,足以解決複雜理論問題,以數碼速度解決生物學的各項難題,這可能被稱為「數碼生物學」,甚至會對基礎物理和信息論產生深遠影響。
如果Hassabis推斷正確,醫藥生物學和生物學的發展將以倍速進展,帶來極為巨大的經濟效益。