[新科技速遞]
生成式AI的大語言模型發展到過千億參數規模,下一步何去何從,耐人尋味。OpenAI發佈最新模型o1,公認是另一次突破。
但是,o1的突破,一般用戶很難察覺,只是簡單直接提問,o1跟以往版本ChatGPT,分別不大。但是OpenAI以強化學習和思考鏈(Chain of Thought),提高推理、算術、編碼能力。o1多項評估測試大有進步,能應付複雜難題。雖然OpenAI的o1屬預覽版,已在多項評估創下了歷史。
通過加入思考鏈,o1不再是衝口而出作答,回應前反覆思量,琢磨思維過程,答案也有更好解釋,提高與人類價值觀「對齊」(Alignment)能力,以至安全性等。
專業能力開拓市場
不少用戶以大模型處理簡單問題,產生文本或旅行行程建議。o1改進不針對上述日常問題,而要解決深奧的數學科學難題,要求複雜的推理;為物理、化學、生物求解。OpenAI希望發揮o1專業領域價值,開拓新商業模式。
o1最重要的啟示,證實通過強化學習思考鏈,大模型可再次變強。o1各項評估交出亮麗成績,從數學奧林匹克、編碼能力、推理,包括美國評估數學AIME考試,表現極佳。迄今大模型商業化落地,仍在摸索階段,缺乏「殺手級應用」。o1加強專業思考能力,也許能勝任更多任務。不過,考試場上優等生,能否搖身職場高手,仍屬未知之數。
軟件工程獨佔鰲頭
o1在編程有巨大潛力,則是不爭的事實。OpenAI推出了針對STEM及低推理成本的Mini-o1,擅長編程工作,取價為o1兩成,以降低使用門檻,大小通吃。大模型用於軟件開發,早已成行成市,近期AI編碼工具Cursor崛起,可調用多個API,包括Claude 3.5 Sonnet 和GPT-4o,幾乎顛覆行業,o1何時結合到Cursor,用戶更翹首以待。
即使毫無經驗的新手,Cursor亦可快速上手,為IT教育帶來啟示。以o1在編程得分數之高,作編程助手肯定沒懸念。不過,在科學和數學則未必有同等影響力。
成本驚人挑戰重重
即使o1推理能力大躍進,亦無法解決經典的難題,理解上有局限性。Meta楊立昆(Yann Lecun)指,大模型無法解決許多現實問題,因為有一種錯覺,以為知識全是基於語言之上。事實上,人類知識大部分均與語言無關,反而是對物理世界和體驗有關,語言只是建於其之上而已。大模型輕易通過考試,全因考試全靠檢索資料,又正是大模型專長。
大模型要投入巨資訓練,成本以千萬美元計,成為少數科企遊戲。訓練成本高昂又無法回本,單靠「做大做強」行不通。前AWS首席科學家李沐,談及訓練大模型硬件嚴苛,電力又成本驚人,愈來愈不化算。李沐回憶,由於用電量驚人,AWS甚至考慮自建電廠。他指出,大模型評估不斷刷新榜單,到了實際應用時落差很大,原因評估時不能考慮到實際場景複雜性。
數據難求另闢蹊徑
另一個難題是大模型靠高質素數據,經過數代發展,網上和公開數據耗盡至所餘無幾,全球國家機構致力保護數據,無法找到優質數據。另一方面,全球大學都缺乏算力,只能作為旁觀者。諷刺的是,大學是專業知識和資訊最密集機構,極須AI協助解決科學問題;包括醫學藥物預測、蛋白質分析、新材料設計、凝聚態物理,卻苦無算力。
近期頂尖AI研究人員,有回流學術教育之勢。Andrej Karpathy創辦Eureka Labs傳授基本知識。香港理工大學剛聘請美國回流的AI科學家楊紅霞出任教授,以Model over models整合多個較小大模型,原理通過中間變量推理,取代直接以單一大模型直接預測,跨越不同領域時,證明了偏差更低,大幅減低訓練成本,o1思考鏈正好間接證明團隊思路正確。