AI正走到一個重要分水嶺。

過去,業界普遍相信只要把模型做得更大、數據餵得更多、算力堆得更高,人工智能便會自然走向AGI(Artificial General Intelligence,人工通用智能)。可是,近期Hermes MoA 2.0、Sakana Fugu、OpenRouter Fusion等聚合模型與多智能體系統的發展,提出了另一條路線:下一階段AI能力提升,未必只來自單一模型,而更可能來自多模型協作、能力融合、專家能力聚合,以及「平時低成本、必要時高智能」的分層推理架構。

7月初Hermes發佈的v18.0最大亮點就是MOA聚合模型,成本減少,推理能力大幅提昇
7月初Hermes發佈的v18.0最大亮點就是MOA聚合模型,成本減少,推理能力大幅提昇

從這個角度看,香港理工大學人工智能高等研究院(PAAI)和楊紅霞教授團隊較早前提出的Model over Model(MoM),並非天馬行空,而是與全球AI前沿趨勢高度一致。近期業界不同研究與產品方向,都在不同層面證明同一件事:AI正由「堆算力」走向「建團隊」;由單一模型競賽,走向多模型協作、融合與演化。

PAAI的方向,正是把這種聚合思維由應用層的推理協作,推進至更底層的預訓練、持續預訓練、模型融合與知識蒸餾。對香港而言,這尤其重要。香港缺乏大規模訓練算力,又受到地緣政治和供應鏈限制,訓練算力是最大缺口;但香港同時擁有大量專有知識、專業場景和高質量研究數據,這些知識往往束諸高閣,未能真正轉化為模型能力。

Hermes:用多模型協作處理複雜推理

Hermes Agent近期版本v0.18「Judgment Release」引入Mixture of Agents 2.0(MoA 2.0)。Hermes的核心概念,是讓用戶把不同供應商的大語言模型組合成自己的「模型混合體」,並在Hermes內像調用一般模型一樣使用。換言之,用戶不再被單一模型或單一供應商綁定,而是可以把OpenAI、Anthropic、Google、開源模型、本地部署模型等不同能力,按需要組合成多模型推理系統。

Hermes MoA、Sakana Fugu、OpenRouter Fusion與理大PAAI Model over Model,共同指向多模型協作與融合
Hermes MoA、Sakana Fugu、OpenRouter Fusion與理大PAAI Model over Model,共同指向多模型協作與融合

Hermes行政總裁Teknium指出,MoA 2.0可以把任何供應商的模型組合成自訂mixture,並以Hermes內的preset形式使用。他亦提到利用Opus與GPT等模型共同組成MoA,在HermesBench測試中超越單一頂級模型表現。這反映出一種新的工程邏輯:最強能力未必來自單一模型,而是來自多個模型之間的分工、互補與綜合判斷。

實際應用上,這種架構的意義在於,一般用戶並不需要每條問題都調用最昂貴的前沿模型。日常業務問題,例如數據整理、文件摘要、客戶服務、內部流程查詢、初步分析等,可以交由較低成本或本地部署模型處理。在一般使用情況下,企業甚至可利用DGX Spark運行SGLang,配合Qwen等開源模型,處理大量日常業務任務。

當系統遇到特別複雜的推理任務,例如策略判斷、跨文件分析、技術架構設計、法律或合規風險比較、假設推演等,才啟動/moa,讓多個LLM從不同角度分析問題,再由aggregator model綜合答案。這樣做的好處,是把高成本推理能力留給真正需要的場景。若多模型聚合的結果可接近甚至挑戰最前沿模型,而平日大部分任務仍由低成本模型完成,整體AI使用成本便可大幅下降。

Sakana Fugu:把多智能體包裝成一個模型

另一個重要發展,是Sakana AI推出Sakana Fugu。Sakana AI共同創辦人Llion Jones是2017年Google改變AI發展方向的論文《Attention Is All You Need》主要作者之一,也是Transformer架構的重要開創者之一。

Sakana一直因Evolutionary Model Merge和群體智能研究備受關注;其研究方向是AI能力可以透過不同模型的演化、融合和互補而提升,不一定只靠垂直放大單一模型。Sakana Fugu則把這種思路產品化。

Fugu標榜「Multi-Agent System as a Model」。表面上,用戶調用的是一個OpenAI-compatible API;但系統內部可以利用多個agent或模型協作,完成複雜推理與生成。Fugu分為一般版Fugu和Fugu Ultra,可按工作負載選擇不同能力與延遲平衡。一般Fugu強調較低延遲和穩定性能,適合日常工作、編程、代碼審查和聊天服務;Fugu Ultra則面向高難度任務。

這種設計把多智能體協作隱藏在一個API之後。對開發者而言,整合方式仍像使用一個普通模型;背後則由系統根據任務需要調度不同agent和模型。這與Hermes MoA的形態不同,但方向一致:AI不再只是「一個模型回答一切」,而是一個模型網絡或agent群體共同完成任務。

OpenRouter Fusion:多模型混合的另一種實踐

OpenRouter推出Fusion也是同一技術主線。Fusion可理解為「按需要啟動的多模型評議機制」。當基礎模型判斷某個問題值得投入更多時間和成本處理,Fusion便會把同一prompt並行交給多個模型,讓各模型從不同角度回答,再由judge model比較答案,整理出共識、矛盾、遺漏、獨特洞察和盲點。外層模型再根據結構化分析,生成更完整、更可靠的最終回應。

這與傳統router不同。一般模型router是「選一個模型」:簡單問題交給便宜模型,困難問題交給昂貴模型。Fusion則不只是選一個模型,而是在需要時讓多個模型同時參與,形成臨時「LLM委員會」。目的不是永久增加成本,而是在真正值得思考的問題上,以多角度分析換取更高質量答案。

OpenRouter亦強調,Fusion不一定應作為所有任務的預設模型。以編程為例,日常代碼修改可由基礎coding model直接完成;若問題涉及系統架構、最佳實踐、複雜debug或技術取捨,才值得調用Fusion,讓多個模型共同分析。「平時低成本、必要時高智能」的設計,與Hermes MoA 2.0和Sakana Fugu一脈相承。

業界正形成一種新的AI成本結構:不是每次都使用最貴模型,而是把AI系統設計成分層架構。第一層處理大量普通任務,追求低成本和低延遲;第二層在遇到困難任務時啟動多模型協作,追求高可靠性和高推理能力;第三層則進一步把經驗、知識和推理流程沉澱回模型、agent或企業知識系統之中。

聚合模型趨勢,側面證明PAAI方向正確

Hermes、Sakana Fugu和OpenRouter Fusion共同說明,AI正在從「堆算力」轉向「建團隊」。過去,AI能力提升依靠更多參數、更大數據集和更昂貴GPU叢集。現在,關鍵問題變成:如何把不同模型組合起來?如何讓便宜模型與昂貴模型分工?如何讓本地模型與雲端模型互補?如何在成本、延遲、私隱和推理能力之間取得平衡?

這個轉向對企業尤為重要。企業部署AI時,最關心的往往不是單次demo能否達到最高分,而是長期運行成本、數據私隱、延遲、可控性和可擴展性。日常任務可由開源模型或本地模型完成,複雜任務則使用多模型聚合,在成本與效益之間取得合理平衡。這也是為何DGX Spark、SGLang、Qwen等本地推理和開源模型生態,與MoA、Fusion、Fugu等多模型協作架構形成互補。

這個趨勢也為大學和研究機構重新參與AI基礎能力建設,提供了新的想像。未來AI不再只靠少數企業訓練超大模型,而可以靠不同領域模型、不同專家agent、不同研究機構的知識互相融合。大學因而有機會重新成為推動AGI發展的重要力量。

理大剛成立人工智能高等研究院(PAAI),嘗試以更開放、更務實的方法推動AGI。PAAI的發展正切中AI下一階段的核心。業界的MoA、Fugu和Fusion,主要證明「推理時聚合」有效;PAAI和楊紅霞教授團隊提出的MoM,則進一步追問:如果推理時的多模型協作已經能顯著提升能力,能否把這種協作提前到模型訓練、持續預訓練和知識融合階段?不同大學、不同學科、不同產業是否可以各自建立專精模型,再通過融合形成更強的樞紐模型?這正是MoM的價值。

Scaling Law的瓶頸

一直以來,生成式AI發展遵循所謂Scaling Law:參數越多、數據越多、算力越強,基礎模型性能越好。然而,基礎模型愈造愈大,也逐漸遇上瓶頸,必須另闢蹊徑。

首先是訓練成本與能耗過高。訓練萬億參數模型,需要極高硬件投資,能耗亦相當驚人。其次是高質量數據日漸稀缺:網上可用於訓練的高質量公開數據逐漸耗盡,敏感數據、專有數據和專業知識又難以直接共享。最後,單一基礎模型能否無限擴大,正受到愈來愈多質疑。

基礎模型訓練可分為兩個階段:首先是預訓練(Pre-training),其次是後訓練(Post-training),包括監督式微調(Supervised Fine-tuning)和強化學習(Reinforcement Learning)等。然而,模型的深層知識注入,實際上主要發生在預訓練階段。通過fine-tuning注入全新知識,效果往往遠不如預訓練。

另一個關鍵問題是,預訓練成本過高。若要推動AI真正進入科學研究和產業應用,就必須降低訓練門檻,讓更多大學、研究機構和不同學科團隊能夠參與其中,而不是只由少數大型科技公司掌握基礎模型創新。

楊紅霞教授團隊的Model over Model

PAAI推動「Model over Model」(MoM)分散式(Decentralized)預訓練研究。簡單來說,MoM是一種「先做小而專,再做融合」策略。不同學科機構可先在本地內部可信環境中,以自家高質量數據,通過預訓練打造70億至130億參數級別的領域模型(Domain-specific model)。這些模型不一定追求最大規模,而是在特定領域具備更深層知識、更專業推理方法和更可靠的學科判斷。

之後,再通過「持續預訓練」(Continual Pre-training),把特定知識灌注至基礎模型當中。進一步而言,透過跨模型融合(Model Fusion)與知識蒸餾(Knowledge Distillation),可以疊加不同基礎模型和領域模型的優勢,形成更強的樞紐型基礎模型。

這種做法有數個重要意義。首先,數據不必外流,有助於兼顧私隱與合規,在本地先發揮數據價值。其次,能力可以疊加;不同模型各有特長,融合後能形成更均衡、更強的整體能力。最後,通過去中心化協作,不同機構可在可負擔成本下,利用分散運算資源,共同推動AI應用於科學研究。

理大方向的關鍵差異

Hermes、Fugu和Fusion主要展示的是推理(inference)階段的多模型協作:系統在回答問題時調用不同模型或agent,多角度產生答案,再進行整合。

理大MoM則更進一步。MoM不是只在現有模型之上做推理時聚合,而是讓不同學科自行發展領域專家模型,吸收本地高質量數據、學科知識、專業推理方法和研究邏輯,再通過持續預訓練、模型融合和知識蒸餾,成為更強樞紐模型的一部分。

MoM進行聚合時,參與融合的並不只是「較便宜的reference models」,而可能是真正具備專業知識結構和學科思維方式的domain-specific models。若醫療模型懂得臨床推理,材料模型懂得分子結構與實驗約束,機器人模型懂得控制、感知和物理世界互動,這些專家模型在融合後,不只是提供答案參考,而是把不同科學領域的推理方法帶入同一個智能體系。

因此,理大的MoM若能成功,潛在效果可能比一般推理時多模型聚合更深遠。MoM不只是提升回答質素,而是改變知識如何被注入模型、學科如何參與AI、大學如何重新進入基礎模型創新的核心流程。

InfiFusion顯示「融合有效」

PAAI正搭建面向大學研究與產業的研發基礎,不止提供算力叢集(Computing Cluster),還包括「持續預訓練+模型融合」流程與工具,讓全球大學不同學科可打造自身領域的基礎模型,並通過融合形成更強的樞紐基礎模型。

理大團隊研發InfiFusion技術,正是實踐MoM融合的例子。團隊以不同來源的中等規模模型進行融合,涵蓋在「推理」(Reasoning)或編程能力上表現突出的模型,包括Mistral、Qwen系列(包含Coder與Instruct)以及Microsoft Phi-4等開源模型,並顯示平均能力有顯著增強。

這一點與Hermes MoA、Sakana Fugu、OpenRouter Fusion和Sakana過去的model merging研究趨勢一致:不同模型可以互補,協作與融合可帶來超越單一模型的效果。不同之處在於,InfiFusion的目標不是簡單組合開源和閉源模型,而是為大學和研究機構建立一套可重複、可擴展、可分散參與的AI研發框架。

重塑Scaling Law

當訓練成本下降,更多團隊便有能力啟動「預訓練+融合」的迭代流程。每個機構都可以擁有自己的模型,並對樞紐型基礎模型作出貢獻。Hermes MoA 2.0顯示,多模型聚合可以用較低成本換取更強能力;Sakana Fugu顯示,多智能體系統可以被包裝成一個簡單可用的模型服務;OpenRouter Fusion顯示,多模型評議可以在必要時提升答案質量;理大PAAI和楊紅霞教授團隊提出的Model over Model,則進一步把這種協作思維推向預訓練、持續預訓練和模型融合層面。

換言之,Hermes、Fugu和Fusion證明,多模型協作正在成為AI應用層方向;PAAI則嘗試把同一套邏輯推向更基礎、更長遠的科學研究與模型建設。AGI可能不是一個孤立巨型模型,而是由不同專家模型共同構成的智能生態。PAAI提出的MoM與InfiFusion,正好站在這個轉折點上。