Web3嘉年華2025
Slide
Web3Festival2025
previous arrow
next arrow

新科技速遞| 簡化生成式AI本地部署 IBM夥拍OneAsia拓市場

IBM香港區總經理潘鳳瑤
IBM香港區總經理潘鳳瑤 :watsonx 推出以來,超過150家企業客戶分享成功案例,本港政府工程部門採用watsonx 作為數碼助理,以協助生成事件報告,提升工作效率。

[新科技速遞]

生成式AI應用處於爆發期,香港企業利用生成式AI,卻仍有不少障礙。IBM總結不少經驗,透過建立合作關係,加上新一代小巧LLM語言模型,加快生成式AI落地。

據IBM中國/香港總經理潘鳳瑤表示,生成式AI從實驗至大規模應用,首先須有可信數據和數據治理能力,其次是為AI應用做好數據準備,以釋放數據潛力,第三是構建AI就緒的基礎架構,以進行預訓練微調或者推理。

潘鳳瑤表示,IBM協助不少企業部署LLM,涉及不同應用,例如打造AI助理,更新主機系統的應用,以LLM作配對編程(Pair Programming),轉譯上一代編程語言,例如COBOL為新一代Java,方便維護和提高平台的可攜性。

面對算力不足,企業尚可解決數據治理和數據準備,而建立基礎架構營運AI,則較難解決。理論上,市場上有不少雲端GPU供應商,公有雲有所謂「MaaS」(Model as a Service),提供各種預訓練的模型,供不同行業部署LLM應用,無需投資和維護算力基建。

IBM 香港首席科技總監李永輝
IBM 香港首席科技總監李永輝:最新Granite在學術和企業基準測試,性能和速度方面都有顯著改進,部署在數據中心甚至是桌面電腦上。

本地部署控制成本

不少行業仍受制數據主權(Data sovereignty)限制,客戶的數據,尤其是銀行數據,都有駐留地限制,公有雲LLM往往不部署在港,加上收費不菲,不能準備預計用量,隨時超出預算。故此,在本地(On-premise)數據中心部署的LLM,成為不少企業選項。

不少LLM開源了數據權重,還公佈開發流程;從數據收集、模型設計、訓練到部署,所有環節都完全公開透明,可供SFT(監督微調)和對齊,企業甚至可自行預訓練更可預測和可信LLM,問題在香港缺乏算力基建,沒有完全可信的環境,度身訂造訓練LLM。

科學園和數碼港籌建高性能運算中心和超算中心,解決本地算力不足的難題,上述兩個高性能運算中心都是由OneAsia負責建造,應足以填補了算力空缺。

針對上述難題,IBM同樣夥伴OneAsia,為本地部署LLM提供另一選項,提供本地部署運行watsonx選項,通過混合雲和IBM Consulting的專業知識,以及生態系統例如Soul Machines等,以協助生成式AI落地,同時符合法規要求。

OneAsia 高級營運總監梁錫波
OneAsia 高級營運總監梁錫波 : OneAsia的GPU服務平台上將運行完整的watsonx產品系列。通過OneAsia提供的AI Factory,降低客戶實施AI門檻及GPU成本。滿足數據安全、跨境數據傳輸和主權安全要求。

本地部署大小通吃

類似OpenAI的GPT 4o,參數量已超過2000億,訓練成本是天文數字,基本上也不可能部署在內部,問題是許多任務,根本用不上過千億參數LLM,不少企業考慮較小規模LLM,集合多個LLM專長,甚至自行以企業數據預訓練專屬LLM。

較早前,IBM推出第三代Granite,包括開放語言模型和輔助工具集。以往,Granite只專注於特定領域的用例;最新Granite模型在通用學術和企業基準測試,性能和速度方面都有顯著改進,可部署在內部數據中心,甚至是桌面電腦上。IBM香港首席科技總監李永輝介紹,Granite已經服務多個海外客戶,包括了三星SDS、Credit Mutual和美國網球公開賽等。

Granite 3.0 版本包括兩個LLM─Granite 8B和Granite 2B Instruct ,後者可部署在個人電腦上,首次推出多專家模型(MoE)LLM,包括Granite 3B-A800M和Granite 1B-A400M,以及基於LLM輸入輸出的護欄模型Granite Guardian 8B和Granite Guardian 2B。

Granite支援NVIDIA NIM微服務,以容器方式部署,以便跨雲、數據中心和電腦工作站進行推理,加上NIM使用優化引擎、以API可開放LLM的功能,提供高通量的AI推理服務,從此可見NVIDIA平台上,LLM部署推動仍有相當優勢。

AI工廠簡化部署

IBM與OneAsia合作,拓展IBM混合雲與AI平台,IBM watsonx AI與數據平台,結合到OneAsia的GPU即服務(GPU as a Service),提供GenAI-in-a-Box的一站式本地部署(on-premises);提供財務智慧顧問、適用於政府和航空業「決策支援」助理,以及為高度受監管行業打造的「GenAI品質保證」套件,以符合數據主權合規要求。

GenAI-in-a-Box在OneAsia的高性能運算平台AIOps Portal Oasis上運作,watsonx和Oasis可結合簡化部署,靈活調節昂貴的GPU算力,按需擴展容量並按用量收費,方便控制成本。

Granite混合專家模型 (MoE)則適合部署CPU設備,延遲極低,反應迅速,適合部署於邊緣位置,例如為前線員工提供即時協助,或以混合模式,較複雜推理,交回往數據中心的watsonx回答。

Guardian 3.0 8B 和 Granite Guardian 3.0 2B 則是不同大小的預訓練Granite變體, LLM經微調後,可評估輸入和輸出數據,分類各種風險行為;防止企圖越獄、偏見、暴力、冒犯、性內容和不道德行為。Granite Guardian 3.0還為RAG回答,提供特定檢查,例如回答是否基於事實、與上下文的相關性、與答案相關性等,減低LLM幻覺影響。

OneAsia通過建立OAsis AIOps平台推動AI Factory生態,支援預訓練模型及微調,推理以及各種AI應用,AI Factory是NVIDIA提出的構思,目標是讓企業可擁有專屬LLM、簡化預訓練和部署AI應用,並減低技術技術團隊要求,以至使用GPU的成本等。

Leave a Reply

Your email address will not be published. Required fields are marked *