新科技速遞| 簡化生成式AI本地部署 IBM夥拍OneAsia拓市場

IBM香港區總經理潘鳳瑤：watsonx 推出以來，超過150家企業客戶分享成功案例，本港政府工程部門採用watsonx 作為數碼助理，以協助生成事件報告，提升工作效率。

[新科技速遞]

生成式AI應用處於爆發期，香港企業利用生成式AI，卻仍有不少障礙。IBM總結不少經驗，透過建立合作關係，加上新一代小巧LLM語言模型，加快生成式AI落地。

據IBM中國/香港總經理潘鳳瑤表示，生成式AI從實驗至大規模應用，首先須有可信數據和數據治理能力，其次是為AI應用做好數據準備，以釋放數據潛力，第三是構建AI就緒的基礎架構，以進行預訓練微調或者推理。

潘鳳瑤表示，IBM協助不少企業部署LLM，涉及不同應用，例如打造AI助理，更新主機系統的應用，以LLM作配對編程（Pair Programming），轉譯上一代編程語言，例如COBOL為新一代Java，方便維護和提高平台的可攜性。

面對算力不足，企業尚可解決數據治理和數據準備，而建立基礎架構營運AI，則較難解決。理論上，市場上有不少雲端GPU供應商，公有雲有所謂「MaaS」（Model as a Service），提供各種預訓練的模型，供不同行業部署LLM應用，無需投資和維護算力基建。

IBM 香港首席科技總監李永輝：最新Granite在學術和企業基準測試，性能和速度方面都有顯著改進，部署在數據中心甚至是桌面電腦上。

本地部署控制成本

不少行業仍受制數據主權（Data sovereignty）限制，客戶的數據，尤其是銀行數據，都有駐留地限制，公有雲LLM往往不部署在港，加上收費不菲，不能準備預計用量，隨時超出預算。故此，在本地(On-premise)數據中心部署的LLM，成為不少企業選項。

不少LLM開源了數據權重，還公佈開發流程；從數據收集、模型設計、訓練到部署，所有環節都完全公開透明，可供SFT（監督微調）和對齊，企業甚至可自行預訓練更可預測和可信LLM，問題在香港缺乏算力基建，沒有完全可信的環境，度身訂造訓練LLM。

科學園和數碼港籌建高性能運算中心和超算中心，解決本地算力不足的難題，上述兩個高性能運算中心都是由OneAsia負責建造，應足以填補了算力空缺。

針對上述難題，IBM同樣夥伴OneAsia，為本地部署LLM提供另一選項，提供本地部署運行watsonx選項，通過混合雲和IBM Consulting的專業知識，以及生態系統例如Soul Machines等，以協助生成式AI落地，同時符合法規要求。

OneAsia 高級營運總監梁錫波： OneAsia的GPU服務平台上將運行完整的watsonx產品系列。通過OneAsia提供的AI Factory，降低客戶實施AI門檻及GPU成本。滿足數據安全、跨境數據傳輸和主權安全要求。

本地部署大小通吃

類似OpenAI的GPT 4o，參數量已超過2000億，訓練成本是天文數字，基本上也不可能部署在內部，問題是許多任務，根本用不上過千億參數LLM，不少企業考慮較小規模LLM，集合多個LLM專長，甚至自行以企業數據預訓練專屬LLM。

較早前，IBM推出第三代Granite，包括開放語言模型和輔助工具集。以往，Granite只專注於特定領域的用例；最新Granite模型在通用學術和企業基準測試，性能和速度方面都有顯著改進，可部署在內部數據中心，甚至是桌面電腦上。IBM香港首席科技總監李永輝介紹，Granite已經服務多個海外客戶，包括了三星SDS、Credit Mutual和美國網球公開賽等。

Granite 3.0 版本包括兩個LLM─Granite 8B和Granite 2B Instruct ，後者可部署在個人電腦上，首次推出多專家模型（MoE）LLM，包括Granite 3B-A800M和Granite 1B-A400M，以及基於LLM輸入輸出的護欄模型Granite Guardian 8B和Granite Guardian 2B。

Granite支援NVIDIA NIM微服務，以容器方式部署，以便跨雲、數據中心和電腦工作站進行推理，加上NIM使用優化引擎、以API可開放LLM的功能，提供高通量的AI推理服務，從此可見NVIDIA平台上，LLM部署推動仍有相當優勢。

AI工廠簡化部署

IBM與OneAsia合作，拓展IBM混合雲與AI平台，IBM watsonx AI與數據平台，結合到OneAsia的GPU即服務（GPU as a Service），提供GenAI-in-a-Box的一站式本地部署（on-premises）；提供財務智慧顧問、適用於政府和航空業「決策支援」助理，以及為高度受監管行業打造的「GenAI品質保證」套件，以符合數據主權合規要求。

GenAI-in-a-Box在OneAsia的高性能運算平台AIOps Portal Oasis上運作，watsonx和Oasis可結合簡化部署，靈活調節昂貴的GPU算力，按需擴展容量並按用量收費，方便控制成本。

Granite混合專家模型 (MoE)則適合部署CPU設備，延遲極低，反應迅速，適合部署於邊緣位置，例如為前線員工提供即時協助，或以混合模式，較複雜推理，交回往數據中心的watsonx回答。

Guardian 3.0 8B 和 Granite Guardian 3.0 2B 則是不同大小的預訓練Granite變體， LLM經微調後，可評估輸入和輸出數據，分類各種風險行為；防止企圖越獄、偏見、暴力、冒犯、性內容和不道德行為。Granite Guardian 3.0還為RAG回答，提供特定檢查，例如回答是否基於事實、與上下文的相關性、與答案相關性等，減低LLM幻覺影響。

OneAsia通過建立OAsis AIOps平台推動AI Factory生態，支援預訓練模型及微調，推理以及各種AI應用，AI Factory是NVIDIA提出的構思，目標是讓企業可擁有專屬LLM、簡化預訓練和部署AI應用，並減低技術技術團隊要求，以至使用GPU的成本等。

Leave a Reply Cancel reply