隨著人工智能技術愈來愈成熟,不少行業都正研究如何利用人工智能,改善行業的運作。人工智能(AI)必須利用建立的模型,作為推論之用。
AI運算首先是準確,亦要有大量的數據作「訓練」(Training)和「推論」(Inference)兩個階段,這類訓練和推論,除了定義資料結構,機器學習不斷對結構內容微調學習,直至完全分辨出對錯,過程中要消耗龐大運算資源。
一般AI模型先在後端,以龐大資料量,並通過數以Exaflops計運算資源完成「訓練」。AI和雲運算,可算一體兩面,不少靠雲運算「訓練」。但不少數據的內容敏感機密,類似金融和醫療數據,涉及私隱和法規遵從,須在內部分析。IBM亦推出專用於AI的加速平台。
AI深度學習有兩個階段,尤其訓練階段,消耗大量運算能力,如果用一般工業CPU,除了耗時緩慢,用上大量機器和電力。用於圖形加速的GPU,則擁有平行運算能力(同時執行多項運算),廣泛應用AI上。以GPU來訓練系統,電腦辨識圖形和物體,完成訓練之後的神經網路,用於「推論」和加強準確度,不斷分類資料,以準確「猜想」出結果。
AI可處理大量非結構數據,以往類似串流影像、音頻,很難以電腦處理,又或者成本貴得驚人;IT系統只能處理結構性數據。
深度學習實現AI
人工智能影響了電腦能處理的數據範圍,有人稱之為「認知運算」,包括了電腦視覺(Computer vision)、自然語言處理能力、語音辨識(Speech recognition),利用深度學習的演算,認知的能力甚至勝過人類。
過去數年,深度學習的演算法,突飛猛進。緣起於2011 年,Google的人工智能專家吳恩達以GPU大規模加速,實現深度學習,AI終於從實驗室,一躍成為可用於實際的工具,全球開始認識AI潛力。
以GPU或FPGA加速,幾乎成深度學習主要方向,而GPU又可比一般CPU快上數百倍;其中Nvidia最早進入了機器學習的圖形加速廠商。
「以往機器學習建立的統計模型,只限於處理結構性數據,以統計找出趨勢索引。AI則可處理任何格式的數據,自行找出答案。其中,電腦視覺尤其是AI發展較快領域,用於無人駕駛等領域,全靠深度學習實現。深度學習與機器學習兩者,最大差異在於其「深度」,愈深則耗用更多運算能力,幾乎沒運算加速不可能實現。深度學習可處理人類的自然語言,甚至人機對答。」IBM系統硬件部傑出工程師李永輝說解釋。
未來十年,AI要求新的運算架構處理大量數據,不能再用今日一般性架構完成,必須以加速平台上才能實現。所謂「加速平台」,多指以傳統CPU配合GPU或者FPGA,所建立的「異質性計算平台」(Heterogeneous computing)。
異質計算主流平台可選用一般X86處理器;但愈來愈多人工智能,採用IBM的Power處理器,配搭GPU作為加速;GPU以平行運算原理,化整為零,快處理重複的運算,非常適合AI;而與GPU連接速度,亦包括了連接記憶體的能力,也包括支援AI架構的能力。
李永輝說,除了加速AI,新興的GPU DB數據庫技術,以GPU加速後可比最快In Memory數據庫,再快上百倍,達到實時分析。
全球最強AI加速設備
IBM推出AC922服務器,搭載最新Power的第9代處理器,一般X86處理器PCIe接口雙向傳輸速度達到32GBps,但是AC922配合NVLink連接,CPU和GPU,GPU之間傳輸速度可達170GBps,IO性能比x86服務器快上5.6倍,總線則利用了PCIe Gen4,也是全球首部搭載可加速數據移動的OpenCAPI標準的服務器,比最高級的x86服務器亦快上4倍。AC922服務器最多支援六張NVIDIA Tesla V100;密度業內最高。
AC922亦配備了多種AI架構軟件,從IBM本身的Caffe,以至Google的TensorFlow、Torch、Chainer等,全經IBM驗證安全;確保資料結構定義準確,訓練出的AI模型具參考作用。
Nvidia人工智能技術中心總經理羅建民表示,Tesla V100採用了新GPU架構Volta,為目前最先進GPU加速技術,有助研究人員解決科學難題。全球均積極AI發展,但缺乏人材。Nvidia與廠商推出加速平台,亦與多家高等院校,包括香港科技大學合作培訓人材。
IBM人工智能系統技術總監林咏華說,FPGA加速較為省電,IBM具備整合FPGA和GPU作為加速的能力,但GPU效能較高,適合作後端訓練,FPGA則較適合流動設備,或者特定的應用場境,例如微軟就用不少FPGA在BING的AI搜尋平台。