人工智慧(Artificial Intelligence,AI)經過幾乎近六十年發展,從純學術研究日漸成熟,逐漸進入應用階段。除了IBM的Watson,其他人工智慧成果陸續浮現,全球正步向人工智慧普及化(Democratizing AI)的世代,影響各行各業,互聯網服務供應商更積極以AI轉型。
AI之所以水到渠成,簡中原因亦是互聯網累積了大量數據,發展機器學習,AI可不斷臻善數學模式。近年運算模式突破,AI運算模式憑大量數據,改善電腦認知能力作深度學習,甚至分辨圖片和解讀聲響。AI要求極快速運算,超級運算能力之所以加快實現,又歸功於圖型加速卡(GPU)浮點運算,被借用作「一般用途運算」(General purpose computing)。中央處理器(CPU)利用了GPU作平行運算,稱之為GPGPU,爆發出驚人的運算能力,AI也更快變成現實。
NVIDIA是最早投資於GPGPU的圖型加速卡廠商。CPU要借助GPU運算,須通過另一套轉譯工具,一般程式變為GPU能處理的源碼,NVIDIA推出CUDA,正是目前最流行轉譯工具,NVIDIA也成為AI。NVIDIA推出了專供機器學習GPGPU的Tesla平台,GPGPU價格進一步下調。
但是,CPU要充份利用GPGPU性能,數據交換速度必須夠高。否則GPU再快,亦無用武之地。NVIDIA開發了NVLink,供多張GPGPU之間高速交換數據;可是GPGPU與CPU之間仍有瓶頸,GPGPU只有空轉,等待CPU送來的數據。
IBM服務器方案經理張智恆說,去年IBM公佈開發代號Minsky的新Power架構,同一服務器可容納最多四張GPU的叢集,專用於高性能運算或者AI,徹底解決GPGPU與CPU傳輸限制。
公開架構加快創新
2013年,IBM成立了OpenPOWER Foundation,公開了Power處理器的架構設計,以便與合作夥伴協作,加快Power服務器演進。OpenPOWER推出了OpenCAPI,以便連接GPU、ASIC、FPGA等輔助加速芯片,提供協作的平行運算。
NVIDIA向OpenPOWER Foundation貢獻了NVLink,NVLink是NVIDIA用於連接GPU之間,一種極高速的管理。OpenCAPI加入了NVLink,新一代Power架構可讓CPU與GPU數據交換速度,一下子提高數倍。NVLink速度達80GB/s,較英特爾系統採用PCI Express快了四倍。目前英特爾沒有相應的方案,足以挑戰Minsky的速度。
新一代Power系統Minsky,支援兩枚Power處理器和四張NVIDIA的Tesla 100的GPGPU,全部以NVLink互連,足以取代數以十計X86電腦組成的叢集系統,節省大量硬件、電力和周邊配置。
張智恆說,本港不少大專院校的研究部門,已對採用Minsky開發AI應用,表示極大興趣。
NVIDIA亞太區業務行銷副總裁Raymond Teh說,Tesla 100採用NVIDIA新一代的Pascal架構,比上一代快了幾倍,支援CUDA和用於類神經運算CUCNN語言,不少公司都在CUDA上加上本身開發AI架構,最著名可數Google的Tensorflow、IBM的Coffe、Microsoft的CNTK,公開架構如Torch等,用於深度學習的運算架構。上述架構,均可在Minsky於Ubuntu作業系統上執行,透過CUDA轉譯,放到Tesla 100 GPU上加速。
Raymond Teh說,Power處理器加上NVLink、OpenCAPI、Pascal架構組成的Minsky平台,為迄今速皮最高的深度學習平台;不少金融、醫療研究、無人駕駛,甚至互聯網企業Google、Facebook、國內多家互聯網,紛紛轉用上述組合,支援新一代運算。
「互聯網產業要過濾大量訊息;以往靠大量CPU組成的叢集,如今通過GPU的平行運算減少負荷。另一個很大用途是用於人臉或聲音的識別。騰訊、百度、阿里等,均部署大量Power處理器和NVIDIA的GPGPU。」
NVIDIA作為AI方案的最大廠商,亦有不少挑戰對手,包括了可編程低功耗技术的FPGA,以及不同的 ASIC芯片。不久之前,由於Google的Tensorflow架構極受歡迎,宣佈推出TPU的ASIC芯片,專門用於執行Tensorflow。不過,Teh表示,TPU只針對執行Tensorflow負載,並非GPU一般性能指標。
他說:不同領域廠商推出本身方案,有望加快AI發展。較早前,英特爾收購Mobleye,就是為了加快AI的SoC芯片開發,預計會有更多ASIC和FPGA方案陸續出現,挑戰NVIDIA的地位。