Slide
Slide
Slide
Hitachi_AI_HCI
Hitachi_HCI
HCI
previous arrow
next arrow

FPGA定制運算躍進 提供AI最後一里算力

自主科技

上星期,香港科技園公司推出了首個基於FPGA(Field Programmable Gate Array)技術的「iDM2 Micro-Electronics Node電子開發加速計劃」,旨在推動香港微電子產業的迅速發展。

同時,遠在重慶的2019中國國際智慧產業博覽會FPGA智慧創新國際大賽舉行,亦是聚焦於FPGA、人工智慧、大數據等的團隊參賽。FPGA成為炙手可勢的技術,FPGA迅速興起,主要是5G、人工智慧、無人駕駛等,使用大量邊緣運算力,FPGA具低功率和高效率。

2015 年6 月,Intel 宣佈以167 億美元,收購了全球第二大FPGA廠商Altera(佔首位是發明FPGA的Xilinx),英特爾更宣佈未來3年,要在中國認證1萬名FPGA人才。

如果計算一些資料,最常用方法是當然是針對CPU或GPU基於指令(Instruction Set)的架構,編寫計算所需軟件。或者採取更麻煩辦法,專門針對特定的計算需求設計出一套定製化計算電路,通常稱為ASIC。

ASIC必須經過設計、流片、外發到晶圓代工廠生產,開發生產周期長,成本高。近年再興起了利用FPGA,同樣定製化計算,以電路方式來加速運算,卻可小量出貨,電路設計亦可升級。

鯤雲科技的FPGA可編程加速卡「星空1150」,配合CAISA架構可以發揮出FPGA達90%極速性能,進一步在性價比上拋離了通用芯片。

FPGA延遲極低,很容易可低於1毫秒,而即使表現最好的CPU,延遲通常也在50毫秒之間。FPGA無需依賴通用作業系統,也無需通過匯流排(例如PCIe)通信。由於毋須經匯流排(如 USB 或 PCIe)與數據源建立連接,所以速度也可以極高。

從芯片電路可實現低延遲,高數據處理量,低功耗各種優點,適合作邊緣運算,甚至工業用途,不少FPGA也應用在戰鬥戰上,可見其低延遲和可靠性。不過FPGA較一般編程,以CPU或GPU以高階語言更困難。

AI訓練主流仍是利用GPU訓練模型,模型完成後,用作推理(Inference)就可用定製化的硬件執行,以減低成本和功耗,日後AI模型更新,亦可重新編程。事實上,AI模型完成後,推理耗用更多運算能力。不少AI模型推理,例如無人駕駛在邊緣執行,更適合FPGA。

FPGA很適合執行深度學習的推理,要充份利用FPGA能力,先決條件是掌握硬件描述語言(HDL),例如Verilog或VHDL等。FPGA也有多種部署方式,可變系統芯片;也可變成開發板(Development Board),甚至可編程加速卡(Programmable Accelerator Cards)加進伺服器擴充槽(類似PCIe)。FPGA可變成芯片為不同邊緣設備,加上AI的能力;又可開發板微電腦形式(類似Nvidia Jetson)在邊緣供AI推動,編程加速卡則可加進伺服器在數據中心提供算力。

通用芯片CPU或GPU有兩大樽頸,首先隨著7nm製程芯片出貨,已接近矽質的物理極限;其次良率下跌也影響了成本。即使大量產降低成本,通用芯片優勢正被逐漸拉近,AI運算注重向量的平行算運能力,通用芯片以指令控制硬件,傳統通用芯片基於指令集架構方式,指令集每個指令執行時間不一致,達到流水作業較難,會有不必要等待,導致執行效率降低。所以即使說,處理器主頻很高(甚至超過4.0 GHz),執行效率卻因為解譯指令拖慢,無法達到理論上的峰值速度。

ASIC則產量上要達到一定規模,電路無法更新,開發也有一定市場風險。FPGA完全可在電路上執行,效率極高,功率極低,少批量生產,具備更新能力。FPGA兼具兩者的優勢,開發的門檻也逐漸降低。

FPGA也有不少開發板,「iDM2 Micro-Electronics Node電子開發加速計畫」上,安富利展出了第二代Ultra96-V2開發板;支援Xilinx所提供的嵌入式Linux工具Petalinux,以簡化開發周期,具備了Wi-Fi/藍芽的新射譜組件,可用於智能家居、工業控制等AI推理等。鯤雲科技亦開發了類似產品,雨人加速卡Rainman Accelerator。

極致的FPGA性能

串流架構(Streaming architectures)可發揮出硬件的峰值潛力;FPGA產業迅速發展,深圳鯤雲科技成立3年,營業額超過一億,通過串流架構發展FPGA,無須學懂HDL,也可發揮FPGA峰值性能,硬件時刻發揮極速性能。

鯤雲科技也開發出全球第一款基於資料流程技術打造的通用人工智慧底層架構-定制資料流程CAISA。CAISA也是通用AI底層架構,通過全新的數據流程架構,突破底層架構效率的瓶頸,充份發揮底層硬體的效率,同等芯片峰值性能下提供更高實測性能,從而為AI推理提供更多算力,可實現76%~98%的MAC效率,也就是用盡了FPGA上的所有算力。

鯤雲科技由數名英國帝國理工大學的學者建立,創辦人牛昕宇,其他英國皇家工程院士陸永青和香港中文大學博士蔡權雄等香港學者。

艾睿電子(Arrow Electronics)亞太有限公司工程方案中心總監陳旭昇說,傳統的計算架構,先將程式運用軟件工具放在固定架構,比如CPU或GPU上,即使保持正常運算速度,同時也會消耗很大功率。

鯤雲科技市場總監栾麗紅說,利用TensorFlow,Caffe, ONNX等開源框架下開發的主流深度學習演算法的模型,可通過自動編譯工具鏈RainBuilder,變成CAISA2.0原碼。RainBuilder使用過程簡單,無需對於底層硬體有深入瞭解,即可快速開發適用於AI專用芯片的演算法方案。從訓練好的模型檔,只需兩步,即可實現整個神經網路的推論,十分方便。

Leave a Reply

Your email address will not be published. Required fields are marked *