芯片革新虛擬平台帶動雲端高性能運算

AWS全球基建副總裁Peter DeSantis介紹Project Nitro成果，其中之一就是帶動雲端的高性能運算（HPC），盛讚該公司傑出工程師James Hamilton，AWS實現HPC，全賴身後Hamilton的遠見。

新科技速遞

2017年，AWS傑出工程師James Hamilton在Re:invent大會上，預測2016年AWS收購以色列芯片設計初創Annapurna Labs後，可有效改善虛擬平台，加快推出雲服務。

Hamilton大概沒想到Annapurna Labs開發芯片，改變AWS雲端多種運算之餘，還推動了高性能運算（HPC）。

Annapurna Labs開發一連串芯片，其中包括Project Nitro，目標是徹底改變虛擬平台（Hypervisor）技術，以專用ASIC芯片去卸載所有虛擬平台工作和保安，甚至可改變網絡架構，而主機上的運算能力和記憶體，則可完全釋放予用戶使用。

今年Re:invent大會，AWS全球基建副總裁Peter DeSantis介紹Project Nitro成果，包括Nitro控制器實現的HPC。

以往，AWS利用了Xen虛擬平台，以軟件打造ec2虛擬機，再推出不同運算服務（ Instance），虛擬化一向以軟件實現，缺點是耗用系統記憶體和運算能力， Nitro將所有虛擬化交托硬件處理，虛擬平台成本更低，速度更快。

硬件化虛擬平台

去年，AWS以Nitro推出c5運算服務，性能比C4提高四分一，直接打造KVM虛擬環境，網絡連接速度達100Gbps，延遲率（Latency）也更低。

AWS再研發新一代高速網絡，ec2虛擬機再推出c5n的Instance，可用記憶體再增加三成，處理模擬運算、數據湖以及通訊密集型應用，運行得更快，c5n甚至可執行叢集（Cluster）為基礎的高性能運算（HPC）。

高速網絡加上低延遲率，c5n可同時連接數以千計Instance，成為單一叢集。HPC已廣泛應用在科研工程上；從化學分子模擬、天氣預測、生物醫學、流體動力學。上述HPC應用，以往多在超級電腦（Supercomputer）運行。

全球的超級電腦愈來愈多，應用更廣。中國的超算就支撐多個關鍵產業的跨越式發展，汽車以模擬設計，耗油量更低，疾病則可尋找快速治療手段等等。

DeSantis說，HPC沒有共通的定義。廣義來說，任何的運算任務，不能單一伺服器執行，須多部伺服器並行合作，就可歸類為HPC。每部伺服器分擔運算一部分工作，不斷互相分享結果，再合作運算出結果，稱之為叢集運算。伺服器之間有緊密合作，對於互連的網絡，帶來傳輸壓力，任何延遲拖慢整體運算，叢集愈大，影響就愈明顯。

「故此運算任務愈大，叢集愈大，網絡性能更關鍵。所謂「超級電腦」，其實就是多部電腦，配合特殊設計的網絡，加上不同處理器；包括CPU、GPU、FPGA等，針對個別運算任務。超級電腦其中一個難題，就是成本極高，耗資千萬美元計，硬件很快過時，用不了數年就面臨淘汰。」

DeSantis說，過去數年，AWS一直致力讓HPC軟件，可在AWS上執行。AWS投資設計和生產交換器，重寫了網絡軟件。

換言之，AWS的網絡從設備至軟件，都是自家所研發，不假外求。AWS網絡技術進入第三代，C5n的Instance網絡速度，比三年前快了十倍，運算能力則只快了三倍，同一處理器所獲頻寬大增了三倍。

這還不止，伺服器之間網絡高速互通，稱之為Placement Group Network。AWS也提供了API分配HPC，參與運算叢集的伺服器，整合至同一Placement Group Network，供獨立應用。同一叢集內，Placement Group Network頻寬可達10,600Tbps，足以支援106,000部伺服器，全以100Gbps連接，時延只有7ms。

超級電腦須專用網絡，其中一條件是不以虛擬化網絡技術，以免造成不穩定。AWS的所有ec2實體伺服器內可加入Nitro控制器，承擔所有的虛擬化任務和保安，伺服器所有運算資源，悉數釋放給VM使用，虛擬化不為VM帶來任何負擔，性能就跟裸機（Bare Metal）一樣快。

DeSantis說，AWS安裝性能更佳Nitro控制器，可進一步提昇網絡性能，發揮專用網絡的特性，專門供HPC的叢集使用。為了改善網速，Nitro控制器甚至繞過TCP協定，避免多部機器出現樽勁後的incast效應（TCP因網絡擠雍導致吞吐量崩潰），推出了專供HPC使用的Elastic Fabric Adapter （EFA），數據毌須以TCP協定傳送，甚至不經過作業系統內核，完全由Nitro控制器執行傳送，不耗用處理器資源。

DeSantis說，AWS網絡功能已整合市場上大部分HPC應用和通訊協定，性能非常穩定，以C5n交付的雲運算HPC，也是全球最快的HPC叢集。

*一級方程式賽車技術顧問Rob Smedley說，計算兩部車在賽道上CFD氣流要4天，利用AWS的HPC，縮短了運行CFD模擬時間，只要8小時就完成，快了十二倍。*

助F1設計新賽車

HPC on AWS的其中一項功能，就是可協助縮短運算流體動力學（Computational Fluid Dynamics，CFD）模擬的運算時間，最近協助一級方程式賽車重新設計跑車，大大改善下一代賽車的氣動特性（Wake effect）。賽道上前車的擾流，若一部賽車緊隨前車只有0.5秒距離，尾隨的賽車就會失去了四成的下壓（Downforce），往往無法抓緊地面。

一級方程式賽車技術顧問Rob Smedley說，以往賽車設計，對於尾隨賽車不利，擾流影響太大，FIA賽會更改設計賽車規則。設計下一代賽車的原型，過程包括了三個步驟；先以CFD以一部虛擬汽車，置於虛擬氣流內實驗，然後再正式風洞內實驗，再以真正賽車到場上試駕，一直降低氣動特性影響，只有數個百分點。

不過，CFD須利用超級電腦才能實現。Smedley說，即使以200核心的叢集，CFD計算兩部車在賽道上的氣流要上4天，利用AWS的HPC，運算縮短了CFD模擬時間，只要8小時就完成。

一級方程式CFD利用了1,150個AWS上的處理器核心，模擬賽車上5億5000萬個數據點，賽車的氣動影響，結果修改了賽車設計規則，2021年各賽隊會按照新規則，設計推出新的車種，賽車手可更緊隨前車，伺機超車。

Leave a Reply Cancel reply