ChatGPT引起全城熱議,不少企業關注如何採用人工智能(AI)、機器學習和高性能分析,以提高競爭力。AI和分析算法愈來愈複雜,涉及數據愈來愈多,要以更低成本存取更多數據,進行更多運算,除了處理器和網絡設計,往往還須更好的儲存性能。
AI運算幾乎離不開GPU,透過平行運算加速AI運算,GPU有數千個核心並列執行大量運算,可說是引起AI爆發一個主要工具,即使有不少AI處理器面世,大部分訓練仍是以GPU完成。如果沒有GPU,AI運算架構要再增大4成,相同架構GPU處理數據也可多出5成。
為了解決GPU處理數據吞吐量大增,NVIDIA提出多項創新架構,包括了NVLink和NVSwitch改善GPU與GPU之間和多部運算主機的數據互通,最近更提出DPU,改善超級AI數據中心的數據傳輸負載。
GPU處理器解決AI運算的算力難題,網絡樽頸不解決,GPU只有空轉,確保數據通過快速網絡,及時送往GPU非常重要。不過,假若儲存數據的系統不給力,GPU和網絡亦只有空等的份兒,嚴重浪費昂貴的基建。
AI工作流程各有特別運算和速度需求,首先「數據擷取」(Ingestion)步驟,從不同系統識別要採用的數據集,數據團隊抽取數據集,匯入分析環境(通常是可支援物件的儲存系統),數據散落不同位置,而要以不同協定存取,不少屬於非結構數據,往往是存放在檔案系統。
其次是「數據凖備」(Preparation),為數據加工,例如是為數據加上標注(Labelling)、圖片標註(Image Annotation)或元數據,再通過質檢算法,確保適合作訓練,此階段須高性能運算,然後下一步就開始「模型訓練」(Model training),通常是採用容器的工作流,此階段要高性能運算再加上低延遲,訓練好的模型就可部署到「推理」(Inference)用途,從輸入的數據通過模型運算,再獲得答案迅速回饋到其他系統,一般的推理都須高速及時作反應(如自動駕駛),所以多部署在邊緣(Edge),接近應用的位置,涉及數據量較少,但是延遲卻要極低。部分如ChatGPT生成式AI,礙於模型耗用的算力和記憶體,須部署於雲端上運作,首要條件是要低延遲網絡和高速儲存,從輸入文本快速估計用戶的意圖,從海量數據生成出答案回應,大型語言模型推理對於儲存要求更大。
值得一提,不少專用晶片亦可用於推理,降低邊緣功耗和部署困難。不過從應用亦會蒐集數據,再回傳作儲存作「暫存」(Staging and archive),以便下次數據的擷取,作為優化模型之用,AI的訓練幾乎多以DevOps流程進行,非常適合容器生態和部署,尤其是容器可快速部署到邊緣位置,毋須考慮不同位置的IT環境。
除了容器,AI訓練亦必須性能強勁的儲存系統,極速向網絡和GPU輸送數據,Hitachi Content Platform for File就是針對GPU加速AI、ML和數據分析建立的儲存系統。
Hitachi Content Platform for File兼具了「分散式檔案系統」(Distributed File System DFS)及物件儲存的兩大優點,支援檔案系統(File protocols)和物件儲存(Object protocols)應用協定,例如檔案系統往往以路徑定義位置,物件則是通過API存取。DFS具備了下一步「數據凖備」、「模型訓練」、甚至「推理」的低延遲和高性能。物件儲存則具備以極低成本作大量儲存,加上通過「元數據」(Metadata)去自動化數據管理。
透過「元數據」作數據管理幾乎是物件儲存最重要的功能,因為物件通過「元數據」才能實現的自動化,Hitachi Content Platform在管理元數據一直領先業界,知道數據管理的重要性,就明白何以採用Hitachi Vantara的儲存方案。