[新科技速遞]
AI時代,數據愈來愈重要,數據孤島令價值無從發揮,儲存體支援不同數據格式,近代發展最快,莫過於物件儲存(Object Storage)。
Hitachi Vantara推出一體化數據平台Hitachi Virtual Storage Platform One (VSP One),簡化了儲存的部署管理,提高數據可用性,支援混合雲互通,打破數據孤島,公有雲訓練或微調完成的AI模型,快速移回內部部署,充份發揮數據價值。
數據主要分結構性和非結構性。互聯網出現之後,非結構性數據量大增。企業應用的結構性數據庫,主要儲存在區塊儲存(Block Storage)上,但是非結構性數據多在檔案儲存(File Storage)。
自從AWS推出了S3的物件儲存平台,支援規模化部署,可無限量擴充,支援複雜的Metadata管理,為數據加上檢索能力,只要將Metadata儲存NonSQL文件數據庫,就可快速以API存取大量數據,結合到雲源生的應用。
物件儲存具卓越容錯能力,亦令儲存成本下滑,用途不斷增加,成為了增長最迅速儲存格式,AWS開展的S3儲存介面,自此成物件儲存的工業標凖。
物件儲存迅速流行
事實上,物件儲存用途不斷增加,最初用於數據備份和存檔,後來成為雲原生應用的儲存,以至以JavaScript前端的Web應用儲存,亦可取代檔案系統,以類似One Drive和Google Drive體驗作文件管理系統,支援物聯網的高速存取。
不少大數據分析,包括數據湖和湖倉一體,都是建立S3物件儲存上。大模型LLM訓練所用大量非結構性數據,生成式AI或機器學習等訓練,幾乎離不開物件儲存。
但是,物件儲存用例廣泛,不代表其他儲存馬上消失。事實上,不少企業仍靠區塊儲存,以支援主機(MainFrame)或結構性數據庫。NVMe通訊協定出現之後,固態儲存結合區塊儲存,存取速度和數據輸入/輸出(IOPS),更屢創新高。
混合儲存部署AI
Hitachi Vantara首席產品官Octavian Tanase表示:「雖然,公有雲亦可部署生成式AI,不少企業希望在內部部署,以確保合規和私隱。訓練和微調LLM可能利用物件儲存,大模型可部署檔案儲存上,但不少企業透過 RAG(檢索增強生成)技術,內部數據變成向量數據庫,也要求快速回應,則要利用區塊儲存。」
VSP One支援區塊存儲和檔案存儲,以至混合雲部署,檔案存儲則易於管理,仍用於不少企業應用。VSP One可簡化AI訓練部署流程,大模型訓練後,要結合內部知識,監察大模型回應過程。
Tanase說:「鑑於要加速回應速度,大模型和向量數據庫部署在快速儲存體,加快回應的速度。部分機構須為大模型加入審計追蹤(Audit Trail),確保回應符合原先預期,或大模型不被濫用,通過快拍功能,追溯大模型回應過程,日後可供調查。」
協同數據發揮價值
企業在分散多雲架構上擴展應用,前題是現代化應用(App Modernization),簡單來說就是以Kubernetes重新開發應用,應用在容器上虛擬化,以現實多雲部署,提高靈活性和可用性。Kubernetes屬於雲源生的架構,透過容器化的技術,應用就不同平台之間轉移,實現負載平衡和靈活部署。
Kubernetes有多種版本;包括VMWare、Google和OpenShift等,須特定驅動程式配置儲存,Hitachi Vantara也是最早支援通過CSI驅動的廠商,可為不同格式Kubernetes叢集動態部署儲存體。
VSP One混合雲部署,暫時只支援AWS。VSP One SDS 雲存儲已在AWS Marketplace上線 。由於AWS 佔去公有雲最大市場,主流數據湖倉支援S3,VSP One用戶在AWS部署數據,完成機器訓練或模型訓練微調後,成果可通過同一介面,遷移至內部使用。
VSP One設計核心是「存儲虛擬化操作系統」(SVOS),提供100%數據可用性,確保資訊跨設備和跨地匯集、整合、訪問,而彈性更是核心考慮, 打破數據孤島,數據在不同環境流動,易於協同發揮價值。