數據的價值愈來愈高,實時分析大量數據,可以馬上掌握市場的情況。「數據是新的石油」,不過這些資源是埋藏在儲存系統內,系統的速度成為提取數據價值的關鍵。
為了解決數據分析的速度問題,儲存開始加入了快閃儲存,不過最先提出全快閃是Pure Storage,於2009年成立,一開始就以全快閃為發展概念。起初,不少人以為全快閃的儲存不切實際,2017年,Pure Storage的收入突破10億美元,並取得盈利。
快閃具備高速讀取,以及低功耗等優點,可大幅增加處理器使用率。處理器速度極快,記憶體數量有限,儲存一直是最大樽頸。快閃可支援極快讀寫IO,快速傳送數據,充份利用處理器的運算能力,也實現了不少難於實行的快速業務分析。
全快閃的夢想
不過以往有儲存加入快閃,主要為快閃儲存熱數據,較少存取冷數據,則存於傳統硬盤。快閃的讀寫速度驚人,不少廠商以快閃改善儲存性能,隨著數據分析對儲存性能要求愈來愈高,終於出現了全快閃的儲存列陣。
據Pure Storage香港及澳門總經理陳錦全說,10年前Pure Storage創業,一開始已是朝「全快閃」建立數據列陣,曾經被指是不切實際。隨著快閃儲存價格下降,NVMe介面出現,快閃儲隨機讀寫更佳,延遲更低。
一般業務報表避免影響正常作業,往往要在特定數據倉庫的系統。高性能快閃儲存系統,則可在同一系統內完成所有工作,不影響日常作業。
陳錦全說,Pure Storage甚至支援新商業模式,類似Nielsen就用快閃於大數據分析。以往從市場上蒐集大量的數據,客戶從Nielsen購買報告,以往可能數日完成,升級到Pure Storage後,Nielsen可以近實時方式,短時間向客戶按需分類,提供不同分析報告。
人工智能帶動閃存
不過,近年Pure Storage的興起,主要還是跟人工智能(AI)有關。不少AI分析的數據,包括影像、自然語言、聲音,幾乎全是非結構性數據,從數據的攝取(Ingest)、清洗(Cleaning)、標註(Labeling)、訓練,過程要極快隨機讀寫,加上主流AI分析,都是以GPU完成;NVIDIA的CUDA平台更是AI行業最流用的平行運算平台。GPU價格高踞不下,擅用存儲加快GPU執行AI訓練,就成為Pure Storage發展方向。
數據分析和AI針對非結構數據,2016年Pure Storage就推出FlashBlade,專門針對大數據及分析,支援檔案和物件儲存(Object Storage);支援NVLink,GPU與處理器通訊得以加強,FlashBlade優點是配合了NVIDIA深度學習伺服器DGX-1,配合獲有的NVLink加快數據傳往DGX-1以GPU訓練AI模型。GPU價格極高,能充份利用GPU 帶來了龐大的經濟效益。
FlashBlade所支援的物件儲存(也相等於S3介面),近兩年AI讀取數據,往往是非結構性,不少就趨向以物件儲存(例如S3協定),利用數據本身帶有標籤的Namespace,AI訓練時就可快速辨識適當數據,利用作為訓練。但是物件儲存多數是為了用於數據長期儲存之用,近期才用於AI。FlashBlade結合了S3介面,馬上就大派用場,加快AI訓練。
冗餘刪除節省空間
利用快閃的特徵,大量數據通過冗餘刪除(Deduplication)和壓縮,甚至更數次壓縮大量數據,冗餘刪除是通過讀取相同數據,以減少儲存使用的空間。快閃讀寫速度極快,大量數據可以同時儲存在更少的空間內。
快閃儲存儲存更多數據,也節省了機櫃空間和電力消耗。換言之,快閃儲存利用了處理器速度,換取了儲存的空間,充份利用高速IO帶來的好處。不少虛擬機器(VM)內容大同小異,快閃高性能讀寫可提高壓縮的比例,香港科技大學亦是利用了Pure Storage作為虛擬桌面(VDI),達到了20:1的高壓縮比率。
Pure Storage的競爭對手,包括了NetApp文件系統。最近PureStorage完成收購了Compuverde,加快了文件系統在混合雲中部署。Compuverde也是提供IBM Spectrum NAS檔案系統平台的廠商,可同時多個不同地點管理的文件系統,以建立起統一的混合雲。
愈來愈多機構利用混合雲,所以讓文件系統跨越多個公有雲,方便數據跨雲,也愈來愈重要;NetApp的文件系統ONTAP Cloud檔案系統,就是朝上述發展。
不過,很多企業沒察覺,要向公共雲橫向擴展NAS,快閃儲存作用也至關重要。Compuverde支援混合雲架構,數據可快速讓檔案系統跨越所有伺服器,改善可能影響性能所有瓶頸,包括管理跨系統的Metadata。而通過添加可用的節點、支援本地協定、以高性能快閃,可帶來橫向規模擴展的靈活性,甚至可毋須遷移大量數據,就可通過雲服務分析,甚至解決了移動數據帶來的管治風險。所以,Pure Storage收購Compuverde,可算是最具有策略意義的收購。
Pure Storage也收購了StorReduce,推出專門針對快閃存儲和雲的ObjectEngine,以快速冗餘刪除降低以雲端作數據保護的成本。目前,備份技術多是從硬盤複製至硬盤,再備份到磁帶的過程;ObjectEngine概念則是從快閃備份至快閃,再通過冗餘刪除,再遠端備份到雲服務,亦可與Veritas、Veeam、Commvault等數據保護軟件整合。
陳錦全預計,閃存儲存很快取代硬碟,明年上市的QLC(四級單元)有望令快閃的價格與傳統硬盤看齊,以往SSD均採用SLC、MLC、TLC架構,TLC比較普遍。但科技迅猛發展,用戶需求增長,新型快閃記憶體晶片QLC量化生產,容量更大,價格也更便宜。
他預計全快閃價格上,很快可以在取代硬盤,屆時全快閃不再是夢想,而是常態了。