近幾年物件儲存大行其道,以往儲存集中在區塊儲存和檔案儲存,何以物件儲存突然受到注意?
顧名思義,物件儲存以「物件」(Object)為單位,而不是檔案或數據區塊。「物件」包括數據本身、元數據(Metadata)和唯一識別碼。比較多人熟悉,以下將討論物件儲存的特色和Metadata的重要性。
不少企業都配置了SAN或NAS儲存,何以仍多此一舉,引入物件儲存系統? 原因是非結構性數據爆炸增長,而大數據分析、機器學習、人工智能的模型訓練,不不改變企業營運的新技術,主要是靠從非結構性數據獲得。 非結構性數據也不一定沒有固定結構,以「非結構」來形容,不過相對於關聯式數據庫(Relational database)的「結構性」,數據有預定的模式結構(Schema)。 互聯網和物聯網產生數據,以非結構性數據為主體,具備的巨大商業潛力,但假如不從產生數據開始,設計如何儲存和管理,最終可能變成浪費,得物無所用。
首先,傳統儲存為何不能應付非結構性數據? 傳統儲存各有短處 當然,SAN或者NAS系統可儲存非結構性數據,問題在數據量增長迅速,早已超越了上述兩者擴充能力。第二,非結構性數據不能發揮價值,現代數據分析依靠API或者工業標準存取,全靠Metadata分類和自動化操作,SAN或NAS儲存數據時,並不支援類似性能。 當然,物件儲存並不可應用在任何場景,例如不適用於交易數據庫(Transactional Database),或者較難作內部檔案系統,因為物件不以層級分類。 物件儲存針對的是『非結構性數據』(Unstructured Data),一般指沒固定欄位和格式;例如影片、圖片、語音、檔、Office檔案、PDF檔、電子郵件、網頁等數據,大部分是文本或非文本格式的人為產生的數據或機器產生的數據。
SAN大材小用 以互聯網上產生的數據,多以非結構性為主,而SAN屬於區塊儲存,即數據以區塊(Block)為單位,NAS則支援檔案系統,例如NFS和SMB,以檔案為單位。以SAN儲存非結構性數據,成本太高,非結構性數據存取毋須太快,甚至有時作存檔之用,SAN大材小用。 SAN儲存是針對結構性數據,如數據實時交易,SAN已進入NVMe快閃年代,存檔非結構性數據,浪費以外也難以應付。
以SAN來說,數據儲存時分成小區塊(Block),一般區塊4k大小,然後將代表每個區塊Byte Offset放在一個表格上,取回數據時就查看表格,按圖索驥擷取,問題在於數據量級到了Petabyte,儲存在同一個區塊儲存設備,尋找速度隨數據量下降,情況有如數據庫,數據庫行數增加,掃讀尋找時間更長。當然,區塊儲存過大,也可將儲存分割成不同LUN,如此一來,又增加管理難度。
非結構數據爆炸 NAS亦可以儲存大量非結構性數據,亦遇上擴充能力問題,NAS以層級(Hierarchy)分類組織檔案,檔案層級結構和路徑,只能應付百萬級,也不能無限擴充,催生了物件儲存的出現,原因是具備無限擴容,加上低成本,解決傳統儲存的先天限制。
近年興起Hadoop 分散式檔案系統(HDFS)可將數據分散在不同儲存設備,有效解決SAN和NAS儲存難題,數據存檔案至HDFS之前,檔案先被分拆成小區塊,稱之Block,並且會將同一個Block複製成數等分(Replication預設值是複製3份)再將block分散儲存到各個DataNode,同時會產生一份清單,記載著這份檔案所屬的block與散落那幾台DataNode,清單則記錄在NameNode上。分散式系統可解決儲存數據過多時容量擴充的困境,問題是不是很多人曉得如何管理HDFS,而且HDFS要耗用多兩倍的儲存空間作容錯,設置成本也不低。 如果說,我不介意花錢,以傳統儲存SAN和NAS來存檔非結構性數據。如此一來,到了要分析數據或者利用數據作自動化,又會遇上難分類檔案內容,因為SAN和NAS都缺乏「內容感知」(Context awareness)能力,只讀到檔案創建日期、檔案名稱、作者之類。
數據分析的基礎 物件儲存的最大特色,是可通過Metadata存取檔案,基本上結構是平面,存取時則以API,甚至直接以HTTP協定搜尋,輕鬆從儲存中搜尋、提取和管理數據。 物件儲存具備成本優勢,極之適合存檔和分析用途,除了 通過特定API存取,物件儲存可通過中繼數據,也就是Metadata驅動和自動化,Metadata可以自訂並在產生時預訂,以便日後分類自動化,物件儲存產生和存入數據,可自動為檔案加上預設Metadata,毋須第三方工具加上標注,方便未來數據分析,只要利API接上層級的分類,就可取得預定數據分析。 互聯網時代產生大量非結構性數據,存檔最大意義就是為了數據分析,以產生商業價值。以傳統儲存處理數據,無法以API取存和控制,最終可能變成「暗數據」,企業花費大量金錢存儲,卻不能提取更多價值,數據只是束諸高閣。
不少人提起物件儲存,自然想起了雲服務,雲端上各種物件儲存,確可儲存Petabyte級的數據,問題在費用隨數據量上升,提取數據又收取「下載費用」(Egress fee),再加上使用網絡和交易費,最後可能大失預算。
公有雲法律風險 數據主權亦限制了公有雲的物件儲存用途,涉及私隱和法律規管等考慮。近年各國訂立嚴厲法例保護數據私隱,數據內容一旦包含客戶私隱,處理不當外洩,企業可受重罰,公有雲數據分散多地,可能不符存放數據地域要求。 事實上,私有雲的物件數據平台早就出現,不少企業也考慮自行建立物件儲存, Hitachi Content Platform是最熱門選擇,專門針對非結構數據的物件儲存,而且在設定和儲存Metadata極為先進。
事實上,儲存系統最大價值在發揮數據價值,不是純粹為存檔數據,非結構性數據的價值,正是如何從數據發掘洞見。 選擇物件儲存,其中一個最大考慮是Metadata管理和設定,未來作為組織、自動化數據管理,提高數據可視性,數據增長亦能有序控制。 穩定支援Metadata 對物件儲存異常重要,Hitachi Vantara理解到Metadata作為管理數據工具的潛力,Hitachi Content Platform可根據商業價值分類數據,產生數據過程自動加入預設Metadata,日後為數據管理增加新維度,例如根據數據內容而進行自動化操作,或按不同雲平台性價比,針對性進行數據分析。
物件儲存也利用嶄新儲存技術,減少硬碟重建時間和容錯所需的空間,傳統儲存的容錯硬碟列陣技術RAID,隨硬碟容量擴大,重建損毀時間愈來愈長,物件儲存亦開始支援Erasure Coding技術,通過先進計算數據分散多個儲存設備,甚至不同地域數據中心,減少容錯所需的額外空間,也縮短重建硬碟的時間,並加強數據的保密。 物件儲存是發掘數據商業價值的工具,正如Hitachi Vantara口號,可充份發揮數據的價值(Maximize the Value of Your Data)。