[雲運算][Data Fabric] [DevOps]
不少人說,未來企業由數據驅動,數據在企業營運不新鮮,但是以數據驅動,卻是不一樣的概念。
以往數據分析多是來自業務系統,並以數據庫應用為主。企業轉化從企業流程獲得的數據,再通過「商業智能」(Business Intelligence)系統,建立「數據倉庫」(Data warehouse),數據經ETL流程導入倉庫,建立報表供業務人員分析。
中央化數據分析由來已久,數據集類型愈來愈分散,以自我服務形式分析以支援決策,快速從數據獲得見解,陸續出現分析數據工具,例如Tableau等可視化分析。
數據分析全靠用戶經驗作判斷,近年機器學習和AI,通過數據深度學習建立模型,指導電腦以受人腦神經網絡方式分析數據。深度學習模型識別圖片、文字、聲音和其他數據,機器學習則自動化決策執行業務,以算法加上數據產生的模型,已廣泛用於精凖營銷、審批貸款、偵測詐欺、推薦商品、聊天機器人,數據通過適當訓練,變成精凖的預測模型,實時從輸入的數據自動獲得結論,以快打慢,馬上捕捉商機。
自動化分析是大勢所趨;從數據訓練不斷優化預測的凖確性;數據建立的AI模型,除了更精凖,更貼身服務客戶,還蘊藏巨大商業價值,建立強大洞察和預測能力,更迅速作出反應,類似預測性分析、推薦引擎、語意分析,靠數據訓練推測用戶真正意圖,問題這些數據,往往不是來自傳統數據庫內數據,而是來自非傳統數據來源,格式也不一樣,有時甚至要「加工」才能使用。
企業數據大致上可分為3類;結構性、非結構性和半結構性。結構性數據多指數據庫等應用,非結構性數據包括從網上和流動應用數據,甚至有時是手機上動作;半結構性數據從傳感器和等,後兩者正大量增加,有時還會利用外部的「另類數據」(Alternative data)。
以往結構性數據多來自企業交易的系統,屬於數據分析主流,但是如今數據模型不少來自非結構性和半結構性數據;諸如圖像、傳感器、客戶網上足跡,客戶瀏覽互聯網和零售店的動作。這些數據格式不同,又非常分散,例如傳感器數據在邊緣位置產生,非結構數據則從雲端,通過網站或流動應用產生。例如說,不少傳感器傳過聲音知道機器的狀態作預測維修;從網站的客戶足跡,預測到需求和客戶興趣,快速調整銷售策略,再反饋企業系統,調整訂價和推銷策略。
企業要從數據快速獲得結論,須快速整合、分類,為數據加上MetaData以供分析,流水作業不斷發掘數據價值。雲運算年代出現DevOps,提升交付應用和服務,為了加快提取數據價值和更新數據模型,近年興起DataOps,從分散和多樣性的數據快速獲得結論。
數據的多樣性,儲存環境分散、數據格式不同,加上合規等要求,催生組合多形態和多地點Data Fabric出現。Hitachi Vantara作為儲存專家,很早推動Data Fabric,促使數據整合,快速產生商業價值。Hitachi Vantara也贊助了電子書Data Fabric For Dummies,免費下載,對Data Fabric有興趣的朋友,可以一讀。
https://www.hitachivantara.com/en-us/pdf/ebook/data-fabric-for-dummies-ebook.pdf