
新科技速遞
re:Invent是AWS全球年度最重要技術大會,慣例由行政總裁Andy Jassy發表演說,介紹AWS的最新技術和客戶;其中雲原生數據服務,已成公有雲發展最快的業務。
AWS是雲原生數據庫的先驅,2018年推出無伺服器數據庫Aurora Serverless。近年AWS研發特製晶片,以減低成本,更藉此推出新服務;各種晶片最突出是ASIC晶片Nitro,大大減低了AWS虛擬化、數據壓縮和加密成本,中央處理器毋須耗用在虛擬化,以及為傳送數據Device Model (DM) 軟件提供支援,AWS甚至因此可提供「高性能運算(High Performance Computing,HPC)。
AWS建立的HPC,可執行模擬「空氣流動學實驗」(Aerodynamics experiment),一級方程式和福士汽車已用AWS的HPC於汽車設計;Jassy再公佈設計超音速飛機初創Boom,正以AWS的HPC設計新一代XB-1超音速飛機,累積已耗用5300萬運算小時,XB-1噴射客機極有可能是首部AWS雲上設計的飛機。
相對於數據倉庫和分析業務,HPC非AWS業務重點。今年上市的雲原生數據倉庫Snowflake,股價氣勢如虹,足見雲原生數據服務,大有可為。
AWS的數庫倉庫產品有Redshift。re:Invent也推出多項數據服務,其中以硬件加速,足見AWS開發專有晶片,用途愈來愈廣。

雲原生數據服務
Snowflake最大優勢是運算與儲存分離,給予客戶更多便利和彈性,數據保存於不同儲存,分開支付分析的運算成本。AWS具備Athena交互式查詢服務;以標凖SQL語言,可直接分析S3上數據。由於S3成本低廉,Athena又是無伺服器服務,只付查詢的費用。不過大型的數據倉庫,還是須ETL(擷取、轉換和載入數據)建立倉庫,以定期產生分析。
AWS也推出了Glue托管數據ETL服務和元數據目錄;方便凖備數據,再加載至數據倉庫和數據湖。AWS Glue也是無伺服器服務,ETL服務只須付計算費用。
數據可用快速凖備後上載至Redshift。AWS面對Snowflake競爭,去年底就推出了RA3,分離運算和儲存,客戶可使用較低費用儲存。如此一來,數據分散至多種不同價格儲存,毋須經常在高價儲存,分析才集中處理。
AWS透過硬件加速,為Redshift加入硬件加速的緩存(Cache),稱之為AQUA (Advanced Query Accelerator) for Amazon Redshift,令Redshift查詢性能,比其他雲原生數據倉庫,比Snowflake快上10倍。
目前的倉庫分析,往往移動大量數據到中央儲存的SSD,期間造成網絡的壅塞。另一方面,SSD的IO極快,令處理器不可能短時間執行所有運算,結果部署了大量運算力,卻只短暫執行,造成浪費。

開發數據湖應用
AQUA將運算能力搬到儲存上,先化整為零,數據不再需要來回搬動,從S3物件儲存,直接抽取數據,至AQUA具SSD的分析處理器,先以平行方式執行(Parallel executive)過濾和整合,再交由Redshift分析,減少Redshift處理的數據量。AQUA透過建立緩存和平行處理,速度更高,數據從低價S3儲存,可直接取出作分析。
AWS如何為數據作高速緩存?答案就是Nitro。高速上傳的數據至個別AQUA的SSD上,以專用FPGA作過濾整合;從數據集清除非必要的成份,再整合初步計算,處理後送往Redshift總分析,並輸出報告。
AQUA以專用硬件加速,成本和速度較雲原生數據倉更有優勢。AQUA已加入RA3服務內。
另一項升級則是Glue Elastic Views,開發人員可建立「物化視圖」(Materialized views),或稱為「虛擬表格」(Virtual Table),類似實時建立查詢結果的數據庫物件,作為遠端數據的副本,原理從多個數據來源,實時自動結合和複製數據。
不少數據存在專用的數據庫(例如SQL或NoSQL數據庫之類),格式互不相容,可以建立從不同數據來源建立「物化視圖」,作另外用途。例如SQL和NoSQL數據庫,建立新數據來源供Elasticsearch查詢,開發用戶推薦應用。一旦來源數據模型發生變化,Elastic Views也提醒開發人員,更新物化視圖的內容。
Elastic Views以ETL自動建立數據格式,不單用於數據倉庫,也可開發新應用。開發人員利用Elastic Views,可複製數據庫數據到數據湖,變成多項應用和分析報告。