人工智能深化發展商業應用邁向成熟

*SAS的AI產品市務總監David Tareen：SAS亦與NVIDIA合作，Viya軟件平台直接與NVIDIA作出整合，為多商業設備注入AI功能*

企業轉型

很多人都分不清機器學習和人工智能（AI）的分別，從廣義看，人工智能可以說是機器學習的進一步發展，利用大量數據建立起模型，可以作預測分析（Predictive Analytics）。

不少預測分析都是從統計學演變而來，著名廠商包括了SAS和IBM等，不少銀行利用預測分析來偵察金融詐騙，信用卡盗用，甚至信用批核。

不過AI則可以深度學習，建立更複雜的神經網絡模型。1986年，Geoffrey Hinton在加拿大多倫多大學發表了深度學習的論文，以神經網絡訓練模型和反向傳播（Backpropagation）算法，並用於AI神經網絡訓練，特別大大提高視覺運算性能，成為深度學習的分水嶺。

隨著平行運算（Parallel Processing）性價比提高，特別GPU（精確一點則是NVIDIA及其CUDA-X架構），算法的不斷進步，AI處理影像和自然語言，加上採集數據量增加，AI應用出現了爆發性的增長。

SAS是預測分析領域領導廠商，據AI產品市務總監David Tareen說，AI就是模仿了人類「五官」（Five senses）功能，例如電腦視覺運算提取特徵（臉部輪廓），或者聲線的變化，利用接收的訊號轉化數碼，並建立模型來出判斷和預測，運算以往難以處理的資料類型。

不過，AI仍是通過機器學習建立模型，預測運算方式之所以功能更強，主要就利用了統計模型（Statistical models），有別傳統只基於規律（Rule based）判斷，不單可極快建立模型，更可自動化大量決策，AI也令以往難以自動化的流程，終可以機器取代。

數據的偏差

AI一般都只是基於統計建立的模型，並據此作出判斷，只能以信心水平（Confidence level）來表達。信心水平愈高，代表輸入的資料，吻合模型描述的更多特徵。

Tareen說，AI基於大量數據建立模型，並作出決定，AI模型精確度，又很依賴數據和算法。如果數據來源出現偏差，所獲結果就不可能凖確。許多時，數據出現偏差可能性，比算法還要大。

所以，AI模型須具「可解讀性」（Interpretability），或者稱為可解釋的AI；其實就是指查詢模型如何利用不同因素，達致得其結論。所以，即使模型的算法，具有很好預測能力，一旦數據出現偏差，仍然無法獲凖確結論，結果就訓練出有偏差模型。

Tareen說，SAS解決找出數據訓練模型出現偏差，從現實提取的特徵，如何影響到模型的凖確性，利用從SHAP值（SHapley Additive exPlanation，或者是shapley），SHAP值解釋了特定特徵具有某些特定值產生的影響，並與該特徵內，具有某些基線值時所作預測比較。例如除去性別和種族因素，從基線值變化，就可知某項數據產生的影響；shapley值可找出不同因素累加貢獻的均值。

*加拿大多倫多大學傑弗里．辛頓教授，令人工智能神經網絡訓練進入新里程碑（圖片來源：傑弗里．辛頓教授網頁）*

模型管理平台

不過。即使說模型訓練得妥當，訓練及測試後上線作推理（Inference），也不是一勞永逸。模型預測能力會隨市場轉變衰減，一段時間後就要通過數據訓練糾正，再提高模型預測能力。

AI模型預測並自動決策，已成為不少企業轉型方向。日後，企業可能管理數以千計AI模型。Tareen說，SAS推出Model Manager，管理模型生命周期。部分模型預測能力低於某一限度，就可能要重新訓練。

「Model Manager可以發現模型的預測能力是否減弱，一旦達到某一限度，再以新數據重新訓練。」不少AI模型部署在公有雲上，Model Manager可以容器方式部署，支援AWS和Azure等以Kubernetes協作，管理大量的AI模型。

除了企業內部署AI，SAS亦與NVIDIA合作，其Viya軟件平台可直接與NVIDIA作出整合，以作物件辨認和分類，執行語音識別，甚至探測文字或聲音內的情緒狀態。

AI嵌入設備

「上述合作包括SAS與多種設備整合，例如加入無人機內作自動偵查，甚至醫學電腦掃描（CT）或者磁力共振機（MRI）機器內，加入了AI性能，直接識別醫學的影像。」

醫學放射學影像儀器，不少已利用了NVIDIA的GPU。SAS亦與阿姆斯特丹大學醫學院（Amsterdam UMC）合作，就以AI技術診斷和量度轉移性結腸癌的腫瘤，未來可以幫助放射醫療科量度腫瘤，決定是否進行手術。

Tareen說，SAS正與西門子及GE等廠商合作，愈來愈多醫學儀器加入AI性能。不過，一般辨認醫學影像的病理切片，都是通過監督式學習（Supervised learning），通過大量標注的訓練數據或圖像，以訓練模型作分類，幾乎所有分類都是以監督式學習。

轉移學習改變AI訓練

「標注（Labelling）和數據預備往往消耗了大量時間，SAS已開發機器學習工具，以減少兩者的人力消耗。」

不過，醫學數據的數量往往有限，如果利用較小數據集，訓練出凖確模型，也是AI研究方向。SAS也開發「轉移學習」（Transfer learning），通過從相關數據集的圖片，以訓練神經網網上層作為通則，再配合最後數層，以作轉移訓練，加快網絡訓練和凖確度，並減少要求數據量。

數據就是新的石油，模型訓練須靠大量數據，中國就是以超多數據，再加以低標注的成本，結果在AI模型訓練百花齊放。

轉移學習可減少數據的用量，並加快訓練。「上述情況有點類似人類的「觸類旁通」，例如說AI可從棋藝學習，有關的經驗又可應用於玩跳棋，舉一反三，將舊經驗應用解決新問題。」

Tareen說，轉移學習一旦成熟，AI的學習過程，將更接近人類。

Leave a Reply Cancel reply