企業轉型
很多人都分不清機器學習和人工智能(AI)的分別,從廣義看,人工智能可以說是機器學習的進一步發展,利用大量數據建立起模型,可以作預測分析(Predictive Analytics)。
不少預測分析都是從統計學演變而來,著名廠商包括了SAS和IBM等,不少銀行利用預測分析來偵察金融詐騙,信用卡盗用,甚至信用批核。
不過AI則可以深度學習,建立更複雜的神經網絡模型。1986年,Geoffrey Hinton在加拿大多倫多大學發表了深度學習的論文,以神經網絡訓練模型和反向傳播(Backpropagation)算法,並用於AI神經網絡訓練,特別大大提高視覺運算性能,成為深度學習的分水嶺。
隨著平行運算(Parallel Processing)性價比提高,特別GPU(精確一點則是NVIDIA及其CUDA-X架構),算法的不斷進步,AI處理影像和自然語言,加上採集數據量增加,AI應用出現了爆發性的增長。
SAS是預測分析領域領導廠商,據AI產品市務總監David Tareen說,AI就是模仿了人類「五官」(Five senses)功能,例如電腦視覺運算提取特徵(臉部輪廓),或者聲線的變化,利用接收的訊號轉化數碼,並建立模型來出判斷和預測,運算以往難以處理的資料類型。
不過,AI仍是通過機器學習建立模型,預測運算方式之所以功能更強,主要就利用了統計模型(Statistical models),有別傳統只基於規律(Rule based)判斷,不單可極快建立模型,更可自動化大量決策,AI也令以往難以自動化的流程,終可以機器取代。
數據的偏差
AI一般都只是基於統計建立的模型,並據此作出判斷,只能以信心水平(Confidence level)來表達。信心水平愈高,代表輸入的資料,吻合模型描述的更多特徵。
Tareen說,AI基於大量數據建立模型,並作出決定,AI模型精確度,又很依賴數據和算法。如果數據來源出現偏差,所獲結果就不可能凖確。許多時,數據出現偏差可能性,比算法還要大。
所以,AI模型須具「可解讀性」(Interpretability),或者稱為可解釋的AI;其實就是指查詢模型如何利用不同因素,達致得其結論。所以,即使模型的算法,具有很好預測能力,一旦數據出現偏差,仍然無法獲凖確結論,結果就訓練出有偏差模型。
Tareen說,SAS解決找出數據訓練模型出現偏差,從現實提取的特徵,如何影響到模型的凖確性,利用從SHAP值(SHapley Additive exPlanation,或者是shapley),SHAP值解釋了特定特徵具有某些特定值產生的影響,並與該特徵內,具有某些基線值時所作預測比較。例如除去性別和種族因素,從基線值變化,就可知某項數據產生的影響;shapley值可找出不同因素累加貢獻的均值。
模型管理平台
不過。即使說模型訓練得妥當,訓練及測試後上線作推理(Inference),也不是一勞永逸。模型預測能力會隨市場轉變衰減,一段時間後就要通過數據訓練糾正,再提高模型預測能力。
AI模型預測並自動決策,已成為不少企業轉型方向。日後,企業可能管理數以千計AI模型。Tareen說,SAS推出Model Manager,管理模型生命周期。部分模型預測能力低於某一限度,就可能要重新訓練。
「Model Manager可以發現模型的預測能力是否減弱,一旦達到某一限度,再以新數據重新訓練。」不少AI模型部署在公有雲上,Model Manager可以容器方式部署,支援AWS和Azure等以Kubernetes協作,管理大量的AI模型。
除了企業內部署AI,SAS亦與NVIDIA合作,其Viya軟件平台可直接與NVIDIA作出整合,以作物件辨認和分類,執行語音識別,甚至探測文字或聲音內的情緒狀態。
AI嵌入設備
「上述合作包括SAS與多種設備整合,例如加入無人機內作自動偵查,甚至醫學電腦掃描(CT)或者磁力共振機(MRI)機器內,加入了AI性能,直接識別醫學的影像。」
醫學放射學影像儀器,不少已利用了NVIDIA的GPU。SAS亦與阿姆斯特丹大學醫學院(Amsterdam UMC)合作,就以AI技術診斷和量度轉移性結腸癌的腫瘤,未來可以幫助放射醫療科量度腫瘤,決定是否進行手術。
Tareen說,SAS正與西門子及GE等廠商合作,愈來愈多醫學儀器加入AI性能。不過,一般辨認醫學影像的病理切片,都是通過監督式學習(Supervised learning),通過大量標注的訓練數據或圖像,以訓練模型作分類,幾乎所有分類都是以監督式學習。
轉移學習改變AI訓練
「標注(Labelling)和數據預備往往消耗了大量時間,SAS已開發機器學習工具,以減少兩者的人力消耗。」
不過,醫學數據的數量往往有限,如果利用較小數據集,訓練出凖確模型,也是AI研究方向。SAS也開發「轉移學習」(Transfer learning),通過從相關數據集的圖片,以訓練神經網網上層作為通則,再配合最後數層,以作轉移訓練,加快網絡訓練和凖確度,並減少要求數據量。
數據就是新的石油,模型訓練須靠大量數據,中國就是以超多數據,再加以低標注的成本,結果在AI模型訓練百花齊放。
轉移學習可減少數據的用量,並加快訓練。「上述情況有點類似人類的「觸類旁通」,例如說AI可從棋藝學習,有關的經驗又可應用於玩跳棋,舉一反三,將舊經驗應用解決新問題。」
Tareen說,轉移學習一旦成熟,AI的學習過程,將更接近人類。