微軟人工智能(AI)研究,亦應用最受觀迎的產品上,其中當然包括了在Office套裝加入支援AI,Office的產品有不少可應用AI的地方,包括Word使用自然語言處理作文法檢查,利用圖像辨識去建立PowerPoint。
如果你沒有大量數據,又想利用手頭上的數據作出預測分析,不一定要利用人工智能或深度學習,利用「線性回歸」(Linear regression),統計上在找多個自變數(independent variable)和依變數(dependent variable)之間關係,再建出模型,以被用來預測連續數值,例如:不少價格走勢預測、股票市場預測、薪水增幅等,其實都是用了上述的預測統計。
BI/AI一體兩面
不少人以為,BI跟AI關係不大,其實如果只是簡單的預測分析,不少統計模型已經綽綽有餘,最明顯就是Linear Regression和Clustering作為預測的工具,利用一般統計,甚至Excel都可做到,或者以KNN(k-nearest neighbors),算出最接近的數據分類,然後建立運算,作出預測。
數據科學家則會利用類似Jupyter工具,利用R或Python之類語言,先對資料作出分析,然後再行建模,Jupyter功能極其強大,幾乎可支援大量的科學統計分析,而且Jupyter可取用工具不少,如何有心成為數據科學家,Jupyter可說是專業工具。
不過,Jupyter也是技術人員才會搞的玩意,如果不在統計上有專門知識,其實難以掌握透徹。
最近,微軟AI業務企業副總裁Steve Guggenheimer發表了一篇博文,提及有關如何建立良好的數據基業(Data estate);沒有良好的數據管理,AI是空談,如果數據本身帶有偏見,或者帶來錯誤,訓練出的模型會有更大錯誤,有如空中樓閣。
Guggenheimer也介紹如何利用BI和增強分析,為建立AI模型打好基礎。
https://blogs.msdn.microsoft.com/stevengu/2018/11/01/the-ai-journey/
數據管治之爭
其實,企業蒐集數據之後,還要有大量工作去作數據準備(Data Preparation),包括清洗和正規化(Normalization)數據,決定數據的性質,並作出標注(Label),過程相當耗時,任何AI數據處理,都逃不過這一關。如果一家機構,不從蒐集數據開始,整理數據的格式和標準定義,訓練AI模型有如海市蜃樓,獲得的預測,也只是個幻覺。
中國有大量人力,出現了不少數據工廠,可以密集人力,標注大量圖像和其他數據,供AI模型。不過,如果要處理的是企業數據,不大可能以上述方式大量標注,也涉及私隱等問題。
微軟的方法,就是建立Common Data Model(CDM),以共通標準來建立數據基業。CDM概念是規範數據本身的定義,代表數據是作何種用戶,從最基本作出數據管治Open Data Initiative,支援的廠商包括了微軟、SAP、Adobe。業界普遍認為,CDM純粹為了抗衡Salesforce的Common business objects。不過,CDM其實也是很好的框架,以累積和管理數據,作建立應用和AI分析。
Salesforce在CRM和客戶數據管理市場,佔了絕對優勢,又收購以API閘道地下最強的Mulesoft,鞏固了數據整合能力。去年,Salesforce就在Dreamforce推出了Customer 360,收購Mulesoft可利用API Gateway快速整合不同應用,推出新的功能。
CDM對日後應用數據,例如屬於客戶、銷售、人事系統、電子商務數據等,有良好的規管和定義,解決了數據保安和其他管理上的難題。CDM也可以快速利用微軟的各種工具,快速推出應用,包括了PowerApps、Flow、PowerBI等。
增強分析興起
PowerBI也可快速找出不同數據關係,為日後AI模型奠下訓練基礎。
Guggenheimer提出了「BI before AI」。AI年代不代表摒棄BI,反是利用BI可建立AI的基礎。Guggenheimer當然是在推銷以PowerBI工具,建立和測試數據之間的關係,然後經過軟件工程師,建立處理數據的各種過程,作出預測。
不少企業的數據相當分散,甚至部分利用了SaaS,如何整合大量分散的數據,建立起分析用的Dashboard。微軟內部已經大量利用PowerBI作為分析,並且可接通不同應用,甚至是SaaS,以往數天才能建立的報表,用了PowerBI幾乎不費吹灰之力。
Guggenheimer的建議,就是利用CDM先搞好數據管治,類似Dynamics 365就是完全利用CDM管理數據,PowerBI也可分析多來源數據(甚至可以分析Salesforce),決定不同來源數據的關係,作為建立AI模型的統計基礎。
PowerBI可幫助用戶先理解不同來源數據關係,建立起業務系統,再根據這些商業邏輯,逐上以雲端AI功能(當然是Azure上的服務),自動去尋找同類關係的商業數據,自動作出推測。事實上,微軟已經在PowerBI內加進了AI功能,例如可以自然語言分析,理解從不同來源取得的數據,類似是客戶的評價分類。
不是每個人都學過統計學,或懂得掌握統計用法。PowerBI解決數據分析,再以「增強分析」(Augmented Analytics),可自動找出數據關係。「增強分析」透過機器學習技術,強化數據準備、數據管理和分析、以及流程挖掘(Process Mining),自動產生分析報告;找出資料間關聯性。
Excel的好主意
上述的「增強分析」功能,用戶也可能較難理解。
大部分人學過Excel,當數據出現某些關係,幾乎任何人都可從圖表外表,一眼看出關係。簡單而言,就是通過「數據視覺化」,找出大堆數據之間關係,然後作出決策。
Excel即將推出的ideas功能,就是利用了AI,透過高階視覺化摘要、趨勢和模式來了解資料。只要按一下某個資料範圍內的某個儲存格,然後按一下[常用]索引標籤上的「ideas」按鈕。Excel 的ideas分析資料,然後在工作窗格中傳回視覺效果。類似的功能能自動瞭解資料,透過高層視覺摘要、趨勢和圖樣,再以進一步蒐集分析,建立大堆數據的關係。
據微軟的觀點,AI是演化而不是突變。BI和AI,不過是一體的兩面。