[ 企業轉型]
不少數據都是在邊緣位置產生,以往分析這些數據,或者建立人工智能模型,一般須送往中央伺服器處理。
但數據從多個點傳送往中央伺服器,往往引起延誤,部分數據也有保護私隱考慮,傳送過程亦有外洩的風險。
數據分散往往限制數據可訪問性,令採集和整合困難,加上數據的安全分類和擁有權各異,部分更涉及個人敏感資料,受法例所規管,部分涉及私隱保護和管治,尤其是醫療數據,部分更不能離開原有儲存位置,限制了數據的可用性。
隱私計算炙手可熱
近年炙手可熱的隱私計算(Privacy computing),就是不洩露各自數據的前提下,通過協作方式對數據進行機器學習。「隱私計算」目標是確保在不泄露原始的數據,進行一系列分析計算,只取走成果又保留數據隱私,大大增加數據可用性。
隱私計算有3種主流技術,包括區塊鏈、聯邦學習(Federated Learning)和安全多方計算(Secure Multi-Party Computation)。
香港的金融機構正以聯邦學習,實現「數據可用不可見」以及「數據不動模型動」的隱私計算。然而,聯邦學習必須部署中央伺服器,仍有不少限制。
HPE研發組織惠普實驗室(Hewlett Packard Labs)開發HPE「集群學習」(HPE Swarm Learning)人工智能方案,無損隱私情況下分享數據,統一人工智能模型學習成果,未來有機會挑戰聯邦學習。
集群現象自行協調
集群(Swarm)是指一種自然界現象,生物依據相鄰同伴狀態決定本身狀態,完全毋須中央統籌自行協調,最典型例子包括外觀上看似一群實體聚集一起兜圈或朝特定方向行動的動物或昆蟲、鳥類飛行、魚類群遊、水生動物等。
現時,大部分人工智能模型訓練,需將數據集中到中央伺服器,再合併數據集處理。然而數據在邊緣產生,將大量數據來回傳送至中央伺服器,成本高昂之餘也缺乏效率。
聯邦學習的概念是數據不動,而模型在動,必須有托管者(Custodian)中央伺服器存放了深度學習的模型,移動到數據處進行訓練,所謂「數據不動模型動」,所以中央伺服器須與數據有密集的通訊而影響了效率,聯邦學習也採用星狀的網絡架構,可能受攻擊癱瘓,一旦中央伺服器失效,也影響系統運作。
集群學習的概念與聯邦學習差不多,在邊緣或者數據儲存處訓練模型,只要取走分析成果,只分享數據成果,毋須分享數據本身。
「集群學習」與「聯邦學習」一樣,可使用分散數據,以數據不動模型動以訓練模型。集群學習最特別之處,則以區塊鏈科技保護私隱和控制,免除了以中央伺服器管理,省卻了聯邦學習,中心伺服器和數據之間頻繁互動,加上區塊鏈以去中心化的點對點(P2P)網絡協定設計,可改善網絡效率,P2P免除單點故障(Single point of failure),而違反區塊鏈智能合約的成員,馬上被摒除集群外,避免了攻擊事故。
集群以區塊鏈建立
區塊鏈以授權區塊鏈(Permissioned Blockchain)建立,各成員須獲授權才加入,動態挑選Leader,負責打包組成區塊並將區塊上鏈。HPE集群學習所分享,只是學習成果,鍵上成員可運用成果結果,又無損彼此私隱;另一個優點為消除偏差,提高模型準確度 。
集群學習既可更快分享模型訓練成果,運算比聯邦學習更分散,更安全和具靈活性,類似反詐騙AI模型,數據分散全球不同位置,更新詐騙模型又須分秒必爭,時刻與罪犯周旋,集群學習也具更多優勢。
美國研究偵測詐騙圖像的TigerGraph採用HPE集群學習,與本身分析產品結合,加強快速偵測信用卡異常交易活動,方案就是採用全球多間銀行金融數據,配合訓練機械學習模型,以提高準確度。
另外,醫院也可以集群學習,分析不同來源的影像紀錄、電腦掃描、磁力共振,以及基因等數據歸納學習成果,並與其他醫院分享,改善對疾病診斷能力,保護病人資料。德國亞琛工業大學(University of Aachen)附屬醫院的癌症研究人員研究組織病理學,以處理圖像時應用人工智能,預測可能導致細胞癌變基因變異,加快直腸癌的診斷。