新科技速遞
隨著數碼化轉型,企業數碼基建的攻擊面,愈來愈大,如何防禦惡意軟件,一直是網絡保安的挑戰,而潛伏的攻擊也極難發現。
近年來,勒索軟件、木馬、病毒、惡意挖礦程式等惡意軟件,不斷大量湧現,不少更化整為零,繞過了防禦系統,幾乎是防不勝防。
雖然說,偵察軟件已推陳出新,但不少卻被以各種手段,逃逸偵察和繞過防禦,傳統網絡保安已窮於應付。
去年,中信國際電訊CPC團隊就發明了嶄新檢測手法,將惡意軟件變為圖形,再以神經網絡,以深度學習提取特徵並建立檢測模型,只要惡意軟件具備共同圖形特徵,通過視覺運算的邊緣推理引擎,就可快速判斷惡意軟件和分門別類。
跳出框框打破傳統
這種檢測手法跳出傳統框框,完全不以網絡保安為出發,甚至不須知道攻擊的手法,只純粹透過機器學習和視覺運算,以辨識惡意軟件,有點類似以人臉辨識執行保安。
中信國際電訊CPC信息科技服務與數據科學部副總裁李超羣說,團隊開發出上述技術,獲得了中國CCF大數據與計算智能大賽(CCF BDCI)「一等獎」;去年12月總決賽答辯日獲「人工智慧惡意軟件家族分類」全場總冠軍,正在申請專利,以便有關技術可實際應用。
這種偵察技術的優勢,在於易於部署以外,亦更具效率。由於惡意軟件開發不易,不少只是舊酒新瓶,將原有軟件再加入逃逸掩飾,或者轉換包裝;除非全新設計,否則都會被上述技術抽測出來。
變種的惡意軟件之所以難以偵查,主要是加入逃逸機制,不斷變種加上掩飾。中信國際電訊CPC工具,卻只憑惡意軟件的圖像特徵,即可凖確識別,如何變種亦無所遁形。
以對付惡意軟件,市場有多種偵察技術;最簡單是靠「識別碼」(Signature)或特徵代碼,一旦符合預定特徵,就可斷判是惡意軟件。惡意軟件遭不停修改,再加入混淆,以致識別碼逐漸失去作用,原本隸屬於同一家族的惡意軟件,可化身為不同檔案,如妖怪變身,加上層層偽裝,外表已不能分辨是同一惡意軟件。
惡意軟件魔高一丈
以高度非結構化的惡意軟件,一般包括了ASM(ASCII)和PE(二進位)兩種數據的檔案結構;ASM屬於可執行的代碼,內容憑肉眼就可以解讀,但PE檔則通常由編輯器產生;例如Windows系統的.exe和.dll可執行檔,內容則是二進位的機器碼。
這些檔案數量之多,難以一一掃描,揪出惡意軟件加以分類。另一種方法是根據軟件行為特徵,如在接收檔案之前,先把檔案列為分析目標,儲存至預設虛擬環境,通過一系列技術先「觀測」其行為;統稱為「沙盒」(Sandbox),最典型就是FireEye,以行為檢測APT惡意軟件。
不過在檢測之前,須清楚軟件的行為,有時惡意軟件在第一次檢測,先按兵不動,與「沙盒」鬥法,「沙盒」又要讀取文件內容,更影響了私隱,而沙盒部署亦相對複雜。
中信國際電訊CPC團隊則巧妙利用視覺運算和深度學習,減少了系統的負擔,而偵察惡意軟件之餘,亦可同時分類,分析數據的過程之中,以AI演算和圖像識別,透過視覺運算深度學習,將複雜數據轉化為易於辨認的圖像,AI模型易於部署,亦不讀取內容,檢測的只是化身圖像。
抽出特徵無所遁形
團隊首先將文件內容,變為色彩圖像,RGB應對成三維算法,內容變圖像之後,數量仍會過於龐大,團隊再以專門學習數據特徵的Autoencoder,以弱監督(Weakly supervised learning)的神經網絡模型,學習輸入數據的隱含特徵,先經「編碼」(Coding)學習內容特徵,再重構原始輸入數據,稱之為「解碼」(Decoding);如此一來,抽出特徵並降低了複雜性,關鍵是編碼之後,較小圖像就可代表原始數據;團隊反編碼測試,發現重新編碼後,縮小的圖像跟原始圖片特徵,非常一致,有代表性。
「經編碼後小量文件,可代表大量PE執行檔產生圖片的主要特徵;然後利用上述小圖為門惡意軟件作特徵分類。」
「惡意軟件為了逃避檢測,引入不同掩飾,也難逃Autoencoder訓練AI模型『法眼』,分析數據過程以AI演算和圖像識別,視覺運算模型的自動識別下,惡意軟件即時現形。」
以視像運算去檢測和分類惡意軟件,部署也相對簡單,可在內聯網或雲端上以 GPU算力,輸入圖像作AI模型推理,揪出懷疑檔案,掃描大批檔案,毋須閱讀內容,模型隨數據增加,重複訓練改善凖確度。
李超羣說,比賽評委讚揚團隊表現,在於技術走出了傳統的網絡安全思維,單靠數據演算,設計出突破性AI網絡安全檢測;AI模型採用圖像識別,已包含多種的演算法(AE及LGB),以實現高維度和多方向精凖分類,該團隊由集團內5名數據科學家組成。