上周萬眾期待蘋果發布會中,最令人矚目當然是新一代iPhone X手機和Apple Watch 第四代手錶登場。
蘋果台上展示不少人工智能(AI),以及令人目眩的虛擬手機遊戲;尤以港人工程師李景輝開發HomeCourt App,集合了影像處理和AI的分析功能,可即時監測球員的位置、姿態,射球出手時的高度、角度和時機等資訊,幫助NBA的球員,改善灌籃訓練及提昇射球的準繩度,大出風頭。
當然亮麗功能背後,實為炫耀iPhone新一代的A12晶片性能。
蘋果手機作業系統,增強了支撐以AI實現的電腦視覺(Computer Vision),例如人臉解鎖FaceID、以人臉或動物的表情作通訊圖像的Animoji。新一代照相技術,又加入了以AI自動對焦及淺景深等。
以上種種功能,全部要求極高硬件運算速度。從上兩代前A10晶片,蘋果已嵌入6核GPU,以加強對處理影像。A11再加入Neural engine神經網絡引擎,以處理圖像辨識、物體追蹤、空間位置感應等AI推理。到了新一代A12,第二代neural engine從雙核增加至8核,為CPU和GPU不同的核心間分配任務,以提高工作效率及降低耗電。
談到電腦視覺和神經網絡,不能不提從十年前開始,史丹福大學李飛飛教授開拓的ImageNet項目,開發電腦視覺取得了突破性成功,影響近年的研究方向。電腦視覺應用十分普遍;以汽車無人駕駛為例;除了要辨認駕駛路線和附近的行人,電腦視覺還要極短時間,判別前方地上,究竟是石頭還是垃圾,瞬間作碾過或馬上避開的決定,一直是AI重要挑戰。
李博士觀察小孩子認識身邊事物的過程,其實接收大量影像,通過腦袋神經細胞學習和了解。電腦世界之中,其實亦可通過類似訓練方法,以大量圖片及神經網路演算法,調教電腦視覺軟件,作出準確分析。結果ImageNet開發,加上神經網絡之父Hinton的深度學習模型,電腦視覺領域上取得重要突破,更為日後TensorFlow及 Kersa奠下基礎。
這項目重點,便是建立巨型影像數據庫,輸入大量照片影像,並對於影像加入標示,然後利用作監督式學習的(標示影像極為耗時,不少AI公司仍聘請大量人手作標示,近年才發展出弱監督式學習,減少標示的人手需求)。當然這項目難以由數位研究人員之力可以達成,於是研究團隊便利用類似眾籌的方法,使用Amazon的Mechanica Turk工具,以類似眾籌方法,網上召集不同地方人士,為ImageNet輸入圖片及加入描述標示。2005年,ImageNet數據庫已成功收集近1500萬張圖片及2,200種分類。2005年,李博士在TED演說中,以短短20分鐘介紹ImageNet 項目,如向突破電腦影像研究樽頸。讀者如有興趣,值得花時間觀看。
作者:梁定康,現任網絡工程師,負責研究IT保安及網絡設計