[新科技速遞]
CVPR是IEEE國際電腦視覺與模式識別(Computer Vision and Pattern Recognition)會議,跟ICCV、ECCV 並稱為三大電腦視覺運算會議。視覺運算發展速度極快,全球學者傾向將研究結木投稿至CVPR等會議,論文錄取率極低,錄取論文又分為數級,委員會認為價值最高會入選口頭報告(Oral Presentation),可以在大會做演講報告,其餘剩下是論文海報,或者簡短演講報告(Spotlight)。本港上市的人工智能企業商湯科技一直活躍於CVPR會議,今年CVPR共接收2067篇論文,數量較去年增長了四份一,商湯科技及聯合實驗室共有71篇論文入選。
CVPR論文在多個計算電腦計算會議的h-index,評份最高,意味所發表論文以後可獲最多人引用和實際應用,屬於全球最頂尖電腦學術會議,參與的除了學術機構,還有企業和研究機構,儼然是全球視覺運算一場「華山論劍」。
多篇入選口頭報告
今年CVPR選址在美國路易斯安那州新奧爾良,商湯入選的論文之中,有近四分之一屬口頭報告;包括了三維視覺和自動駕駛,顯示其研發水準仍處前列位置。
商湯參與CVPR會議的競賽,與中科院自動化所、上海人工智慧實驗室聯合參加了Embodied AI 2022,Embodied AI集中如何移動物件,與真實世界進行實際的互動的AI技術,數年年Facebook開源Embodied AI平台的AI Habitat模擬平台,專供研究人員在極逼真的3D環境訓練虛擬機器人,可結合Facebook的Replica,或者Gibson和Matterport3D等3D環境數據集。
商湯在Embodied AI的RxR-Habitat比賽奪冠,比賽要求以自然語言控制室內機器人導航。商湯算法提升九成以上效果,導航的準確率從24.08%躍升至45.82%,導航保真度從37.39%提升至55.43%。此外,視覺編碼技術比賽CLIC(Challenge on Learned Image Compression),商湯獲得圖像編碼冠軍,全部三個測試碼點取得最佳主觀評測分數,深度學習方案的解碼速度也最快。
數碼人舞蹈出色
近年來,商湯開發SenseCore 等AI基礎大設施,推動不同產業的開發;例如今次發表的《Bailando: 3D Dance Generation via Actor-Critic GPT with Choreographic Memory》論文,研究人員開發一種音樂到舞蹈框架Bailando,驅動3D虛擬角色跟隨音樂做出舞蹈動作,不僅保證動作標準與美感,還能時間上保持與不同音樂節奏一致,比其他框架更優勝。數字虛擬人應用廣泛,可在社交媒體、電玩遊戲、直播、虛擬偶像等場景。
提升自動駕駛物件追蹤
光學雷達(LiDAR)是自動駕駛不可或缺的技術,可以在黑間或惡劣天氣監察環境,車輛可利用從LiDAR產生點雲數據,跟蹤附近目標和分析環境。商湯發表的《PTTR: Relational 3D Point Cloud Object Tracking with Transformer》論文,提出了點雲跟蹤框架PTTR,Transformer架構源於AI針對自然語言處理(NLP)的神經網絡架構,特別是應用於機器翻譯,自從2017年Google研究員發表了《Attention is All you Need》論文之後,Transformer橫掃了NLP應用,今次CVPR再有不少Transformer轉用在視覺運算上。
視覺運算以圖像數據跟蹤目標,研究相當成熟,卻難以應用在LiDAR所傳回的點雲數據上,點雲密度可能較圖片稀疏、甚至受遮擋及有多種雜訊;故無法直接以圖像演算法跟蹤目標,當被追蹤物體離LiDAR感測器較遠,點雲稀疏令目標更難以追蹤,商湯團隊針對點雲數據的特徵和現有演算法缺陷,提出了點雲跟蹤框架PTTR,多個數據集上顯著提升目標跟蹤準確度,未來有助開發自動駕駛。
商湯重視建設學術生態,2017年來陸續與上海交通大學、南洋理工大學、浙江大學分別成立聯合研究院或實驗室、與清華大學建立「感知計算」產學研深度融合專項計畫,推動成立全球人工智能學術聯盟。
今年6月11日,商湯科技聯合全球高校人工智能學術聯盟舉辦「研無止境:商湯論文分享會」活動,來自商湯及香港中文大學、浙江大學、南洋理工大學、北京大學等研究學者解讀3D視覺、姿態估計、底層視覺、表徵學習、場景理解等8篇CVPR 2022 Oral 論文,分享實際場景研究。