Slide
Slide
Slide
Hitachi_AI_HCI
Hitachi_HCI
HCI
previous arrow
next arrow

來自冥王星的對話 Google對話技術突破

AshishVaswani
2017年,Google Research研究員Ashish Vaswani在發表了《Attention Is All You Need》,提出了Transformer深度學習模型,論文獲得超過2萬次引用,改寫了NLP研究方向。

新科技速遞

去年,因新冠疫情而停辦的年度開發者大會Google I/O,睽違2年後,終於網上舉行。會上Google行政總裁 Sundar Pichai 發表公布一系列產品。

Google影響力已無孔不入,從廣告、搜尋、地圖、Google相簿、購物。雖然說,相比於設計精巧的蘋果iOS作業系統,Google的Android顯得簡陋,蘋果的流動應用,卻仍不是Google對手,無論是利用那一個流動平台,不少人仍靠Google地圖,了解路面情況。

Google地圖也擁有最多數據,可以優化預測模型,一直遙遙領先,Google發現最短的路線,未必是最佳的路線,利用機器學習及所收集路面資訊,可讓駕駛者預早做好減速準備,甚至選用其他較不擠塞路線。

GoogleMap
更加關注行人的Google地圖:顯示大大小小的行人路、斑馬線、安全島等設施的準確位置,按比例呈現道路的形狀甚至闊度。

Map關心行人了

Google利用了兩組數據訓練機器學習;包括Google地圖手機偵測到路面可能發生擠塞,而必須突然減速情況,包括利用了Google地圖導航的車輛;如備有Android Auto汽車採集的路線資訊,預測某段路可能發生突然塞車,減少需要突然剎車,以至辨識暢快的行車路線,同時建議多一條最相近路線,幫助行車順暢安全。

以往司機使用Google地圖尋路,愈來愈多行人,也靠地圖找目的地,Google提升了實景(Live View)功能,加強地圖的細節,即時從Google地圖瀏覽路面的實景,檢視周邊的商店及餐廳相關資訊,從實景直接找到方向和位置。

Google地圖全新的街道符號,可更清楚標示複雜十字路口,甚至紅綠燈和過馬路輔助線,顯示出用家所在位置與目的地之間距離。去年推出的詳盡街道地圖,今年底會覆蓋多達50個城市,包括香港在內。

根據Google對全球城市面貌的認識,Google地圖能顯示大大小小的行人路、斑馬線、安全島等設施準確位置,按比例呈現道路形狀,甚至是闊度,以方便行人,尤其輪椅或嬰兒車的用戶,策劃合適路線,顯示區域的繁忙程度,區內熱點如某街道,是否比平日繁忙。

根據當前時段,亦可顯示地點的最相關資訊。例如一般平日上午,打開Google地圖,只顯示已開的咖啡店,不顯示晚飯熱點,以免摸了門釘。

GoogleHealth
Google Health皮膚科:診斷皮膚問題不求人,Google利用約65,000張去識別化的圖像及經診斷的皮膚狀況病例數據、數百萬張有皮膚問題的圖像,數以千計的健康皮膚例子,開發和調整此AI模型。

Google Health開設皮膚科

此外,利用上傳照片至網絡,也可自行診檢不同病病,Google Health已訓練出了偵測糖尿病視網膜病變的深度神經網絡,去年在泰國測試醫療 AI模型,以自行檢測糖尿病視網膜病變,今次則可利用手機鏡頭,協助分辨更多皮膚疾病。AI皮膚科輔助工具是Google網頁應用,期望今年稍後推出測試版。該AI模型根據 288 種已知皮膚狀況進行分析,只要拍下皮膚情況,Google可提供一系列相關症狀,同時就各相關症狀,顯示經皮膚科醫生檢視過資訊、常見問題的答案和類似情況的網絡照片。

模型加入了年齡、性別、種族及皮膚類型等因素,Google利用約65,000張去識別化的圖像及經診斷的皮膚狀況病例數據、數百萬張有皮膚問題的圖像,以及數以千計的健康皮膚例子以便開發和調整此模型。

LaMDA
LaMDA自然語言模型化身成冥王星的對話

自然語言突破

Google I/O也公佈了LaMDA自然語言(NLP)模型、採用Google變革自然處理技術的神經網絡架構Transformer來訓練,專門針對建立聊天機械人的交談式查詢而建。LaMDA可無所不談,不斷就話題作出流順對答。從LaMDA模型的流順度,可見交談式AI已進入了新時代。

大會上,Google以LaMDA化身為冥王星和紙飛機,與真人直接對話,LaMDA預計會成為支援Google Assistant的技術,交談式機器人如Google Assistant和Siri 之類,往往答非所問;以往靠預訓練的循環神神經網絡(RNN)模型,從用戶輸入估計用意,應付的不同查詢要求,再從關鍵用語作出應對,但理解的凖確度一直是大問題,不能應付複雜的交流。

以往處理自然語言訓練,主要以RNN架構,2017年Google研員人員Ashish Vaswani提出Transformer模型,以一個模型處理多種NLP訓練。2018年底,基於Transformer架構已出現一大批預訓練的語言模型,包括BERT、Transformer-XL,GPT-2,重新整理不同NLP任務。當模型變得越來越大,樣本數越來越多的時候,Transformer顯得更有好處。

Transformer實際上是建基於Graph Neural Networks(GNN)。近年社交媒體興起,由18世紀瑞士數學家Leonhard Euler發明的Graph theory,也大放異彩,已經在社交媒體分析,甚至在Microsoft的Microsoft 365上應用。

GNN
GNN則利用節點(Nodes)和邊緣(Edges)關係,通過代表建立的「圖形」(Graph)節點和邊緣,以「鄰域聚合」(Principal Neighborhood Aggregation)實現計算句字,不再像RNN來回運算(圖片來源:Towardsdatascience網站Chaitanya Joshi論文)

GNN妙用無盡

Google的DeepMind在Graph theory有深刻研究,去年DeepMind的Petar Veličković就在人工智能深度學習2020年度ICLR頂級學術會議上,介紹以Graph Theory作AI推理,Google利用他的AI理論應用,預測交通獲得成功。

所有AI神經網絡架構處理自然語言,都是建立輸入數據的代表(Representations),變成向量(Vector)或嵌入矩陣(Embedding Matrix)以訓練模型,將有用的統計或語義數據進行編碼計算成不同的模型。因為語言屬於序列的數據,傳統RNN對每個詞建立代表,學習人類語言對話,詞彙多是以前饋(Feedforward)或多次自回歸再前饋方式,從左到右(或從右至左,視乎語文)來回處理再變成輸出,結束時可得到每個詞,在整個句子中的隱藏特徵,就知道句子所含意思,究竟「Bank」是指「銀行」還是「堤岸」,但如果兩個關連字,彼此相距太遠,RNN就要多重來回運算才知道,很不化算。

但是GNN則利用節點(Nodes)和邊緣(Edges)關係,通過代表建立的「圖形」(Graph)節點和邊緣,以「鄰域聚合」(Principal Neighborhood Aggregation)實現計算句字,每個節點從其相鄰處收集語言的隱藏特徵,再通過遞迴聚合和轉換鄰域節點的代表的向量數值,也就是Attention,毋須關心彼此距離,消耗的算力遠比RNN少。

https://ai.googleblog.com/2017/08/transformer-novel-neural-network.html

GNN在深度學習,特別是序列和非結構性數據,比傳統的RNN更高效。近年,香港中文大學、北京清華、騰訊AI Lab都有大量關於GNN研究,GNN論文也在多個頂級會議上急增,顯示未來成為研究熱點。

Google也推出新一代TPU v4 晶片、Google Workspace協作新模式和Google Health的新功能。而Android作業系統也出現大型設計改善,推出了12的Beta版本,由顔色、標記形狀、光暗到動態都煥然一新,功耗亦更低。

Leave a Reply

Your email address will not be published. Required fields are marked *