人工智能| 生成式AI戰國時代短兵相接各出奇謀

GoogleMaps — 每日Google Maps為200億公里路線提供行程規劃，新推出沉浸實境路線圖（Immersive View）可預覽行程實景，不同時段天氣和交通，Google實況街景通過Neural Radiance Fields（NeRF）生成虛擬3D效果，幾可亂真。

[新科技速遞]

生成式AI飛躍發展的時代，一日都會嫌長。OpenAI掀開生成式AI時代序幕，Meta開源大模型，開源社群推出多項創新，Google如何回應成為焦點。

Google一直在研發AI領先，OpenAI在許多任務的表現，加上猜度人類意圖的強大對齊（Alignment）能力，一夜之間改變不少行業，甚至重劃互聯網企業版圖。

今年Google I/O大會的焦點，集中Google公佈新一代大模型PaLM 2，支援超過25項目產品及功能；PaLM 2支援Bard服務公開測試，PaLM 2將加強搜尋服務，以至推出微調後的專業模型。

Google-SundarPichai — Google及Alphabet行政總裁Sundar Pichai在I/O大會公佈了新一代大語言模型

生成式AI百花齊放

Google在大語言模型發展，確有開山之功。2017年是自然語言處理（NLP）分水嶺，當年Google科學家發表論文「Attention is all you need」，提出Transformer模型，一舉解決RNN缺點，透過平行運算的大規模分析文本，訓練LLM變成了可能。數年間，Transformer席卷NLP，圖像處理和多種AI訓練，間接導致「多模態」（multimodal）模型誕生。2023年初，論文已引用超過62,000次，足見影響力之大。

多模態可融合NLP和視覺分析，可從圖像和視頻自動字幕、視覺問答（VQA）、視覺對話、基於文本生成圖像；類似DALL · E 2、Stable Diffusion和Midjourney出現，多模態降低LLM的幻覺（Hallucination），更凖確回答問題。

AI生態極為開放，以快打慢，Google在理論層面的貢獻，似乎沒帶來優勢；OpenAI以Transformer訓練的GPT模型，接連推出亮麗產品，Google甚至措手不及。

Bard英美開放應用

Google宣佈，AI助手會Bard在180國家開放，加入韓日文支援；未來會增加中文等40種語言。目前，以中文詢問Bard，仍只顯示不支援；但不少LLM以中文詢問，已可通過英文作答。相較之下，ChatGPT更在中文對答如流，理解能力甚高，開源的LLaMA/Alpaca已有中文版；Bard速度上仍要加一把勁。

Google行政總裁Sundar Pichai指出，PaLM 2廣泛蒐集數據；包括科學論文及涵蓋數學表達式數據，故邏輯和常識推理出色；可理解及生成縝密結果，同時擁有編程能力，有助編程人員跨語言及跨地域協作。

PaLM 2大模型針對多種部署場景，有4種不同規模；依次為Gecko、Otter、Bison 及 Unicorn。最輕量級Gecko可安裝在流動設備上，支援流動裝置AI機器人離線使用，微調作為不同功能的個人助手。

PaLM 2由Google Brain及DeepMind兩個研究團隊負責，曾相繼推出AlphaGo、Transformers 及 sequence-to-sequence等影響重大的模型，最近兩個團隊合併，研發新一代Gemini基礎模型。Gemini是從頭打造的多模態模型，具微調工具及 API與其他應用快速整合。

搜尋器變身助手

OpenAI在生成式AI佔有先機，夥伴微軟有龐大生態和用戶群，應用迅速落地；ChatGPT支援的Bing搜尋，活躍用戶迅速增長，Google夥伴三星宣佈有意轉用Bing作預設搜尋，直接影響了Google核心廣告業務。

Google會以PaLM 2推出全新搜尋服務，除了作個人助手作出建議，亦可生成各種商品的詳細比較，從網上數據自動比較優劣和推薦，搜尋器提供個人化建議，變身個人助手應該為期不遠。

Google生產力工具Workdspace和即時通訊Messenger，亦加入了文本生成的功能，PaLM 2也微調加入專業應用，包括以0醫療知識訓練Med PaLM 2和透過Mandiant威脅情報AI，用於網絡保安的Sec-PaLM模型。Google指，Med PaLM 2已在美國醫學專業資格考試USMLE，問題回答凖確率超過85%。

開源醫療LLM

較早前，Meta開源多模態ImageBind；結合文字、聲音、影像、動畫、熱成像和深度圖像，相信當初開發是配合Meta元宇宙策略，如今Meta開始變陣， ImageBind可從圖片自動配上音響和字幕，又或從聲音檔自動配上圖片，從深度圖像自動恢復內容，具備非凡感知能力，迅速引起關注。

未來，微調LLM可打造專業助手；中國哈工大剛開源經中文醫學指令，微調LLaMA-7B的「本草」（BenTsao）模型，提昇了回答醫療查詢的效果。

自從Meta開源LLaMA，已衍生多種微調版本，功能目不睱及，ImageBind多模態支援的感知能力，原本可能是為元宇宙開發，但亦可透過傳感器與大模型互動，結合醫療知識庫，微調出通過人體癥狀，提供初步診斷的醫學助手。

Google似乎不打算採取開源策略，轉而透過內部資源和研發，獨自推動生成式AI發展。另一方面，Meta卻漸受開源擁抱，OpenAI則迅速推動功能，其生態正快速形成。

Google既在開源上保守，又在時間上落後，生成式AI只爭朝夕，可能會進退維谷。

Leave a Reply Cancel reply