Slide
Slide
Slide
Hitachi_AI_HCI
Hitachi_HCI
HCI
previous arrow
next arrow

人工智能| 生成式AI戰國時代 短兵相接各出奇謀

GoogleMaps
每日Google Maps為200億公里路線提供行程規劃,新推出沉浸實境路線圖(Immersive View)可預覽行程實景,不同時段天氣和交通,Google實況街景通過Neural Radiance Fields(NeRF)生成虛擬3D效果,幾可亂真。

[新科技速遞]

生成式AI飛躍發展的時代,一日都會嫌長。OpenAI掀開生成式AI時代序幕,Meta開源大模型,開源社群推出多項創新,Google如何回應成為焦點。

Google一直在研發AI領先,OpenAI在許多任務的表現,加上猜度人類意圖的強大對齊(Alignment)能力,一夜之間改變不少行業,甚至重劃互聯網企業版圖。

今年Google I/O大會的焦點,集中Google公佈新一代大模型PaLM 2,支援超過25項目產品及功能;PaLM 2支援Bard服務公開測試,PaLM 2將加強搜尋服務,以至推出微調後的專業模型。

Google-SundarPichai
Google及Alphabet行政總裁Sundar Pichai在I/O大會公佈了新一代大語言模型

生成式AI百花齊放

Google在大語言模型發展,確有開山之功。2017年是自然語言處理(NLP)分水嶺,當年Google科學家發表論文 「Attention is all you need」,提出Transformer模型,一舉解決RNN缺點,透過平行運算的大規模分析文本,訓練LLM變成了可能。數年間,Transformer席卷NLP,圖像處理和多種AI訓練,間接導致「多模態」(multimodal)模型誕生。2023年初,論文已引用超過62,000次,足見影響力之大。

多模態可融合NLP和視覺分析,可從圖像和視頻自動字幕、視覺問答(VQA)、視覺對話、基於文本生成圖像;類似DALL · E 2、Stable Diffusion和Midjourney出現,多模態降低LLM的幻覺(Hallucination),更凖確回答問題。

AI生態極為開放,以快打慢,Google在理論層面的貢獻,似乎沒帶來優勢;OpenAI以Transformer訓練的GPT模型,接連推出亮麗產品,Google甚至措手不及。

Google
哈爾濱工業大學和通過醫學知識圖譜和GPT3.5 API構建了中文醫學指令數據集,微調了LLaMA-7B模型,推出了開源的基於中醫知識的「本草」,可回答多種醫學常識。Google也推出了醫療知識微調的Med PaLM 2模型。

Bard英美開放應用

Google宣佈,AI助手會Bard在180國家開放,加入韓日文支援;未來會增加中文等40種語言。目前,以中文詢問Bard,仍只顯示不支援;但不少LLM以中文詢問,已可通過英文作答。相較之下,ChatGPT更在中文對答如流,理解能力甚高,開源的LLaMA/Alpaca已有中文版;Bard速度上仍要加一把勁。

Google行政總裁Sundar Pichai指出,PaLM 2廣泛蒐集數據;包括科學論文及涵蓋數學表達式數據,故邏輯和常識推理出色;可理解及生成縝密結果,同時擁有編程能力,有助編程人員跨語言及跨地域協作。

PaLM 2大模型針對多種部署場景,有4種不同規模;依次為Gecko、Otter、Bison 及 Unicorn。最輕量級Gecko可安裝在流動設備上,支援流動裝置AI機器人離線使用,微調作為不同功能的個人助手。

PaLM 2由Google Brain及DeepMind兩個研究團隊負責,曾相繼推出AlphaGo、Transformers 及 sequence-to-sequence等影響重大的模型,最近兩個團隊合併,研發新一代Gemini基礎模型。Gemini是從頭打造的多模態模型,具微調工具及 API與其他應用快速整合。

搜尋器變身助手

OpenAI在生成式AI佔有先機,夥伴微軟有龐大生態和用戶群,應用迅速落地;ChatGPT支援的Bing搜尋,活躍用戶迅速增長,Google夥伴三星宣佈有意轉用Bing作預設搜尋,直接影響了Google核心廣告業務。

Google會以PaLM 2推出全新搜尋服務,除了作個人助手作出建議,亦可生成各種商品的詳細比較,從網上數據自動比較優劣和推薦,搜尋器提供個人化建議,變身個人助手應該為期不遠。

Google生產力工具Workdspace和即時通訊Messenger,亦加入了文本生成的功能,PaLM 2也微調加入專業應用,包括以0醫療知識訓練Med PaLM 2和透過Mandiant威脅情報AI,用於網絡保安的Sec-PaLM模型。Google指,Med PaLM 2已在美國醫學專業資格考試USMLE,問題回答凖確率超過85%。

開源醫療LLM

較早前,Meta開源多模態ImageBind;結合文字、聲音、影像、動畫、熱成像和深度圖像,相信當初開發是配合Meta元宇宙策略,如今Meta開始變陣, ImageBind可從圖片自動配上音響和字幕,又或從聲音檔自動配上圖片,從深度圖像自動恢復內容,具備非凡感知能力,迅速引起關注。

未來,微調LLM可打造專業助手;中國哈工大剛開源經中文醫學指令,微調LLaMA-7B的「本草」(BenTsao)模型,提昇了回答醫療查詢的效果。

自從Meta開源LLaMA,已衍生多種微調版本,功能目不睱及,ImageBind多模態支援的感知能力,原本可能是為元宇宙開發,但亦可透過傳感器與大模型互動,結合醫療知識庫,微調出通過人體癥狀,提供初步診斷的醫學助手。

Google似乎不打算採取開源策略,轉而透過內部資源和研發,獨自推動生成式AI發展。另一方面,Meta卻漸受開源擁抱,OpenAI則迅速推動功能,其生態正快速形成。

Google既在開源上保守,又在時間上落後,生成式AI只爭朝夕,可能會進退維谷。

Leave a Reply

Your email address will not be published. Required fields are marked *