新科技速遞| AI模型如法外分身多角飾演如脫胎換骨

三個臭皮匠勝過一個諸葛亮，Together.ai公佈利用多個模型作為代理，並以其中一個作為總結（Aggregator），性能大幅提昇，以GPT-4o為總結獲最高分，但是以阿里雲開源的qwen1 5 72b亦獲65.1%，不相伯仲。

[新科技速遞]

生成式AI高速發展，改變不少行業，翻譯工作迅速被取代，大語言模型（LLM）利用大量數據訓練，提高了翻譯準確度，明白上文下理，掌握多種專業術語。不少AI模型專攻翻譯，GPT-4o甚至可即時傳譯，不過直接翻譯出輸入的原文，效果往往強差人意。不少研究發現，只要LLM加上代理（Agent），效果事半功倍。

較早前，史丹福大學吳恩達在紅杉AI高峰會，提出「代理流程」（Agentic workflow），大大改善AI模型輸出的質量。他指出，以一般人都以Zero-short方式，也就是輸入提問向LLM直接，答案質素往往未能盡如人意，加入代理分割任務，往往有更滿意答案，更可完成複雜任務。

分割翻譯改善質素

概括而言，Agent設計模式可分成4類；包括要求Agent反思、使用工具、規劃、多代理協作，例如以代理改善翻譯，可以對譯文作審查，要求使用的特定字典或參考文本，以過往翻譯為範例，或者蒐集特定領域知識。

吳恩達相信，以代理執行AI機器翻譯大有前途，可改善機器翻譯，最近開源本身開發代理流程，先以LLM進行翻譯，再創建另一代理提出反思，針對翻譯提出建設性建議，利用建議完善翻譯。

吳恩達代理程式並沒調用特定工具，翻譯結果以的BLEU衡量，部分獲不俗評分，不少用戶發現提示加入角色，要求LLM為答案反思，審視原本輸出，已經可獲更佳答案。

同一模型不同角色

利用代理創建流程，幾乎百花齊放，每個代理再建立本身的提示，出現了類似Autogen和Crew AI開源項目。

Autogen是Microsoft項目，用戶創建每個代理擔任不同角色，Crew AI則更加靈活，結合Ollama利用本地模型，免費執行複雜工作；例如Crew AI一個範例，LLM化身成為股票、財務分析員以至投資專家，配合不同分析總結成報告，內容專業幾可亂真。

利用同一LLM變成多個代理，可有效改善輸出文本質素，如果結合多個不同性能LLM，甚至可打敗最強的OpenAI，Together.ai亦開源Mixture of Agents（MoA）的源碼，其概念是以多個開源LLM分演不同角色一同工作，開源模型性能單獨比上不及OpenAI，但是分層再總結，結果卻令人大吃一驚。

OpenAI提出了為LLM能力作綜合評分的AlpacaEval工具，針對GPT模型弱點，以反映模型真實能力，MoA所獲AlpacaEval評分高達65.1%，遠遠拋離GPT-4o所獲57.5%。開源模型可免費在內部運作，確保了私隱性，另外又可利用低價的推理服務，性價比非常吸引。

類似Groq具備多個開源模型，推論速度比OpenAI更快，Token價格只是二十分之一，以不到一美元一百萬Token成本，利用MoA以同一模型，製作不同代理，再混合不同性能的模型，不少高性性模型在香港都有應用限制，利用MoA以低價獲得高性能。

https://www.together.ai/blog/together-moa

Leave a Reply Cancel reply