Slide
Slide
Slide
Hitachi_AI_HCI
Hitachi_HCI
HCI
previous arrow
next arrow

新科技速遞| 開源Llama後發先至 微調版本衝擊AI生態

llama3
Llama 3代碼和權重全部開源,多項評分都超越了最流行的開源和閉源大模型,加上龐大的用戶群,肯定持續成為最多開發人員採用的大模型。

Meta開源Llama 3大模型;包括兩個 80 億(8B)和 700 億(70B)參數版本,已供下載。4000 億參數(400B)版本正在開發,較不少閉源大模型,Llama 3性能有過之無不及,不少評分拋離對手。Meta行政總裁扎克伯格(Mark Zuckerberg)透露,400B在數學(GSM-8K)、編程(Human-Eval)、多任務語言理解(MMLU)基準,超越了GPT4。

8B模型可安裝在消費級個人電腦,例如蘋果Mac機,70B可用於AI的原生應用上。Llama 3也證明了小參數的大模型,性能上完全不遜色,Llama 3在多語言和各方面的能力相當不俗,只要簡單步驟安裝完成。即使針對生產環境,Meta推出微調Llama 3後 Llama Guard 2,能分類大模型輸入提示和回應,可識別不安全內容。

免費開源驅動創新

問題在於,Llama 3是在兩個共24,576塊H100的GPU 集群訓練,成本估計高達1億美元,卻是免費開源,人人唾手可得。Llama 3成為Hugging Face史上,最快躍升第一位大模型。Llama 3未有正式評估,幾乎肯定可與Open AI和Anthropic看齊,Open AI具備了先發優勢,擁有大量企業用戶。開源大模型在全球影響力迅速增長,用戶自由下載並不斷創新。Meta堅持Llama走開源路線,主要是由Meta人工智能科學家楊立昆(Yann LeCun)全力推動。

楊立昆
2018, Geoffrey Hinton、Yoshua Bengio、楊立昆一同獲頒電腦科學界最高榮譽「圖靈獎」。楊立昆被譽為「卷積神經網絡」(CNN)之父,並堅持開源路線,結果Meta領導了AI開源運動,如今Llama衍生的大模型超過三萬。

衍生3萬大模型

全球多個商用大模型,包括Open AI都屬於閉源大模式,無法微調以適應多國語文,估計基於Llama 3微調(Fine-tuning)本土大模型,很快如雨後春筍。去年7月,Llama改變了開源協議,從僅供研究商用,變成「免費可商用」,此後Llama衍生的大模型,一發不可收拾。

Hugging Face 創辦人Clément Delangue在社交媒體X上表示:「迄今Llama 1 和 2衍生的大模型超過了3 萬,估計Llama 3影響更大。 」

楊立昆一直呼籲,大模型要保持開源。大模型要用於某種特定用途,可通過RAG(檢索增強生成)或者微調,甚至提示工程;RAG全靠連接外部數據回應,微調則在預訓練的大模型基礎上,以特定的數據再訓練,模型適應特定任務域。不少從Llama微調大模型,性能竟然更好,不少開源大模型也有同樣現象。

要教曉大模型新的內容,RAG屬常用方法,且有不少公有雲工具支持,用戶數據變成向量,自動供大模型作檢索。開源大模型更容易通過微調,變成特定用途或學會多種語言;Llama有中文和中醫大模型,透過微調訓練再加上提示工程,以少量樣本擴展基礎模型的用途。

楊立昆認爲,開放平台有助於加快大模型開發。Meta後發先至,究竟多少有賴於開源社區?不過全球在文化和語言多樣性,尤其「低資源語言」(Low-resource languages),的確需要AI開源支持。楊立昆認爲美國大模型內容,只是少數人專家去決定,由始至終沒考慮世界其他人的需求。

llama3
個人電腦廠商推出包括GPU和NPU的人工智能PC,即使小參數Llama 3已有不錯中文解讀能力,甚至可取代補習老師,估計類似小參數模型會引起下一波電腦升級潮。

Llama成國內主流

Llama有多個基於中醫典籍的開源大模型,包括《黃帝內經》HuangDi、《姜子牙》 Ziya和本草大模型,已成為中醫古籍解讀高手,以助普及中醫知識。另一方面, GitHub、Hugging Face、ModelScope、 WiseModel平台,Llama中文社區極為活躍。較早前,北京人工智能研究院向李強總理作出匯報,指國內研究人員過度依賴Llama,可見國內缺乏基礎模型,Llama已成為主流。

楊立昆舉例,前Google研究人員Moustapha Cisse,回到非洲祖國塞內加爾,成立初創Kera Health Platforms,透過Llama提供以塞內加爾語的醫療資訊,當地人均醫生數量極少,類似服務救人無數,Kera剛獲世界銀行的資助。

開源大模型也助多語言國家,打破溝通隔閡,印度有22種官方語言,多家印度初創微調Llama 2;推出Tamil Llama、Kannada Llama、Telugu Llama通曉全部語種。楊立昆說,沒有開源AI平台,不可能有類似的創新。

Llama針對不同的語言、文化、價值體系、不同領域技術能力而微調,甚至根據行業垂直應用再微調訓練,以Meta 內部Metamate大模型為例,可回答Meta內部任何提問。

Meta在社交平台的影響力,商用化早已立於不敗之地。Meta將推出WhatsApp聊天機械人,可助商戶下單,協助電商推廣和生成內容,Meta在社交平台擁大量客戶,以開源營造百花齊放的AI生態,可說利己利人。

Leave a Reply

Your email address will not be published. Required fields are marked *