[新科技速遞]
ChatGPT展示了自然語言處理(Natural Language Processing)的潛力,預訓練大語
言模型(LLM),或者稱為「基礎模型」(Foundation Model)。
「基礎模型」的名稱,因為模型學會語言理解後,可以微調再應付特定專業領域 ,或
者執行特定的任務,微調以改變用途的基礎模型,幾乎如雨後春筍。
OpenAI從GPT-1以預訓練實現了高效語言理解訓練,GPT-2加入遷移學習, GPT-3.5
又加入「指令遵循」(Instruction-following)和微調功能,成為大語言模型突破,按
指令自動生成文字,可供一般推理分析,自動提出建議和擬定計畫,也可改變用途,
按需要回答特定的問題。
ChatGPT的功能已完全超出開發人員設想。史丹福大學教授Percy Liang指出,語言代
表人了類運作規律,LLM具備推理理解能力,可執行其他工作,Google開發的PaLM-
E,就是利用LLM加上感應器,訓練出善解人意的機械人。
類似「指令遵循模型」(Instruction-following models),包括了GPT-3.5 (text-
davinci-003)、ChatGPT、Claude 和Bing Chat等,功能強大,可策畫其他任務,與網
上資源互動,例如擔任客戶聊天機械人,自動作決策建議,自動生成推廣的宣傳圖案。
微調LLM本小利大
微調(Fine Tuning)是指將預訓練大語言模型;按特定任務或專業,訓練出新技能。
以往微調成本昂貴,隨著低成本的「指令微調」(Instruction tuning)出現,以指令
數據集微調出「指令遵循模型」,可為商業機構工作,變成服務客戶或內部支援的答
問機械人,應用前景廣闊。
推出自家使用的指令遵循模型,先要克服兩個難題;首先是如何取得「預訓練大語言
模型」LLM,其次是訓練指令遵循的數據集。如果訓練指令有問題,答案不夠凖確,
模型有時會產生「幻覺」(Hallucination),類似GPT-3.5透過多模訓練,則可減低
「幻覺」機會。
對許多商業機構,採用ChatGPT要在公開平台分享數據,除了要支付API費用,還有
洩露商業秘密的風險。據說三星採用ChatGPT外洩敏感數據,結果其他用戶也看到了
三星集團機密資料。
市場上有多種微調技術,包括微軟發表的Lora框架。較早前,史丹福大學開發出
Alpaca 7B模型,開放給學術界使用,效果令人驚豔,利用HuggingFace Trainer API
微調功能,性價比之高,迅速令大語言模型具實用價值。
低成本高性價比
訓練高品質指令遵循模型,要解決兩大問題;首先是一個預訓練語言模型(LLM),
訓練成本可高達一百萬美元;其次是訓練指令遵循的數據集。由於Meta開源了預訓練
模型LLaMA,第一項難題迎刃而解;第二難題則以自動生成指令解決。
Alpaca採用LLaMA,以52,000個指令遵循演示範例微調,但指令不是人類產生,而是
先以175個人工編寫種子指令集,採用OpenAI為文本數據開發而打造的預訓練語言模
型text-davinci-003,產生出52,000個演示範例,OpenAI的API收費為500美元。
52,000個指令遵循演示範例準備後,再以HuggingFace訓練框架的HuggingFace
Trainer API去微調LLaMA模型,微調過程採用公有雲8個Nvidia的A100 80GB GPU,
微調LLaMA花去3小時運算,成本為100美元。
商用LLM雨後春筍
Alpaca模型是一個相對輕量模型,微調總成本低至600美元,多項文本生成測試令人
滿意。不過,Alpaca禁止開放供商業用途,原因是LLaMA是以非商業授權,加上採
用了OpenAI的text-davinci-003模型產生種子指令,不可與OpenAI競爭,所以Alpaca
禁用在商業用途。
不過,可供商用開源「指令遵循模型」出現,公有雲推出了LLM的API,AWS推出存
取多個LLM的Bedrock,可使用AI21Labs的Jurassic-2、Authropic的Claude、Stable
Diffusion等大模型,AWS亦推出Titan大模型,數據只在VPC內運行,確保數據安全和
保護隱私。
不想付款使用公有雲的API,或者部署內部或私有雲上,或者不想應用OpenAI數據
。Databricks在首屆數據+人工智能世界巡迴峰會推出Dolly 2.0,屬於可低價微調的
LLM,首個可商用並內部部署的遵循指令LLM,採用人手開發的數據集微調。Dolly
2.0以EleutherAI的Pythia大語言模型家族,訓練Dolly 2.0的「指令數據集」(Instruction set)乃邀請Databricks內5000名員工,按7種任務貢獻了15000個指
令數據集,同樣以HuggingFace Trainer API微調,總成本30美元,具備類似ChatGPT
的對話性能。
真人撰寫數據集
微調Dolly 2.0數據集非以「合成數據」(Synthesized data)產生,由真人撰寫的優點
,可減低AI發生幻覺的機會,回答亦較為詳盡。不過,Dolly 2.0最大賣點,卻是並沒
Alpaca商業限制,無需支付API費用,或者與第三方共享數據,自行創建完全私用的
「指令遵循模型」交談式AI服務。
Dolly 2.0可用作總結文件或者產生內容,模型可按特定任務微調,不用擔心敏感數據
外洩。Databricks開源了訓練數據集,格式簡單,自行製作微調。
Databricks推出Dolly 2.0經驗,相信可加快企業內部,微調開源的大語言模型。Databricks提供「湖倉一體」開放數據管理架構,同時供商業智慧(Business
intelligence)和機器學習(Machine learning)使用,可供模型訓練作內容特定用途,Databricks開源了微調的源碼。
Databricks直接在物件儲存上,仿照數據庫格式組織數據關係,數據倉庫與機器學習互相結合,不用經常轉型格式,快速從數據訓練模型,透過大語言模型提供新服務或創新。Dolly 2.0可安裝在內部數據中心,Github安裝指Pythia語言模型家族,最低要求部署在8片NVIDIA A100 GPU的伺服器上。