低成本微調大語言模型生成AI飛入尋常百姓家

Databricks數據 + 人工智能世界巡迴峰會得獎企業；由左至右：中電高級數據科學家Ryan Lam及數據操作經理Colin Cheng、富衛數碼科技及數據部副總裁Rodney Yim、友邦大數據創新主管Abhishek Sharma、Databricks 北亞地區營運總監林家偉、Lane Crawford Joyce Group科技總監Jack Ng、利豐LFX 首席資訊總監劉俊成及數據工程主管German Chung

[新科技速遞]

ChatGPT展示了自然語言處理（Natural Language Processing）的潛力，預訓練大語
言模型（LLM），或者稱為「基礎模型」（Foundation Model）。

「基礎模型」的名稱，因為模型學會語言理解後，可以微調再應付特定專業領域，或
者執行特定的任務，微調以改變用途的基礎模型，幾乎如雨後春筍。

OpenAI從GPT-1以預訓練實現了高效語言理解訓練，GPT-2加入遷移學習， GPT-3.5
又加入「指令遵循」（Instruction-following）和微調功能，成為大語言模型突破，按
指令自動生成文字，可供一般推理分析，自動提出建議和擬定計畫，也可改變用途，
按需要回答特定的問題。

ChatGPT的功能已完全超出開發人員設想。史丹福大學教授Percy Liang指出，語言代
表人了類運作規律，LLM具備推理理解能力，可執行其他工作，Google開發的PaLM-
E，就是利用LLM加上感應器，訓練出善解人意的機械人。

類似「指令遵循模型」（Instruction-following models），包括了GPT-3.5 (text-
davinci-003)、ChatGPT、Claude 和Bing Chat等，功能強大，可策畫其他任務，與網
上資源互動，例如擔任客戶聊天機械人，自動作決策建議，自動生成推廣的宣傳圖案。

微調LLM本小利大
微調（Fine Tuning）是指將預訓練大語言模型；按特定任務或專業，訓練出新技能。
以往微調成本昂貴，隨著低成本的「指令微調」（Instruction tuning）出現，以指令
數據集微調出「指令遵循模型」，可為商業機構工作，變成服務客戶或內部支援的答
問機械人，應用前景廣闊。

推出自家使用的指令遵循模型，先要克服兩個難題；首先是如何取得「預訓練大語言
模型」LLM，其次是訓練指令遵循的數據集。如果訓練指令有問題，答案不夠凖確，
模型有時會產生「幻覺」（Hallucination），類似GPT-3.5透過多模訓練，則可減低
「幻覺」機會。

對許多商業機構，採用ChatGPT要在公開平台分享數據，除了要支付API費用，還有
洩露商業秘密的風險。據說三星採用ChatGPT外洩敏感數據，結果其他用戶也看到了
三星集團機密資料。

市場上有多種微調技術，包括微軟發表的Lora框架。較早前，史丹福大學開發出
Alpaca 7B模型，開放給學術界使用，效果令人驚豔，利用HuggingFace Trainer API
微調功能，性價比之高，迅速令大語言模型具實用價值。

低成本高性價比
訓練高品質指令遵循模型，要解決兩大問題；首先是一個預訓練語言模型（LLM），
訓練成本可高達一百萬美元；其次是訓練指令遵循的數據集。由於Meta開源了預訓練
模型LLaMA，第一項難題迎刃而解；第二難題則以自動生成指令解決。

Alpaca採用LLaMA，以52,000個指令遵循演示範例微調，但指令不是人類產生，而是
先以175個人工編寫種子指令集，採用OpenAI為文本數據開發而打造的預訓練語言模
型text-davinci-003，產生出52,000個演示範例，OpenAI的API收費為500美元。
52,000個指令遵循演示範例準備後，再以HuggingFace訓練框架的HuggingFace
Trainer API去微調LLaMA模型，微調過程採用公有雲8個Nvidia的A100 80GB GPU，
微調LLaMA花去3小時運算，成本為100美元。

商用LLM雨後春筍
Alpaca模型是一個相對輕量模型，微調總成本低至600美元，多項文本生成測試令人
滿意。不過，Alpaca禁止開放供商業用途，原因是LLaMA是以非商業授權，加上採
用了OpenAI的text-davinci-003模型產生種子指令，不可與OpenAI競爭，所以Alpaca
禁用在商業用途。

不過，可供商用開源「指令遵循模型」出現，公有雲推出了LLM的API，AWS推出存
取多個LLM的Bedrock，可使用AI21Labs的Jurassic-2、Authropic的Claude、Stable
Diffusion等大模型，AWS亦推出Titan大模型，數據只在VPC內運行，確保數據安全和
保護隱私。

不想付款使用公有雲的API，或者部署內部或私有雲上，或者不想應用OpenAI數據
。Databricks在首屆數據+人工智能世界巡迴峰會推出Dolly 2.0，屬於可低價微調的
LLM，首個可商用並內部部署的遵循指令LLM，採用人手開發的數據集微調。Dolly
2.0以EleutherAI的Pythia大語言模型家族，訓練Dolly 2.0的「指令數據集」（Instruction set）乃邀請Databricks內5000名員工，按7種任務貢獻了15000個指
令數據集，同樣以HuggingFace Trainer API微調，總成本30美元，具備類似ChatGPT
的對話性能。

真人撰寫數據集

微調Dolly 2.0數據集非以「合成數據」（Synthesized data）產生，由真人撰寫的優點
，可減低AI發生幻覺的機會，回答亦較為詳盡。不過，Dolly 2.0最大賣點，卻是並沒
Alpaca商業限制，無需支付API費用，或者與第三方共享數據，自行創建完全私用的
「指令遵循模型」交談式AI服務。

Dolly 2.0可用作總結文件或者產生內容，模型可按特定任務微調，不用擔心敏感數據
外洩。Databricks開源了訓練數據集，格式簡單，自行製作微調。

https://www.databricks.com/blog/2023/04/12/dolly-first-open-commercially- viable-instruction-tuned-llm

Databricks推出Dolly 2.0經驗，相信可加快企業內部，微調開源的大語言模型。Databricks提供「湖倉一體」開放數據管理架構，同時供商業智慧（Business
intelligence）和機器學習（Machine learning）使用，可供模型訓練作內容特定用途，Databricks開源了微調的源碼。

Databricks直接在物件儲存上，仿照數據庫格式組織數據關係，數據倉庫與機器學習互相結合，不用經常轉型格式，快速從數據訓練模型，透過大語言模型提供新服務或創新。Dolly 2.0可安裝在內部數據中心，Github安裝指Pythia語言模型家族，最低要求部署在8片NVIDIA A100 GPU的伺服器上。

Leave a Reply Cancel reply