[人工智能] [LLM]
生成式AI技術帶來巨大衝擊,ChatGPT、BLOOM、Claude、Bard等服務的預訓練大型語言模型(LLM),能理解人類的語言。許多科幻小說情節,馬上成為了現實。
LLM大型語言模型通過網上數以百億語言和圖片訓練而成,LLM亦稱為「基礎模型」(Foundation Model),因為可發展出其他用途;從撰寫博客文章、生成圖像、解決數學問題、對話聊天、基於文本回答特定問題,未來更可取代人手工作,不少職位勢將消失。
LLM大型語言模型自動閱讀和理解內容,節錄和編輯內容,抽取文章重點,再產生新的內容,但LLM要通過「微調」(Fine tuning)才可執行專屬領域特定功能,按業務要求凖確回答問題。
不少人發現,網上ChatGPT答案不太凖確,原來LLM先要學習,才掌握特定領域知識,才懂得正確回答。未來部署內部LLM經過微調後,可成為內部知識中心,正確解答員工疑難,加快數碼化進程。LLM通過微調掌握行業術語,按專業要求產生文檔和作答;Google基於PaLM2微調出醫療專用Med PaLM2大模型,通過醫學專業執業考試,懂得閱讀電子健康紀錄,基於指示填寫病歷和醫療建議。
一般大型語言模型參數以數百億計,即使部分較少參數模型,經微調後亦有不少錯效果;例如Databricks開源了可供商用的指令調優模型Dolly 2.0,透過EleutherAI Pythia模型家族120億參數語言模型,以Databricks-dolly-15k指令數據集微調,微調成本只是30美元。
「微調」大模型學懂新技能,不須從零開始訓練,僅需以小部分數據和運算資源,就可學會執行新任務;例如金融公司要交易紀錄自動生成報告供客戶,可使用以往報告專有資料「微調」,以便LLM可瞭解如何分析,選用哪些資料生成新市場報告。
市場上陸續出現可供部署在內部LLM,訓練可在可控環境中進行,數據不再要上傳至公有雲,以較少數據去微調;例如Parameter-Efficient Fine-tuning (PEFT)以大量減低算力的耗用和儲存需求。
訓練和微調大型語言模型,不免要利用圖形處理器(GPU)。儲存系統向GPU供應數據的速度非常重要,用於AI訓練的儲存系統,快速向GPU的記憶體傳送數據,因此必須是新一代的快閃混合儲存,以加快存取速度,儲存以Data fabric設計,以簡化儲存與GPU記憶體之間的連接,Data fabric有如記憶與多個儲存系統之間的特快數據通道,保證數據可源源不絕,送往GPU訓練。
大模型微調後,儲存系統的效率對於「推理」(Inference)亦非常重要,其中一個原因是AI部署後,不少情況下使用範圍會迅速擴大,存取的數據愈多愈多;系統須兼具Scaleup和Scaleout能力,升級性能還要避免停頓,運行期間支援升級,以免AI模型推理工作因儲存升級暫停。
有關理解AI訓練和推理的儲存系統設計,請參考: