![DeepSeek](https://www.it-square.hk/wp-content/uploads/2025/02/0203DeepSeek02.webp)
[眾創時代] [DeepSeek]
國產大模型DeepSeek激起千層浪,APP登上了iPhone最多下載應用榜首,成最熱門聊天機器人,模型的下載量驚人。
由於推理成本低,全球公有雲馬上提供DeepSeek服務。開發AI晶片的Cerebras提供DeepSeek R1推理服務,每秒輸出達1500個Token,足以應付任何應用。
《Nature》期刊報導,DeepSeek推理能力強勁,全球不少科研人員以DeepSeek執行推理,廣泛應用至科研工作。
DeepSeek由梁文鋒在2023年創立,大量採用強化學習(RL),通過自我進化提升推理能力,能夠應對複雜任務,宣稱僅用約278萬小時H800 GPU算力,完成6710億參數模型訓練,通過演算法和優化硬件資源完成訓練,成本之低,震撼全球AI業界。
![DeepSeek創辦人梁文鋒](https://www.it-square.hk/wp-content/uploads/2025/02/0203DeepSeek01.webp)
全面開源注重推理
DeepSeek以較少GPU算力,訓練模型卻能媲美OpenAI成本過億的o1,輝達(Nvidia)資深科學家Jim Fan亦給予高度評價,原因是DeepSeek透明度高,易於重現成果和複製到其他模型,以寬鬆的MIT授權開源,容許商用和改良。
DeepSeek是推理模型(Reasoning Model),通過思維鏈(Chain of Thought)解決複雜問題,同時又開放權重(open weight)通過訓練後參數,可研究模型內部機制和算法邏輯,進行二次開發和改進,答案較可解釋。
開源閉源之爭
DeepSeek令美國重估中國實力,美國白宮AI沙皇David Sacks指責,DeepSeek是通過蒸餾OpenAI來訓練模型,即以OpenAI作教師模型,將其知識遷移到DeepSeek的學生模型。他相信,美國大模型公司會致力於避免日後模型被「蒸餾」。
一般蒸餾用常於訓練參數較少學生模型,訓練和推理速度快,一般應用在即時性要求較高場景。蒸餾通過問答形式獲得知識,卻無從獲得模型設計細節和架構,而且要抄襲千億參數模型,除了是天價也極其困難,OpenAI深陷知識產權爭議,如果指抄襲數據,彼此可能又是一丘之貉。DeepSeek效率又比OpenAI更高,加上完全開源,抄襲可能性不高。
Meta首席科學家楊立昆(Yann Le Cun)反駁美國AI業界的指責,指矽谷AI有一種錯調的優越情意結,只關注DeepSeek只是中國AI公司,實際上搞錯了重點,指今次是進步是開源與閉源之爭。
其後,OpenAI行政總裁Sam Altman竟承認,OpenAI站在歷史的錯誤一方,需思考開源策略,意味未來將開源更多模型。
惠普AI時代來臨
DeepSeek全面開源又可供下載,推理成本更低,AI成本急降,卻是不爭的事實。OpenAI宣布剛推出o3-mini推理模型提高用戶上限;免費亦可體驗,首次免費開放推理模型,惠普AI時代終於來臨。
DeepSeek取代OpenAI言之尚早。從多個實驗,DeepSeek簡單問題有時卻答錯,保安漏洞甚多,也容易越獄,但編碼和推理能力卻是強項。
DeepSeek可利用倒計時遊戲(Countdown)驗證強化學習效果,方法是先取一組數字,同時一個隨機目標數字。以基本算術進行組合運算,從而獲目標數位。倒計時遊戲看似簡單,大模型需要組合數字、嘗試不同運算邏輯,就觀察能否基於強化學習發展出策略,自我驗證和搜索。加大柏克萊分校研究人員Jiayi Pan僅以30美元,以30億參數DeepSeek R1 Zero模型完成任務,驗證DeepSeek的核心技術,確實可學習進化。OpenAI的API成本高DeepSeek27倍,不少研究紛紛轉投DeepSeek。
推理需求大於訓練
DeepSeek出現後,市場擔心算力過剩,引致Nvidia股價下挫。中國缺乏AI晶片,DeepSeek找盡辦法提昇訓練效率,放棄了Nvidia的CUDA架構,改用GPU底層語言PTX編碼。CUDA是Nvidia的技術優勢,提供簡單易用介面,可簡單調用GPU性能,幾乎所有深度學習都應用CUDA。DeepSeek為了用盡性能,繞過CUDA直接以PTX優化硬件。
但是PTX作為硬體底層指令集架構,根據需求分配寄存資源,提高平行計算效率,不過卻難度極高,並非所有AI團隊有能力轉用PTX,所以CUDA架構不會消失。
DeepSeek記憶體分配和高效數據處理,加嶄新混合專家(MoE)架構,同時也降低推理的硬件成本,意味不少機構可改以內部部署,減少數據外洩的機會。
施耐德電機數據顯示:2023年AI算力訓練僅佔二成,推理佔八成,全球耗用的算力,最終可能不跌反升。雖然效率提升帶來了節省,最終需求上升導致總消耗會增加,對Nvidia可能反更有利,GPU和AI電腦,即將迎來黃金時代。