[新科技速遞]
隨著大模型應用普遍,不少亦陸續開源,迄今以Meta開源的LLaMA最流行,礙於條款卻無法商用。
不少大模型都是LLaMA微調,其後Databricks推出以Eleuther AI訓練的開源Dolly,商用開源大模型陸續出現。
5月,Hugging Face開源大模型排行的榜首,竟是阿布達比技術創新研究所(TII)開源後微調的Falcon-40B-instruct大模型,多項推理和理解任務獲評分第一,超越LLaMA-65B模型。
但是Falcon-40B-instruct不支援中文,也不完全是開源,後被揭有商業條款,不能完全免費商用。
商湯科技亦在GitHub開源了多模態多任務通用大模型「書生(INTERN)」,最近升級為「書生・浦語」(InternLM)。「書生」的初版由商湯、上海人工智能實驗室、清華、香港中文大學、上海交通大學共同開發並持續改進。
全套開源體系
書生・浦語的升級版包括了104B 高性能版和7B輕量級版。InternLM-7B 向學術研究開放,支持免費商用授權,是國內首個容許免費商用,具完整工具套裝的多語言大模型。雖說是輕量級,InternLM-7B擁有70億參數。
而104B的「書生・浦語」,語境窗口長度的Token從2K增至8K,記憶力明顯增強,支援20多種語言,35個評測集上超越ChatGPT。「書生・浦語」也是國內首個支持8K語境長度的千億參數多語大模型,尤其熟練中英雙語,其中英文多種評測上有甚佳表現。
InternLM-7B開源之餘,推出首個供大模型研發應用的全套開源體系;包括了數據、預訓練、微調、部署和評測五個環節。
「書生・浦語」可構建先進應用,也可深入開發打造垂直行業大模型,亦開源一整套系統工程工具,以推動整個行業,讓更多開發人員獲得AI開發工具。
InternLM-7B也針對實用場景度身訂造,透過以萬億計高質素語言訓練建立知識體系,並提供完整工具搭建流程,GitHub的star數已達超過了2K。
https://github.com/InternLM/InternLM
創新動態調整
上海人工智能實驗室指,以同等參數量級大模型,InternLM-7B領先國內所有開源模型。
InternLM-7B訓練和評估過程之中,使用了創新動態調整模式:每訓練短階段之後,會對整個模型作全面評估,根據評估結果及時調整下一階段訓練數據的分佈。「書生・浦語」亦公佈OpenCompass 開放評測體系,共整合開源社區數十套基準,以便比較開源大模型的性能。
「書生・浦語」具備了多模態多任務處理能力,可用在多個通用AI開發;包括了圖文跨模態和開放任務,例如自動駕駛和機器人,提供精準的感知和理解能力,加上具備處理中文的能力,相信會成為推動多模態多任務通用模型的基礎模型。