[新科技速遞]
特斯拉(Tesla)向北美用戶,免費提供新版FSD 12.3自動駕駛一個月,並且不再掛上Beta,好評如潮,新版FSD大獲成功,行政總裁馬斯克表示,今年8月8日將推出Robotaxi,自動駕駛走向的士市場。
FSD揭櫫了「端對端神經網絡」(End to End Neural Network)自動駕駛模仿人類,變成了神乎其技的駕駛者,影響不再囿於電動車,甚至影響機械人的技術路線。
不少人以為,今年是人形機械人的元年,技術上已萬事俱備。去年底,人形機器人第一股優必選(Ubtech)本港上市,市值曾達1330億港元。特斯拉開發Optimus,美國Figure AI剛獲Amazon創辦人Jeff Bezos、Nvidia(輝達)、OpenAI和微軟融資6.75億美元, 估值達26億美元。
人類的許多動作以至開車,不是深思熟慮,而是一種手眼協調的本能反應。新版FSD以現實駕駛場景,訓練出大模型,直接以「端對端神經網絡」控制車輛,不再通過程式人員以代碼的規律決定。神經網絡全憑學習的直覺經驗,有如大模型預測下一步動作,同樣可套用於機械人上,為人形機械人商業化,帶來了無限憧憬。
機械人大模型時代
以往,自動駕駛是「模組化架構」(Modular architecture),程式人員按不同場景,駕駛過程劃分不同任務,通過感應器和演算法處理數據,再生成輸出預設步驟控制,然後又與相關模組交換訊息、最後作出規劃和控制,但模組化架構有不少缺點。
首先,模組化架構可放大錯誤,例如某個感應器誤判,或者是分類有錯誤,可牽一髮動全身,誤導後續規劃和控制模組,甚至自相矛盾,導致行車不安全,管理互連模組又增加了複雜性,多階段的數據處理,影響運算效率,反而直接將決定交給神經網絡,速度和效率會更高,FSD已證明端對端神經網絡,相較模組化架構,甚至多個大模型一同作決策,更有效率和準確。
FSD放棄模組化架構,完全透過「端對端神經網絡」,攝像頭串流的影像,直接輸入神經網絡,網絡再直接輸出控制指令如轉向、加速、刹車等,中間只經神經網絡,更加直接迅速,透過學習的駕駛經驗;有如大模型輸入預測文字一樣,神經網絡從影像輸入,預測下一步行動,可從路面環境作出複雜判斷的決策。
雖然FSD 仍屬須要監督(Supervised)L2級別輔助系統,司機不能移開視線和手,但FSD表現淡定,決策有條不紊,有如經驗老到司機。FSD大獲成功,電動車操作原理,亦有如機械人,機械人可仿效(Imitate)人類動作,訓練出類似神經網絡的大模型,執行各項任務,特拉斯正以同樣原理訓練Optimus。
大模型技術路線之爭
優必選副總裁龐建新接受雷鋒網的訪問,直言AI和人形機械人技術結合,正處於一個「開放性問題的時期」。大模型結合人形機械人,可能出現兩種流派,一種是將一種流派採用分層結構,大模型分為三個層次:第一層與大腦相關,主要處理知識、常識推理等;第二層與動作決策和任務規劃相關,類似於小腦功能,指導動作的規劃;第三層則直接與控制相結合,處理動作的規劃與控制。
另一種就是端到端方案,即從感知直接到控制的過程,一氣呵成交由神經網絡控制,也就是Tesla採用的技術路線。不過,端對端數據複雜,卻提供了直接的解決方案,挑戰在於難以獲取數據。
合成數據訓練機械人
上月,輝達高級研究科學家范麟熙(Jim Fan)和德州大學奧斯丁分校朱玉可教授,成立研究通用人體機械人GEAR(Generalist Embodied Agent Research)實驗室,開發輝達機械人大模型GR00T,以合成數據解決端到端訓練難題,GEAR的MimicGen項目以不到200個人類演示,自主生成了超過5萬訓練數據,涵蓋18個任務、多個模擬環境。 范麟熙甚至預言,合成數據將提供萬億級的高質量訓練數據。
近日,特斯拉和Figure AI,優必選先後發佈人形機械人視頻,雖然只是煮咖啡和疊衣服之類,動作笨拙;乍看之下不及懂得打空翻,跳舞和飛簷走壁的Boston Dynamics,但仿效人類動作學習,以端對端神經網絡控制的機械人,成本更低,更有機會商業化。
優必選公佈夥拍百度,Figure AI與OpenAI合作,加上特斯拉,人形機械人已成鼎足之勢。曾叱吒一時的Boston Dynamics,反而斯人獨憔悴了。