Slide
Slide
Slide
Hitachi_AI_HCI
Hitachi_HCI
HCI
previous arrow
next arrow

新科技速遞| 文字生成視頻現突破 合成數據致現實脫節

sora
Sora對物理世界的理解粗淺,容易出現不符現實的幻覺(Hallucination),尤其是物件在互動時,更容易穿幫和露破綻,例如人物的手部動作和蠟燭火焰向氣流反方向靠攏。

[新科技速遞]

OpenAI推出文字生成視頻的新工具Sora大模型,根據文字提示,自動馬上生成1分鐘高清影片,場景內容細緻,運用流暢和高難度鏡頭角度拍攝、人物表情生動。

Sora尚未公開,雖然Google、Meta、Runway、Pika、Stable Video等亦有同樣工具,不過從OpenAI展示多條短視頻,Sora技術畫質細節遙遙領先,已是不爭事實。

OpenAI和Microsoft都面對數據以及版權的困擾,面臨《紐約時報》和多位作者的訴訟,並未公佈Sora是利用那些數據訓練出來。另一方面,Sora內容逼真亦引起擔憂。據網站透露,OpenAI正測試各項漏洞,以免Sora用作不良用途;包括確認有問題的資訊、仇恨和偏見內容等提示,避免用於「深度偽造」,正以對抗性方式測試模型。

Sora是技術突破已無懸念,相較於以往文本生成視頻,從OpenAI公佈短片質素,已足見可用於商業用途。

直覺學習物理運動

輝達(NVIDIA)高級研發科學家Jim Fan承認,Sora比OpenAI推出DALL·E 2文本生成圖像技術,已跨越一大步,屬於「數據驅動物理學級引擎」(Data-driven physics engine),Sora不單生成動畫,以產生符合物理互動動作,變成栩栩如生的動畫素像,但不是沒有缺陷。

Sora產生航拍和追蹤鏡頭,論逼真和細節程度,令人拍案叫絕,長遠確對影視製作及電玩遊戲帶來巨變,不過Jim Fan指Sora模型訓練方式,仍有不少挑戰要克服,完全取代人手製作,還會有一段距離。

原因在於Sora不是完全以現實世界數據訓練,不少卻是向壁虛構,憑空捏造的境像,這些數據變成模型。換言之,Sora是從直覺學習了物理運動,模擬出符合現實世界情景。Sora可以揉合現實和虛擬,符合物理定律運動模擬,產生出現實不可能存在,卻又合乎情理的境像。

合成數據天馬行空

Jim Fan估計,Sora可能是通過製作電玩遊戲3D開發引擎的Unreal Engine 5,再產生大量「合成數據」(Synthetic data)訓練,3D遊戲引擎產生文字和動畫內容,學習複雜渲染技術、模擬直覺物理現像、以遠視距的推理和語義基礎,通過去噪和梯度數學建立動畫內容,換言之Sora並非從真實世界數據訓練。

訓練Sora數據並不是來自現實,合成數據是模仿真實世界數據,經AI自行創建的數據集,基於演算法和類比創建出來,只是具有實際數據相同數學特性,故此大模型可利用少量數據訓練,後果是與現實世界脫節。

Sora轉化物件成為3D後、加入光線追蹤,從不同短片學習得來物理運動方式,產生3D動畫素像,過程類似3D遊戲引擎,但遊戲引擎通過人工編程產生動畫,一定較為精確;Sora憑訓練數據直覺產生動畫,全靠數據和物理推論,有時出現低級錯誤。

乍看之下,Sora製作驚艷,Jim Fan指出多條短片內容,推斷Sora短期內不能取代人手,原因是對物理世界理解過於粗淺,容易出現幻覺(Hallucination),尤其物件在互動時更易穿幫和露出破綻,簡單如拍手掌動作節奏不一致,不能分辨空間互動細節,物件正常的運動方向,玻璃撞擊後不爆碎破裂、吹蠟燭時火焰相反,一個人咬了一口餅乾,餅乾上卻沒現咬痕。

除非Sora經多模訓練,再加上更多真實數據,加上條件反射,才能變得更逼真,成為真正的自然模擬器。

Leave a Reply

Your email address will not be published. Required fields are marked *