Sora刷屏視頻出現(xiàn)多處失誤（Sora是什么）

2024-02-20 15:23:30 編輯：常飛棟來(lái)源：

導(dǎo)讀 Meta首席AI科學(xué)家楊立昆指出了最近OpenAI公布的視頻AI工具Sora演示視頻中的錯(cuò)誤，老奶奶吹蠟燭火苗沒(méi)有變動(dòng)，東京街頭走動(dòng)的女郎步伐并不正...

Meta首席AI科學(xué)家楊立昆指出了最近OpenAI公布的視頻AI工具Sora演示視頻中的錯(cuò)誤，老奶奶吹蠟燭火苗沒(méi)有變動(dòng)，東京街頭走動(dòng)的女郎步伐并不正常，多處細(xì)節(jié)顯示這一模型并未真正理解物理世界。

1.Sora是一個(gè)文生視頻AI模型，它通過(guò)大規(guī)模的視覺(jué)數(shù)據(jù)訓(xùn)練一個(gè)具備通用能力的生成模型，只要輸入幾個(gè)關(guān)鍵詞，就可以利用這一模型生成一段視頻，在公開的演示視頻當(dāng)中，甚至這段視頻還包含鏡頭設(shè)計(jì)，體現(xiàn)出了很高的完成度。

2.人們?cè)赟ora身上看到了擴(kuò)散模型和大模型能力的完美融合，OpenAI把視頻的每一幀都轉(zhuǎn)化成為視覺(jué)補(bǔ)丁，這種最小單位類似于GPT當(dāng)中的token，它是組成視頻和圖像的基本部分，這些單位都可以被打破甚至重組。視頻生成過(guò)程中擴(kuò)散模型負(fù)責(zé)生成效果，這也就是為何Sora可以從現(xiàn)有的靜態(tài)圖像中生成視頻。

3.Sora解決了一些之前技術(shù)上難以突破的問(wèn)題，影視制作行業(yè)受到前所未有的沖擊。這一模型的革命性進(jìn)步就是生成的視頻長(zhǎng)度可以達(dá)到1分鐘，另外幾個(gè)熱門模型Pika生成長(zhǎng)度在3秒、Runway的生成長(zhǎng)度在18秒，Sora讓AI視頻真正可以成為生產(chǎn)力。

4.Sora可以降低內(nèi)容創(chuàng)作者的門檻，它簡(jiǎn)單的使用方法和較低的部署成本能大幅度增加視頻行業(yè)工作者的數(shù)量，只要一句話、幾個(gè)關(guān)鍵詞就可以把想法表達(dá)出來(lái)，有利于人們表達(dá)自己的創(chuàng)意。

5.基于模擬世界的能力，在更多領(lǐng)域當(dāng)中創(chuàng)造出新的事物，這是生成式模型學(xué)習(xí)的重要特征，它并不是記住數(shù)據(jù)，而是在數(shù)據(jù)的基礎(chǔ)上展現(xiàn)出強(qiáng)大的創(chuàng)造能力，這種方法訓(xùn)練出的AI將無(wú)限逼近真實(shí)世界。