123,123,123

Sora刷屏视频出现多处失误模拟真实世界仍需闯关

日期： 2024-02-19

來源：第一财经

關(guān)鍵詞： Sora 文生视频 OpenAI

2月18日，由OpenAI 發(fā)布的文生視頻AI工具Sora引發(fā)的討論仍在繼續(xù)，范圍涉及科技圈、資本圈、影視圈等，同時對Sora尚存在的問題研究也逐漸深入。

例如針對OpenAI定位“世界模擬器”的觀點，圖靈獎得主、Meta首席AI科學(xué)家楊立昆（YannLeCun）表示，根據(jù)提示詞生成的大部分逼真視頻并不表明這樣的AI系統(tǒng)理解物理世界，生成視頻的過程與基于世界模型的因果預(yù)測完全不同。

翻閱OpenAI披露的數(shù)十份視頻，楊立昆的觀點具體表現(xiàn)為老奶奶吹蠟燭火苗卻不動、東京街頭步伐錯誤的女郎、玻璃杯碎后錯誤的液體流向、在跑步機上反向跑步的男子等。

雖然OpenAI的明星效應(yīng)為其帶來大量關(guān)注，同日谷歌發(fā)布的多模態(tài)通用模型Gemini 1.5 Pro也變?yōu)榕浣牵徽撌敲绹韫華I項目還是中國大模型創(chuàng)業(yè)公司，外界關(guān)注的核心均為實際應(yīng)用效果。

視頻雖驚艷bug仍存在

目前，Sora所生成的視頻內(nèi)容得到影視行業(yè)人士的普遍認可。Mystery Novel視覺預(yù)演工作室創(chuàng)始人、導(dǎo)演牛萌琛對第一財經(jīng)記者表示，Sora視頻中的畫質(zhì)，畫面內(nèi)容中的細節(jié)、光影、色彩都較精細，對導(dǎo)演來說，為其在拍攝前期做一個簡單的鏡頭樣板是夠用的。對廣告片拍攝來說，也可以用這種樣板來與客戶更好地進行概念上的溝通和確認。但如果涉及鏡頭運動角度，與更精細內(nèi)容調(diào)控——如色彩、光影、道具、人物動作等，目前AI還不能達到令客戶滿意的程度。

一位紀錄片從業(yè)者對記者表示，目前Sora還不能直接用于影視作品，因為精細度還不夠。但已經(jīng)足夠震撼，完全可以用于前期開發(fā)，尤其是概念設(shè)計。一位宣傳片從業(yè)者表示，工作室目前還沒試過用AI生成來做素材，Sora 只發(fā)布了部分作品，且未開放公測，能不能用來代替剪輯不確定。無論如何，這些工具最后都是為人服務(wù)的，人的個人感情復(fù)雜性的表達不可替代。

攝影專業(yè)人士孟凡對記者表示，Sora視頻幀率較高，說明計算能力比較強，且影片的寬容度更高，如調(diào)色、細節(jié)表現(xiàn)、高速鏡頭展現(xiàn)等。在直觀感受上，Sora 模型產(chǎn)出的視頻運鏡自然，物體運動符合規(guī)律，鏡頭間邏輯一致性好，但是Sora視頻的邏輯性會差一點。

具體表現(xiàn)在Sora視頻內(nèi)容中，如一分鐘的東京街頭女郎漫步，女郎走路過程中存在腿部變形、腿部交叉換位時錯亂、右腿連續(xù)兩次在前方邁步等錯誤；一段提示詞為“一個人跑步的場景”中，主角在跑步機上反向奔跑；提示詞為“考古學(xué)家在沙漠發(fā)現(xiàn)塑料椅子”的視頻中，椅子呈現(xiàn)懸浮狀態(tài)。

針對目前Sora存在的不成熟之處，OpenAI表示，Sora可能難以準確模擬復(fù)雜場景的物理原理，可能無法理解因果關(guān)系，可能混淆提示的空間細節(jié)，可能難以精確描述隨著時間推移發(fā)生的事件，如遵循特定的相機軌跡等。

OpenAI方面在《作為世界模擬器的視頻生成模型》技術(shù)報告中表示，Sora作為一個模擬器，目前表現(xiàn)出許多限制，它并沒有準確地模擬許多基本互動的物理效應(yīng)，比如玻璃破碎。吃食物之類的互動不總是產(chǎn)生正確的物體狀態(tài)變化。還有在長時間樣本中發(fā)展的不連貫性或物體的自發(fā)出現(xiàn)。

對于這些問題，多位人工智能領(lǐng)域人士對記者表示，皆因概率模式的邏輯硬傷所致。中科深智創(chuàng)始人兼CEO成維忠表示，Sora因其并非嚴格的推理模型，目前還存在因果關(guān)系推理問題，但這個問題不是Sora自身的問題，而是目前所有類似模型均存在的問題，類似于大模型普遍存在的幻覺問題。未來會隨著訓(xùn)練的加強而得到改善。

宜遠智能CEO吳博對記者表示，通過加大訓(xùn)練量、增加訓(xùn)練數(shù)據(jù)與物理邏輯，該問題會逐漸得到改善，但無法根治。

南洋理工大學(xué)副教授張含望此前在GAIR全球人工智能與機器人大會上表示，想要真正突破最底層邏輯上的問題，因果關(guān)系（Causality）是一條必經(jīng)之路。如果不把因果關(guān)系加上去，大模型只是在進行強行關(guān)聯(lián)，幸運的話，模型在回答問題時能夠給出正確答案，否則就會“胡說八道”。這是因為它背后的關(guān)聯(lián)是錯誤的——把共生關(guān)系當(dāng)成了因果關(guān)系。

實際使用價值待解

Sora之所以能引發(fā)廣泛關(guān)注，除了畫面超過同行的質(zhì)量原因外，更在于外界對其即將帶來的行業(yè)迭代充滿好奇。

就影視行業(yè)而言，得知Sora視頻發(fā)布后，時光矩陣聯(lián)合創(chuàng)始人郁剛稱自己的心態(tài)冰火兩重天，一方面對于影視特效公司而言，該消息算不上一個好消息，自己第一個感覺是“特效公司要死了嗎？”很想將過去學(xué)的特效工具“埋了”。

郁剛稱自己過去能想象到AI視頻會發(fā)展到這個精度，但沒有想過會這么快，其原本的預(yù)測時間是三到五年，結(jié)果在一年時間內(nèi)就達到——從兔年春節(jié)到龍年春節(jié)，OpenAI實現(xiàn)了從文生文到文生視頻的迭代。但從另一個角度來說，郁剛稱自己很欣喜，從導(dǎo)演角色來說，過去最痛苦的就是拿到劇本之后找錢、找投資方，開了四年公司，賬上虧損欠賬三百萬人民幣，但看了Sora之后，拍視頻、做成特效并放到熒幕上這步最貴的動態(tài)預(yù)演環(huán)節(jié)，完全可以通過AI實現(xiàn)成本節(jié)省。

郁剛預(yù)計，未來AI視頻生態(tài)將發(fā)生巨大變化，影視行業(yè)或?qū)⒆優(yōu)榉?wù)業(yè)，視頻生產(chǎn)的概念也將發(fā)生變化。

專業(yè)動畫師Owen Fern不認可當(dāng)下“Sora顛覆行業(yè)”的極端觀點，他稱，作為一名動畫師，目前并不對Sora視頻感到害怕，因為動畫制作本質(zhì)上是需要反復(fù)修正的過程，特別是在為客戶服務(wù)時更是如此。目前 AI 還無法提供給客戶一個精雕細琢的作品，而只是一些粗制濫造的東西。這些細節(jié)看似挑剔，但它們正是客戶對知識產(chǎn)權(quán)（IP）或產(chǎn)品所持的態(tài)度。

Owen Fern強調(diào)稱，Sora視頻的質(zhì)量的確是令人驚嘆的高，只是就目前而言，它們除了作為展示AI潛力的范例作用外，實用價值仍待觀察。

新加坡Vibranium Consulting副總裁陳沛近期實際使用和觀察了RunwayML、Stable Video Diffusion（SVD）、Adobe Firefly等主流AI視頻服務(wù)，通過對比發(fā)現(xiàn)，目前AI生成視頻的質(zhì)感往往達不到最初宣傳的效果，還會在物體行進方向、人物四肢等方面出現(xiàn)明顯錯誤，無法滿足實際應(yīng)用的需求。

Perplexity AI 創(chuàng)始人之一的Aravind Srinivas表示，Sora雖然令人驚嘆，但其還沒有做好準確模擬物理的準備——正如Sora研究員在報告中提及的那樣。并且，行業(yè)并不能很快地在家庭清潔機器人上運行這些巨大的“世界模擬器”的模擬推理。

浙商證券認為，短期內(nèi)，Sora及同類產(chǎn)品可大幅提升圖像和短視頻的制作效率，改變創(chuàng)意生產(chǎn)及營銷工作流，提升短視頻產(chǎn)品生產(chǎn)力。對于業(yè)態(tài)更加復(fù)雜的長視頻和游戲，受限于模型還無法準確理解因果關(guān)系及其他技術(shù)難點，現(xiàn)階段或以提供美術(shù)靈感支持為主。

中長期來看，浙商證券表示，Sora及同類產(chǎn)品將參與到改變信息生產(chǎn)和分發(fā)兩大環(huán)節(jié)的進程中，PGC(專業(yè)生產(chǎn)內(nèi)容)將廣泛采用AI工具輔助生產(chǎn)，UGC(用戶生成內(nèi)容)將借助AI 工具逐步替代PGC。此間，AI生成視頻工具的商業(yè)化將提速。

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

Sora刷屏视频出现多处失误 模拟真实世界仍需闯关

日期： 2024-02-19

來源：第一财经

相關(guān)內(nèi)容

Sora刷屏视频出现多处失误模拟真实世界仍需闯关