sora軟件是什么 Sora的技術(shù)路徑一圖覽
復(fù)刻Sora是很難的,對于這個Sora的技術(shù)路徑很多人都不太了解,想要了解sora是什么,那么大家可以多看看游戲鳥小編分享在下面的內(nèi)容,方便大家能更好的了解sora的技術(shù)路徑,對此感興趣的小伙伴趕緊來看看吧!
Sora的技術(shù)路徑一圖覽
昨天,OpenAI發(fā)布了視頻生成模型Sora,最大的Sora模型能夠生成一分鐘的高保真視頻。同時OpenAI稱,可擴(kuò)展的視頻生成模型,是構(gòu)建物理世界通用模擬器的一條可能的路徑。
Sora能夠生成橫屏1920*1080視頻,豎屏1080*1920視頻,以及之間的所有內(nèi)容。這使得Sora可以兼容不同的視頻播放設(shè)備,根據(jù)特定的縱橫比來生成視頻內(nèi)容,這也會大大影響視頻創(chuàng)作領(lǐng)域,包括電影制作,電視內(nèi)容,自媒體等。
技術(shù)報(bào)告:https://openai.com/research/video-generation-models-as-world-simulators
技術(shù)解讀
魔搭社區(qū)的開發(fā)者也針對Sora的技術(shù)報(bào)告展開了熱烈的討論,并根據(jù)技術(shù)報(bào)告的內(nèi)容,推測了Sora的技術(shù)架構(gòu)圖如下:
Sora的技術(shù)架構(gòu)圖(from魔搭社區(qū)開發(fā)者)
Sora模型的核心技術(shù)點(diǎn)(圖中紅色標(biāo)注):
視頻壓縮網(wǎng)絡(luò)
OpenAI訓(xùn)練了一個降低視覺數(shù)據(jù)維度的網(wǎng)絡(luò)。這個網(wǎng)絡(luò)接受原始視頻作為輸入,并輸出在時間和空間上都被壓縮的潛在表示。Sora在這個壓縮的潛在空間上進(jìn)行訓(xùn)練,并隨后生成視頻。同時還訓(xùn)練了一個相應(yīng)的解碼器模型,將生成的潛在表示映射回像素空間(源自Sora技術(shù)報(bào)告)。這部分內(nèi)容為圖中的紅色部分,核心工作為將視覺數(shù)據(jù)轉(zhuǎn)化為patches,patches是從大語言模型中獲得的靈感,大語言模型范式的成功部分得益于使用優(yōu)雅統(tǒng)一各種文本模態(tài)(代碼、數(shù)學(xué)和各種自然語言)的token。大語言模型擁有文本token,而Sora擁有視覺分塊(patches)。OpenAI在之前的Clip等工作中,充分實(shí)踐了分塊是視覺數(shù)據(jù)模型的一種有效表示(參考論文:An image is worth 16x16 words: Transformers for image recognition at scale.)這一技術(shù)路線。而視頻壓縮網(wǎng)絡(luò)的工作就是將高維度的視頻數(shù)據(jù)轉(zhuǎn)換為patches,首先將視頻壓縮到一個低緯的latent space,然后分解為spacetime patches。
這個方法同樣適用于圖像(將圖像作為單一幀視頻處理),基于Patches的表示使得Sora能夠訓(xùn)練具有不同分辨率,持續(xù)時間和縱橫比的視頻和圖像,而在推理過程中,只需要在適當(dāng)大小的grid中隨機(jī)初始化patches即可控制視頻生成的大小。
技術(shù)難點(diǎn):視頻壓縮網(wǎng)絡(luò)類比于latent diffusion model中的VAE,但是壓縮率是多少,如何保證視頻特征被更好地保留,還需要進(jìn)一步的研究。
2. 用于視頻生成的Scaling Transformers
Sora是一個diffusion模型;給定輸入的噪聲塊+文本prompt,它被訓(xùn)練來預(yù)測原始的“干凈”分塊。重要的是,Sora是一個Scaling Transformers。Transformers在大語言模型上展示了顯著的擴(kuò)展性,我們相信OpenAI將很多在大語言模型的技術(shù)積累用在了Sora上。
在Sora的工作中,OpenAI發(fā)現(xiàn)Diffusion Transformers作為視頻生成模型具備很好的擴(kuò)展性。
技術(shù)難點(diǎn):能夠scaling up的transformer如何訓(xùn)練出來,對第一步的patches進(jìn)行有效訓(xùn)練,可能包括的難點(diǎn)有l(wèi)ong context(長達(dá)1分鐘的視頻)的支持、期間error accumulation如何保證比較低,視頻中實(shí)體的高質(zhì)量和一致性,video condition,image condition,text condition的多模態(tài)支持等。
3. 語言理解
OpenAI發(fā)現(xiàn)訓(xùn)練文本到視頻生成系統(tǒng)需要大量帶有相應(yīng)文本標(biāo)題的視頻。這里,OpenAI將DALL·E 3中介紹的標(biāo)題生成技術(shù)用到了視頻領(lǐng)域,訓(xùn)練了一個具備高度描述性的視頻標(biāo)題生成(video captioning)模型,使用這個模型為所有的視頻訓(xùn)練數(shù)據(jù)生成了高質(zhì)量文本標(biāo)題,再將視頻和高質(zhì)量標(biāo)題作為視頻文本對進(jìn)行訓(xùn)練。通過這樣的高質(zhì)量的訓(xùn)練數(shù)據(jù),保障了文本(prompt)和視頻數(shù)據(jù)之間高度的align。而在生成階段,Sora會基于OpenAI的GPT模型對于用戶的prompt進(jìn)行改寫,生成高質(zhì)量且具備很好描述性的高質(zhì)量prompt,再送到視頻生成模型完成生成工作。
技術(shù)難點(diǎn):如何訓(xùn)練一個高質(zhì)量的視頻caption模型,需要海量的高質(zhì)量視頻數(shù)據(jù),包括數(shù)據(jù)的獲取和標(biāo)注,為了保障通用性,需要支持各種多樣化的視頻源,電影、紀(jì)錄片、游戲、3D引擎渲染等等;標(biāo)注工作包括對長視頻的精準(zhǔn)切片,以及切片后的captioning。中文高質(zhì)量視頻數(shù)據(jù)一直是稀缺資源,隨著國內(nèi)短視頻業(yè)務(wù)發(fā)展,也許可以加快中文高質(zhì)量短視頻的收集和獲取。
4、世界模型,涌現(xiàn)的模擬能力
當(dāng)大規(guī)模訓(xùn)練時,sora同樣也出現(xiàn)了有趣的“涌現(xiàn)的模擬能力”,這些能力使Sora能夠模擬物理世界中的人、動物和環(huán)境的某些方面。這些屬性沒有任何明確的三維、物體等歸納特征信息——可以理解為由于模型參數(shù)足夠大而產(chǎn)生的涌現(xiàn)現(xiàn)象。
這些能力包括:
三維一致性 Sora可以生成具有動態(tài)攝像機(jī)移動的視頻。隨著攝像機(jī)的移動和旋轉(zhuǎn),人物和場景元素在三維空間中一致地移動。
長距離連貫性和物體持久性 對于視頻生成系統(tǒng)來說,一個重大挑戰(zhàn)一直是在采樣長視頻時保持時間上的連續(xù)性。研究發(fā)現(xiàn),Sora通常能夠有效地模擬短距離和長距離依賴關(guān)系(不穩(wěn)定)。例如,Sora可以在人物、動物和物體被遮擋或離開畫面時仍然保持它們的存在。同樣,它可以在單個樣本中生成同一角色的多個鏡頭,貫穿視頻始終保持他們的外觀。
與世界互動 Sora可以模擬以簡單方式影響世界狀態(tài)的行為。例如,畫家可以在畫布上留下新的筆觸,這些筆觸隨著時間的推移而持續(xù)存在,或者一個人可以吃漢堡并留下咬痕。
模擬數(shù)字世界 Sora還能夠模擬人工過程,一個例子是視頻游戲。Sora可以通過基本策略控制《Minecraft》中的玩家,同時以高保真度渲染世界及其動態(tài)。這些能力可以通過prompt包含“Minecraft”,零樣本激活這樣的能力。
而這些能力都表明,順著這個方向發(fā)展(持續(xù)擴(kuò)大規(guī)模),Sora真的可能成為世界模型(能夠高度模擬物理和數(shù)字世界的模擬器)。也許頭部玩家,黑客帝國這些科幻片,就在不太遙遠(yuǎn)的未來。
技術(shù)難點(diǎn):“大”模型,“高”算力,“海量”數(shù)據(jù)
總 結(jié)
從Sora模型的技術(shù)報(bào)告中,我們可以看到Sora模型的實(shí)現(xiàn),是建立在OpenAI一系列堅(jiān)實(shí)的歷史技術(shù)工作的沉淀基礎(chǔ)上的:包括不限于視覺理解(Clip),Transformers模型和大模型的涌現(xiàn)(ChatGPT),Video Caption(DALL·E 3)等。正如社區(qū)的一位開發(fā)者說,雖然其中依然有非常多的技術(shù)細(xì)節(jié)OpenAI并沒有披露,但是OpenAI畫了一條“模糊”的路,有了這條模糊的路,大家就可以去嘗試,從而畫出通往視頻生成的正確的清晰的路。
以上就是sora軟件是什么 Sora的技術(shù)路徑一圖覽全部內(nèi)容,希望對你有幫助。想查找更多游戲資訊,歡迎持續(xù)關(guān)注游戲鳥查看。-
- 國產(chǎn)肉鴿《霓虹深淵2》定價公布!7月17日58元登錄Steam平臺!
- 阿姆羅2025-07-04 16:31:13
-
- 《絕區(qū)零》聯(lián)動芬達(dá)PV公布,還有限定周邊!
- 卡繆2025-07-02 17:55:35
-
- 像素火影網(wǎng)頁版一周年入口 像素火影一周年網(wǎng)頁版鏈接
- 技能魔法師2025-07-01 10:35:12
-
- 送完P(guān)S5PRO又送NS2!《劍星》開發(fā)商為慶祝游戲大賣贈送每位員工一臺NS2!
- 卡繆2025-06-18 15:22:28
-
- 開啟卡牌新紀(jì)元,《影之詩》新資料片“超凡世界”正式上線!
- QQlove2025-06-18 15:10:19
-
- 魔獸世界冰dk天賦加點(diǎn)推薦
- 阿姆羅2025-04-07 17:11:51
-
- NS2發(fā)布會匯總:港版售價3450港幣,馬車新作首發(fā)護(hù)航,支持4K120FPS輸出!
- 卡繆2025-04-03 10:14:35
-
- 可能漲價?CDPR稱《GTA6》漲價對他們來說是有利的。
- 卡繆2025-03-28 17:31:44
-
- OpenAI sora是什么意思 Sora是怎么訓(xùn)練出來的
- 技能魔法師2024-04-30 00:20:41
-
- openai視頻生成模型sora爆火 OpenAI王炸模型官方技術(shù)報(bào)告解讀
- 游戲獵人2024-04-28 02:03:12
- 1 國產(chǎn)肉鴿《霓虹深淵2》定價公布!7月17日58元登錄Steam平臺!
- 2 《絕區(qū)零》聯(lián)動芬達(dá)PV公布,還有限定周邊!
- 3 像素火影網(wǎng)頁版一周年入口 像素火影一周年網(wǎng)頁版鏈接
- 4 送完P(guān)S5PRO又送NS2!《劍星》開發(fā)商為慶祝游戲大賣贈送每位員工一臺NS2!
- 5 開啟卡牌新紀(jì)元,《影之詩》新資料片“超凡世界”正式上線!
- 6 魔獸世界冰dk天賦加點(diǎn)推薦
- 7 NS2發(fā)布會匯總:港版售價3450港幣,馬車新作首發(fā)護(hù)航,支持4K120FPS輸出!
- 8 可能漲價?CDPR稱《GTA6》漲價對他們來說是有利的。
-
國寶的奇妙冒險(xiǎn)
國寶的奇妙冒險(xiǎn)是由玩家社會熊喵自制的一款冒險(xiǎn)闖關(guān)類手機(jī)游戲,國寶的奇妙冒險(xiǎn)采用可愛的卡通畫風(fēng)設(shè)計(jì)了四大關(guān)卡模式,玩家需要控制可愛的小熊貓進(jìn)行冒險(xiǎn)闖關(guān),跳躍大坑,躲避泥螺射手的攻擊,并在冒險(xiǎn)路上收集各種道具和金幣。 -
小小收納師
小小收納師是一款很輕松的休閑類模擬游戲。小小收納師游戲玩法十分簡單,玩家只需要通過滑動屏幕的方式,將散落的東西整理起來,讓它們按照一定規(guī)律,整齊地陳列起來即可過關(guān)。小小收納師適合不同年齡段的玩家,整個過程也很容易操作。 -
番茄先生
番茄先生是一款生存恐怖游戲。番茄先生游戲以第一人稱視角進(jìn)行,讓玩家更深刻地感受到游戲的恐怖。略帶恐怖畫風(fēng)的魔性休閑手游,番茄先生游戲整體上采用2d手繪畫風(fēng),以一個喜歡吃東西的番茄先生為主要角色,而玩家的任務(wù)就是喂飽他。 -
妹說就是零卡
妹說就是零卡是一款惡搞趣味的休閑健身游戲,由B站UP主火山哥哥自制。在游戲妹說就是零卡,玩家需要幫助光頭男人健身,監(jiān)督他減肥,達(dá)到減脂瘦身的目的。妹說就是零卡,操控你所喜歡的角色展開歷練挑戰(zhàn),達(dá)成更好的游戲成就。 -
躺平發(fā)育模擬器
躺平發(fā)育模擬器是以猛鬼宿舍玩法為基礎(chǔ)打造的塔防游戲,在游戲躺平發(fā)育模擬器這里玩家依舊是通過躺平來獲得金幣了,來抵擋獵夢者的攻擊,整個畫面充滿了陰森氣息。因?yàn)橛螒蛑杏?個模式,每一個模式內(nèi)容的設(shè)計(jì)也是相當(dāng)?shù)拇碳ぁ?/span> -
自由城計(jì)劃
自由城計(jì)劃是一款自由度極高的模擬冒險(xiǎn)游戲。在游戲自由城計(jì)劃,玩家可以體驗(yàn)到最新的所有玩法內(nèi)容。自由城計(jì)劃手機(jī)版(Los Angeles Crimes)高清細(xì)膩的畫面設(shè)計(jì),各種驚心動魄的刺激玩法,在自由城計(jì)劃手機(jī)版雖然自由度極高。 -
火力全開2城市狂熱
火力全開2城市狂熱是一款動作、模擬、競速等多種要素的開放世界角色扮演游戲,英文名:MadOut2 Big City Online?;鹆θ_2城市狂熱采用了出色的引擎技術(shù)打造,有著讓人震撼的畫面水平,細(xì)節(jié)上的刻畫更是無比的精致。 -
西瓜礦工
西瓜礦工是由b站up主火山哥哥自制的同人手游,西瓜礦工完美還原了電視劇中華強(qiáng)買瓜、劈瓜的經(jīng)典橋段,玩法依舊延續(xù)了挖金礦,豐富的關(guān)卡設(shè)計(jì),玩家需要在有限的時間內(nèi)收集更多的西瓜以此保住瓜店老板的狗命。 -
死亡扳機(jī)2
死亡扳機(jī)2是由MADFINGER Games開發(fā)的一款動作冒險(xiǎn)射擊游戲,死亡扳機(jī)2(DeadTrigger2)游戲是《死亡扳機(jī)》的續(xù)作,死亡扳機(jī)2(DeadTrigger2)保留了前作獨(dú)特的游戲風(fēng)格和主題,新增加了死亡競技場模式、新的地圖和新的僵尸。 -
恐怖躲貓貓2
恐怖躲貓貓2是一款擁有雙重模式的非對稱競技手游,恐怖躲貓貓2是這個系列的第二部,故事延續(xù)了前作的經(jīng)典躲與藏的玩法??植蓝阖堌?采用了多種游戲元素,并且在游戲中,玩家將體驗(yàn)到最有趣的競爭玩法和超有趣的故事。