亚洲美腿丝袜 欧美另类,亚洲精品久久久久久久蜜桃,综合久久,又黄又爽又色视频,一性一交一口添一摸视频

游戲鳥手游網(wǎng),重度移動游戲垂直門戶!

最新游戲 | 最新軟件 | 游戲更新 | 軟件更新 | 推薦游戲 | 推薦軟件 | 合集排行
您當(dāng)前位置:游戲鳥手游網(wǎng) > 游戲產(chǎn)業(yè) > sora軟件是什么 Sora的技術(shù)路徑一圖覽

sora軟件是什么 Sora的技術(shù)路徑一圖覽

作者:傳奇召喚 發(fā)布時間:

復(fù)刻Sora是很難的,對于這個Sora的技術(shù)路徑很多人都不太了解,想要了解sora是什么,那么大家可以多看看游戲鳥小編分享在下面的內(nèi)容,方便大家能更好的了解sora的技術(shù)路徑,對此感興趣的小伙伴趕緊來看看吧!

Sora的技術(shù)路徑一圖覽

昨天,OpenAI發(fā)布了視頻生成模型Sora,最大的Sora模型能夠生成一分鐘的高保真視頻。同時OpenAI稱,可擴(kuò)展的視頻生成模型,是構(gòu)建物理世界通用模擬器的一條可能的路徑。

Sora能夠生成橫屏1920*1080視頻,豎屏1080*1920視頻,以及之間的所有內(nèi)容。這使得Sora可以兼容不同的視頻播放設(shè)備,根據(jù)特定的縱橫比來生成視頻內(nèi)容,這也會大大影響視頻創(chuàng)作領(lǐng)域,包括電影制作,電視內(nèi)容,自媒體等。

技術(shù)報(bào)告:https://openai.com/research/video-generation-models-as-world-simulators

技術(shù)解讀

魔搭社區(qū)的開發(fā)者也針對Sora的技術(shù)報(bào)告展開了熱烈的討論,并根據(jù)技術(shù)報(bào)告的內(nèi)容,推測了Sora的技術(shù)架構(gòu)圖如下:

Sora的技術(shù)架構(gòu)圖(from魔搭社區(qū)開發(fā)者)

Sora模型的核心技術(shù)點(diǎn)(圖中紅色標(biāo)注):

視頻壓縮網(wǎng)絡(luò)

OpenAI訓(xùn)練了一個降低視覺數(shù)據(jù)維度的網(wǎng)絡(luò)。這個網(wǎng)絡(luò)接受原始視頻作為輸入,并輸出在時間和空間上都被壓縮的潛在表示。Sora在這個壓縮的潛在空間上進(jìn)行訓(xùn)練,并隨后生成視頻。同時還訓(xùn)練了一個相應(yīng)的解碼器模型,將生成的潛在表示映射回像素空間(源自Sora技術(shù)報(bào)告)。這部分內(nèi)容為圖中的紅色部分,核心工作為將視覺數(shù)據(jù)轉(zhuǎn)化為patches,patches是從大語言模型中獲得的靈感,大語言模型范式的成功部分得益于使用優(yōu)雅統(tǒng)一各種文本模態(tài)(代碼、數(shù)學(xué)和各種自然語言)的token。大語言模型擁有文本token,而Sora擁有視覺分塊(patches)。OpenAI在之前的Clip等工作中,充分實(shí)踐了分塊是視覺數(shù)據(jù)模型的一種有效表示(參考論文:An image is worth 16x16 words: Transformers for image recognition at scale.)這一技術(shù)路線。而視頻壓縮網(wǎng)絡(luò)的工作就是將高維度的視頻數(shù)據(jù)轉(zhuǎn)換為patches,首先將視頻壓縮到一個低緯的latent space,然后分解為spacetime patches。

這個方法同樣適用于圖像(將圖像作為單一幀視頻處理),基于Patches的表示使得Sora能夠訓(xùn)練具有不同分辨率,持續(xù)時間和縱橫比的視頻和圖像,而在推理過程中,只需要在適當(dāng)大小的grid中隨機(jī)初始化patches即可控制視頻生成的大小。

技術(shù)難點(diǎn):視頻壓縮網(wǎng)絡(luò)類比于latent diffusion model中的VAE,但是壓縮率是多少,如何保證視頻特征被更好地保留,還需要進(jìn)一步的研究。

2. 用于視頻生成的Scaling Transformers

Sora是一個diffusion模型;給定輸入的噪聲塊+文本prompt,它被訓(xùn)練來預(yù)測原始的“干凈”分塊。重要的是,Sora是一個Scaling Transformers。Transformers在大語言模型上展示了顯著的擴(kuò)展性,我們相信OpenAI將很多在大語言模型的技術(shù)積累用在了Sora上。

在Sora的工作中,OpenAI發(fā)現(xiàn)Diffusion Transformers作為視頻生成模型具備很好的擴(kuò)展性。

技術(shù)難點(diǎn):能夠scaling up的transformer如何訓(xùn)練出來,對第一步的patches進(jìn)行有效訓(xùn)練,可能包括的難點(diǎn)有l(wèi)ong context(長達(dá)1分鐘的視頻)的支持、期間error accumulation如何保證比較低,視頻中實(shí)體的高質(zhì)量和一致性,video condition,image condition,text condition的多模態(tài)支持等。

3. 語言理解

OpenAI發(fā)現(xiàn)訓(xùn)練文本到視頻生成系統(tǒng)需要大量帶有相應(yīng)文本標(biāo)題的視頻。這里,OpenAI將DALL·E 3中介紹的標(biāo)題生成技術(shù)用到了視頻領(lǐng)域,訓(xùn)練了一個具備高度描述性的視頻標(biāo)題生成(video captioning)模型,使用這個模型為所有的視頻訓(xùn)練數(shù)據(jù)生成了高質(zhì)量文本標(biāo)題,再將視頻和高質(zhì)量標(biāo)題作為視頻文本對進(jìn)行訓(xùn)練。通過這樣的高質(zhì)量的訓(xùn)練數(shù)據(jù),保障了文本(prompt)和視頻數(shù)據(jù)之間高度的align。而在生成階段,Sora會基于OpenAI的GPT模型對于用戶的prompt進(jìn)行改寫,生成高質(zhì)量且具備很好描述性的高質(zhì)量prompt,再送到視頻生成模型完成生成工作。

技術(shù)難點(diǎn):如何訓(xùn)練一個高質(zhì)量的視頻caption模型,需要海量的高質(zhì)量視頻數(shù)據(jù),包括數(shù)據(jù)的獲取和標(biāo)注,為了保障通用性,需要支持各種多樣化的視頻源,電影、紀(jì)錄片、游戲、3D引擎渲染等等;標(biāo)注工作包括對長視頻的精準(zhǔn)切片,以及切片后的captioning。中文高質(zhì)量視頻數(shù)據(jù)一直是稀缺資源,隨著國內(nèi)短視頻業(yè)務(wù)發(fā)展,也許可以加快中文高質(zhì)量短視頻的收集和獲取。

4、世界模型,涌現(xiàn)的模擬能力

當(dāng)大規(guī)模訓(xùn)練時,sora同樣也出現(xiàn)了有趣的“涌現(xiàn)的模擬能力”,這些能力使Sora能夠模擬物理世界中的人、動物和環(huán)境的某些方面。這些屬性沒有任何明確的三維、物體等歸納特征信息——可以理解為由于模型參數(shù)足夠大而產(chǎn)生的涌現(xiàn)現(xiàn)象。

這些能力包括:

三維一致性 Sora可以生成具有動態(tài)攝像機(jī)移動的視頻。隨著攝像機(jī)的移動和旋轉(zhuǎn),人物和場景元素在三維空間中一致地移動。

長距離連貫性和物體持久性 對于視頻生成系統(tǒng)來說,一個重大挑戰(zhàn)一直是在采樣長視頻時保持時間上的連續(xù)性。研究發(fā)現(xiàn),Sora通常能夠有效地模擬短距離和長距離依賴關(guān)系(不穩(wěn)定)。例如,Sora可以在人物、動物和物體被遮擋或離開畫面時仍然保持它們的存在。同樣,它可以在單個樣本中生成同一角色的多個鏡頭,貫穿視頻始終保持他們的外觀。

與世界互動 Sora可以模擬以簡單方式影響世界狀態(tài)的行為。例如,畫家可以在畫布上留下新的筆觸,這些筆觸隨著時間的推移而持續(xù)存在,或者一個人可以吃漢堡并留下咬痕。

模擬數(shù)字世界 Sora還能夠模擬人工過程,一個例子是視頻游戲。Sora可以通過基本策略控制《Minecraft》中的玩家,同時以高保真度渲染世界及其動態(tài)。這些能力可以通過prompt包含“Minecraft”,零樣本激活這樣的能力。

而這些能力都表明,順著這個方向發(fā)展(持續(xù)擴(kuò)大規(guī)模),Sora真的可能成為世界模型(能夠高度模擬物理和數(shù)字世界的模擬器)。也許頭部玩家,黑客帝國這些科幻片,就在不太遙遠(yuǎn)的未來。

技術(shù)難點(diǎn):“大”模型,“高”算力,“海量”數(shù)據(jù)

總 結(jié)

從Sora模型的技術(shù)報(bào)告中,我們可以看到Sora模型的實(shí)現(xiàn),是建立在OpenAI一系列堅(jiān)實(shí)的歷史技術(shù)工作的沉淀基礎(chǔ)上的:包括不限于視覺理解(Clip),Transformers模型和大模型的涌現(xiàn)(ChatGPT),Video Caption(DALL·E 3)等。正如社區(qū)的一位開發(fā)者說,雖然其中依然有非常多的技術(shù)細(xì)節(jié)OpenAI并沒有披露,但是OpenAI畫了一條“模糊”的路,有了這條模糊的路,大家就可以去嘗試,從而畫出通往視頻生成的正確的清晰的路。

以上就是sora軟件是什么 Sora的技術(shù)路徑一圖覽全部內(nèi)容,希望對你有幫助。想查找更多游戲資訊,歡迎持續(xù)關(guān)注游戲鳥查看。
復(fù)制本文鏈接攻略文章為游戲鳥手游網(wǎng)所有,未經(jīng)允許不得轉(zhuǎn)載。
玩家要聞更多
相關(guān)資訊更多
熱門資訊更多
  1. 1 國產(chǎn)肉鴿《霓虹深淵2》定價公布!7月17日58元登錄Steam平臺!
  2. 2 《絕區(qū)零》聯(lián)動芬達(dá)PV公布,還有限定周邊!
  3. 3 像素火影網(wǎng)頁版一周年入口 像素火影一周年網(wǎng)頁版鏈接
  4. 4 送完P(guān)S5PRO又送NS2!《劍星》開發(fā)商為慶祝游戲大賣贈送每位員工一臺NS2!
  5. 5 開啟卡牌新紀(jì)元,《影之詩》新資料片“超凡世界”正式上線!
  6. 6 魔獸世界冰dk天賦加點(diǎn)推薦
  7. 7 NS2發(fā)布會匯總:港版售價3450港幣,馬車新作首發(fā)護(hù)航,支持4K120FPS輸出!
  8. 8 可能漲價?CDPR稱《GTA6》漲價對他們來說是有利的。
玩玩用用更多
精選資訊更多
熱門專題全部>
熱門標(biāo)簽全部>