openai視頻生成模型sora爆火 OpenAI王炸模型官方技術(shù)報(bào)告解讀
openai視頻生成模型sora最近徹底爆火了,對(duì)于這次的爆火事件很多人還不是很了解,想要知道OpenAI王炸模型究竟是什么樣的,那么大家可以看看下面游戲鳥小編帶來(lái)的官方技術(shù)報(bào)告解讀,會(huì)給大家具體的介紹這次科技大爆炸的詳情。
OpenAI王炸模型官方技術(shù)報(bào)告解讀
OpenAI 2月16日凌晨發(fā)布了文生視頻大模型Sora,在科技圈引起一連串的震驚和感嘆,在2023年,我們見證了文生文、文生圖的進(jìn)展速度,視頻可以說(shuō)是人類被AI攻占最慢的一塊“處女地”。而在2024年開年,OpenAI就發(fā)布了王炸文生視頻大模型Sora,它能夠僅僅根據(jù)提示詞,生成60s的連貫視頻,“碾壓”了行業(yè)目前大概只有平均“4s”的視頻生成長(zhǎng)度。
為了方便理解,我們簡(jiǎn)單總結(jié)了這個(gè)模型的強(qiáng)大之處:
1、文本到視頻生成能力:Sora能夠根據(jù)用戶提供的文本描述生成長(zhǎng)達(dá)60S的視頻,這些視頻不僅保持了視覺品質(zhì),而且完整準(zhǔn)確還原了用戶的提示語(yǔ)。
2、復(fù)雜場(chǎng)景和角色生成能力:Sora能夠生成包含多個(gè)角色、特定運(yùn)動(dòng)類型以及主題精確、背景細(xì)節(jié)復(fù)雜的場(chǎng)景。它能夠創(chuàng)造出生動(dòng)的角色表情和復(fù)雜的運(yùn)鏡,使得生成的視頻具有高度的逼真性和敘事效果。
3、語(yǔ)言理解能力:Sora擁有深入的語(yǔ)言理解能力,能夠準(zhǔn)確解釋提示并生成能表達(dá)豐富情感的角色。這使得模型能夠更好地理解用戶的文本指令,并在生成的視頻內(nèi)容中忠實(shí)地反映這些指令。
4、多鏡頭生成能力:Sora可以在單個(gè)生成的視頻中創(chuàng)建多個(gè)鏡頭,同時(shí)保持角色和視覺風(fēng)格的一致性。這種能力對(duì)于制作電影預(yù)告片、動(dòng)畫或其他需要多視角展示的內(nèi)容非常有用。
5、從靜態(tài)圖像生成視頻能力:Sora不僅能夠從文本生成視頻,還能夠從現(xiàn)有的靜態(tài)圖像開始,準(zhǔn)確地動(dòng)畫化圖像內(nèi)容,或者擴(kuò)展現(xiàn)有視頻,填補(bǔ)視頻中的缺失幀。
6、物理世界模擬能力:Sora展示了人工智能在理解真實(shí)世界場(chǎng)景并與之互動(dòng)的能力,這是朝著實(shí)現(xiàn)通用人工智能(AGI)的重要一步。它能夠模擬真實(shí)物理世界的運(yùn)動(dòng),如物體的移動(dòng)和相互作用。
可以說(shuō),Sora的出現(xiàn),預(yù)示著一個(gè)全新的視覺敘事時(shí)代的到來(lái),它能夠?qū)⑷藗兊南胂罅D(zhuǎn)化為生動(dòng)的動(dòng)態(tài)畫面,將文字的魔力轉(zhuǎn)化為視覺的盛宴。在這個(gè)由數(shù)據(jù)和算法編織的未來(lái),Sora正以其獨(dú)特的方式,重新定義著我們與數(shù)字世界的互動(dòng)。
01
以下為OpenAI文生視頻模型Sora官方技術(shù)報(bào)告
我們探索了利用視頻數(shù)據(jù)對(duì)生成模型進(jìn)行大規(guī)模訓(xùn)練。具體來(lái)說(shuō),我們?cè)诓煌掷m(xù)時(shí)間、分辨率和縱橫比的視頻和圖像上聯(lián)合訓(xùn)練了以文本為輸入條件的擴(kuò)散模型。我們引入了一種transformer架構(gòu),該架構(gòu)對(duì)視頻的時(shí)空序列包和圖像潛在編碼進(jìn)行操作。我們最頂尖的模型Sora已經(jīng)能夠生成最長(zhǎng)一分鐘的高保真視頻,這標(biāo)志著我們?cè)谝曨l生成領(lǐng)域取得了重大突破。我們的研究結(jié)果表明,通過(guò)擴(kuò)大視頻生成模型的規(guī)模,我們有望構(gòu)建出能夠模擬物理世界的通用模擬器,這無(wú)疑是一條極具前景的發(fā)展道路。
這份技術(shù)報(bào)告主要聚焦于兩大方面:首先,我們?cè)敿?xì)介紹了一種將各類可視數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一表示的方法,從而實(shí)現(xiàn)了對(duì)生成式模型的大規(guī)模訓(xùn)練;其次,我們對(duì)Sora的能力及其局限性進(jìn)行了深入的定性評(píng)估。需要注意的是,本報(bào)告并未涉及模型的具體技術(shù)細(xì)節(jié)。
在過(guò)去的研究中,許多團(tuán)隊(duì)已經(jīng)嘗試使用遞歸網(wǎng)絡(luò)、生成對(duì)抗網(wǎng)絡(luò)、自回歸Transformer和擴(kuò)散模型等各種方法,對(duì)視頻數(shù)據(jù)的生成式建模進(jìn)行了深入研究。然而,這些工作通常僅限于較窄類別的視覺數(shù)據(jù)、較短的視頻或固定大小的視頻上。相比之下,Sora作為一款通用的視覺數(shù)據(jù)模型,其卓越之處在于能夠生成跨越不同持續(xù)時(shí)間、縱橫比和分辨率的視頻和圖像,甚至包括生成長(zhǎng)達(dá)一分鐘的高清視頻。
將可視數(shù)據(jù)轉(zhuǎn)換成數(shù)據(jù)包(patchs)
在可視數(shù)據(jù)的處理上,我們借鑒了大語(yǔ)言模型的成功經(jīng)驗(yàn)。這些模型通過(guò)對(duì)互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)進(jìn)行訓(xùn)練,獲得了強(qiáng)大的通用能力。同樣,我們考慮如何將這種優(yōu)勢(shì)引入到可視數(shù)據(jù)的生成式模型中。大語(yǔ)言模型通過(guò)token將各種形式的文本代碼、數(shù)學(xué)和自然語(yǔ)言統(tǒng)一起來(lái),而Sora則通過(guò)視覺包(patchs)實(shí)現(xiàn)了類似的效果。我們發(fā)現(xiàn),對(duì)于不同類型的視頻和圖像,包是一種高度可擴(kuò)展且有效的表示方式,對(duì)于訓(xùn)練生成模型具有重要意義。
圖注:OpenAI專門設(shè)計(jì)的解碼器模型,它可以將生成的潛在表示重新映射回像素空間
在更高層次上,我們首先將視頻壓縮到一個(gè)低維度的潛在空間:這是通過(guò)對(duì)視頻進(jìn)行時(shí)間和空間上的壓縮實(shí)現(xiàn)的。這個(gè)潛在空間可以看作是一個(gè)“時(shí)空包”的集合,從而將原始視頻轉(zhuǎn)化為這些包。
視頻壓縮網(wǎng)絡(luò)
我們專門訓(xùn)練了一個(gè)網(wǎng)絡(luò),專門負(fù)責(zé)降低視覺數(shù)據(jù)的維度。這個(gè)網(wǎng)絡(luò)接收原始視頻作為輸入,并輸出經(jīng)過(guò)壓縮的潛在表示。Sora模型就是在這個(gè)壓縮后的潛在空間中接受訓(xùn)練,并最終生成視頻。此外,我們還設(shè)計(jì)了一個(gè)解碼器模型,它可以將生成的潛在表示重新映射回像素空間,從而生成可視的視頻或圖像。
時(shí)空包
當(dāng)給定一個(gè)壓縮后的輸入視頻時(shí),我們會(huì)從中提取出一系列的時(shí)空包,這些包被用作轉(zhuǎn)換token。這一方案不僅適用于視頻,因?yàn)橐曨l本質(zhì)上就是由連續(xù)幀構(gòu)成的,所以圖像也可以看作是單幀的視頻。通過(guò)這種基于包的表示方式,Sora能夠跨越不同分辨率、持續(xù)時(shí)間和縱橫比的視頻和圖像進(jìn)行訓(xùn)練。在推理階段,我們只需在適當(dāng)大小的網(wǎng)格中安排隨機(jī)初始化的包,就可以控制生成視頻的大小和分辨率。
用于視頻生成的縮放Transformers
Sora是一個(gè)擴(kuò)散模型,它接受輸入的噪聲包(以及如文本提示等條件性輸入信息),然后被訓(xùn)練去預(yù)測(cè)原始的“干凈”包。重要的是,Sora是一個(gè)基于擴(kuò)散的轉(zhuǎn)換器模型,這種模型已經(jīng)在多個(gè)領(lǐng)域展現(xiàn)了顯著的擴(kuò)展性,包括語(yǔ)言建模、計(jì)算機(jī)視覺以及圖像生成等領(lǐng)域。
圖注:隨著訓(xùn)練量的增加,擴(kuò)散轉(zhuǎn)換器生成的樣本質(zhì)量有了明顯提高
在這項(xiàng)工作中,我們發(fā)現(xiàn)擴(kuò)散轉(zhuǎn)換器在視頻生成領(lǐng)域同樣具有巨大的潛力。我們展示了不同訓(xùn)練階段下,使用相同種子和輸入的視頻樣本對(duì)比,結(jié)果證明了隨著訓(xùn)練量的增加,樣本質(zhì)量有著明顯的提高。
豐富的持續(xù)時(shí)間、分辨率與縱橫比
過(guò)去,圖像和視頻生成方法常常需要將視頻調(diào)整大小、裁剪或修剪至標(biāo)準(zhǔn)尺寸,如4秒、256x256分辨率的視頻。但Sora打破了這一常規(guī),它直接在原始大小的數(shù)據(jù)上進(jìn)行訓(xùn)練,從而帶來(lái)了諸多優(yōu)勢(shì)。
采樣更靈活
Sora具備出色的采樣能力,無(wú)論是寬屏1920x1080p視頻、垂直1080x1920視頻,還是介于兩者之間的任何視頻尺寸,它都能輕松應(yīng)對(duì)。這意味著Sora可以為各種設(shè)備生成與其原始縱橫比完美匹配的內(nèi)容。更令人驚嘆的是,即使在生成全分辨率內(nèi)容之前,Sora也能以較小的尺寸迅速創(chuàng)建內(nèi)容原型。而所有這一切,都得益于使用相同的模型。
以上就是openai視頻生成模型sora爆火 OpenAI王炸模型官方技術(shù)報(bào)告解讀全部?jī)?nèi)容,希望對(duì)你有幫助。想查找更多游戲資訊,歡迎持續(xù)關(guān)注游戲鳥查看。
-
- 《絕區(qū)零》聯(lián)動(dòng)芬達(dá)PV公布,還有限定周邊!
- 卡繆2025-07-02 17:55:35
-
- 像素火影網(wǎng)頁(yè)版一周年入口 像素火影一周年網(wǎng)頁(yè)版鏈接
- 技能魔法師2025-07-01 10:35:12
-
- 送完P(guān)S5PRO又送NS2!《劍星》開發(fā)商為慶祝游戲大賣贈(zèng)送每位員工一臺(tái)NS2!
- 卡繆2025-06-18 15:22:28
-
- 開啟卡牌新紀(jì)元,《影之詩(shī)》新資料片“超凡世界”正式上線!
- QQlove2025-06-18 15:10:19
-
- 魔獸世界冰dk天賦加點(diǎn)推薦
- 阿姆羅2025-04-07 17:11:51
-
- NS2發(fā)布會(huì)匯總:港版售價(jià)3450港幣,馬車新作首發(fā)護(hù)航,支持4K120FPS輸出!
- 卡繆2025-04-03 10:14:35
-
- 可能漲價(jià)?CDPR稱《GTA6》漲價(jià)對(duì)他們來(lái)說(shuō)是有利的。
- 卡繆2025-03-28 17:31:44
-
- 期待不?巴西博主曝Faker的S14冠軍皮膚選擇為永恩!
- 卡繆2025-03-21 17:04:15
-
- 逆水寒手游元宵節(jié)時(shí)裝怎么獲得 2024元宵節(jié)時(shí)裝獲取方法
- 亡靈指揮官2024-03-25 15:31:16
-
- 逆水寒手游鏡天閣閑游特質(zhì)怎么獲得 鏡天閣閑游特質(zhì)獲取攻略
- 破碎之王2024-04-13 20:58:42
- 1 《絕區(qū)零》聯(lián)動(dòng)芬達(dá)PV公布,還有限定周邊!
- 2 像素火影網(wǎng)頁(yè)版一周年入口 像素火影一周年網(wǎng)頁(yè)版鏈接
- 3 送完P(guān)S5PRO又送NS2!《劍星》開發(fā)商為慶祝游戲大賣贈(zèng)送每位員工一臺(tái)NS2!
- 4 開啟卡牌新紀(jì)元,《影之詩(shī)》新資料片“超凡世界”正式上線!
- 5 魔獸世界冰dk天賦加點(diǎn)推薦
- 6 NS2發(fā)布會(huì)匯總:港版售價(jià)3450港幣,馬車新作首發(fā)護(hù)航,支持4K120FPS輸出!
- 7 可能漲價(jià)?CDPR稱《GTA6》漲價(jià)對(duì)他們來(lái)說(shuō)是有利的。
- 8 期待不?巴西博主曝Faker的S14冠軍皮膚選擇為永恩!
-
熱血傳奇手機(jī)版
《熱血傳奇》手機(jī)版定位是做一款適合手機(jī)平臺(tái)操作的綠色網(wǎng)游,承諾無(wú)英雄,無(wú)內(nèi)功,這也是《熱血傳奇》能講經(jīng)典延續(xù)多年的原因。此次手機(jī)版?zhèn)髌娴耐瞥觯瑢⒃俅斡厦褚?,推出無(wú)英雄無(wú)內(nèi)功版本的經(jīng)典設(shè)定,獻(xiàn)禮玩家!無(wú)英雄,無(wú)內(nèi)功,這樣的模式之下拼的是玩家真正的戰(zhàn)斗素質(zhì),純粹戰(zhàn)斗,樸素戰(zhàn)場(chǎng),相信你一定可以在《熱血傳奇手機(jī)版》找到你想要的感覺! -
火影疾風(fēng)傳
《火影疾風(fēng)傳》絕對(duì)忠于原著的漫畫劇情,完全還原動(dòng)漫經(jīng)典場(chǎng)景,上百種技能等你來(lái)選.超華麗技能特效,每個(gè)忍者擁有獨(dú)一無(wú)二的專屬技能,完全遵從忍者本身特點(diǎn),還原每個(gè)忍者獨(dú)特的能力與特色。 -
超級(jí)地城之光
把《超級(jí)地城之光》裝進(jìn)口袋! 游戲采用全方位3D視角完美呈現(xiàn)端游精美品質(zhì),四大職業(yè)萌態(tài)十足,超酷華麗技能掌上爆炫,強(qiáng)大裝備體系千變?nèi)f化,激爽光速PVP操控隨心,更有獨(dú)特戰(zhàn)魂小伙伴降臨,如影隨形,相伴冒險(xiǎn)! 彈指間,帶您領(lǐng)略掌上ARPG極致隨心體驗(yàn)! -
全民攻城
掀起全民攻城風(fēng)暴!首款真三國(guó)攻城戰(zhàn)役SLG手游,還原三國(guó)史詩(shī)經(jīng)典戰(zhàn)役。寫實(shí)而壯闊的三國(guó)軍隊(duì)陣容,精細(xì)酷炫的視覺特效讓人欲罷不能。玩家將在游戲中招募武將軍師,使用戰(zhàn)斗策略,最終一統(tǒng)三國(guó)成就豐功偉績(jī),并與其它玩家一同抵抗異族入侵,保衛(wèi)家園! -
烈焰仙尊
《烈焰仙尊》是2014仙俠類手游的夢(mèng)幻大作,精致場(chǎng)景,盡享精美;酷炫技能,驚天動(dòng)地;萌寵炫騎,帥氣拉風(fēng);仙魔陣營(yíng)對(duì)決,同城女神互動(dòng),許你神仙眷侶般萬(wàn)種風(fēng)情,圓你一個(gè)縱橫三界的仙俠夢(mèng)!《烈焰仙尊》,愛恨情仇,火爆啟程。 -
夢(mèng)王子九游版
夢(mèng)王子九游版是由蕪湖享游網(wǎng)絡(luò)技術(shù)有限公司開發(fā),九游平臺(tái)代理運(yùn)營(yíng)的一款乙女向卡牌養(yǎng)成戀愛手游。游戲畫面唯美細(xì)膩,立繪采用日漫手繪風(fēng)格,配合百位知名聲優(yōu)傾情演繹,每位王子皆擁有“太陽(yáng)”與“月亮”兩種成長(zhǎng)路線與結(jié)局。玩家將在夢(mèng)世界中邂逅百位王子,體驗(yàn)專屬戀愛故事,收集海量戀愛CG,并通過(guò)經(jīng)典三消玩法進(jìn)行戰(zhàn)斗與互動(dòng)。上線即送九游專屬福利,適合熱愛戀愛劇情、卡牌養(yǎng)成與休閑玩法的玩家! -
星辰奇緣華為版
星辰奇緣華為版是一款高畫質(zhì)、高自由度的MMORPG回合制手游,融合策略戰(zhàn)斗與角色養(yǎng)成,提供五大職業(yè)選擇,打造沉浸式幻想世界冒險(xiǎn)體驗(yàn)。全新推出5人組隊(duì)奪寶奇兵模式,帶來(lái)更高挑戰(zhàn)與合作策略;多樣寵物進(jìn)化玩法、豐富家園系統(tǒng)與福利機(jī)制,為玩家構(gòu)建出充實(shí)有趣的游戲日常。支持華為賬號(hào)登錄與專屬禮包,是喜愛回合制手游玩家的不二之選! -
跳舞的貓
跳舞的貓,又稱Dancing Cats,是以可愛的畫風(fēng)作為主要風(fēng)格的音樂(lè)節(jié)奏手游。跳舞的貓不僅收錄了悅耳的音樂(lè)歌曲,還設(shè)計(jì)了簡(jiǎn)單休閑的操作方式,是充滿趣味的音樂(lè)小游戲。跳舞的貓不僅能讓下載玩家放松心情,還能鍛煉節(jié)奏感與反應(yīng)能力,適合玩家打發(fā)時(shí)間、挑戰(zhàn)自己的音樂(lè)技巧,與貓咪一起在節(jié)奏中舞動(dòng)。 -
石河倫吾的朋友們中文版
石河倫吾的朋友們中文版是一款獲得正版授權(quán)、支持中文界面的像素風(fēng)校園動(dòng)作格斗手游,游戲以街機(jī)風(fēng)格的復(fù)古畫面搭配豐富多樣的角色設(shè)定與戰(zhàn)斗系統(tǒng),為玩家?guī)?lái)極具懷舊感的戰(zhàn)斗冒險(xiǎn)體驗(yàn)。玩家可自由選擇不同角色挑戰(zhàn)豐富關(guān)卡,通過(guò)戰(zhàn)斗獲得經(jīng)驗(yàn)與金錢,解鎖技能、培養(yǎng)角色、探索城市劇情、結(jié)交朋友。游戲支持聯(lián)機(jī)對(duì)戰(zhàn)與多人互動(dòng),融合劇情選擇、戰(zhàn)略戰(zhàn)斗、迷你小游戲與自由探索等元素,是動(dòng)作游戲愛好者不可錯(cuò)過(guò)的像素精品之作! -
3Tiles安卓版
3Tiles安卓版將簡(jiǎn)約的操作與創(chuàng)新的玩法相結(jié)合,既能幫助玩家放松身心,又能鍛煉注意力與腦力。3Tiles游戲安卓版設(shè)置了豐富的關(guān)卡、精美的主題和特色道具,讓游玩內(nèi)容充滿樂(lè)趣和挑戰(zhàn),是適合下載玩家進(jìn)行挑戰(zhàn)的益智休閑手游,感受清新畫風(fēng)與趣味消除的獨(dú)特魅力。
-
像素火影網(wǎng)頁(yè)版一周年入口 像素火影一周年網(wǎng)頁(yè)版鏈接
- 送完P(guān)S5PRO又送NS2!《劍星》開發(fā)商為慶祝游戲大賣贈(zèng)送每位員工一臺(tái)NS2!
- 開啟卡牌新紀(jì)元,《影之詩(shī)》新資料片“超凡世界”正式上線!
- 魔獸世界冰dk天賦加點(diǎn)推薦
- NS2發(fā)布會(huì)匯總:港版售價(jià)3450港幣,馬車新作首發(fā)護(hù)航,支持4K120FPS輸出!
- 可能漲價(jià)?CDPR稱《GTA6》漲價(jià)對(duì)他們來(lái)說(shuō)是有利的。
- 期待不?巴西博主曝Faker的S14冠軍皮膚選擇為永恩!
- 罵歸罵買歸買?育碧官宣《刺客信條:影》首日玩家數(shù)突破100萬(wàn)人!