OpenAI sora是什么意思 Sora是怎么訓(xùn)練出來的
OpenAIsora怎么用?很多人還不知道這到底是什么,這次我們就主要來討論一下這個(gè)問題,想要了解OpenAI sora的小伙伴,可以趕緊看看下面游戲鳥小編帶來的介紹,方便大家更好的了解Sora是如何訓(xùn)練的,詳細(xì)的請趕緊來小編這里了解一下。
OpenAI sora是什么意思
OpenAI網(wǎng)站上的技術(shù)報(bào)告,主要提供了訓(xùn)練Sora的方法,以及對其能力和局限性的定性評估。技術(shù)報(bào)告的13位作者中,有4位華人。報(bào)告也明確地說,不提供模型和實(shí)現(xiàn)細(xì)節(jié)。尤其是公眾和監(jiān)管者最關(guān)注的數(shù)據(jù)來源。但是,這篇報(bào)告所列舉的32篇參考論文,已經(jīng)提供了所有的方法和技術(shù)。OpenAI用一句話概括:“我們利用了一種在視頻和圖像潛碼的時(shí)空塊上操作的transformer架構(gòu)”。具體點(diǎn)說就是:這幫大牛訓(xùn)練了一個(gè)網(wǎng)絡(luò),用于降低視覺數(shù)據(jù)的維度。許多專家認(rèn)為其視頻來源是Youtube。這個(gè)網(wǎng)絡(luò)以原始視頻為輸入,輸出一個(gè)在時(shí)間和空間上都被壓縮的潛在表示。Sora在這個(gè)壓縮的潛在空間內(nèi)接受訓(xùn)練,隨后也在此空間內(nèi)生成視頻。他們還訓(xùn)練了一個(gè)相應(yīng)的解碼器模型,將生成的潛碼映射回像素空間。應(yīng)該掌握四個(gè)關(guān)鍵詞:潛碼(latent code),時(shí)空塊(spacetime patches),擴(kuò)展 (scaling),通用模擬器 (general purpose simulators)。許多之前的研究已經(jīng)通過各種方法研究了視頻數(shù)據(jù)的生成模型,包括循環(huán)網(wǎng)絡(luò)、生成對抗網(wǎng)絡(luò)、自回歸變換器和擴(kuò)散模型。這些工作通常專注于視覺數(shù)據(jù)的一個(gè)狹窄類別、較短的視頻,或者固定大小的視頻。Sora是一個(gè)視覺數(shù)據(jù)的通用模型——它可以生成跨越不同持續(xù)時(shí)間、寬高比和分辨率的視頻和圖像,最長可達(dá)一分鐘的高清視頻。Sora是一個(gè)擴(kuò)散模型;給定輸入的噪聲塊(和條件信息,如文本提示),它被訓(xùn)練用于預(yù)測初始的“干凈”塊。重要的是,Sora是一個(gè)擴(kuò)散Transformer,在多個(gè)領(lǐng)域展示了顯著的擴(kuò)展性能,包括語言建模、計(jì)算機(jī)視覺和圖像生成。Sora能夠適應(yīng)寬屏1920x1080p視頻、豎屏1080x1920視頻以及它們之間的所有格式。這使得Sora能夠直接以不同設(shè)備的原生寬高比創(chuàng)建內(nèi)容。它還允許我們在使用相同模型以全分辨率生成之前,快速原型化較小尺寸的內(nèi)容。簡單地說,OpenAI集大成了先前的技術(shù),而其中的每一項(xiàng)技術(shù),都有過論文介紹,OpenAI在前人及同行研究的基礎(chǔ)之上,構(gòu)建出Sora,一個(gè)非常重要的原因,是他們堅(jiān)信數(shù)據(jù)-Transformer-擴(kuò)展-涌現(xiàn)這一法則。下面是所有的參考論文及其為Sora所用之處:
Srivastava, Nitish, Elman Mansimov, 和 Ruslan Salakhudinov. "使用LSTMs進(jìn)行視頻表示的無監(jiān)督學(xué)習(xí)." 國際機(jī)器學(xué)習(xí)會(huì)議. PMLR, 2015.
Chiappa, Silvia, 等. "循環(huán)環(huán)境模擬器." arXiv預(yù)印本 arXiv:1704.02254 (2017).
Ha, David, 和 Jürgen Schmidhuber. "世界模型." arXiv預(yù)印本 arXiv:1803.10122 (2018).
(注:1-3,許多之前的研究已經(jīng)通過各種方法研究了視頻數(shù)據(jù)的生成模型,包括循環(huán)網(wǎng)絡(luò) )
Vondrick, Carl, Hamed Pirsiavash, 和 Antonio Torralba. "生成具有場景動(dòng)態(tài)的視頻." 神經(jīng)信息處理系統(tǒng)進(jìn)展 29 (2016).
Tulyakov, Sergey, 等. "MoCoGAN: 分解運(yùn)動(dòng)和內(nèi)容以生成視頻." IEEE計(jì)算機(jī)視覺和模式識(shí)別會(huì)議論文集. 2018.
Clark, Aidan, Jeff Donahue, 和 Karen Simonyan. "在復(fù)雜數(shù)據(jù)集上生成對抗視頻." arXiv預(yù)印本 arXiv:1907.06571 (2019).
Brooks, Tim, 等. "生成動(dòng)態(tài)場景的長視頻." 神經(jīng)信息處理系統(tǒng)會(huì)議進(jìn)展 35 (2022): 31769-31781.
(注:4-7,生成對抗網(wǎng)絡(luò)的方法與技術(shù))
Yan, Wilson, 等. "VideoGPT: 使用VQ-VAE和transformers生成視頻." arXiv預(yù)印本 arXiv:2104.10157 (2021).
Wu, Chenfei, 等. "Nüwa: 為創(chuàng)造神經(jīng)視覺世界進(jìn)行視覺合成預(yù)訓(xùn)練." 歐洲計(jì)算機(jī)視覺會(huì)議. 瑞士: 施普林格自然, 2022.
(注:8-9,自回歸Transformer )
Ho, Jonathan, 等. "Imagen視頻: 使用擴(kuò)散模型生成高清視頻." arXiv預(yù)印本 arXiv:2210.02303 (2022).
Blattmann, Andreas, 等. "對齊你的潛碼: 使用潛在擴(kuò)散模型合成高分辨率視頻." IEEE/CVF計(jì)算機(jī)視覺和模式識(shí)別會(huì)議論文集. 2023.
Gupta, Agrim, 等. "使用擴(kuò)散模型生成逼真視頻." arXiv預(yù)印本 arXiv:2312.06662 (2023).
(注:10-12,擴(kuò)散模型,如何逼真)
Vaswani, Ashish, 等. "注意力就是你所需要的一切." 神經(jīng)信息處理系統(tǒng)進(jìn)展 30 (2017).
Brown, Tom, 等. "語言模型是小樣本學(xué)習(xí)者." 神經(jīng)信息處理系統(tǒng)會(huì)議進(jìn)展 33 (2020): 1877-1901.
(注:13-14 ,作者從大型語言模型中受到的啟發(fā)是,通過對互聯(lián)網(wǎng)級數(shù)據(jù)進(jìn)行訓(xùn)練,可以獲得通用能力。)
Dosovitskiy, Alexey, 等. "一幅圖像值16x16個(gè)詞: 大規(guī)模圖像識(shí)別的transformers." arXiv預(yù)印本 arXiv:2010.11929 (2020).
Arnab, Anurag, 等. "Vivit: 視頻視覺transformer." IEEE/CVF國際計(jì)算機(jī)視覺會(huì)議論文集. 2021.
He, Kaiming, 等. "掩碼自動(dòng)編碼器是可擴(kuò)展的視覺學(xué)習(xí)者." IEEE/CVF計(jì)算機(jī)視覺和模式識(shí)別會(huì)議論文集. 2022.
Dehghani, Mostafa, 等. "Patch n'Pack: NaViT, 適用于任何寬高比和分辨率的視覺transformer." arXiv預(yù)印本 arXiv:2307.06304 (2023).
(注:15-18,Transformer已經(jīng)被證明在在計(jì)算機(jī)視覺中顯示出非凡的擴(kuò)展特征,能訓(xùn)練出適用于任何寬高比和分辨率的視頻)
Rombach, Robin, 等. "使用潛在擴(kuò)散模型合成高分辨率圖像." IEEE/CVF計(jì)算機(jī)視覺和模式識(shí)別會(huì)議論文集. 2022.
(注:通過把視頻壓縮成為低維度的潛碼空間,把視頻轉(zhuǎn)換為時(shí)空塊 )
把視覺數(shù)據(jù)變成時(shí)空塊
Kingma, Diederik P., 和 Max Welling. "自編碼變分貝葉斯." arXiv預(yù)印本 arXiv:1312.6114 (2013).
(注:訓(xùn)練出一個(gè)能減少視覺維度數(shù)據(jù)的網(wǎng)絡(luò))
Sohl-Dickstein, Jascha, 等. "使用非平衡熱力學(xué)的深度無監(jiān)督學(xué)習(xí)." 國際機(jī)器學(xué)習(xí)會(huì)議. PMLR, 2015.
Ho, Jonathan, Ajay Jain, 和 Pieter Abbeel. "去噪擴(kuò)散概率模型." 神經(jīng)信息處理系統(tǒng)進(jìn)展 33 (2020): 6840-6851.
Nichol, Alexander Quinn, 和 Prafulla Dhariwal. "改進(jìn)的去噪擴(kuò)散概率模型." 國際機(jī)器學(xué)習(xí)會(huì)議. PMLR, 2021.
Dhariwal, Prafulla, 和 Alexander Quinn Nichol. "擴(kuò)散模型在圖像合成上勝過GANs." 神經(jīng)信息處理系統(tǒng)會(huì)議進(jìn)展. 2021.
Karras, Tero, 等. "闡明基于擴(kuò)散的生成模型的設(shè)計(jì)空間." 神經(jīng)信息處理系統(tǒng)進(jìn)展 35 (2022): 26565-26577.
(注:21-25, Sora是一個(gè)擴(kuò)散模型,給定輸入的噪聲塊(和條件信息,如文本提示),它被訓(xùn)練用于預(yù)測初始的“干凈”塊 )
Peebles, William, 和 Saining Xie. "用transformers擴(kuò)展擴(kuò)散模型." IEEE/CVF國際計(jì)算機(jī)視覺會(huì)議論文集. 2023.
(注:Sora是一個(gè)擴(kuò)散Transformer)
Transformer跨越不同的模態(tài),其擴(kuò)展功能依然有效
Chen, Mark, 等. "像素的生成預(yù)訓(xùn)練." 國際機(jī)器學(xué)習(xí)會(huì)議. PMLR, 2020.
Ramesh, Aditya, 等. "零樣本文本到圖像生成." 國際機(jī)器學(xué)習(xí)會(huì)議. PMLR, 2021.
(注:27-28,Transformer在圖像生成方面具有非凡的擴(kuò)展特征)
Yu, Jiahui, 等. "擴(kuò)展自回歸模型以生成內(nèi)容豐富的文生圖." arXiv預(yù)印本 arXiv:2206.10789 2.3 (2022): 5.
Betker, James, 等. "用更好的圖說改善圖像生成." 計(jì)算機(jī)科學(xué). https://cdn.openai.com/papers/dall-e-3.pdf 2.3 (2023): 8
(注:29-30,使用了Dall.E3的字幕和標(biāo)題技術(shù),用于視頻)
Ramesh, Aditya, 等. "使用CLIP潛碼的分層文本條件圖像生成." arXiv預(yù)印本 arXiv:2204.06125 1.2 (2022): 3.
(注:30-31,用Dall.E2和Dall.E3圖像生成視頻)
Meng, Chenlin, 等. "Sdedit: 使用隨機(jī)微分方程的引導(dǎo)圖像合成和編輯." arXiv預(yù)印本 arXiv:2108.01073 (2021).
以上就是OpenAI sora是什么意思 Sora是怎么訓(xùn)練出來的全部內(nèi)容,希望對你有幫助。想查找更多游戲資訊,歡迎持續(xù)關(guān)注游戲鳥查看。-
- 《絕區(qū)零》聯(lián)動(dòng)芬達(dá)PV公布,還有限定周邊!
- 卡繆2025-07-02 17:55:35
-
- 像素火影網(wǎng)頁版一周年入口 像素火影一周年網(wǎng)頁版鏈接
- 技能魔法師2025-07-01 10:35:12
-
- 送完P(guān)S5PRO又送NS2!《劍星》開發(fā)商為慶祝游戲大賣贈(zèng)送每位員工一臺(tái)NS2!
- 卡繆2025-06-18 15:22:28
-
- 開啟卡牌新紀(jì)元,《影之詩》新資料片“超凡世界”正式上線!
- QQlove2025-06-18 15:10:19
-
- 魔獸世界冰dk天賦加點(diǎn)推薦
- 阿姆羅2025-04-07 17:11:51
-
- NS2發(fā)布會(huì)匯總:港版售價(jià)3450港幣,馬車新作首發(fā)護(hù)航,支持4K120FPS輸出!
- 卡繆2025-04-03 10:14:35
-
- 可能漲價(jià)?CDPR稱《GTA6》漲價(jià)對他們來說是有利的。
- 卡繆2025-03-28 17:31:44
-
- 期待不?巴西博主曝Faker的S14冠軍皮膚選擇為永恩!
- 卡繆2025-03-21 17:04:15
-
- openai視頻生成模型sora爆火 OpenAI王炸模型官方技術(shù)報(bào)告解讀
- 游戲獵人2024-04-28 02:03:12
-
- 逆水寒手游元宵節(jié)時(shí)裝怎么獲得 2024元宵節(jié)時(shí)裝獲取方法
- 亡靈指揮官2024-03-25 15:31:16
- 1 《絕區(qū)零》聯(lián)動(dòng)芬達(dá)PV公布,還有限定周邊!
- 2 像素火影網(wǎng)頁版一周年入口 像素火影一周年網(wǎng)頁版鏈接
- 3 送完P(guān)S5PRO又送NS2!《劍星》開發(fā)商為慶祝游戲大賣贈(zèng)送每位員工一臺(tái)NS2!
- 4 開啟卡牌新紀(jì)元,《影之詩》新資料片“超凡世界”正式上線!
- 5 魔獸世界冰dk天賦加點(diǎn)推薦
- 6 NS2發(fā)布會(huì)匯總:港版售價(jià)3450港幣,馬車新作首發(fā)護(hù)航,支持4K120FPS輸出!
- 7 可能漲價(jià)?CDPR稱《GTA6》漲價(jià)對他們來說是有利的。
- 8 期待不?巴西博主曝Faker的S14冠軍皮膚選擇為永恩!
-
跑跑卡丁車手游
跑跑卡丁車手游是非常經(jīng)典的賽車游戲,本游戲由移動(dòng)端重制作,主打漂移競速與道具對戰(zhàn)。跑跑卡丁車手游支持多種模式與多人競技,為玩家?guī)硭熘讣飧偹袤w驗(yàn),是賽車游戲愛好者不容錯(cuò)過的選擇。除了競速賽車玩法外,玩家還可以與好友組隊(duì)競技、在線匹配挑戰(zhàn),更有豐富賽事與活動(dòng)等待參與。 -
3d開車教室2中文版蘭博基尼最新版
3d開車教室2中文版游戲是一款能夠給你帶來極為真實(shí)手動(dòng)擋開車體驗(yàn)的模擬游戲?,F(xiàn)在我們進(jìn)入游戲之后就可以直接完整頂級豪車蘭博基尼,更有著其它頂級跑車任你自由駕駛開車。開放式的城市地圖打造,真實(shí)的AI交通給你非凡體驗(yàn)。 -
火柴人繩索英雄2手機(jī)版
火柴人繩索英雄2手機(jī)版是一款融合火柴人戰(zhàn)斗與繩索飛行機(jī)制的高自由度動(dòng)作手游。在火柴人繩索英雄2手機(jī)版游戲中,玩家將化身正義英雄或混亂反派,在城市高樓間自由穿梭、挑戰(zhàn)任務(wù)、打擊罪犯或自由破壞,體驗(yàn)如蜘蛛俠般的飛檐走壁快感。 -
無家可歸的生活
無家可歸的生活,英文名為Homeless Life,是一個(gè)充滿現(xiàn)實(shí)感的人生模擬游戲,玩家將從流浪的狀態(tài)起步,體驗(yàn)從街頭求生到逆襲翻身的全過程。無家可歸的生活體驗(yàn)游戲選擇多樣、玩法開放,角色的人將生由你重新定義,適合喜歡有劇情、有選擇、還能逆襲的人生題材的玩家嘗試游玩。 -
姜餅人王國國際版
姜餅人王國國際版(Cookie Run Kingdom)是融合了獨(dú)特的姜餅人角色設(shè)定,并結(jié)合角色養(yǎng)成與王國建設(shè)玩法元素的經(jīng)營冒險(xiǎn)游戲。姜餅人王國國際版的玩家將帶領(lǐng)各種餅干小隊(duì)踏上戰(zhàn)斗旅程,同時(shí)打造屬于自己的甜點(diǎn)王國,體驗(yàn)策略對戰(zhàn)與模擬經(jīng)營的雙重樂趣。 -
重返要塞游戲安卓手機(jī)版
重返要塞手機(jī)版是一款玩法非常經(jīng)典的冒險(xiǎn)射擊類游戲,這款游戲的玩法非常的經(jīng)典,在游戲中玩家需要操控自己的裝甲戰(zhàn)車獨(dú)自闖進(jìn)敵軍的大本營,你的任務(wù)就是干掉大本營中所有的敵人,然后營救被困的人質(zhì),游戲中有著超多的關(guān)卡等待著玩家們的挑戰(zhàn)哦。 -
壞父母紅臉先生
壞父母紅臉先生推薦給各位玩家,一款非常好玩的恐怖解密類型游戲,游戲根據(jù)真實(shí)事件進(jìn)行改變,將真實(shí)發(fā)生的事情加入到游戲之中,更加增加了玩家的代入感??植赖挠螒蚍諊屚婕铱梢猿两谟螒蛑?,喜歡的小伙伴趕緊來下載試試吧! -
晶核coa
晶核coa是具備高自由度玩法的動(dòng)作冒險(xiǎn)手游,游戲畫面采用精致的二次元畫風(fēng),融合爽快連招系統(tǒng)、并通過多職業(yè)戰(zhàn)斗風(fēng)格與豐富劇情關(guān)卡,為晶核coa下載的玩家?guī)沓两綉?zhàn)斗與探索體驗(yàn),為你打造熱血競技新境界。無論是喜歡動(dòng)作操作的玩家,還是偏愛劇情探索的用戶,都能在晶核coa中找到屬于自己的樂趣。 -
我做鍵盤超好看
我做鍵盤超好看是非常適合玩家在休閑時(shí)消磨時(shí)間游玩的創(chuàng)意模擬小游戲。我做鍵盤超好看玩法新穎有趣,適合對DIY有興趣、喜歡制作個(gè)性化物品的玩家下載游玩。在我做鍵盤超好看手游繽紛的卡通世界中,玩家可以自由發(fā)揮創(chuàng)意,打造出自己心中最完美的鍵盤,創(chuàng)作出全世界唯一的創(chuàng)意鍵盤。 -
4人對決游戲
4人對決游戲是玩法輕松有趣的多人派對游戲合集,特別適合在家庭聚會(huì)或朋友聚會(huì)時(shí)玩,為玩家們帶來無限的歡樂。4人對決游戲手機(jī)版內(nèi)含多種類型與玩法的小游戲,玩家可與好友一起踢足球、駕駛賽車、相撲挑戰(zhàn)等,為玩家與好友們提供了豐富的樂趣,讓玩家能夠和親朋好友一起享受無盡的歡樂時(shí)光。
-
像素火影網(wǎng)頁版一周年入口 像素火影一周年網(wǎng)頁版鏈接
- 送完P(guān)S5PRO又送NS2!《劍星》開發(fā)商為慶祝游戲大賣贈(zèng)送每位員工一臺(tái)NS2!
- 開啟卡牌新紀(jì)元,《影之詩》新資料片“超凡世界”正式上線!
- 魔獸世界冰dk天賦加點(diǎn)推薦
- NS2發(fā)布會(huì)匯總:港版售價(jià)3450港幣,馬車新作首發(fā)護(hù)航,支持4K120FPS輸出!
- 可能漲價(jià)?CDPR稱《GTA6》漲價(jià)對他們來說是有利的。
- 期待不?巴西博主曝Faker的S14冠軍皮膚選擇為永恩!
- 罵歸罵買歸買?育碧官宣《刺客信條:影》首日玩家數(shù)突破100萬人!