Sora是一個以視頻生成為核心的多能力模型,具備以下能力:
1.Sora 與 Runway Gen2、Pika 等能力差異對比
能力項 | OpenAl Sora | 其它模型 |
---|
視頻時長 | 60 秒 | 最多十幾秒 |
視頻長寬比 | 1920x1080 與 1080x1920 之間任意尺寸 | 固定尺寸, 如 16:9,9:16,1:1 等 |
視頻清晰度 | 1080P | upscale 之后達到 4K |
文本生成視頻 | 支持 | 支持 |
圖片生成視頻 | 支持 | 支持 |
視頻生成視頻 | 支持 | 支持 |
多個視頻鏈接 | 支持 | 不支持 |
文本編輯視頻 | 支持 | 支持 |
擴展視頻 | 向前 / 向后擴展 | 僅支持向后擴展 |
視頻連接 | 支持 | 不支持 |
真實世界模擬 | 支持 | 支持 |
運動相機模擬 | 強 | 弱 |
依賴關(guān)系進行建模 | 強 | 弱 |
影響世界狀態(tài) (世界交互) | 強 | 弱 |
人工過程 (數(shù)字世界) 模擬 | 支持 | 不支持 |
視頻清晰度,OpenAI Sora 默認是 1080P,而且其它平臺大多數(shù)默認的清晰度也都是 1080P 以下,只是在經(jīng)過 upscale 等操作之后可以達到更清晰的水平。
Sora 開箱即用生成60s 的時長視頻,其中視頻連接、數(shù)字世界模擬、影響世界狀態(tài)(世界交互)、運動相機模擬等都是此前視頻平臺或者工具中不具備的。
OpenAI Sora 模型還可以直接生成圖片,它是一個以視頻生成為核心的多能力模型。
2. Sora技術(shù)突破點
sora 是一個以 latent、transformer、diffusion 為三個關(guān)鍵點的模型。
官網(wǎng)案例展示
世界模型和物理引擎是虛擬現(xiàn)實(VR)和計算機圖形學(xué)中的兩個關(guān)鍵概念。世界模型是描述虛擬環(huán)境的框架,包括場景、對象、光照等元素,用于呈現(xiàn)虛擬世界的外觀和感覺。物理引擎則是用于模擬和計算物體之間的物理運動和互動,如重力、碰撞、摩擦等。簡而言之,世界模型是虛擬環(huán)境的靜態(tài)描述,而物理引擎則負責模擬虛擬環(huán)境中物體的動態(tài)行為。它們共同作用于虛擬現(xiàn)實技術(shù)中,為用戶提供沉浸式的體驗。
世界模型要求更高,這包括對復(fù)雜場景和物理效果的處理能力、提高在新環(huán)境中的泛化能力、以及更好地利用先驗知識進行實時推理、預(yù)測和決策等。雖然 Sora 已經(jīng)能夠生成較為準確的視頻內(nèi)容,但當場景中涉及到多個物體的交互或復(fù)雜的物理運動時,Sora 可能會出現(xiàn)失誤或偏差。其次 Sora 目前主要依賴于大量的訓(xùn)練數(shù)據(jù)來學(xué)習(xí)視頻的生成規(guī)律,但這種方式可能限制了其在新環(huán)境中的泛化能力和實時決策能力。這也是目前 Sora 并非一個世界模型的原因
模擬器實例化了兩種精美的 3D 資產(chǎn):具有不同裝飾的海盜船。 Sora 必須在其潛在空間中隱式地解決文本到 3D 的問題。
3D 對象在航行并避開彼此路徑時始終保持動畫效果。
咖啡的流體動力學(xué),甚至是船舶周圍形成的泡沫。流體模擬是計算機圖形學(xué)的一個完整子領(lǐng)域,傳統(tǒng)上需要非常復(fù)雜的算法和方程。
照片寫實主義,幾乎就像光線追蹤渲染一樣。
模擬器考慮到杯子與海洋相比尺寸較小,并應(yīng)用移軸攝影來營造 “微小” 的氛圍。
場景的語義在現(xiàn)實世界中并不存在,但引擎仍然實現(xiàn)了我們期望的正確物理規(guī)則。
提示詞:“兩艘海盜船在一杯咖啡內(nèi)航行時互相戰(zhàn)斗的逼真特寫視頻?!?/p>
提示詞:一位時尚的女人走在東京的街道上,街道上到處都是溫暖的發(fā)光霓虹燈和動畫城市標志。她身穿黑色皮夾克,紅色長裙,黑色靴子,背著一個黑色錢包。她戴著墨鏡,涂著紅色口紅。她自信而隨意地走路。街道潮濕而反光,營造出五顏六色的燈光的鏡面效果。許多行人四處走動
視頻鏈接:https://live.csdn.net/v/364231
自主創(chuàng)建多個視角的視頻
從 Sora 模型的技術(shù)報告中,我們可以看到 Sora 模型的實現(xiàn),是建立在 OpenAI 一系列堅實的歷史技術(shù)工作的沉淀基礎(chǔ)上的包括不限于視覺理解(Clip),Transformers 模型和大模型的涌現(xiàn)(ChatGPT),Video Caption(DALL·E 3)
2.1 核心點1:視頻壓縮網(wǎng)絡(luò)
patches 是從大語言模型中獲得的靈感,大語言模型范式的成功部分得益于使用優(yōu)雅統(tǒng)一各種文本模態(tài)(代碼、數(shù)學(xué)和各種自然語言)的 token。大語言模型擁有文本 token,而 Sora 擁有視覺分塊(patches)。OpenAI 在之前的 Clip 等工作中,充分實踐了分塊是視覺數(shù)據(jù)模型的一種有效表示(參考論文:An image is worth 16x16 words: Transformers for image recognition at scale.)這一技術(shù)路線。而視頻壓縮網(wǎng)絡(luò)的工作就是將高維度的視頻數(shù)據(jù)轉(zhuǎn)換為 patches,首先將視頻壓縮到一個低緯的 latent space,然后分解為 spacetime patches。
難點:視頻壓縮網(wǎng)絡(luò)類比于 latent diffusion model 中的 VAE,但是壓縮率是多少,如何保證視頻特征被更好地保留,還需要進一步的研究。
給定輸入的噪聲塊 + 文本 prompt,它被訓(xùn)練來預(yù)測原始的 “干凈” 分塊。重要的是,Sora 是一個 Scaling Transformers。Transformers 在大語言模型上展示了顯著的擴展性,
難點:能夠 scaling up 的 transformer 如何訓(xùn)練出來,對第一步的 patches 進行有效訓(xùn)練,可能包括的難點有 long context(長達 1 分鐘的視頻)的支持、期間 error accumulation 如何保證比較低,視頻中實體的高質(zhì)量和一致性,video condition,image condition,text condition 的多模態(tài)支持等。
2.3 核心點3:Video recaption
視頻摘要 / 視頻字母生成屬于多模態(tài)學(xué)習(xí)下的一個子任務(wù),大體目標就是根據(jù)視頻內(nèi)容給出一句或多句文字描述。所生成的 caption 可用于后續(xù)的視頻檢索等等,也可以直接幫助智能體或者有視覺障礙的人理解現(xiàn)實情況。通過這樣的高質(zhì)量的訓(xùn)練數(shù)據(jù),保障了文本(prompt)和視頻數(shù)據(jù)之間高度的 align。Sora 還使用 DALL·E 3 的 recaption技巧,即為視覺訓(xùn)練數(shù)據(jù)生成高度描述性的 caption,這讓 Sora 能夠更忠實地遵循生成視頻中用戶的文本指令,而且會支持長文本,這個應(yīng)該是 OpenAI 獨有的優(yōu)勢。在生成階段,Sora 會基于 OpenAI 的 GPT 模型對于用戶的 prompt 進行改寫,生成高質(zhì)量且具備很好描述性的高質(zhì)量 prompt,再送到視頻生成模型完成生成工作。caption 訓(xùn)練數(shù)據(jù)都匱乏:
一方面,圖像常規(guī)的文本描述往往過于簡單(比如 COCO 數(shù)據(jù)集),它們大部分只描述圖像中的主體而忽略圖像中其它的很多信息,比如背景,物體的位置和數(shù)量,圖像中的文字等。
另外一方面,目前訓(xùn)練文生圖的圖像文本對數(shù)據(jù)集(比如 LAION 數(shù)據(jù)集)都是從網(wǎng)頁上爬取的,圖像的文本描述其實就是 alt-text,但是這種文本描述很多是一些不太相關(guān)的東西,比如廣告。
技術(shù)突破
:訓(xùn)練一個 image captioner 來合成圖像的 caption,合成 caption 與原始 caption 的混合比例高達 95%:5%;但是不過采用 95% 的合成長 caption 來訓(xùn)練,得到的模型也會 “過擬合” 到長 caption 上,如果采用常規(guī)的短 caption 來生成圖像,效果可能就會變差。為了解決這個問題,OpenAI 采用 GPT-4 來 “upsample” 用戶的 caption,下面展示了如何用 GPT-4 來進行這個優(yōu)化,不論用戶輸入什么樣的 caption,經(jīng)過 GPT-4 優(yōu)化后就得到了長 caption:
難點:這項技術(shù)并不新,難的是積累,即便是合成數(shù)據(jù)也需要大量的專業(yè)標注和評測?!按蟆?模型,“高” 算力,“海量” 數(shù)據(jù)
更多內(nèi)容見:探索AI視頻生成新紀元:文生視頻Sora VS RunwayML、Pika及StableVideo——誰將引領(lǐng)未來:https://blog.csdn.net/sinat_39620217/article/details/136171409
3.sora存在不足
物理交互邏輯錯誤
:Sora 有時會創(chuàng)造出物理上不合理的動作; Sora 模型在模擬基本物理交互,如玻璃破碎等方面,不夠精確。這可能是因為模型在訓(xùn)練數(shù)據(jù)中缺乏足夠的這類物理事件的示例,或者模型無法充分學(xué)習(xí)和理解這些復(fù)雜物理過程的底層原理
對象狀態(tài)變化的不正確
:在模擬如吃食物這類涉及對象狀態(tài)顯著變化的交互時,Sora 可能無法始終正確反映出變化。這表明模型可能在理解和預(yù)測對象狀態(tài)變化的動態(tài)過程方面存在局限。
復(fù)雜場景精確性丟失
:模擬多個對象和多個角色之間的復(fù)雜互動會出現(xiàn)超現(xiàn)實結(jié)果; 長時視頻樣本的不連貫性:在生成長時間的視頻樣本時,Sora 可能會產(chǎn)生不連貫的情節(jié)或細節(jié),這可能是由于模型難以在長時間跨度內(nèi)保持上下文的一致性 ; 對象的突然出現(xiàn):視頻中可能會出現(xiàn)對象的無緣無故出現(xiàn),這表明模型在空間和時間連續(xù)性的理解上還有待提高
4.文生視頻prompt優(yōu)化
視頻 | 官方提示詞 | 優(yōu)化 |
---|
| 逼真的特寫視頻,展示兩艘海盜在一杯咖啡內(nèi)航行時互相爭斗的情況。 | Context :一杯啡內(nèi)的微型世界。
Persona : 兩艘海盜船。
Goal : 展示海盜船在咖桿內(nèi)的逼真爭斗場景。
Constraints :視頻應(yīng)突出海盜船的細節(jié)和動態(tài),以及咖啡的紋理作為背景。
Steps :設(shè)定場景為充滿咖啡的杯子,咖啡表面作為海洋。描述海盜船:兩艘細致的海盜船在咖啡 “海洋” 中航行和爭斗。強調(diào)特寫頭:使用特寫鏡頭視角捕捉海盜船的動態(tài)和咖啡的紋理。展現(xiàn)爭斗細爺:海盜船回的交火,船上海盜的動作。
Examples : 相似效果鏈接
Template :cssCopy Code [場景描述] 在一桿充滿就的杯子中,咖啡表面波動著仿佛一個微型的海洋。 [人物描述] 兩艘裝備精良的海盜船在這杯咖啡的海洋中航行,互相展開烈的爭斗。 [目標] 透過逼真的特寫鏡頭展現(xiàn)海盜船在咖啡杯子內(nèi)互相爭斗的壯場景。 [約束條件] 注意捕浞海盜的細節(jié)和動態(tài),以及咖啡作為背景的紋理和波動 |
| 一位時尚女性走在充滿溫暖霓虹燈和動畫城市標牌的東京街道上。她穿著黑色皮夾克紅色長裙和黑色子,拎黑色錢包。她戴著太陽墨鏡涂著紅色囗紅。她走路自信又隨意。街道潮濕且反光,在影色燈光的照射下形成鏡面效果。許多行人走來走去。 | Context : 一條充滿活力的東京街道在夜晚燈火通明,霓虹燈和動畫廣告牌交織成一道道流光溢彩的光帶。細雨過后的街道濕潤且反光,在多彩的燈光照射下形成迷人的鏡面效果。許多行人在這燈光閃爍的夜色中來往匆匆。
Persona : 一位時尚女性身著黑色皮夾克,搭配鮮艷的紅色長裙和黑色靴子,手拎一只黑色錢包。她戴著太陽鏡,嘴唇涂抹著紅色口紅,走路自信又灑脫。
Goal : 展示這位時尚女性在霓虹燈光點綴的東京夜晚中自信與風采。
Constraints : 視覺應(yīng)該突出夜晚的霓虹燈光效果,反映出潮濕街道的反光效果,以及人物的時尚裝扮,強調(diào)人物的自信步伐和隨性的走路風格。-
Steps :: 1.設(shè)定場景為東京的一個夜晚街道,由霓虹燈照明。 2.描述人物:一位穿著黑色皮夾克、紅色長裙和黑色靴子的時尚女性,手拿黑色錢包,戴著太陽鏡并涂有紅色口紅。 3.強調(diào)人物的自信步伐和隨性的走路風格。 4.描述環(huán)境:潮濕的街道在燈光下反射,周圍有行人。示例: 提供一段描述或者圖片,展示類似場景的效果。
Template :cssCopy Code: [場景描述] 在一個充滿活力的街道上,霓虹燈的彩光波動著,仿佛一個微型的夜晚海洋。 [人物描述] 一位時尚女性在這條街道上自信地行走,她的黑夾克和紅裙在燈光下顯得格外搶眼。 [目標] 通過鮮明的場景描述,展現(xiàn)時尚女性在霓虹燈光下的自信與風采。 [約束條件] 注重捕捉人物裝扮的細節(jié)和動態(tài),以及潮濕街道作為背景的紋理和反光。 |
5.Sora的出現(xiàn)以及AI的出現(xiàn)會對程序員產(chǎn)生什么影響呢
積極影響:
提高編程效率:AI工具可以自動化一些繁瑣的編程任務(wù),如代碼檢查、代碼重構(gòu)等,從而減少了程序員的工作量,提高了編程效率。同時,Sora文生視頻也為程序員提供了更加高效和智能的視頻開發(fā)工具,可以加快開發(fā)速度。
改善代碼質(zhì)量:AI工具可以幫助程序員發(fā)現(xiàn)代碼中的缺陷和潛在問題,提高代碼的質(zhì)量和可靠性。這對于保證軟件質(zhì)量和用戶體驗至關(guān)重要。
促進編程教育:AI工具和Sora文生視頻可以為編程初學(xué)者提供更加友好的編程環(huán)境和工具,使得編程教育更加容易上手和有趣,從而吸引更多的人加入編程領(lǐng)域。
提供更多創(chuàng)新機會:AI工具可以為程序員提供更多的靈感和創(chuàng)意,幫助他們創(chuàng)造出更加優(yōu)秀的程序。同時,Sora文生視頻也為程序員提供了更多的應(yīng)用場景和市場需求,從而激發(fā)他們的創(chuàng)新熱情。
負面影響:
職業(yè)競爭壓力增加:隨著AI技術(shù)的發(fā)展,一些簡單的編程任務(wù)可能會被自動化工具所取代,這就要求程序員需要不斷學(xué)習(xí)和掌握新的技能,以適應(yīng)技術(shù)變革的需要。這可能會導(dǎo)致職業(yè)競爭壓力增加,一些技能不足的程序員可能會面臨失業(yè)的風險。
道德和倫理挑戰(zhàn):AI工具的發(fā)展和應(yīng)用也帶來了一些道德和倫理問題,如數(shù)據(jù)隱私、算法公平性等。程序員需要關(guān)注這些問題,并在開發(fā)過程中遵守相關(guān)的法律法規(guī)和道德規(guī)范。
6.Sora 技術(shù)原理全解析&小結(jié)
OpenAI 的研究論文《Video generation models as world simulators》探討了在視頻數(shù)據(jù)上進行大規(guī)模訓(xùn)練生成模型的方法。這項研究特別關(guān)注于文本條件擴散模型,這些模型同時在視頻和圖像上進行訓(xùn)練,處理不同時長、分辨率和寬高比的數(shù)據(jù)。研究中提到的最大模型 Sora 能夠生成長達一分鐘的高保真視頻。以下是論文的一些關(guān)鍵點:
統(tǒng)一的視覺數(shù)據(jù)表示
:研究者們將所有類型的視覺數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的表示,以便進行大規(guī)模的生成模型訓(xùn)練。Sora 使用視覺補?。╬atches)作為其表示方式,類似于大型語言模型(LLM)中的文本標記。
視頻壓縮網(wǎng)絡(luò)
:研究者們訓(xùn)練了一個網(wǎng)絡(luò),將原始視頻壓縮到一個低維潛在空間,并將其表示分解為時空補丁。Sora 在這個壓縮的潛在空間中進行訓(xùn)練,并生成視頻。
擴散模型
:Sora 是一個擴散模型,它通過預(yù)測原始“干凈”的補丁來從輸入的噪聲補丁中生成視頻。擴散模型在語言建模、計算機視覺和圖像生成等領(lǐng)域已經(jīng)顯示出了顯著的擴展性。
視頻生成的可擴展性
:Sora 能夠生成不同分辨率、時長和寬高比的視頻,包括全高清視頻。這種靈活性使得 Sora 能夠直接為不同設(shè)備生成內(nèi)容,或者在生成全分辨率視頻之前快速原型化內(nèi)容。
語言理解
:為了訓(xùn)練文本到視頻生成系統(tǒng),需要大量的視頻和相應(yīng)的文本標題。研究者們應(yīng)用了在 DALL·E 3 中引入的重新描述技術(shù),首先訓(xùn)練一個高度描述性的標題生成器,然后為訓(xùn)練集中的所有視頻生成文本標題。
圖像和視頻編輯
:Sora 不僅能夠基于文本提示生成視頻,還可以基于現(xiàn)有圖像或視頻進行提示。這使得 Sora 能夠執(zhí)行廣泛的圖像和視頻編輯任務(wù),如創(chuàng)建完美循環(huán)的視頻、動畫靜態(tài)圖像、向前或向后擴展視頻等。
模擬能力
:當視頻模型在大規(guī)模訓(xùn)練時,它們展現(xiàn)出了一些有趣的新興能力,使得 Sora 能夠模擬物理世界中的某些方面,如動態(tài)相機運動、長期一致性和對象持久性等。
盡管 Sora 展示了作為模擬器的潛力,但它仍然存在許多局限性,例如在模擬基本物理交互(如玻璃破碎)時的準確性不足。研究者們認為,繼續(xù)擴展視頻模型是開發(fā)物理和數(shù)字世界模擬器的有前途的道路。
這篇論文提供了對 Sora 模型的深入分析,展示了其在視頻生成領(lǐng)域的潛力和挑戰(zhàn)。通過這種方式,OpenAI 正在探索如何利用 AI 來更好地理解和模擬我們周圍的世界。
本文作者:汀、人工智能,轉(zhuǎn)自https://www.cnblogs.com/ting1/p/18023416
該文章在 2024/2/24 15:26:10 編輯過