OpenAI CTO:Sora今年將發(fā)布 會(huì)添加語(yǔ)音功能
- 來(lái)源:網(wǎng)易科技
- 作者:網(wǎng)易科技
- 編輯:豆角
美國(guó)當(dāng)?shù)貢r(shí)間周三,人工智能初創(chuàng)公司OpenAI的首席技術(shù)官米拉·穆拉蒂(Mira Murati)接受了媒體記者專(zhuān)訪(fǎng)。在采訪(fǎng)中,她談到了該公司最新文本轉(zhuǎn)視頻工具Sora,這款產(chǎn)品預(yù)計(jì)將于今年晚些時(shí)候向公眾發(fā)布,同時(shí)還會(huì)添加語(yǔ)音功能;此外在發(fā)布前,團(tuán)隊(duì)將對(duì)其進(jìn)行優(yōu)化,以降低計(jì)算資源消耗。
以下為翻譯全文:
某個(gè)清晨醒來(lái)時(shí),你是否曾幻想過(guò)一頭公牛在精致的瓷器店中悠然自得地行走的場(chǎng)景?要實(shí)現(xiàn)這一奇幻景象,你有三種途徑:
A)聯(lián)系當(dāng)?shù)氐膭?dòng)物馴養(yǎng)師以及知名家居品牌Crate & Barrel;
B)雇請(qǐng)頂尖的好萊塢動(dòng)畫(huà)制作人;
C)使用神奇的AI工具Sora,簡(jiǎn)單輸入指令即可。
歡迎進(jìn)入人工智能的下一個(gè)“魔法世界”。在這里,你的語(yǔ)言能夠化作逼真、流暢且細(xì)膩的視頻畫(huà)面。
OpenAI計(jì)劃在今年晚些時(shí)候向大眾推出其文本到視頻的轉(zhuǎn)換工具Sora。盡管正式發(fā)布尚需時(shí)日,但OpenAI已經(jīng)向我們揭示了這款工具的驚人潛力:僅需精心設(shè)計(jì)的文本指令,便可創(chuàng)造出幾乎足以替代許多視頻制作專(zhuān)業(yè)人員的作品。《華爾街日?qǐng)?bào)》專(zhuān)欄作家喬安娜·斯特恩(Joanna Stern)向該公司提交了幾條由她自己編寫(xiě)的提示,比如一條美人魚(yú)和她的螃蟹伙伴評(píng)測(cè)智能手機(jī),或是一頭公牛在精致的瓷器店內(nèi)自由漫步。
斯特恩隨后親身體驗(yàn)了Sora的神奇之處,她利用這款工具制作了一段模擬對(duì)OpenAI首席技術(shù)官穆拉蒂進(jìn)行虛擬視頻采訪(fǎng)的片段,兩人深入剖析了這些有趣的問(wèn)題,并對(duì)該技術(shù)的潛在問(wèn)題進(jìn)行了探討。
OpenAI在上個(gè)月首次展示了用其生成式人工智能工具制作的視頻預(yù)覽,整個(gè)互聯(lián)網(wǎng)為之沸騰。與之前那些斷斷續(xù)續(xù)、分辨率低下的人工智能視頻技術(shù)相比,Sora生成的內(nèi)容無(wú)疑是一場(chǎng)視覺(jué)盛宴,堪比高品質(zhì)的自然紀(jì)錄片或大制作電影。
與之前的人工智能技術(shù)相似,Sora首先讓我們對(duì)其能力感到驚嘆,隨即又擔(dān)憂(yōu)其對(duì)社會(huì)的影響。面對(duì)斯特恩的擔(dān)憂(yōu),穆拉蒂向她保證,OpenAI在發(fā)布這一強(qiáng)大工具時(shí)將采取慎重的步驟。但這并不意味著一切都將無(wú)憂(yōu)無(wú)慮。
這些超逼真視頻真的是Sora生成的嗎?
斯特恩對(duì)Sora生成的視頻感到深深震撼:從無(wú)人機(jī)視角拍攝的意大利阿馬爾菲海岸的壯觀(guān)景色,到手持自拍桿的柯基犬,再到?jīng)_浪板上活潑的動(dòng)畫(huà)水獺,這些畫(huà)面無(wú)一不展示了Sora在創(chuàng)意和細(xì)節(jié)處理上的強(qiáng)大能力。她進(jìn)一步挑戰(zhàn)Sora,要求它生成更接近日常生活的場(chǎng)景:“兩名30多歲、棕發(fā)的職業(yè)女性在一個(gè)明亮的演播室里坐下接受新聞采訪(fǎng)?!?
Sora生成的視頻中,兩位女性的嘴唇和頭發(fā)動(dòng)作自然流暢,皮夾克的細(xì)節(jié)也清晰可見(jiàn)。穆拉蒂透露,這段20秒長(zhǎng)、720P分辨率的視頻僅用了幾分鐘就完成了生成,盡管目前還未加入聲音。但她承諾,OpenAI正在計(jì)劃為Sora增添語(yǔ)音功能。
為了對(duì)比Sora與其他工具的區(qū)別,斯特恩也在另一個(gè)AI視頻生成器Runway上輸入了相同的提示。然而,得到的結(jié)果大相徑庭,Runway生成的畫(huà)面是兩個(gè)模糊、幽靈般的女性形象,它們看起來(lái)像是直接從惡夢(mèng)中走出來(lái)的,令人毛骨悚然。
那么,Sora究竟是如何實(shí)現(xiàn)這一神奇轉(zhuǎn)換的呢?盡管解釋其內(nèi)部工作原理可能比解釋美人魚(yú)的進(jìn)化還要復(fù)雜,但簡(jiǎn)單來(lái)說(shuō),Sora背后的AI模型通過(guò)分析大量視頻數(shù)據(jù),學(xué)會(huì)了識(shí)別和理解各種物體與動(dòng)作。輸入文本提示后,模型能夠迅速勾勒出整個(gè)場(chǎng)景的基本輪廓,并逐幀添加細(xì)節(jié)。
行業(yè)觀(guān)察人士和競(jìng)爭(zhēng)對(duì)手,包括Runway的首席執(zhí)行官,都認(rèn)為OpenAI的這些顯著成就歸功于其巨大的計(jì)算資源和龐大的訓(xùn)練數(shù)據(jù)量。但OpenAI最近也面臨著版權(quán)侵犯的指控,因未經(jīng)授權(quán)使用大量在線(xiàn)內(nèi)容訓(xùn)練其ChatGPT模型。
當(dāng)被問(wèn)及OpenAI為訓(xùn)練Sora使用了哪些數(shù)據(jù)時(shí),穆拉蒂表示:“我們主要使用了公開(kāi)可獲取的數(shù)據(jù)及已授權(quán)數(shù)據(jù)?!?。當(dāng)被進(jìn)一步追問(wèn)這些數(shù)據(jù)是否包括YouTube、Instagram和Facebook上的視頻時(shí),穆拉蒂表示她并不清楚具體細(xì)節(jié),但后來(lái)確認(rèn),已授權(quán)的材料確實(shí)包含了知名版權(quán)圖片網(wǎng)站Shutterstock上的內(nèi)容。
人工智能模型對(duì)普通用戶(hù)來(lái)說(shuō)往往是個(gè)神秘的黑匣子。我們看到的是輸入和輸出,而中間的處理過(guò)程則不得而知。因此,我們可能永遠(yuǎn)無(wú)法完全理解為何生成的內(nèi)容展現(xiàn)出某些特定的風(fēng)格或特征。例如,斯特恩提到的那條美人魚(yú)身旁的甲殼類(lèi)伙伴留著類(lèi)似《海綿寶寶》中蟹老板的胡須,這是否是模型的創(chuàng)新還是某種偶然?
穆拉蒂還告訴斯特恩,當(dāng)前Sora生成視頻的成本遠(yuǎn)高于該公司的圖像生成器Dall-E。但她承諾,在Sora正式向公眾發(fā)布前,團(tuán)隊(duì)將對(duì)其進(jìn)行優(yōu)化,以降低計(jì)算資源消耗。
如何識(shí)別人工智能生成視頻?
在當(dāng)前的早期階段,人工智能生成的內(nèi)容中還存在一些明顯的瑕疵。
例如,在Sora生成的采訪(fǎng)視頻中,一位淺發(fā)色女子的一只手似乎多出了五根手指。對(duì)此,穆拉蒂解釋道:“準(zhǔn)確再現(xiàn)手部運(yùn)動(dòng)真的很難。”
在另一次測(cè)試中,斯特恩期望看到一個(gè)機(jī)器人從電影制片人手中奪走攝像機(jī)的場(chǎng)景。但Sora生成的是一位人類(lèi)電影制片人突變成機(jī)器人,場(chǎng)面顯得突兀且不自然。更有甚者,背景中的黃色出租車(chē)也不知怎的變成了銀色轎車(chē)。穆拉蒂承認(rèn)模型“在維持連貫性方面表現(xiàn)尚可,但并不完美”。
這引出了一個(gè)深刻的議題:當(dāng)這些缺陷得到修正,人工智能生成的視頻愈發(fā)逼真時(shí),我們?nèi)绾螀^(qū)分真實(shí)與人工智能生成的視頻?
Sora生成的每個(gè)視頻下方都會(huì)有一個(gè)水印。穆拉蒂解釋說(shuō),最終這些視頻還將包含元數(shù)據(jù),以標(biāo)示其生成方式和來(lái)源。此外,OpenAI設(shè)有一個(gè)名為“Sora紅隊(duì)”的安全測(cè)試小組。該團(tuán)隊(duì)的職責(zé)是提供各種提示,探索潛在的漏洞、偏見(jiàn)和其他可能的有害結(jié)果。穆拉蒂說(shuō):“這就是我們目前還沒(méi)有廣泛部署這些系統(tǒng)的原因。我們需要先弄清楚這些問(wèn)題,然后才能放心地將其推向市場(chǎng)。”
就Sora的提示詞政策而言,穆拉蒂透露,它可能借鑒OpenAI的另一工具Dall-E的做法。例如,為了防止濫用和侵犯隱私,用戶(hù)將無(wú)法使用Sora來(lái)生成公眾人物的形象。當(dāng)斯特恩試圖輸入“在任美國(guó)總統(tǒng)的電視新聞畫(huà)面”時(shí),Sora拒絕了這一請(qǐng)求。
斯特恩也嘗試讓Sora生成“在東歐小鎮(zhèn)上行走的士兵”的視頻,但也遭到了拒絕。對(duì)于裸露等敏感內(nèi)容的提示,穆拉蒂表示OpenAI正在與藝術(shù)家和專(zhuān)家緊密合作,共同探討如何在不阻礙創(chuàng)意表現(xiàn)的同時(shí),設(shè)立合理的“護(hù)欄和限制”。
將與好萊塢合作
隨技術(shù)發(fā)展,像Sora這樣的AI工具將變得更強(qiáng)大、更精細(xì)。這種進(jìn)步可能會(huì)改變傳統(tǒng)的工作方式,如無(wú)人機(jī)操作員或插畫(huà)家的角色,引起好萊塢既期待又憂(yōu)慮的反響。
演員、電影制片人和工作室老板泰勒·佩里(Tyler Perry)表示,看到Sora的潛力后,他宣布暫停耗資8億美元的工作室擴(kuò)建計(jì)劃。他認(rèn)為這項(xiàng)技術(shù)能夠削減布景和外景拍攝的成本,但同時(shí)也對(duì)電影行業(yè)和演員的未來(lái)抱有擔(dān)憂(yōu)。
代表好萊塢和全美各地動(dòng)畫(huà)藝術(shù)家的動(dòng)畫(huà)協(xié)會(huì)主席珍妮特·莫雷諾·金(Jeanette Moreno King)也稱(chēng),盡管藝術(shù)創(chuàng)作決策仍需人類(lèi)參與和判斷力,未來(lái)卻是充滿(mǎn)不確定性的迷霧。
愛(ài)德華·薩奇(Edward Saatchi)及其人工智能視頻工作室Fable正夢(mèng)想打造一個(gè)AI版Netflix:僅需輸入一段文本提示,便可呈現(xiàn)完整的電視劇集。
對(duì)于Sora對(duì)視頻制作行業(yè)的潛在影響,穆拉蒂重申了OpenAI采取的緩步審慎策略。她表示,OpenAI正在與行業(yè)內(nèi)部人士合作,進(jìn)行早期的測(cè)試和反饋征集,希望全球的電影制作者和創(chuàng)作者能加入這一探索過(guò)程,共同促進(jìn)電影產(chǎn)業(yè)的發(fā)展。
如果將OpenAI比作一開(kāi)始提到的那頭在瓷器店里自由漫步的公牛,那么它目前可能需要小心行事。但最終,它可能不可避免地將帶來(lái)一些破壞。


-
傳奇歲月
-
原始傳奇
-
斗羅大陸(我唐三認(rèn)可0.1折)
-
妖神記之巔峰對(duì)決
-
無(wú)雙戰(zhàn)車(chē)(悟空沉默)
-
深淵契約
-
貓狩紀(jì)0.1折
-
靈劍仙師(斗破蒼穹)
玩家點(diǎn)評(píng) (0人參與,0條評(píng)論)
熱門(mén)評(píng)論
全部評(píng)論