要論最近最火的AI視頻生成模型,無疑就屬字節(jié)豆包了。 也就是字節(jié)一口氣亮出的PixelDance模型和Seaweed模型。 而且大家都說效果好,那這不就得親自測(cè)試一波嘍,而且是直接上難度的那種—— 最近抖音里很多人都在模仿林黛玉哭泣,我們不妨用“全字節(jié)系的AI”來制作一支《紅樓夢(mèng)》的MV。 然后啊,效果簡(jiǎn)直就是一個(gè)大寫的萬萬沒想到! 不論是生成的多人物、畫面的質(zhì)量,甚至是故事情節(jié),豆包的視頻可以說是相當(dāng)有《紅樓夢(mèng)》那味兒了。 而也正如剛才提到的,打造這支MV背后的AI,統(tǒng)統(tǒng)都是字節(jié)系。 現(xiàn)在我們就來一一拆解細(xì)節(jié)步驟。 第一步,用豆包查詢《紅樓夢(mèng)》中的經(jīng)典片段原文,作為生成圖片的Prompt。 例如王熙鳳出場(chǎng)的名場(chǎng)面,豆包給出了這樣的答案: 第二步,我們直接用《紅樓夢(mèng)》中的原文片段,“喂”給字節(jié)的即夢(mèng),讓它先生成一幅畫。 例如我們采用的Prompt是: 紅樓夢(mèng),只見一群媳婦丫鬟圍擁著一個(gè)人從后房門進(jìn)來。這個(gè)人打扮與眾姑娘不同,彩繡輝煌,恍若神妃仙子:頭上戴著金絲八寶攢珠髻,綰著朝陽五鳳掛珠釵;項(xiàng)上帶著赤金盤螭瓔珞圈;裙邊系著豆綠宮絳,雙衡比目玫瑰佩;身上穿著縷金百蝶穿花大紅洋緞?wù)桃\,外罩五彩刻絲石青銀鼠褂;下著翡翠撒花洋縐裙。一雙丹鳳三角眼,兩彎柳葉吊梢眉,身量苗條,體格風(fēng)騷,粉面含春威不露,丹唇未啟笑先聞。 所有生成的圖片如下所示 第三步,將生成的圖片丟給豆包PixelDance模型,再附上一句Prompt,讓它生成視頻片段: 中間的女子開懷大笑,性情豪爽地往前走,旁邊眾人微笑慢慢低頭并為這個(gè)女子讓路。 (當(dāng)然,也可以繼續(xù)寫出更多的動(dòng)作。) 采用相同的方法,逐個(gè)生成其它視頻的片段。 再例如下面這個(gè)片段,Prompt是這樣的: 右邊女生默默哭泣,抬手捂住嘴。鏡頭切換,特寫女生的臉,眼睛里留下眼淚。鏡頭切換,近景,左邊人物癡癡看向女生,眼神中滿是憐愛。 第四步,用基于豆包音樂模型的海綿音樂,生成1分鐘的視頻BGM,而且Prompt極其簡(jiǎn)單: 紅樓夢(mèng),悲傷,大氣。 一曲《夢(mèng)斷紅樓殤》就誕生了: 第五步,將最終的6個(gè)視頻和BGM統(tǒng)統(tǒng)導(dǎo)入字節(jié)的剪映,對(duì)視頻做一個(gè)剪輯,就大功告成了! 不難看出,現(xiàn)在已經(jīng)是人人都可以打造MV了,并且步驟和方法也相當(dāng)簡(jiǎn)單,只需聯(lián)動(dòng)一下字節(jié)系的AI們: 豆包(豆包語言模型)、即夢(mèng)(豆包文生圖模型)、豆包視頻生成模型PixelDance、海綿音樂(豆包音樂模型)、剪映。 而在整個(gè)過程中,視頻生成,無疑是最為關(guān)鍵的步驟。 但有一說一,AI版《紅樓夢(mèng)》中的視頻片段,還并沒有完全展現(xiàn)豆包PixelDance模型的全部真實(shí)實(shí)力。 視頻生成,已經(jīng)步入影視級(jí) 這次豆包在發(fā)布視頻模型之際,把它的能力歸結(jié)為了四個(gè)點(diǎn): 精準(zhǔn)的語義理解,多動(dòng)作多主體交互 強(qiáng)大動(dòng)態(tài)和炫酷運(yùn)鏡并存 一致性多鏡頭生成 多風(fēng)格多比例兼容 或許光看文字不能很直觀地感受,接下來我們就一一對(duì)這四個(gè)特點(diǎn)做深入解讀。 精準(zhǔn)的語義理解,多動(dòng)作多主體交互 若是縱覽目前市面上的視頻模型,其實(shí)大多數(shù)產(chǎn)品只能完成簡(jiǎn)單指令單一動(dòng)作,而豆包PixelDance模型可以說是把AI對(duì)于Prompt的理解能力拉上一個(gè)高度。 不僅如此,豆包PixelDance模型還能把故事延展開來(時(shí)序性多拍動(dòng)作指令),以及哪怕參考圖片中沒有的人物,也可以通過語言的方式生成。 例如下面這段Prompt: 小朋友笑著笑著就哭了,鏡頭緩緩拉遠(yuǎn),他的母親走過來安慰他。 最初的圖像僅有小朋友的臉,但生成的視頻很好的滿足了Prompt中的所有要求。 再如: 特寫一個(gè)中國(guó)女人的面部。她有些生氣地戴上了一副墨鏡,一個(gè)中國(guó)男人從畫面右側(cè)走進(jìn)來抱住了她。 由此可見,不論P(yáng)rompt多復(fù)雜,豆包PixelDance模型是可以hold住的。 強(qiáng)大動(dòng)態(tài)和炫酷運(yùn)鏡并存 復(fù)雜的動(dòng)態(tài)和運(yùn)鏡,也一直是視頻生成的難點(diǎn)之一。 這是因?yàn)檎鎸?shí)的動(dòng)態(tài)往往涉及到對(duì)物理規(guī)律的準(zhǔn)確模擬,在復(fù)雜動(dòng)態(tài)場(chǎng)景中,多個(gè)物體的相互作用會(huì)使物理模擬變得極為復(fù)雜。 對(duì)于人物的動(dòng)作,還需要模擬人體的關(guān)節(jié)運(yùn)動(dòng)和肌肉變形。 復(fù)雜的動(dòng)態(tài)和運(yùn)鏡通常會(huì)帶來光影的變化,而準(zhǔn)確地計(jì)算光影效果是一項(xiàng)艱巨的任務(wù)。光線的傳播、反射、折射等現(xiàn)象都需要進(jìn)行精確的模擬。 動(dòng)態(tài)場(chǎng)景中的光源也可能是變化的,如太陽的位置隨時(shí)間變化、燈光的閃爍等。這就需要實(shí)時(shí)計(jì)算光線的強(qiáng)度、顏色和方向,以確保畫面的光影效果真實(shí)自然。 而這些種種的挑戰(zhàn)到了豆包PixelDance模型這里,似乎就不再是難事。 例如在下面這個(gè)視頻中,男子在沖浪的過程被生成的可謂是相當(dāng)逼真,就連浪花、光影、人的動(dòng)作、發(fā)絲等等,都與現(xiàn)實(shí)非常貼近: 再如下面這個(gè)快速穿越自然的場(chǎng)景,光影的交錯(cuò)、物理的規(guī)律都拿捏的非常精準(zhǔn),宛如科幻大片的片段: 一致性多鏡頭生成 一致性和多鏡頭,同樣也是此前AI視頻生成被人們?cè)嵅〉囊稽c(diǎn),甚至人類都開始模仿起了AI們的鬼畜。 例如本來上一個(gè)畫面還是人物A,下一個(gè)畫面就變成了人物B,甚至連性別和物種都有可能被篡改…… 那么豆包PixelDance模型的表現(xiàn)又是如何呢?我們直接來看效果: 第一個(gè)畫面是小女孩面對(duì)死神,鏡頭一轉(zhuǎn)給到女孩的時(shí)候,豆包PixelDance模型生成的內(nèi)容不論是發(fā)型還是著裝等細(xì)節(jié),都保持了一致。 即使面對(duì)更加復(fù)雜的場(chǎng)景、鏡頭切換,也是沒有問題: 多風(fēng)格多比例兼容 當(dāng)然,風(fēng)格的多變,是每個(gè)視頻生成模型的“必修課”,豆包PixelDance模型也是如此。 例如黑白大片風(fēng): 再如日漫風(fēng)格: 而且從這兩個(gè)例子中,我們也不難發(fā)現(xiàn)豆包PixelDance模型對(duì)于生成視頻的比例也是可控的。 更具體而言,豆包PixelDance模型支持包括黑白,3D動(dòng)畫、2D動(dòng)畫、國(guó)畫、水彩、水粉等多種風(fēng)格;包含1:1,3:4,4:3,16:9,9:16,21:9 六個(gè)比例。 嗯,是一個(gè)多變且較為全能的選手了。 那么接下來的一個(gè)問題是:如何做到的? 對(duì)于豆包視頻模型的能力,在發(fā)布會(huì)上,針對(duì)剛才我們所展示的前三項(xiàng)能力,分別對(duì)應(yīng)的技術(shù)是這樣的: 高效的DiT融合計(jì)算單元、全新設(shè)計(jì)的擴(kuò)散模型訓(xùn)練方法,以及深度優(yōu)化的Transforemer架構(gòu),便是“煉”出豆包PixelDanca模型背后的三大技術(shù)殺手锏了。 不過對(duì)于各個(gè)視頻生成產(chǎn)品的效果,“什么樣的才算好?是否有什么標(biāo)準(zhǔn)?”這一問題,在量子位與火山引擎總裁譚待交流過程中,他表示: 視頻生成并不像語音生成一樣,有非常標(biāo)準(zhǔn)且綜合性的Benchmark等。但整體來看也有幾點(diǎn)內(nèi)容可以作為判斷標(biāo)準(zhǔn)。 一是對(duì)復(fù)雜指令遵循,這就非常考驗(yàn)視頻模型對(duì)語義的理解能力,從豆包PixelDance模型的效果來看,是符合這一點(diǎn)要求的。 二是多鏡頭切換和保證一致性,這也是保證視頻最終效果的重要因素。 不只有視頻模型 除了豆包視頻模型之外,這次字節(jié)還發(fā)布了2個(gè)重磅產(chǎn)品。 首先就是豆包音樂模型。 正如我們給AI《紅樓夢(mèng)》做BGM時(shí)所演示的那般,生成歌曲,Prompt只需簡(jiǎn)單的幾個(gè)字就可以,只要關(guān)鍵字到位,那么歌曲的情感也能精準(zhǔn)拿捏。 除此之外,豆包音樂模型還提供了10余種不同的音樂風(fēng)格和情緒的表達(dá),人聲也幾乎與人類無異。 其次就是豆包同聲傳譯模型。 這個(gè)模型的效果可以說是媲美人類的同傳了,可以邊說邊翻譯,實(shí)時(shí)溝通完全沒有障礙;而且在翻譯的準(zhǔn)確性和人聲自然度方面也是更上一層樓,可以很好的應(yīng)用在各種需要同傳的場(chǎng)景。 最后,豆包通用模型的能力,這次也得到了大幅的提升: 至此,字節(jié)的豆包大模型家族就變得更加壯大了起來,可以一起來看下現(xiàn)在的全景圖: 然而,陣容的龐大還是只是一面,更重要的是,豆包家族的模型們是已經(jīng)被廣泛地使用了。 據(jù)了解,截至到9月,豆包大模型的日均tokens使用量已經(jīng)超過1.3萬億,4個(gè)月的時(shí)間里tokens整體增長(zhǎng)超過了10倍。在多模態(tài)方面,豆包·文生圖模型日均生成圖片5000萬張,此外,豆包目前日均處理語音85萬小時(shí)。 這組數(shù)據(jù)也從側(cè)面反映出了模型的效果,畢竟只有好用才能會(huì)被大眾所接受;這也再次印證了豆包模型最初發(fā)布時(shí)所提出的那句“只有最大的使用量,才能打磨出最好的大模型”。 也可以視為豆包“左手使用量,右手多場(chǎng)景”的方式反復(fù)打磨后的一次正確的驗(yàn)證;而在驗(yàn)證過后,字節(jié)此次也亮出了他們?cè)诖竽P蜕系陌l(fā)展之路,即先To C,再To B。 正如譚待所說: 只有在To C上把效果做到極致,我們才會(huì)讓模型在To B領(lǐng)域去上崗。 不僅如此,隨著大模型價(jià)格戰(zhàn)的拉響,豆包模型的價(jià)格也是一降再降,由此也可以預(yù)見大模型發(fā)展的一種趨勢(shì)—— 成本已不會(huì)阻礙創(chuàng)新之路。 那么對(duì)于豆包模型接下來的發(fā)展,是值得期待一波了。 One More Thing: 說到“全字節(jié)系A(chǔ)I”,除了做AI版《紅樓夢(mèng)》MV的工具全是字節(jié)產(chǎn)品之外,這篇文章還是在飛書里寫的。 本文來源:量子位 |
原創(chuàng)欄目
IT百科
網(wǎng)友評(píng)論
聚超值•精選
在經(jīng)歷了2018-2020年“蔚小理”的上市潮后,隨著國(guó)內(nèi)新能源汽車市場(chǎng)競(jìng)爭(zhēng)日益激烈,以及全球EV需求放緩,IPO的大門正在向造車新勢(shì)力們緩緩關(guān)閉。極氪的成功上市既是對(duì)新勢(shì)力的一次激勵(lì),也是一次警示——后來者必須面對(duì)越來越嚴(yán)苛的上市條件。留給哪吒汽車、廣汽埃安們的機(jī)會(huì)可能不多了。