首頁 > 科技要聞 > 科技> 正文

AI視頻時(shí)代,如何才能不掉隊(duì)?

虎嗅網(wǎng) 整合編輯:太平洋科技 發(fā)布于:2024-10-16 14:41

不久前,一段“皮卡丘打工”的AI視頻,在全網(wǎng)流傳爆火。精美的畫面,流暢的動(dòng)作,以及絲滑的雨滴,幾乎可以與大制作的動(dòng)畫電影相媲美。

更久之前,今年抖音上爆火的科幻短劇《三星堆:未來啟示錄》,同樣是由AIGC生成。這部劇12集,每集3分鐘,講述考古工作者聯(lián)手揭開古蜀國神秘面紗的故事,一經(jīng)上線,就引發(fā)1.4億播放。其背后的技術(shù)支持字節(jié)旗下視頻生成工具即夢(mèng),也隨之引發(fā)市場(chǎng)關(guān)注。

技術(shù)的普及與工具的成熟,讓視頻創(chuàng)作門檻快速降低,在AI的助推下,用戶從單純的內(nèi)容消費(fèi)者升級(jí)為生產(chǎn)、消費(fèi)和擁有的三位一體,視頻的總量也隨之爆炸性增長:當(dāng)前,視頻數(shù)據(jù)的規(guī)模飛速增長,IDC預(yù)計(jì),2025年全球數(shù)據(jù)量將達(dá)到175ZB,其中絕大部分將來自視頻數(shù)據(jù),而這一趨勢(shì),還將繼續(xù)加速。

但AI視頻時(shí)代,主角不止有AI。同一時(shí)期,在消費(fèi)端,隨著全景直播、三維重建的成熟,伴隨著國產(chǎn)3A大作《黑神話:悟空》中AI技術(shù)結(jié)合無人機(jī)實(shí)景三維重建實(shí)現(xiàn)真實(shí)場(chǎng)景的紋理與細(xì)節(jié)以1:1的比例精準(zhǔn)還原,視頻的交互與消費(fèi)鏈路也從此被重構(gòu)。

技術(shù)的成熟,疊加應(yīng)用的爆發(fā),AI視頻的戰(zhàn)爭(zhēng),正迎來市場(chǎng)化為導(dǎo)向的下半場(chǎng)。

AI視頻時(shí)代的三座大山

以AI技術(shù)為為代表,一個(gè)新的視頻生產(chǎn)、交互、消費(fèi)時(shí)代正在緩緩拉開序幕,但近在眼前,仍有三座大山有待翻過。

與大家發(fā)布會(huì)上殺得你死我活形成鮮明對(duì)比的是,具體的場(chǎng)景之中,真正好用的產(chǎn)品并不多見。

兩者中間的鴻溝,來自工程化。一個(gè)簡單的例子,僅在AI視頻生成環(huán)節(jié),業(yè)內(nèi)發(fā)布會(huì)上,AI生成的視頻中,小貓會(huì)正常跳躍,展示出的技術(shù)水平就已經(jīng)遙遙領(lǐng)先;但現(xiàn)實(shí)中,一個(gè)會(huì)正常跳躍的小貓,只是最基礎(chǔ)的要求,視頻本身的內(nèi)容與趣味的重要性,遠(yuǎn)遠(yuǎn)高于對(duì)AI技術(shù)的追求。

更具體來說,在生產(chǎn)端,成本與效率,正逐漸成為一個(gè)越來越棘手的難題。

一方面AI視頻生產(chǎn)的賽道正隨之變得前所未有的擁擠。Sora發(fā)布引發(fā)全球視頻大模型熱潮,AI視頻的賽道也在很快的時(shí)間里變得擁擠。僅僅在國內(nèi),就先后出現(xiàn)了字節(jié)系即夢(mèng)、快手系可靈,創(chuàng)業(yè)公司系Pika、智譜清影、生數(shù)科技Vidu等一眾明星產(chǎn)品。

然而,生成式AI帶來的視頻數(shù)據(jù)指數(shù)級(jí)增長對(duì)計(jì)算效能提出了嚴(yán)峻考驗(yàn);年初推出的Sora模型的訓(xùn)練算力需求是GPT-4的4.5倍,而推理算力需求更是接近GPT-4的400倍。無論文生視頻,還是圖生視頻,相關(guān)的算力指標(biāo)動(dòng)輒幾十上百T,甚至高達(dá)千T,這種激增的成本,帶來了算力資源的可負(fù)擔(dān)性的挑戰(zhàn)。

與此同時(shí),多模態(tài)媒體處理挑戰(zhàn)也日益凸顯。多模態(tài)媒體處理需求的日益凸顯對(duì)音視頻處理的生產(chǎn)端、交互端和消費(fèi)端提出了全新要求;生產(chǎn)端,多模態(tài)內(nèi)容的生產(chǎn)是否足夠高質(zhì)高效,比如給用戶交付的究竟是模型、API還是一個(gè)類似即夢(mèng)這樣的軟件都對(duì)應(yīng)著不同的用戶分層;交互端,當(dāng)我們的交互從傳統(tǒng)的單模態(tài)人機(jī)變成多模態(tài)交互乃至人與AI的交互,如何讓機(jī)器更直觀的理解人類的需求,依舊是個(gè)困擾,消費(fèi)端,如何讓交互空間從2D升級(jí)到3D乃至虛實(shí)融合,也對(duì)內(nèi)容的創(chuàng)作以及呈現(xiàn)本身提出了更高要求。

同時(shí),如何讓技術(shù)應(yīng)用真正落地并帶來實(shí)際業(yè)務(wù)價(jià)值也是我們必須面對(duì)的問題。AI視頻很火,但成本同樣不低,如何讓內(nèi)容生產(chǎn)出來之后能帶來確定的收益,會(huì)決定AI視頻長久的生命力。

單點(diǎn)的問題解決,需要編解碼技術(shù)的更新,需要有應(yīng)對(duì)洪峰波谷的能力,需要AI的加持。但系統(tǒng)性問題,需要的,則是一個(gè)所有能力的融會(huì)貫通,從生產(chǎn)端,到交互端,再到消費(fèi)端的全鏈路解決方案。

而這,或許正是火山引擎視頻云最擅長的地方。過去Sora等技術(shù)的成熟只是點(diǎn)燃了0到1的火種,但AI視頻真正的爆發(fā),還需要從1到100 漫長的累積。

如何定義AI視頻時(shí)代

AI視頻時(shí)代的到來理所當(dāng)然,但如何定義AI視頻時(shí)代,這曾是火山引擎視頻云內(nèi)部,一個(gè)長期的思考題。

通往未來的門票,就藏在對(duì)過去歷史的梳理中。

經(jīng)過復(fù)盤總結(jié),火山引擎視頻云認(rèn)為,圍繞視頻,我們的時(shí)代,可以被分為三個(gè)階段:

第一階段,信息時(shí)代。以傳統(tǒng)的UGC短視頻內(nèi)容為代表,我們中的大部分都是內(nèi)容的消費(fèi)者,我們與視頻的交互,以手機(jī)屏幕的2D體驗(yàn)為代表,是一個(gè)在線、雙向的過程;

第二階段,到了數(shù)字時(shí)代,我們對(duì)視頻品質(zhì)的要求越來越高,PGC成為內(nèi)容生產(chǎn)的主流,直播興起帶來交互上的實(shí)時(shí)、流暢、高清,而交互的空間,也從二維逐漸向三維空間過渡。

這是一個(gè)生產(chǎn)側(cè)內(nèi)容的品質(zhì)不斷提升,交互側(cè)效率不斷提升,消費(fèi)端交互體驗(yàn)與空間不斷升維的過程。

相應(yīng)的,AI視頻時(shí)代,自然也不等同于傳統(tǒng)的數(shù)字視頻時(shí)代加上AI能力,故事依舊要回到生產(chǎn)、交互、消費(fèi)的敘事中來。

首先是生產(chǎn)端。AI的加持,抹平了視頻制作水平差距帶來的鴻溝,AI輔助視頻制作,逐漸成為各大軟件,人人可用、人人會(huì)用的基礎(chǔ)技能。我們不再局限于主動(dòng)的內(nèi)容生產(chǎn)與被動(dòng)的內(nèi)容消費(fèi),在AI視頻時(shí)代,用戶將成為AI原生居民,既是內(nèi)容的生產(chǎn)者,也是消費(fèi)者,更是擁有者。在這背后,則是AI技術(shù)從過去的問答,到圖文交互,再到如今多模態(tài)交互,多模態(tài)內(nèi)容生產(chǎn)的一步步跨越。

而在交互端,技術(shù)的成熟,則進(jìn)一步拉近了人與視頻,真實(shí)世界與數(shù)字之間的連接。過去,留言的存在,讓人人交互成為可能;直播等技術(shù)的興起,通過互聯(lián)網(wǎng)的鏈接,讓人與人的實(shí)時(shí)交互得以實(shí)現(xiàn)。而以GPT-4o、火山引擎對(duì)話式AI實(shí)時(shí)交互解決方案等技術(shù)為代表,人與AI的交互,則在多模態(tài)的基礎(chǔ)上,變得更加實(shí)時(shí)流暢、逼真與擬人。全球市場(chǎng)研究機(jī)構(gòu)MarketsandMarkets曾做出預(yù)測(cè),到2028年,全球AI助手市場(chǎng)規(guī)模將達(dá)到285億美元。在這背后,2023—2028年的復(fù)合增長率將達(dá)到驚人的43%。

消費(fèi)端的這個(gè)趨勢(shì)是更沉浸。以年初蘋果發(fā)布的Vision Pro為代表,空間計(jì)算的新時(shí)代正式開啟。在此之后,今年7月,抖音VR直播上線,9月《黑神話:悟空》以其極具震撼力的視頻畫面質(zhì)感、跌宕起伏的劇情架構(gòu)和深厚的文化底蘊(yùn),迅速吸引了全球玩家的目光。3D、虛實(shí)融合與VR技術(shù),將成為消費(fèi)端變革的主力軍,架起數(shù)字世界與物理世界之間的橋梁。

方向已經(jīng)確認(rèn),一個(gè)新的時(shí)代就在眼前呼嘯而來,接下來,火山引擎視頻云的重點(diǎn)工作,就是去梳理在這次史無前例的市場(chǎng)爆發(fā)中,究竟還有多少痛點(diǎn)沒有被解決,而火山引擎,手里又還有多少張牌。

為什么是火山引擎視頻云

當(dāng)確定了未來的大趨勢(shì),與眼前的具體困境后,接下來的故事就進(jìn)入了火山引擎視頻云最擅長的劇情,從生產(chǎn)到交互再到用戶體驗(yàn)的全方位重構(gòu)。

而這一切的基礎(chǔ),則是框架層的創(chuàng)新。AI視頻時(shí)代,超大規(guī)模視頻訓(xùn)練數(shù)據(jù)集,導(dǎo)致了計(jì)算和處理成本激增;而伴隨著視頻數(shù)據(jù)質(zhì)量參差不齊,數(shù)據(jù)樣本的分類、分段和清洗也帶來了龐大的工作量;整體處理鏈路涉及多個(gè)環(huán)節(jié),工程復(fù)雜,需要多團(tuán)隊(duì)協(xié)作。相應(yīng)地,對(duì)于視頻云來說,框架不僅需要支持大模型的高效運(yùn)行,還要能夠滿足日益復(fù)雜的音視頻處理需求,以應(yīng)對(duì)生成式AI時(shí)代帶來的挑戰(zhàn)。

為此,火山引擎聯(lián)合英特爾共同發(fā)布了BMF 大模型訓(xùn)練視頻預(yù)處理方案并升級(jí)了大模型與AI能力。

BMF在本次大會(huì)上,推出了不依賴任何第三方組件的輕量化開源版本BMF-lite。通過kernel融合等創(chuàng)新方案,BMF-lite實(shí)現(xiàn)了算子加速能力,大幅提升了視頻處理的效率。在通用性上,BMF-lite則提供了多平臺(tái)統(tǒng)一的接口形式,讓所有開發(fā)者都能輕松使用BMF-lite。而隨著視頻處理越來越從云上向端側(cè)遷移,BMF-lite還新增了對(duì)端側(cè)大模型的接入支持,為AI技術(shù)的融合提供了強(qiáng)大的支持。當(dāng)前BMF-lite已經(jīng)廣泛地應(yīng)用在了抖音的各個(gè)業(yè)務(wù)上,每天服務(wù)于上億用戶,處理視頻圖片萬億次。

此外,應(yīng)對(duì)成本挑戰(zhàn),火山引擎通過海量的潮汐資源和精細(xì)化的混部調(diào)度來降低單用戶的平均使用成本;而為了應(yīng)對(duì)質(zhì)量挑戰(zhàn),火山引擎視頻云使用多種算法對(duì)視頻進(jìn)行多維度的分析和篩選,在實(shí)踐中沉淀了50多個(gè)算子對(duì)視頻進(jìn)行了精細(xì)化的過濾;對(duì)于協(xié)同挑戰(zhàn),火山引擎視頻云利用BMF的動(dòng)態(tài)模塊的特性,在短時(shí)間內(nèi)完成了幾十個(gè)算子的集成和處理鏈路的開發(fā),迭代效率相比使用傳統(tǒng)框架提升了數(shù)倍。應(yīng)對(duì)性能挑戰(zhàn),基于英特爾 CPU等各種不同的資源,火山引擎視頻云則利用BMF框架的靈活調(diào)度,將復(fù)雜的算子處理流程靈活的部署在多種資源上,并實(shí)現(xiàn)了快速的性能調(diào)優(yōu),提升了任務(wù)吞吐,緩解了資源瓶頸。

在這背后,則是硬件在算力側(cè)提供的穩(wěn)定支持。為了應(yīng)對(duì)多元的業(yè)務(wù)需求,選擇不同的硬件來進(jìn)行視頻處理以實(shí)現(xiàn)最佳的性價(jià)比,是幾乎所有企業(yè)都會(huì)面臨的問題。英特爾強(qiáng)大的至強(qiáng)CPU處理能力,可以為8K視頻實(shí)時(shí)處理、包括傳統(tǒng)的CV視覺優(yōu)化、LLM和AIGC在內(nèi)的多種AI應(yīng)用,各種類型業(yè)務(wù)在火山引擎上的部署,提供強(qiáng)大的計(jì)算支持和可靠的服務(wù)。

與此同時(shí),為了應(yīng)對(duì)生成式AI時(shí)代,海量視頻數(shù)據(jù),用戶高質(zhì)量視頻需求,不同對(duì)象豐富場(chǎng)景等需求,BMF還推出了靈活高效大模型訓(xùn)練視頻預(yù)處理能力,通過視頻凈化、多種算子、組合輸出、大規(guī)模部署等技術(shù),目前已經(jīng)在生產(chǎn)環(huán)境中,取得良好效果。

而基于這種框架層面的創(chuàng)新,以及反復(fù)的內(nèi)部練兵以及外部用戶需求調(diào)研,針對(duì)市場(chǎng)痛點(diǎn),火山引擎做出了三步走計(jì)劃。

第一步,在生產(chǎn)端,降低視頻的生產(chǎn)門檻,帶動(dòng)AI視頻時(shí)代,人人成為視頻內(nèi)容的消費(fèi)者、生產(chǎn)者以及擁有者。

基于這一認(rèn)知,火山引擎視頻云推出了多模態(tài)視頻理解與生成方案,依托自研AI視頻理解技術(shù)和AIGC技術(shù),可以做到自動(dòng)化提取視頻高光和生成解說內(nèi)容,讓字幕識(shí)別錯(cuò)誤率降低了30%。

目前,該方案已探索針對(duì)短劇、賽事和直播電商的自動(dòng)化解決方案。能夠針對(duì)長視頻進(jìn)行智能拆分、高光片段提取和產(chǎn)出摘要描述,能夠在提高人效的同時(shí)保證內(nèi)容的精準(zhǔn)傳達(dá)。同時(shí),結(jié)合AIGC技術(shù)生成視頻素材,創(chuàng)作者可以快速完成預(yù)告片的視頻生產(chǎn),能夠顯著縮短制作周期并降低成本。

為了讓內(nèi)容生成更加豐富有趣,火山引擎視頻云還落地實(shí)踐了多模態(tài)營銷素材生成方案,通過融合圖像分析、AIGC(人工智能生成內(nèi)容)、大模型處理、3D物體重建等先進(jìn)技術(shù),實(shí)現(xiàn)了商品氛圍圖、圖文視頻、解說視頻、AIGC視頻和3D商品模型等多模態(tài)營銷素材的自動(dòng)化生產(chǎn)。目前,這些創(chuàng)新服務(wù)已經(jīng)支持自營電商智能氛圍圖的端到端自動(dòng)化托管,并且在電商場(chǎng)景的核心指標(biāo)上取得了顯著提升。

當(dāng)然,這種生產(chǎn)端的升級(jí),并不止于視頻畫面,聲音技術(shù)的升級(jí)同樣重要。火山引擎視頻云通過采用了自研的豆包語音大模型,實(shí)現(xiàn)了高品質(zhì)多語言聲音復(fù)刻,并利用虛擬人技術(shù)調(diào)整演講者口型,讓觀感更加自然。

而在交互端,火山引擎視頻云則推出了對(duì)話式AI實(shí)時(shí)交互解決方案,通過火山引擎豆包大模型和視頻云RTC技術(shù)實(shí)現(xiàn)了語音數(shù)據(jù)的高效采集、處理和傳輸,并在服務(wù)端,并為用戶提供了智能對(duì)話和自然語言處理的強(qiáng)大能力,毫秒級(jí)人聲檢測(cè)和打斷響應(yīng),以及絲滑穩(wěn)定的端到端響應(yīng)體驗(yàn)。當(dāng)前,這一方案已經(jīng)廣泛應(yīng)用于智能助手、AI陪伴、AI教育、智能客服等場(chǎng)景,并為用戶帶來更自然、流暢和真實(shí)的人機(jī)交互體驗(yàn)。

框架的建構(gòu),解決了生產(chǎn)端的效率;交互的革新,帶來了產(chǎn)品體驗(yàn)的進(jìn)一步升級(jí),AI視頻時(shí)代的未來已經(jīng)初見雛形,但要讓全鏈路的升級(jí)更加完整,還差最后一步——消費(fèi)端的沉浸式體驗(yàn)升級(jí)。

今年以來,隨著《黑神話:悟空》爆火,帶動(dòng)3D生成和場(chǎng)景重建技術(shù)興起,火山引擎視頻云推出了基于AI的3D生成方案,借助大模型強(qiáng)大的生成能力,采用基于圖生3D的模式來完成3D內(nèi)容的快速構(gòu)建。同時(shí),火山引擎視頻云還上線了高質(zhì)量3D Gaussian-Splatting場(chǎng)景重建及低延遲重渲染方案,用于對(duì)場(chǎng)景進(jìn)行高質(zhì)量的幾何、外觀重建和渲染,并實(shí)現(xiàn)行業(yè)內(nèi)首個(gè)高斯方案支持復(fù)雜的實(shí)時(shí)重打光及陰影渲染。目前,該技術(shù)已經(jīng)實(shí)際應(yīng)用在虛擬直播等VR/AR/XR應(yīng)用中,相比傳統(tǒng)的手工3D建模, 在效率、多樣性和操作成本等方面具備明顯優(yōu)勢(shì)。

一定程度上,AI視頻時(shí)代,技術(shù)只是引爆一切的起點(diǎn),但真正的商業(yè)化,則需要以用戶的體驗(yàn)為核心,從框架到場(chǎng)景,從生產(chǎn)到交互再到消費(fèi)端的全方位發(fā)力,市場(chǎng)也隨之進(jìn)入馬拉松長跑階段。

火山引擎視頻云,為這場(chǎng)長跑的下半場(chǎng),做了一次不錯(cuò)的探索。

本文來源:虎嗅

網(wǎng)友評(píng)論

聚超值•精選

推薦 手機(jī) 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
  • 二維碼 回到頂部