梵高名作也能被AI逆向破解了?! 直接喂一張?jiān)瓐D,AI就能化身梵高·本高一點(diǎn)點(diǎn)重繪整張圖畫(原圖可任意)。 仔細(xì)對(duì)照兩邊,AI幾乎實(shí)現(xiàn)了1:1復(fù)刻,還為我們這些繪畫小白清晰展示了整幅圖的構(gòu)建過(guò)程。 這項(xiàng)魔法來(lái)自華盛頓大學(xué),項(xiàng)目名為Inverse Painting,相關(guān)論文已入選SIGGRAPH Asia 2024,其中兩位作者還是東北大學(xué)(Bowei Chen )和上?萍即髮W(xué)(Yifan Wang)的校友。 項(xiàng)目一經(jīng)發(fā)布后即在Reddit引起熱議,最高贊更是為藝術(shù)家群體操起了心(doge)。
不過(guò)也有人表示,這對(duì)于人們學(xué)習(xí)如何繪畫非常有幫助。 甚至可以用來(lái)“破解”一些大師遺作,提取隱藏或失傳的技術(shù)。 基于擴(kuò)散模型 從原圖→繪畫過(guò)程延時(shí)視頻,Inverse Painting采用基于擴(kuò)散的逆繪畫方法。
進(jìn)一步拆解,這一過(guò)程主要包括以下步驟: 學(xué)習(xí)藝術(shù)家的繪畫過(guò)程。收集了294個(gè)丙烯酸風(fēng)景畫繪畫過(guò)程視頻(平均時(shí)長(zhǎng)9分鐘),并進(jìn)行視頻幀分割、裁剪和篩選等預(yù)處理操作,讓模型學(xué)習(xí)繪畫過(guò)程; 定義繪畫指令。基于對(duì)畫作不同元素(比如天空、樹(shù)木、人物等)以及元素相互關(guān)系的理解,模型會(huì)生成一組“繪畫指令”,告訴模型應(yīng)該先畫什么,后畫什么; 使用擴(kuò)散模型。用擴(kuò)散模型生成逼真圖像,并逐步在畫布上添加細(xì)節(jié),就像藝術(shù)家繪畫時(shí)一樣; 文本和區(qū)域理解。模型還會(huì)生成文本指令和區(qū)域掩碼,前者告訴模型要繪制的內(nèi)容,后者用來(lái)指定內(nèi)容的確切位置; 逐步渲染。從一個(gè)空白畫布開(kāi)始,逐步生成完整繪畫過(guò)程; 時(shí)間控制。為了模擬真實(shí)世界中藝術(shù)家的繪畫速度,模型還會(huì)考慮每步之間的時(shí)間間隔; 這些步驟整體可歸為兩階段訓(xùn)練+測(cè)試,如下所示: 第一階段:指令生成(Instruction Generation)這個(gè)階段主要生成兩個(gè)關(guān)鍵指令集,文本指令生成器(Text Instruction Generator)和區(qū)域掩碼生成器(Mask Instruction Generator)。 前者通過(guò)比較目標(biāo)畫作和當(dāng)前畫布的狀態(tài),生成一個(gè)簡(jiǎn)短的文本指令,比如“畫天空”或“加花朵”,以此決定下一步應(yīng)該添加哪些元素。 后者是一個(gè)二進(jìn)制圖像,指明了畫布上應(yīng)該更新哪些部分。 兩者一結(jié)合,確保模型只在畫布上合適的區(qū)域進(jìn)行繪制。 △生成的文本指令第二階段:畫布渲染(Canvas Rendering)接下來(lái)使用第一階段生成的指令來(lái)更新畫布。 利用文本指令和區(qū)域掩碼,以及當(dāng)前畫布的圖像和目標(biāo)畫作,一個(gè)基于擴(kuò)散的渲染器被用來(lái)更新畫布。 這個(gè)渲染器采用了一種叫做“去噪擴(kuò)散概率模型”的技術(shù),它逐步從噪聲圖像中去除噪音,以生成連續(xù)的圖像幀。 總之,渲染器在更新畫布時(shí)會(huì)考慮多種條件信號(hào),包括文本指令、區(qū)域掩碼、時(shí)間間隔,以及目標(biāo)畫作和當(dāng)前畫作的特征。 這些條件信號(hào)幫助渲染器更準(zhǔn)確地模擬人類藝術(shù)家的繪畫風(fēng)格和過(guò)程。 測(cè)試(Test-Time Generation)在測(cè)試階段,模型使用訓(xùn)練好的管道從頭開(kāi)始生成一幅畫作。 這里主要有兩個(gè)關(guān)鍵: 自回歸過(guò)程。每一步都依賴于前一步生成的結(jié)果,以此生成一個(gè)連貫的繪畫過(guò)程; 固定時(shí)間間隔。在每一步之間采用固定時(shí)間來(lái)更新畫布,模擬真實(shí)繪畫過(guò)程中的時(shí)間流逝; 最終,與三個(gè)基線方法(Timecraft、Paint Transformer、Stable Video Diffusion)相比,其生成結(jié)果明顯更優(yōu)。 同時(shí),相關(guān)變體也取得了SOTA結(jié)果。 其中兩位作者為華人 簡(jiǎn)單介紹下項(xiàng)目作者,一共5位,其中兩位是華人。 Bowei Chen (陳柏維),本科就讀于國(guó)內(nèi)東北大學(xué)軟件工程專業(yè)(2016年入學(xué)),后分別在卡內(nèi)基梅隆大學(xué)機(jī)器人研究所和華盛頓大學(xué)攻讀碩博。 研究興趣為計(jì)算機(jī)視覺(jué)和圖形學(xué)的交叉點(diǎn),重點(diǎn)是圖像和視頻生成。 Yifan Wang,本科就讀于上?萍即髮W(xué)計(jì)算機(jī)專業(yè),今年剛獲得華盛頓大學(xué)CS博士學(xué)位。 個(gè)人主頁(yè)顯示了多段工作經(jīng)歷(含字節(jié)、谷歌、Adobe等),目前是Meta Reality Labs Research的一名研究科學(xué)家。 實(shí)際上,這個(gè)團(tuán)隊(duì)進(jìn)行的AI逆向繪畫之前也有,網(wǎng)友們還提到了Paints Undo這個(gè)項(xiàng)目。 當(dāng)時(shí)主要應(yīng)用于動(dòng)漫領(lǐng)域,短短3個(gè)月已在GitHub攬星3.3K。 對(duì)于這事兒,人們一直褒貶不一,最大爭(zhēng)議在于人們擔(dān)心有人會(huì)利用AI謊稱作者。 畢竟通過(guò)講解藝術(shù)思路是作者證明作品原創(chuàng)性的手段之一。 甚至對(duì)于它能教人們學(xué)繪畫這事兒,也有網(wǎng)友以自身經(jīng)歷出來(lái)反駁:
所以,有了解繪畫的童鞋來(lái)說(shuō)說(shuō)看嗎? 本文來(lái)源:量子位 |
原創(chuàng)欄目
IT百科
網(wǎng)友評(píng)論
聚超值•精選
在經(jīng)歷了2018-2020年“蔚小理”的上市潮后,隨著國(guó)內(nèi)新能源汽車市場(chǎng)競(jìng)爭(zhēng)日益激烈,以及全球EV需求放緩,IPO的大門正在向造車新勢(shì)力們緩緩關(guān)閉。極氪的成功上市既是對(duì)新勢(shì)力的一次激勵(lì),也是一次警示——后來(lái)者必須面對(duì)越來(lái)越嚴(yán)苛的上市條件。留給哪吒汽車、廣汽埃安們的機(jī)會(huì)可能不多了。