太平洋科技要聞

首頁 > 科技要聞 > 科技> 正文

Meta「分割一切」進(jìn)化2.0！一鍵跟蹤運(yùn)動物體，代碼權(quán)重數(shù)據(jù)集全開源，網(wǎng)友：真正的OpenAI

量子位整合編輯：太平洋科技發(fā)布于：2024-08-01 16:12

又是發(fā)布即開源！

Meta“分割一切AI”二代SAM2在SIGGRAPH上剛剛亮相。

相較于上一代，它的能力從圖像分割拓展到視頻分割。

可實時處理任意長視頻，視頻中沒見過的對象也能輕松分割追蹤。

更關(guān)鍵的是，模型代碼、權(quán)重以及數(shù)據(jù)集通通開源！

它和Llama系列一樣遵循Apache 2.0許可協(xié)議，并根據(jù)BSD-3許可分享評估代碼。

網(wǎng)友yygq：我就問OpenAI尷尬不尷尬。

Meta表示，此次開源的數(shù)據(jù)集包含51000個真實世界視頻和600000個時空掩碼（masklets，spatio-temporal masks)，規(guī)模遠(yuǎn)超此前最大同類數(shù)據(jù)集。

可在線試玩的demo也同步上線，大家都能來體驗。

在SAM之上加入記憶模塊

相較于SAM一代，SAM2的能力升級主要有：

支持任意長視頻實時分割

實現(xiàn)zero-shot泛化

分割和追蹤準(zhǔn)確性提升

解決遮擋問題

它進(jìn)行交互式分割的過程主要分為兩步：選擇和細(xì)化。

在第一幀中，用戶通過點擊來選擇目標(biāo)對象，SAM2根據(jù)點擊自動將分割傳播到后續(xù)幀，形成時空掩碼。

如果SAM2在某些幀中丟失了目標(biāo)對象，用戶可以通過在新一幀中提供額外的提示來進(jìn)行校正。

如果在第三幀中需要需要恢復(fù)對象，只需在該幀中點擊即可。

SAM2的核心思路是將圖像視作單幀視頻，因此可以從SAM直接擴(kuò)展至視頻領(lǐng)域，同時支持圖像和視頻輸入。

處理視頻唯一的區(qū)別在于，模型需要依賴內(nèi)存來回憶處理過的信息，以便在當(dāng)前時間步長上準(zhǔn)確分割對象。

與圖像分割相比，視頻分割中，物體的運(yùn)動、變形、遮擋和光線等都會發(fā)生強(qiáng)烈變化。同時分割視頻中的對象需要了解實體跨越空間和時間的位置。

所以Meta主要做了三部分工作：

設(shè)計一個可提示的視覺分割任務(wù)

在SAM基礎(chǔ)上設(shè)計新模型

構(gòu)建SA-V數(shù)據(jù)集

首先，團(tuán)隊設(shè)計了一個視覺分割任務(wù)，將圖像分割任務(wù)推廣到視頻領(lǐng)域。

SAM被訓(xùn)練成以圖像中的輸入點、框或掩碼來定義目標(biāo)并預(yù)測分割掩碼(segmentation mask)。

然后訓(xùn)練SAM在視頻的任意幀中接受prompt來定義要預(yù)測的時空掩碼(masklet)。

SAM2根據(jù)輸入提示對當(dāng)前幀上的掩碼進(jìn)行即時預(yù)測，并進(jìn)行臨時傳播，在所有幀上都可生成目標(biāo)對象的掩碼。

一旦預(yù)測到初始掩碼，就可以通過任何幀中向SAM2提供額外提示來進(jìn)行迭代改進(jìn)，它可以根據(jù)需要重復(fù)多次，直到獲取到所有掩碼。

通過引入流式記憶（streaming memory），模型可以實時處理視頻，還能更加準(zhǔn)確分割和跟蹤目標(biāo)對象。

它由記憶編碼器、記憶庫和記憶注意力模塊組成。讓模型一次只處理一幀圖像，利用先前幀信息輔助當(dāng)前幀的分割任務(wù)。

分割圖像時，內(nèi)存組件為空，模型和SAM類似。分割視頻時，記憶組件能夠存儲對象信息以及先前的交互信息，從而使得SAM2可以在整個視頻中進(jìn)行掩碼預(yù)測。

如果在其他幀上有了額外提示，SAM2可以根據(jù)目標(biāo)對象的存儲記憶進(jìn)行糾錯。

記憶編碼器根據(jù)當(dāng)前預(yù)測創(chuàng)建記憶，記憶庫保留有關(guān)視頻目標(biāo)對象過去預(yù)測的信息。記憶注意力機(jī)制通過條件化當(dāng)前幀特征，并根據(jù)過去幀的特征調(diào)整以產(chǎn)生嵌入，然后將其傳遞到掩碼解碼器以生成該幀的掩碼預(yù)測，后續(xù)幀不斷重復(fù)此操作。

這種設(shè)計也允許模型可以處理任意時長的視頻，不僅對于SA-V數(shù)據(jù)集的注釋收集很重要，也對于機(jī)器人等領(lǐng)域應(yīng)有有影響。

如果被分割對象比較模糊，SAM2還會輸出多個有效掩碼。比如用戶點擊了自行車的輪胎，模型可以將此理解為多種掩碼，可能是指輪胎、可能是指自行車全部，并輸出多個預(yù)測。

在視頻中，如果在一幀圖像中僅有輪胎可見，那么可能需要分割的是輪胎；如果視頻后續(xù)幀中很多都出現(xiàn)了自行車，那么可能需要分割的是自行車。

如果還是不能判斷用戶到底想分割哪個部分，模型會按照置信度進(jìn)行選擇。

此外，視頻中還容易出現(xiàn)分割對象被遮擋的情況。為了解決這個新情況，SAM2還增加了一個額外的模型輸出“遮擋頭”（occlusion head），用來預(yù)測對象是否出現(xiàn)在當(dāng)前幀上。

此外，在數(shù)據(jù)集方面。

SA-V中包含的視頻數(shù)量是現(xiàn)有最大同類數(shù)據(jù)集的4.5倍，注釋量則是53倍。

為了收集到如此多的數(shù)據(jù)，研究團(tuán)隊構(gòu)建了一個數(shù)據(jù)引擎。人工會利用SAM2在視頻中注釋時空掩碼，然后將新的注釋用來更新SAM2。多次重復(fù)這一循環(huán)，就能不斷迭代數(shù)據(jù)集和模型。

和SAM相似，研究團(tuán)隊不對注釋的時空掩碼進(jìn)行語義約束，而是更加關(guān)注完整的物體。

這一方法讓收集視頻對象分割掩碼速度也大幅提升，比SAM快8.4倍。

解決過度分割、超越SOTA

對比來看，使用SAM2可以很好解決過度分割的問題。