7月27日午后,京城安保駐垂楊…
Meta發(fā)布史上首個(gè)圖像分割基礎(chǔ)模型
4月6日,Meta推出了一款Segment Anything Model (SAM)。據(jù)介紹,該模型能夠根據(jù)文本指令等方式實(shí)現(xiàn)圖像分割,而且萬(wàn)物皆可識(shí)別和“一鍵摳圖”。SAM是第一個(gè)致力于圖像分割的基礎(chǔ)模型。據(jù)Meta介紹,SAM已經(jīng)學(xué)會(huì)了關(guān)于物體的一般概念,并且它可以為任何圖像或視頻中的任何物體生成掩碼,甚至包括在訓(xùn)練過(guò)程中沒(méi)有遇到過(guò)的物體和圖像類型。SAM足夠通用,可以涵蓋廣泛的用例,并且可以在新的圖像領(lǐng)域上即開即用,無(wú)需額外的訓(xùn)練。
在此之前,分割作為計(jì)算機(jī)視覺(jué)的核心任務(wù),已經(jīng)得到廣泛應(yīng)用。但是,為特定任務(wù)創(chuàng)建準(zhǔn)確的分割模型通常需要技術(shù)專家進(jìn)行高度專業(yè)化的工作,此外,該項(xiàng)任務(wù)還需要大量的領(lǐng)域標(biāo)注數(shù)據(jù),種種因素限制了圖像分割的進(jìn)一步發(fā)展。
以前,解決分割問(wèn)題大致有兩種方法。第一種是交互式分割,該方法允許分割任何類別的對(duì)象,但需要一個(gè)人通過(guò)迭代細(xì)化掩碼來(lái)指導(dǎo)該方法。第二種,自動(dòng)分割,允許分割提前定義的特定對(duì)象類別(例如,貓或椅子),但需要大量的手動(dòng)注釋對(duì)象來(lái)訓(xùn)練(例如,數(shù)千甚至數(shù)萬(wàn)個(gè)分割貓的例子)。這兩種方法都沒(méi)有提供通用的、全自動(dòng)的分割方法。
SAM是這兩類方法的結(jié)合。它是一個(gè)單一的模型,可以輕松地執(zhí)行交互式分割和自動(dòng)分割。該模型的可提示界面允許以靈活的方式使用它,只需為模型設(shè)計(jì)正確的提示(點(diǎn)擊、框、文本等),就可以完成范圍廣泛的分割任務(wù)。
此外,SAM在包含超過(guò)10億個(gè)掩碼(作為該項(xiàng)目的一部分收集)的多樣化、高質(zhì)量數(shù)據(jù)集上進(jìn)行訓(xùn)練,這使其能夠泛化到新類型的對(duì)象和圖像,超出其在訓(xùn)練期間觀察到的內(nèi)容。這種概括能力意味著,從業(yè)者將不再需要收集他們自己的細(xì)分?jǐn)?shù)據(jù)并為他們的場(chǎng)景微調(diào)模型。
總而言之,這些功能使SAM能夠泛化到新任務(wù)和新領(lǐng)域。這種靈活性在圖像分割領(lǐng)域尚屬首創(chuàng)。最強(qiáng)大的是,Meta實(shí)現(xiàn)了一個(gè)完全不同的CV范式,你可以在一個(gè)統(tǒng)一框架prompt encoder內(nèi),指定一個(gè)點(diǎn)、一個(gè)邊界框、一句話,直接一鍵分割出物體。