明敏 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
多模態(tài)模型常見(jiàn),但是基于稀疏化的還是頭一個(gè)。
谷歌帶來(lái)最新成果LIMoE,首次將稀疏化方法用在了圖像文本混合模型上。
要知道,隨著大模型參數(shù)呈指數(shù)級(jí)增加,訓(xùn)練成本也是一路飆升。
所以如何降低訓(xùn)練成本,成為了目前學(xué)界重點(diǎn)關(guān)注的一個(gè)問(wèn)題。
谷歌想到的辦法,不是拼硬件,而是從模型本身入手。
利用稀疏化的方法,讓每次輸入只需激活部分網(wǎng)絡(luò)就能完成任務(wù)。
它們?cè)谀P蛢?nèi)部設(shè)置了很多“專(zhuān)家”,每個(gè)“專(zhuān)家”只需處理對(duì)應(yīng)部分的輸入,根據(jù)任務(wù)情況按需使用“專(zhuān)家”就好。
這樣一來(lái),盡管模型容量很大,但是計(jì)算成本并沒(méi)有暴增。
而且還不會(huì)降低性能。
新方法LIMoE零樣本學(xué)習(xí)任務(wù)中,可是直接超越了CLIP。
怪不得網(wǎng)友高呼:
快分享給我們API!
讓不同“專(zhuān)家”處理不同任務(wù)
對(duì)于深度學(xué)習(xí)來(lái)說(shuō),能同時(shí)處理文本圖像任務(wù)其實(shí)已經(jīng)不稀奇。
不過(guò)過(guò)去常見(jiàn)的多模態(tài)學(xué)習(xí)方法,往往是單個(gè)輸入就需要激活整個(gè)網(wǎng)絡(luò)。
谷歌這次提出的新方法,最大亮點(diǎn)就是首次在這一領(lǐng)域采用了稀疏化模型。
稀疏化的方法便是無(wú)需讓整個(gè)模型來(lái)處理所有的輸入。
通過(guò)對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行劃分,它讓神經(jīng)網(wǎng)絡(luò)也“專(zhuān)業(yè)對(duì)口”,不同的子模型只處理固定類(lèi)型的任務(wù)或數(shù)據(jù)。
但也不是完全割裂開(kāi)來(lái),模型內(nèi)部仍有可共享的部分。
此次基于的模型是MoE(Mixture-of-Experts layer),它被稱(chēng)為專(zhuān)家混合模型。
也就是在Transformer架構(gòu)的基礎(chǔ)上,加設(shè)了“專(zhuān)家層”。
它是一個(gè)并行的FNN,取代了原本的前饋網(wǎng)絡(luò)。
這里的“專(zhuān)家”,也就是模型內(nèi)部的不同子模型。
每個(gè)子模型專(zhuān)門(mén)用于不同的輸入。
每一層中的專(zhuān)家由門(mén)控網(wǎng)絡(luò)控制,該網(wǎng)絡(luò)根據(jù)輸入數(shù)據(jù)激活專(zhuān)家。
對(duì)于每個(gè)標(biāo)記,門(mén)控網(wǎng)絡(luò)選擇最合適的專(zhuān)家來(lái)處理數(shù)據(jù)。
此次新提出的LIMoE,其實(shí)就是讓MoE能同時(shí)處理圖像文本。
具體來(lái)看,就是讓LIMoE進(jìn)行對(duì)比學(xué)習(xí)。
在利用大量圖像-文本對(duì)訓(xùn)練時(shí),網(wǎng)絡(luò)內(nèi)部的圖像模型提取圖像表示,文本模型提取文本表示。
針對(duì)相同的圖像-文本對(duì),模型會(huì)拉近圖像和文本表示的距離。
反之,對(duì)于不同的圖像-文本對(duì),則會(huì)讓相應(yīng)的表示彼此遠(yuǎn)離。
這樣一來(lái)的直接好處,就是能實(shí)現(xiàn)零樣本學(xué)習(xí)。
比如一張圖像的表示更接近文本“狗”的表示,那么它就會(huì)被歸類(lèi)為狗。
這種思路可以擴(kuò)展到數(shù)千種情況。
實(shí)際上,CLIP和ALIGAN采用的都是這個(gè)思路,它們?cè)贗mageNet數(shù)據(jù)集上的精度分別是76.2%、76.4%。
而LIMoE-L/16可以達(dá)到78.6%,已經(jīng)超過(guò)了CLIP。
未經(jīng)過(guò)預(yù)訓(xùn)練的LIMoE H/14則能達(dá)到84.1%的精度。
而在LIMoE的專(zhuān)家層中,谷歌表示還發(fā)現(xiàn)了一些有趣的現(xiàn)象。
比如在訓(xùn)練設(shè)置中,圖像標(biāo)記比文本標(biāo)記要多很多,因此所有專(zhuān)家都會(huì)在在任務(wù)中多少處理些圖像。
只不過(guò)有的會(huì)主要處理圖像,有的主要處理文本,或者二者兼具。
還有在大多數(shù)情況下,都會(huì)有一個(gè)專(zhuān)家來(lái)處理所有包含文本表示的圖像patch。
除了性能上的提升,使用稀疏化模型的好處還體現(xiàn)在降低計(jì)算成本上。
因?yàn)椤岸鄬?zhuān)家”的模式意味著,盡管多設(shè)了很多子模型,模型容量顯著增加,但是實(shí)際計(jì)算成本并沒(méi)有明顯變化。
如果一次任務(wù)中只使用了一個(gè)子模型,那它的成本和標(biāo)準(zhǔn)Transformer的差不多。
比如LIMoE-H/14總共有5.6B參數(shù),但是通過(guò)稀疏化,它只會(huì)使用每個(gè)token的675M參數(shù)。
One More Thing
稀疏化模型一直是谷歌深度研究的一個(gè)方向,已經(jīng)提出了MoE、GLaM在內(nèi)的多個(gè)模型。
這次LIMoE也不是谷歌第一次魔改MoE。
去年6月,他們提出了V-MoE,是一種新型的視覺(jué)架構(gòu),今年已將全部代碼開(kāi)源。
參考鏈接:
https://ai.googleblog.com/2022/06/limoe-learning-multiple-modalities-with.html
— 完 —
量子位 QbitAI · 頭條號(hào)簽約
關(guān)注我們,第一時(shí)間獲知前沿科技動(dòng)態(tài)
好了,這篇文章的內(nèi)容發(fā)貨聯(lián)盟就和大家分享到這里,如果大家網(wǎng)絡(luò)推廣引流創(chuàng)業(yè)感興趣,可以添加微信:80709525 備注:發(fā)貨聯(lián)盟引流學(xué)習(xí); 我拉你進(jìn)直播課程學(xué)習(xí)群,每周135晚上都是有實(shí)戰(zhàn)干貨的推廣引流技術(shù)課程免費(fèi)分享!