亚洲精品亚洲人成在线观看麻豆,在线欧美视频一区,亚洲国产精品一区二区动图,色综合久久丁香婷婷

              當(dāng)前位置:首頁 > IT技術(shù) > Web編程 > 正文

              NetAug 韓松團(tuán)隊(duì)新作
              2021-10-28 15:29:35

              【GiantPandaCV導(dǎo)語】本文介紹的是韓松團(tuán)隊(duì)針對(duì)欠擬合問題提出的一種解決方案,在代價(jià)可接受范圍內(nèi)能夠提升小模型的性能。

              引入

              專用于解決小型網(wǎng)絡(luò)模型欠擬合 帶來的問題,通過引入更大的模型包圍住小模型從而得到額外的監(jiān)督信息。欠擬合情況下使用正則化方法進(jìn)行處理會(huì)導(dǎo)致性能更差。

              NetAug適用場景:

              • 數(shù)據(jù)集量比較大

              • 模型參數(shù)量相對(duì)而言比較小

              • 由于模型容量有限導(dǎo)致的欠擬合問題

              問題明確

              • 與知識(shí)蒸餾區(qū)別:

              知識(shí)蒸餾相當(dāng)于學(xué)習(xí)一個(gè)soft label(或者說learned label smoothing), 而NetAug主要強(qiáng)調(diào)處理欠擬合問題,通過增強(qiáng)小模型的模型寬度來獲取更多監(jiān)督信息。

              • 與普通正則化方法區(qū)別:

              正則化方法有數(shù)據(jù)增強(qiáng)方法(Cutout,Mixup,AutoAug,RandAug)和Dropout系列(Dropout,StochasticDepth, SpatialDropout,DropBlock)。與這些解決過擬合正則化方法不同,NetAug主要關(guān)注欠擬合問題,進(jìn)行數(shù)據(jù)增強(qiáng)反而會(huì)導(dǎo)致欠擬合問題。

              核心方法

              如上圖所示,訓(xùn)練的過程中會(huì)引入比原先小模型更寬的一系列網(wǎng)絡(luò),用寬網(wǎng)絡(luò)的監(jiān)督信號(hào)來增強(qiáng)小模型的學(xué)習(xí)。

              第一項(xiàng)是訓(xùn)練單個(gè)小網(wǎng)絡(luò)需要的loss, 第二項(xiàng)是寬網(wǎng)絡(luò)帶來的輔助監(jiān)督信息,其中$alpha_i
              $是縮放系數(shù)

              寬網(wǎng)絡(luò)獲取方式:augmentation factor r和diversity factor s兩個(gè)系數(shù)。

              • r 是用于選擇最寬的邊界,假設(shè)基礎(chǔ)寬度為w,那么寬度選擇范圍為【w, rxw】

              • s則是控制采樣頻率,從w到rxw等距采樣s個(gè)寬模型。

              訓(xùn)練過程:

              實(shí)際訓(xùn)練過程權(quán)重更新如下:

              [W_{t}^{n+1}=W_{t}^{n}-etaleft(frac{partial mathcal{L}left(W_{t}^{n} ight)}{partial W_{t}^{n}}+alpha frac{partial mathcal{L}left(left[W_{t}^{n}, W_{i}^{n} ight] ight)}{partial W_{t}^{n}} ight) ]

              每次權(quán)重更新只訓(xùn)練小網(wǎng)絡(luò)和單個(gè)寬網(wǎng)絡(luò),這樣可以降低計(jì)算代價(jià),并且通過實(shí)驗(yàn)發(fā)現(xiàn),沒必要同時(shí)采樣多個(gè)寬網(wǎng)絡(luò)進(jìn)行訓(xùn)練,那樣會(huì)導(dǎo)致性能的下降。

              通過以上改進(jìn)為欠擬合小模型帶來了一定的收益,同時(shí)訓(xùn)練開銷僅增大了17%

              實(shí)驗(yàn)

              首先,論文為了證明NetAug和蒸餾方法是不相等的(正交),設(shè)計(jì)了一系列實(shí)驗(yàn)。

              最優(yōu)模型實(shí)際上是同時(shí)使用了知識(shí)蒸餾和NetAug的方案。

              為了證明NetAug作用在欠擬合模型,設(shè)計(jì)了以下實(shí)驗(yàn):

              ProxylessNAS Mobile, MCUNet,MobileNetv2都是小模型,在這些小模型上使用NetAug均可以取得不錯(cuò)的提升。但是在比較大的模型ResNet50上,不存在欠擬合的問題,所以起到了反作用。

              為了證明NetAug和其他正則化方法不同,設(shè)計(jì)了以下實(shí)驗(yàn)。

              可以發(fā)現(xiàn),在使用KD情況下加入正則化會(huì)導(dǎo)致性能下降。

              但是使用KD情況下,采用NetAug會(huì)使得精度進(jìn)一步提升。

              在目標(biāo)檢測算法中應(yīng)用:

              總結(jié)

              圖源https://zhuanlan.zhihu.com/p/72038532

              針對(duì)過擬合有很多耳熟能詳?shù)奶幚聿呗?,比如Dropout,數(shù)據(jù)增強(qiáng),增加數(shù)據(jù),控制模型復(fù)雜度,正則化等。

              而針對(duì)模型容量不足帶來的欠擬合問題,通常采用的是增加模型容量,或者增加特征表示。

              本文針對(duì)欠擬合問題提出了一種更優(yōu)的解法,在保證模型大小不變的情況下,提升小模型的實(shí)際性能,具有很高的價(jià)值(缺點(diǎn)是實(shí)現(xiàn)起來比較復(fù)雜)。

              本文摘自 :https://www.cnblogs.com/

              開通會(huì)員,享受整站包年服務(wù)立即開通 >