最近最新中文字幕视频,欧美中文日本系列88v

長(zhǎng)尾視覺(jué)識(shí)別方案解讀

2020-11-25 15:49

導(dǎo)讀：在NeurIPS 2020上，商湯新加坡團(tuán)隊(duì)提出的Balanced－Meta Softmax （BALMS），針對(duì)真實(shí)世界中常見(jiàn)的長(zhǎng)尾數(shù)據(jù)分布提出了新的視覺(jué)識(shí)別方案。在優(yōu)化目標(biāo)方面，BALMS 提出一種新的損失函數(shù)，Balanced Softmax，來(lái)修正長(zhǎng)尾設(shè)定下因訓(xùn)練與測(cè)試標(biāo)簽分布不同而導(dǎo)致的偏差。在優(yōu)化過(guò)程方面，BALMS提出 Meta Sampler來(lái)自動(dòng)學(xué)習(xí)最優(yōu)采樣率以配合Balanced Softmax，避免過(guò)平衡問(wèn)題。BALMS在長(zhǎng)尾圖像分類與長(zhǎng)尾實(shí)例分割的共四個(gè)數(shù)據(jù)集上取得SOTA表現(xiàn)。這項(xiàng)研究也被收錄為ECCV LVIS workshop的spotlight。
論文名稱： Balanced Meta－Softmax for Long－Tailed Visual Recognition

問(wèn)題和挑戰(zhàn)

真實(shí)世界中的數(shù)據(jù)分布大多符合長(zhǎng)尾分布：常見(jiàn)類比占據(jù)了數(shù)據(jù)集中的主要樣本，而大量的罕見(jiàn)類別只在數(shù)據(jù)集中少量出現(xiàn)。例如一個(gè)動(dòng)物圖片數(shù)據(jù)集中，寵物貓的圖片數(shù)量可能遠(yuǎn)遠(yuǎn)超過(guò)熊貓的圖片數(shù)量。

由于長(zhǎng)尾現(xiàn)象對(duì)算法落地造成了很大的挑戰(zhàn)，視覺(jué)社區(qū)對(duì)這一問(wèn)題的關(guān)注日漸增加，近年陸續(xù)推出了一些長(zhǎng)尾數(shù)據(jù)集，例如大規(guī)模實(shí)例分割數(shù)據(jù)集LVIS。我們發(fā)現(xiàn)長(zhǎng)尾問(wèn)題的難點(diǎn)主要存在于以下兩個(gè)方面：

1）優(yōu)化目標(biāo)。根據(jù)長(zhǎng)尾問(wèn)題的設(shè)定，訓(xùn)練集是類別不均衡的。然而主流的指標(biāo)，如mean AP （mAP），衡量全部類別上的平均精度，因此鼓勵(lì)算法在類別平衡的測(cè)試集上取得較好的表現(xiàn)。這導(dǎo)致了訓(xùn)練與測(cè)試時(shí)標(biāo)簽分布不同的問(wèn)題，我們稱之為標(biāo)簽分布遷移。

2）優(yōu)化過(guò)程。罕見(jiàn)類別在模型訓(xùn)練過(guò)程中很少出現(xiàn)，因此無(wú)法在優(yōu)化過(guò)程中提供足夠的梯度。這使得即使我們有了一個(gè)較好的優(yōu)化目標(biāo)，也很難使模型收斂到對(duì)應(yīng)的全局最優(yōu)。

方法介紹

1． Balanced Softmax

Softmax函數(shù)常常被用來(lái)將模型輸出轉(zhuǎn)化為物體屬于每個(gè)類別的條件概率。

應(yīng)用貝葉斯定理可以發(fā)現(xiàn)常規(guī)的Softmax回歸會(huì)受到標(biāo)簽分布遷移的影響，并作出帶偏差的估計(jì)。這個(gè)偏差導(dǎo)致Softmax回歸出的分類器更傾向于認(rèn)為樣本屬于常見(jiàn)類別。

舉一個(gè)簡(jiǎn)單的例子，考慮這樣一個(gè)任務(wù)：通過(guò)性別來(lái)分類貓和狗。這個(gè)任務(wù)看起來(lái)是無(wú)法完成的，因?yàn)槲覀冎佬詣e在貓和狗上是均勻分布的。無(wú)論貓還是狗，都有50％的可能性是雌性和50％的可能性是雄性，因此只靠性別我們無(wú)法區(qū)別貓和狗。

有趣的是，當(dāng)我們的訓(xùn)練數(shù)據(jù)是類別不平衡的時(shí)，比如有90％的貓和10％的狗，我們的估計(jì)就會(huì)出現(xiàn)偏差：這時(shí)無(wú)論是雄性還是雌性，我們都會(huì)傾向于認(rèn)為它是一只貓。在這樣的訓(xùn)練數(shù)據(jù)上學(xué)習(xí)到的分類器就會(huì)天然帶有對(duì)常見(jiàn)類別的偏愛(ài)。

為了避免這個(gè)偏差，我們從多項(xiàng)分布的Exponential Family形式出發(fā)重新對(duì)Softmax進(jìn)行了推導(dǎo)并顯式考慮了標(biāo)簽分布遷移，得到了適合長(zhǎng)尾問(wèn)題的Balanced Softmax。同時(shí)，我們發(fā)現(xiàn)Balanced Softmax可以近似地最小化長(zhǎng)尾設(shè)定下的泛化錯(cuò)誤上界。

為了分析Balanced Softmax的效果，我們將模型在測(cè)試集上預(yù)測(cè)的分?jǐn)?shù)在每個(gè)類別上累加，用來(lái)計(jì)算模型預(yù)測(cè)的標(biāo)簽分布。理想情況下，模型在測(cè)試集上預(yù)測(cè)出的標(biāo)簽分布應(yīng)該是平衡的。在下圖中我們對(duì)不同模型的預(yù)測(cè)類別進(jìn)行了可視化，類別按照出現(xiàn)頻率降序排列，第0類為出現(xiàn)次數(shù)最多的類。我們發(fā)現(xiàn)藍(lán)色線代表的常規(guī)Softmax明顯地偏向于常見(jiàn)類別，橙色線代表的Equalization Loss ［1］通過(guò)去除某閾值以下罕見(jiàn)類別的負(fù)樣本梯度緩解了這一問(wèn)題，而紅色線代表的Balanced Softmax則進(jìn)一步達(dá)到了最平衡的預(yù)測(cè)類別分布。

2．元采樣器Meta Sampler

雖然我們得到了一個(gè)適合長(zhǎng)尾問(wèn)題的理想的優(yōu)化目標(biāo)，優(yōu)化過(guò)程本身依然充滿挑戰(zhàn)：罕見(jiàn)類別只能在訓(xùn)練中出現(xiàn)極少次數(shù)，因此無(wú)法很好地貢獻(xiàn)到訓(xùn)練梯度。解決這一問(wèn)題的最常見(jiàn)的方法是類別均衡采樣（CBS）［2］，也就是對(duì)每個(gè)類別采樣同樣數(shù)量的樣本來(lái)組成訓(xùn)練批次。然而，實(shí)驗(yàn)表明直接將Balanced Softmax與CBS一起使用會(huì)導(dǎo)致模型表現(xiàn)下降，于是我們對(duì)兩者一起使用時(shí)的梯度進(jìn)行了分析。在假設(shè)接近收斂時(shí)，我們有：

理想情況下每個(gè)類別的梯度的權(quán)重應(yīng)和類別內(nèi)樣本數(shù)量成反比，但上式中的權(quán)重為和類別內(nèi)樣本數(shù)量成平方反比。我們將這個(gè)現(xiàn)象稱為過(guò)平衡問(wèn)題。

下圖展示了一個(gè)對(duì)過(guò)平衡問(wèn)題的可視化。這是一個(gè)類別不平衡的二維數(shù)據(jù)三分類問(wèn)題，三個(gè)類別分別為紅、黃、藍(lán)，樣本數(shù)量分別為10000、100和1�？梢园l(fā)現(xiàn)Balanced Softmax和CBS一起使用時(shí)，優(yōu)化過(guò)程會(huì)被藍(lán)色的罕見(jiàn)類別主導(dǎo)。

為了解決過(guò)平衡問(wèn)題，我們提出了Meta Sampler（元采樣器），一種可學(xué)習(xí)版本的CBS。Meta Sampler使用元學(xué)習(xí)的方法，顯式地學(xué)習(xí)當(dāng)前最佳的采樣率，從而更好地配合Balanced Softmax的使用。

下圖展示了我們對(duì)不同模型預(yù)測(cè)的標(biāo)簽分布進(jìn)行的可視化。其中，紫色線代表的Balanced Softmax與CBS的組合由于過(guò)平衡問(wèn)題，明顯地偏向于尾部類別。而紅色線代表的Balanced Softmax與Meta Sampler的組合則很好地解決了這一問(wèn)題，最終取得了最為均衡的標(biāo)簽分布。

實(shí)驗(yàn)結(jié)果

我們?cè)趫D像分類（CIFAR－10／100－LT，ImageNet－LT，Places－LT）與實(shí)例分割（LVIS－v0．5）兩個(gè)任務(wù)上分別進(jìn)行了實(shí)驗(yàn)驗(yàn)證。實(shí)驗(yàn)結(jié)果顯示了Balanced Softmax和Meta Sampler對(duì)模型表現(xiàn)都有明顯的貢獻(xiàn)。兩者的組合，Balanced Meta－Softmax （BALMS），在這兩個(gè)任務(wù)上都達(dá)到或超過(guò)了SOTA結(jié)果，尤其在最具挑戰(zhàn)性的LVIS數(shù)據(jù)集上大幅超過(guò)了之前的SOTA結(jié)果。
這項(xiàng)研究也被收錄為ECCV LVIS workshop的Spotlight，關(guān)于LVSI－v1．0的相關(guān)實(shí)驗(yàn)結(jié)果可以在LVSI workshop主頁(yè)上找到（Team Innova）。

結(jié)語(yǔ)

BALMS對(duì)長(zhǎng)尾問(wèn)題下的概率建模以及采樣策略進(jìn)行了探討。我們發(fā)現(xiàn)常用的Softmax回歸在存在標(biāo)簽分布遷移時(shí)會(huì)出現(xiàn)估計(jì)偏差，并提出了Balanced Softmax來(lái)避免這個(gè)偏差。另一方面，我們發(fā)現(xiàn)類別均衡采樣器在與Balanced Softmax一起使用時(shí)會(huì)導(dǎo)致過(guò)平衡問(wèn)題，于是提出元采樣器來(lái)顯式學(xué)習(xí)最優(yōu)采樣策略。我們的解決方案在長(zhǎng)尾圖像分類與長(zhǎng)尾實(shí)例分割任務(wù)上均得到了驗(yàn)證。歡迎關(guān)注我們的開(kāi)源代碼庫(kù)，希望BALMS可以成為未來(lái)長(zhǎng)尾學(xué)習(xí)的良好基線。

References

［1］ Jingru Tan， Changbao Wang， Buyu Li， Quanquan Li， Wanli Ouyang， Changqing Yin， and Junjie Yan． Equalization loss for long－tailed object recognition． In Proceedings of the IEEE／CVF Conference on Computer Vision and Pattern Recognition （CVPR）， June 2020．

［2］ Bingyi Kang， Saining Xie， Marcus Rohrbach， Zhicheng Yan， Albert Gordo， Jiashi Feng， and Yannis Kalantidis． Decoupling representation and classifier for long－tailed recognition． International Conference on Learning Representations， abs／1910．09217， 2020．