近日,香港中文大學(xué)(深圳)數(shù)據(jù)科學(xué)學(xué)院師生共18篇論文被機(jī)器學(xué)習(xí)和計(jì)算神經(jīng)科學(xué)領(lǐng)域的頂級(jí)國(guó)際會(huì)議神經(jīng)信息處理系統(tǒng)大會(huì)?2022(Conference on Neural Information Processing Systems,簡(jiǎn)稱(chēng)NeurIPS或NIPS)接收。論文來(lái)自數(shù)據(jù)科學(xué)學(xué)院12位教授(樊繼聰、李海洲、李肖、羅智泉、Andre Milzarek、孫若愚、王本友、吳保元、謝李巖、嚴(yán)明、查宏遠(yuǎn)、張瑞茂)、1位博士后(郭丹丹)和1位博士生(張雨舜)。NeurIPS 2022共收到10411篇論文投稿,錄取率為25.6%。本文將為您簡(jiǎn)要介紹我校被接收的18篇論文。

NeurlPS簡(jiǎn)介

神經(jīng)信息處理系統(tǒng)大會(huì)(簡(jiǎn)稱(chēng)NeurIPS或NIPS)是機(jī)器學(xué)習(xí)和計(jì)算神經(jīng)科學(xué)領(lǐng)域的頂尖國(guó)際會(huì)議。在中國(guó)計(jì)算機(jī)學(xué)會(huì)的國(guó)際學(xué)術(shù)會(huì)議排名中,NeurIPS是人工智能領(lǐng)域的A類(lèi)學(xué)術(shù)會(huì)議。大會(huì)討論的內(nèi)容包含深度學(xué)習(xí)、計(jì)算機(jī)視覺(jué)、大規(guī)模機(jī)器學(xué)習(xí)、學(xué)習(xí)理論、優(yōu)化、稀疏理論等眾多細(xì)分領(lǐng)域。該會(huì)議固定在每年的12月舉行, 由NIPS基金會(huì)主辦,今年是該會(huì)議舉辦的第36屆,將于11月28日至12月9日舉行,為期兩周。本屆會(huì)議采用混合模式,第一周將在美國(guó)新奧爾良會(huì)議中心舉行線(xiàn)下會(huì)議,第二周為線(xiàn)上會(huì)議。

來(lái)源:NeurIPS官網(wǎng)、百度百科

18篇論文的詳細(xì)介紹如下? ?:

(文章按學(xué)院教授和學(xué)生姓名首字母排序)

1.?A Simple Approach to Automated Spectral Clustering

作者:

Jicong Fan, Zhao Zhang, Yiheng Tu, Mingbo Zhao, Haijun Zhang

簡(jiǎn)介:

傳統(tǒng)的自動(dòng)機(jī)器學(xué)習(xí)方法都是為有監(jiān)督學(xué)習(xí)任務(wù)提出的,本論文研究自動(dòng)無(wú)監(jiān)督機(jī)器學(xué)習(xí),提出了一種自動(dòng)譜聚類(lèi)方法, 能夠自動(dòng)選擇構(gòu)造鄰接矩陣的模型、調(diào)節(jié)超參數(shù),并能擴(kuò)展于大規(guī)模聚類(lèi)問(wèn)題。本論文證明了所提指標(biāo)relative-eigen-gap的有效性以及(核)最小二乘回歸在構(gòu)造鄰接矩陣時(shí)的有效性。

鏈接:

https://arxiv.org/abs/2107.12183v4

?

2.?Perturbation Learning Based Anomaly Detection

作者:

Jinyu Cai,?Jicong Fan

簡(jiǎn)介:

論文提出了一種基于擾動(dòng)學(xué)習(xí)異常檢測(cè)方法。該方法利用訓(xùn)練數(shù)據(jù)(正常)學(xué)習(xí)一個(gè)擾動(dòng)器給正常數(shù)據(jù)添加擾動(dòng)以生成異常數(shù)據(jù),同時(shí)學(xué)習(xí)一個(gè)判別器能夠區(qū)別正常數(shù)據(jù)和生成的異常數(shù)據(jù)。該方法不需要對(duì)正常數(shù)據(jù)的分布進(jìn)行任何假設(shè),在多個(gè)基準(zhǔn)數(shù)據(jù)集上取得了最好的效果。

鏈接:

https://arxiv.org/abs/2206.02704

?

3.?Learning to Re-weight Examples with Optimal Transport for Imbalanced Classification

作者:

Dandan Guo, Zhuo Li, Meixi Zheng, He Zhao, Mingyuan Zhou,?Hongyuan Zha

簡(jiǎn)介:

深度學(xué)習(xí)模型在很多分類(lèi)任務(wù)上取得了極大的成功,這種成功與高質(zhì)量、平衡的訓(xùn)練數(shù)據(jù)集是密不可分的。然而現(xiàn)實(shí)應(yīng)用中經(jīng)常存在不平衡的訓(xùn)練數(shù)據(jù)集,對(duì)深度學(xué)習(xí)模型的訓(xùn)練造成極大挑戰(zhàn)。

本文針對(duì)不平衡分類(lèi)任務(wù),提出了一種基于最優(yōu)傳輸(OT)的自動(dòng)重加權(quán)方法。該方法將不平衡訓(xùn)練集表示為關(guān)于訓(xùn)練樣本的可學(xué)習(xí)分布,每個(gè)訓(xùn)練樣本都有對(duì)應(yīng)的采樣概率。類(lèi)似地,我們將另一個(gè)平衡的元集視為平衡分布。通過(guò)最小化兩個(gè)分布之間的OT距離,將權(quán)重向量的學(xué)習(xí)表示為一個(gè)分布近似問(wèn)題。我們提出的重加權(quán)方法繞過(guò)了現(xiàn)有方法采用的分類(lèi)損失,使用OT作為損失函數(shù)來(lái)學(xué)習(xí)權(quán)重,在每次迭代中消除了權(quán)重學(xué)習(xí)對(duì)相關(guān)分類(lèi)器的依賴(lài)。這種方法不同于大多數(shù)現(xiàn)有的重加權(quán)方法,可能為未來(lái)的工作提供新的思路。在各種圖像、文本和點(diǎn)云的不平衡數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果驗(yàn)證了該方法的有效性和靈活性。

鏈接:

https://arxiv.org/abs/2208.02951v1

?

4.?Adaptive Distribution Calibration for Few-Shot Learning with Hierarchical Optimal Transport

作者:

Dandan Guo, Long Tian, He Zhao, Mingyuan Zhou,?Hongyuan Zha

簡(jiǎn)介:

機(jī)器學(xué)習(xí)中小樣本分類(lèi)的目的是學(xué)習(xí)一個(gè)分類(lèi)器,使其在測(cè)試階段識(shí)別訓(xùn)練階段未見(jiàn)過(guò)的類(lèi),此時(shí)測(cè)試階段的有標(biāo)簽樣本數(shù)量較少,模型很容易發(fā)生過(guò)擬合。解決該問(wèn)題的一個(gè)最新方案是轉(zhuǎn)移基類(lèi)的統(tǒng)計(jì)信息來(lái)校準(zhǔn)這些新的小樣本類(lèi)的分布,其中如何決定從基類(lèi)到新類(lèi)的轉(zhuǎn)移權(quán)值是關(guān)鍵。目前,該問(wèn)題尚未得到深入研究。為此,我們提出了一種新的層次最優(yōu)傳輸(H-OT)算法,來(lái)學(xué)習(xí)新樣本和基類(lèi)之間的自適應(yīng)權(quán)重矩陣。通過(guò)最小化新樣本與基類(lèi)之間的High-level OT距離,我們可以將學(xué)習(xí)到的傳輸概率視為自適應(yīng)傳輸矩陣。

此外,我們又引入了Low-level OT,此時(shí)考慮了基類(lèi)中所有數(shù)據(jù)樣本的權(quán)重,并用Low-level OT中學(xué)到的距離來(lái)定義High-level OT的傳輸代價(jià)。在標(biāo)準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,我們提出的即插即用模型優(yōu)于競(jìng)爭(zhēng)方法,并具有良好的跨域泛化能力,表明了學(xué)習(xí)到的自適應(yīng)權(quán)值的有效性。

鏈接:

https://arxiv.org/abs/2107.12183v4

?

5.?Training Spiking Neural Networks with Local Tandem Learning

作者:

Qu Yang, Jibin Wu, Malu Zhang, Yansong Chua, Xinchao Wang,?Haizhou Li

簡(jiǎn)介:

本文研究一個(gè)新的脈沖神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法。此算法基于遷移學(xué)習(xí)的理論,將傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)結(jié)果遷移到脈沖神經(jīng)網(wǎng)絡(luò)中,充分地利用了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的強(qiáng)大學(xué)習(xí)能力和脈沖神經(jīng)網(wǎng)絡(luò)的高效計(jì)算,完成多種模式識(shí)別任務(wù)。本研究為類(lèi)腦計(jì)算的低功耗實(shí)現(xiàn)提出了新的解決方案。

?

6.?A Unified Convergence Theorem for Stochastic Optimization Methods

作者:

Xiao Li, Andre Milzarek

簡(jiǎn)介:

本論文針對(duì)一般的隨機(jī)優(yōu)化方法提出了一個(gè)統(tǒng)一的收斂性定理的證明框架,其中收斂性主要指迭代最終步的梯度范數(shù)依期望收斂或者幾乎必然收斂到0。本項(xiàng)工作的意義主要在于兩點(diǎn):

(1) 不同于已有的復(fù)雜度類(lèi)型的結(jié)果,我們討論的方法與實(shí)際應(yīng)用更為貼合,例如迭代步長(zhǎng)的選取不依賴(lài)于迭代總步數(shù),探討的收斂性針對(duì)最后一迭代的梯度而非所有迭代在某種平均下的梯度或者所有迭代的梯度的最小值,這一點(diǎn)尤其重要,因?yàn)殡S機(jī)算法在迭代過(guò)程中并不會(huì)計(jì)算全梯度,并且算法通常會(huì)返回最后一次迭代,所以,只有估計(jì)最后一次迭代的梯度范數(shù)的表現(xiàn)才是最有意義的。

(2) 當(dāng)下已有的一些類(lèi)似的收斂性結(jié)果通常只針對(duì)某類(lèi)特殊的算法,我們對(duì)于一般的隨機(jī)優(yōu)化算法提出了通用的證明框架,使用者只需要驗(yàn)證算法是否滿(mǎn)足若干典型條件即可。我們運(yùn)用這一收斂框架在更弱的假設(shè)下重現(xiàn)了stochastic gradient method (SGD) 和random reshuffling (RR) 的收斂性證明,并且對(duì)更復(fù)雜的stochastic proximal gradient method (prox-SGD)?和stochastic model-based methods (SMM) 兩種算法也得到了依期望收斂和幾乎必然收斂的結(jié)果。

該文章中所提出的統(tǒng)一收斂框架有望被廣泛應(yīng)用于其他隨機(jī)算法,例如Momentum SGD和STORM等。

鏈接:

https://arxiv.org/abs/2206.03907

?

7.?DigGAN: Discriminator gradIent Gap Regularization for GAN Training with Limited Data

作者:

Tiantian Fang,?Ruoyu Sun, Alex Schwing

簡(jiǎn)介:

生成對(duì)抗網(wǎng)絡(luò)(GAN)在學(xué)習(xí)從給定數(shù)據(jù)集指定的分布中進(jìn)行采樣方面取得了顯著成功,特別是在數(shù)據(jù)比較多的情況下。然而,當(dāng)數(shù)據(jù)有限時(shí),傳統(tǒng)的GAN表現(xiàn)不佳,而輸出正則化、數(shù)據(jù)增強(qiáng)、使用預(yù)訓(xùn)練模型和修剪等策略已被證明可以帶來(lái)改進(jìn)。值得注意的是,這些策略的適用性通常受限于特定設(shè)置,例如需要預(yù)訓(xùn)練GAN、訓(xùn)練時(shí)間足夠多或使用剪枝。我們提出了一個(gè)判別器梯度間隙正則化 GAN(DigGAN)公式,它可以添加到任何現(xiàn)有的GAN中。DigGAN通過(guò)鼓勵(lì)縮小鑒別器預(yù)測(cè)的梯度范數(shù)之間的差距來(lái)增強(qiáng)現(xiàn)有的GAN。我們觀(guān)察到這個(gè)公式是為了避免GAN損失領(lǐng)域中的不良吸引子,并且我們發(fā)現(xiàn)DigGAN在可用數(shù)據(jù)有限時(shí)顯著改善了GAN訓(xùn)練的結(jié)果。

?

8.?Does Momentum Change the Implicit Regularization on Separable Data?

作者:

Bohan Wang, Qi Meng, Huishuai Zhang,?Ruoyu Sun,?Wei Chen, Zhi-Ming Ma, Tie-Yan Liu

簡(jiǎn)介:

動(dòng)量加速技術(shù)在許多優(yōu)化算法中被廣泛采用。然而,關(guān)于動(dòng)量如何影響優(yōu)化算法的泛化性能,目前還沒(méi)有理論答案。本文通過(guò)分析基于動(dòng)量?jī)?yōu)化的隱式正則化來(lái)研究這個(gè)問(wèn)題。我們證明,在具有可分離數(shù)據(jù)和指數(shù)尾損失的線(xiàn)性分類(lèi)問(wèn)題上,動(dòng)量梯度下降 (GDM) 收斂到 $L^2$ 最大邊距的解,這與普通梯度下降相同。這意味著具有動(dòng)量加速的梯度下降仍然會(huì)收斂到一個(gè)低復(fù)雜度的模型,這保證了它們的泛化性。然后,我們分析 GDM 的隨機(jī)和自適應(yīng)變體(即SGDM和確定性Adam),并表明它們也收斂到 $L^2$ 最大邊距的解。從技術(shù)上講,為了克服動(dòng)量分析中誤差累積的困難,我們構(gòu)造了新的勢(shì)函數(shù)來(lái)分析模型參數(shù)和最大邊距解之間的差距。數(shù)值實(shí)驗(yàn)支持了我們的理論結(jié)果。

鏈接:

https://arxiv.org/abs/2110.03891

?

9.?Stability Analysis and Generalization Bounds of Adversarial Training

作者:

Jiancong Xiao, Yanbo Fan,?Ruoyu Sun, Jue Wang,?Zhi-Quan Luo

簡(jiǎn)介:

在對(duì)抗機(jī)器學(xué)習(xí)場(chǎng)景下,神經(jīng)網(wǎng)絡(luò)可以很好地?cái)M合訓(xùn)練集上的對(duì)抗樣本,但是無(wú)法很好地泛化到測(cè)試集上的對(duì)抗樣本,這個(gè)現(xiàn)象叫做魯棒過(guò)擬合(robust overfitting)。這篇文章從一致穩(wěn)定性(uniform stability)的角度分析這一個(gè)現(xiàn)象。然而,由于對(duì)抗訓(xùn)練的損失函數(shù)不光滑,現(xiàn)有的基于光滑損失函數(shù)的一致穩(wěn)定性分析無(wú)法應(yīng)用到對(duì)抗訓(xùn)練場(chǎng)景。針對(duì)這個(gè)問(wèn)題,我們首先定義近似光滑性并證明對(duì)抗損失函數(shù)滿(mǎn)足近似光滑性。然后我們構(gòu)建了針對(duì)近似光滑性的一致穩(wěn)定性框架,在我們的框架下,我們給出了對(duì)抗訓(xùn)練的一致穩(wěn)定性分析和泛化誤差上下界。

我們從理論上證明了,如果使用攻擊強(qiáng)度為eps的對(duì)抗樣本進(jìn)行對(duì)抗訓(xùn)練當(dāng)訓(xùn)練輪數(shù)T過(guò)大,魯棒測(cè)試誤差會(huì)以一個(gè)O(eps T)與O(eps sqrt(T))之間的速度的上升。我們的理論指出魯棒過(guò)擬合可能是由對(duì)抗損失函數(shù)的近似光滑性導(dǎo)致的。我們?cè)诔R?guī)數(shù)據(jù)集(如CIFAR-10,ImageNet)上驗(yàn)證了我們的理論。另外,基于我們的分析框架下,我們計(jì)算了一些常用的的對(duì)抗訓(xùn)練技術(shù)(如循環(huán)學(xué)習(xí)率,隨機(jī)權(quán)重平均等)的泛化誤差上界,并證明了它們能從一定程度上緩解魯棒過(guò)擬合。

鏈接:

https://arxiv.org/abs/2210.00960

?

10.?MorphTE: Injecting Morphology in Tensorized Embeddings?

作者:

Guobing Gan, Peng Zhang, Sunzhu Li, Xiuqing Lu,?Benyou Wang

簡(jiǎn)介:

在深度學(xué)習(xí)時(shí)代,詞嵌入在處理文本任務(wù)時(shí)是必不可少的。但是,存儲(chǔ)這些嵌入需要大量空間,這對(duì)資源有限的設(shè)備上的部署不友好。結(jié)合張量積強(qiáng)大的壓縮能力,我們提出了一種帶有形態(tài)增強(qiáng)的詞嵌入壓縮方法,詞素(Morphology)增強(qiáng)張量嵌入(MorphTE)。一個(gè)詞由一個(gè)或多個(gè)詞素組成,詞素是具有意義或具有語(yǔ)法功能的最小單位。MorphTE 通過(guò)張量積將詞嵌入表示為其語(yǔ)素向量的張量積形式,將先驗(yàn)的構(gòu)詞知識(shí)注入到詞嵌入的學(xué)習(xí)中。此外,詞素向量的維數(shù)和詞素的數(shù)量相比詞向量維度和詞的個(gè)數(shù)小得多,這大大減少了詞嵌入的參數(shù)。我們對(duì)機(jī)器翻譯和問(wèn)答等任務(wù)進(jìn)行實(shí)驗(yàn)。在四個(gè)不同語(yǔ)言的翻譯數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,MorphTE 可以將詞嵌入?yún)?shù)壓縮約 20 倍而沒(méi)有性能損失,并且明顯優(yōu)于存在的嵌入壓縮方法。

鏈接:

https://wabyking.github.io/papers/MorphTE-NeurIPS2022.pdf

?

11.?Boosting the Transferability of Adversarial Attacks with Reverse Adversarial Perturbation

?

作者:

Zeyu Qin, Yanbo Fan, Yi Liu, Li Shen, Yong Zhang, Jue Wang,?Baoyuan Wu

簡(jiǎn)介:

我們已經(jīng)了解到深度神經(jīng)網(wǎng)絡(luò) (DNN) 非常容易受到對(duì)抗樣本的干擾,對(duì)抗樣本通過(guò)在原樣本上加入人眼難以察覺(jué)的擾動(dòng)來(lái)使模型產(chǎn)生錯(cuò)誤的預(yù)測(cè)。同時(shí),對(duì)抗樣本的遷移性使得其對(duì)模型架構(gòu)或參數(shù)未知的實(shí)際模型應(yīng)用構(gòu)成嚴(yán)重的威脅。因此,在這項(xiàng)工作中,我們著重研究對(duì)抗樣本的遷移性。許多現(xiàn)有的工作表明,對(duì)抗樣本可能會(huì)過(guò)度擬合產(chǎn)生其的替代模型,從而限制了針對(duì)不同目標(biāo)模型的遷移攻擊性能。為了減輕對(duì)抗樣本對(duì)于替代模型的過(guò)度擬合,我們提出了一種新的攻擊方法,稱(chēng)為反向?qū)箶_動(dòng)(RAP)。

具體來(lái)說(shuō),我們提出通過(guò)為樣本優(yōu)化過(guò)程的每一步注入最壞情況的擾動(dòng)(反向?qū)箶_動(dòng))來(lái)尋找位于具有局部統(tǒng)一較低損失值區(qū)域的對(duì)抗樣本,而不是簡(jiǎn)單追求單個(gè)對(duì)抗樣本點(diǎn)具有較低損失。因此,結(jié)合RA 產(chǎn)生對(duì)抗攻擊的過(guò)程可以被表述為一個(gè)最小-最大雙層優(yōu)化問(wèn)題。通過(guò)將RAP加入到產(chǎn)生攻擊樣本的迭代過(guò)程中,我們的方法可以找到更穩(wěn)定的對(duì)抗樣本,這些對(duì)抗樣本對(duì)模型決策邊界的變化不太敏感,從而減輕了對(duì)于替代模型的過(guò)度擬合。綜合實(shí)驗(yàn)比較表明,RAP可以顯著提高對(duì)抗遷移性。

此外,RAP可以很自然地與許多現(xiàn)有的黑盒遷移攻擊方法相結(jié)合,以進(jìn)一步提高方法的遷移性。在攻擊現(xiàn)實(shí)世界的圖像識(shí)別系統(tǒng)Google Cloud Vision API的實(shí)際實(shí)驗(yàn)中,與其他基線(xiàn)方法相比,我們獲得了22%的有目標(biāo)攻擊性能的提升。

?

12.?Effective Backdoor Defense by Exploiting Sensitivity of Poisoned Samples

作者:

Weixin Chen,?Baoyuan Wu, Haoqian Wang

簡(jiǎn)介:

基于投毒的后門(mén)攻擊對(duì)于在來(lái)源不可信的數(shù)據(jù)上訓(xùn)練深度模型構(gòu)成了巨大的威脅。在后門(mén)模型中,我們觀(guān)察到帶有觸發(fā)器的毒性樣本的特征表示比干凈樣本的特征表示對(duì)圖像變換更敏感。它啟發(fā)我們?cè)O(shè)計(jì)了一個(gè)簡(jiǎn)單的敏感性指標(biāo),稱(chēng)為特征關(guān)于圖像變換的一致性 (FCT),用以區(qū)分不可信訓(xùn)練集中的毒性樣本和干凈樣本。此外,我們提出了兩種有效的后門(mén)防御方法。基于一個(gè)利用FCT指標(biāo)來(lái)區(qū)分樣本的模塊,第一種方法使用一個(gè)兩階段的安全訓(xùn)練模塊從頭訓(xùn)練出一個(gè)干凈模型。第二種方法使用后門(mén)移除模塊從后門(mén)模型中移除后門(mén),該模塊交替地遺忘被區(qū)分的毒性樣本以及重新學(xué)習(xí)被區(qū)分的干凈樣本。在三個(gè)基準(zhǔn)數(shù)據(jù)集上的大量實(shí)驗(yàn)結(jié)果證明與當(dāng)前的SOTA后門(mén)防御方法相比,我們的方法在8種類(lèi)型的后門(mén)攻擊上都體現(xiàn)了優(yōu)越的防御性能。

?

13.?BackdoorBench: A Comprehensive Benchmark of Backdoor Learning

*Accepted by NeurIPS 2022 Datasets and Benchmarks Track

作者:

Baoyuan Wu, Hongrui Chen, Mingda Zhang, Zihao Zhu, Shaokui Wei, Danni Yuan, Chao Shen

簡(jiǎn)介:

后門(mén)學(xué)習(xí)是研究深度神經(jīng)網(wǎng)絡(luò)(DNNs)脆弱性的一個(gè)新興的重要課題。許多開(kāi)創(chuàng)性的后門(mén)攻擊和防御方法被陸續(xù)或同時(shí)提出,處于快速發(fā)展和競(jìng)賽的狀態(tài)。然而我們發(fā)現(xiàn),現(xiàn)有對(duì)新方法的評(píng)估往往是不徹底的,無(wú)法驗(yàn)證其主張和實(shí)際性能,而這一點(diǎn)主要是由于快速發(fā)展、不同的環(huán)境以及實(shí)施和可重復(fù)性的困難。如果沒(méi)有徹底的評(píng)估和比較,就很難跟蹤當(dāng)前的進(jìn)展情況和規(guī)劃未來(lái)的發(fā)展方向。

為了緩解這一困境,我們建立了一個(gè)全面的后門(mén)學(xué)習(xí)基準(zhǔn),并稱(chēng)之為BackdoorBench。它由一個(gè)可擴(kuò)展的、模塊化的代碼庫(kù)(目前包括8個(gè)最先進(jìn)的(SOTA)后門(mén)攻擊和9個(gè)SOTA后門(mén)防御算法的實(shí)現(xiàn)),以及一個(gè)完整的后門(mén)學(xué)習(xí)的標(biāo)準(zhǔn)化協(xié)議組成。我們還提供了基于5個(gè)模型、4個(gè)數(shù)據(jù)集、8種攻擊、9種防御、5種中毒率的綜合評(píng)估,共計(jì)8000對(duì)的評(píng)估結(jié)果。我們還從不同角度對(duì)這8,000個(gè)實(shí)驗(yàn)結(jié)果進(jìn)行分析,研究攻擊對(duì)防御算法、中毒率、模型和數(shù)據(jù)集在后門(mén)學(xué)習(xí)中的影響。

ackdoorBench的所有代碼和評(píng)估請(qǐng)移步https://backdoorbench.github.io。

?

14.?Distributionally robust weighted k-nearest neighbors

作者:

Shixiang Zhu,?Liyan Xie, Minghe Zhang, Rui Gao, Yao Xie

簡(jiǎn)介:

本工作針對(duì)如何從有限樣本中學(xué)習(xí)一個(gè)魯棒的分類(lèi)器,提出了一種基于k近鄰 (k-NN)的魯棒算法Dr. k-NN (Distributionally robust k-NN)。

在本工作中,我們研究了加權(quán) k-NN 的極小化極大魯棒最優(yōu)解,旨在找到對(duì)抗數(shù)據(jù)分布不確定性的最優(yōu)加權(quán) k-NN 分類(lèi)器。本工作求解出了基于Wasserstein距離的數(shù)據(jù)驅(qū)動(dòng)式魯棒最優(yōu)加權(quán) k-NN,它可以根據(jù)訓(xùn)練樣本通過(guò)線(xiàn)性規(guī)劃的方式被高效計(jì)算,并在執(zhí)行分類(lèi)任務(wù)時(shí)為樣本分配最優(yōu)權(quán)重。與傳統(tǒng)加權(quán) k-NN的顯著區(qū)別是,Dr. k-NN為樣本賦予的權(quán)重會(huì)與類(lèi)別相關(guān),且由最不利場(chǎng)景下樣本特征的相似性決定。同時(shí)本工作證明了所提出的Dr. k-NN框架在理論上等效于 Lipschitz 范數(shù)正則化問(wèn)題,從而進(jìn)一步給出了泛化能力的理論刻畫(huà)。

本工作還將Dr. k-NN與基于神經(jīng)網(wǎng)絡(luò)的特征嵌入相結(jié)合,提供了一種端到端的訓(xùn)練方法。最后,本工作在各類(lèi)真實(shí)數(shù)據(jù)實(shí)驗(yàn)上證明了Dr. k-NN的良好性能。

鏈接:

https://arxiv.org/abs/2006.04004

?

15.?FedRolex: Model-Heterogeneous Federated Learning with Rolling Submodel Extraction

作者:

Samiul Alam, Luyang Liu,?Ming Yan, Mi Zhang

簡(jiǎn)介:

聯(lián)邦學(xué)習(xí) (FL) 是一種從分散的個(gè)人數(shù)據(jù)中訓(xùn)練全局機(jī)器學(xué)習(xí)模型的協(xié)作模式。大多數(shù) FL 研究側(cè)重于同質(zhì)模型,它要求所有參與的客戶(hù)端和服務(wù)器上更新的模型是相同的。然而,在現(xiàn)實(shí)世界中,該約束限制了FL在客戶(hù)端存在異質(zhì)模型情況下的應(yīng)用,不公平地排除了具有低端設(shè)備的用戶(hù)的參與,使其不能從中受益。在這項(xiàng)工作中,我們提出了一種名叫FedRolex的簡(jiǎn)單而有效的模型異構(gòu) FL 方法來(lái)解決這個(gè)約束。與模型同質(zhì)場(chǎng)景不同的是,F(xiàn)L 中模型異質(zhì)的根本挑戰(zhàn)是全局模型的不同參數(shù)在異構(gòu)數(shù)據(jù)上訓(xùn)練的不平衡。FedRolex 通過(guò)在每次迭代中滾動(dòng)子模型來(lái)解決這一挑戰(zhàn),以便全局模型的參數(shù)在所有設(shè)備的全部數(shù)據(jù)分布上得到均勻的訓(xùn)練,使其更類(lèi)似于模型同質(zhì)訓(xùn)練。實(shí)驗(yàn)表明,F(xiàn)edRolex 優(yōu)于其他模型異構(gòu) FL 方法,尤其是在數(shù)據(jù)異構(gòu)顯著情況下。子模型滾動(dòng)可以有效的減少模型異質(zhì)和模型同質(zhì)之間的差距。最后,我們考慮一種類(lèi)似于現(xiàn)實(shí)世界收入分配的非均勻客戶(hù)端能力分布。實(shí)驗(yàn)結(jié)果表明,低端設(shè)備的準(zhǔn)確性得到了顯著的提高,增強(qiáng)了 FL 的包容性。

鏈接:

https://openreview.net/forum?id=OtxyysUdBE

*需注冊(cè)查看

?

16.?Communication-Efficient Topologies for Decentralized Learning with O(1) Consensus Rate

作者:

Zhuoqing Song, Weijian Li, Kexin Jin, Lei Shi,?Ming Yan, Wotao Yin, Kun Yuan

簡(jiǎn)介:

無(wú)中心優(yōu)化是一種新興分布式學(xué)習(xí)方法,它通過(guò)節(jié)點(diǎn)之間的點(diǎn)點(diǎn)通信替代中央服務(wù)器來(lái)訓(xùn)練機(jī)器學(xué)習(xí)模型。由于通信往往比計(jì)算慢,當(dāng)每個(gè)節(jié)點(diǎn)一次迭代只與幾個(gè)相鄰節(jié)點(diǎn)通信時(shí),它們可以比使用更多節(jié)點(diǎn)或中央服務(wù)器更快地完成迭代。然而,無(wú)中心優(yōu)化的總迭代次數(shù)受節(jié)點(diǎn)之間信息共識(shí)率的影響。我們發(fā)現(xiàn)現(xiàn)行的通信拓?fù)湟淳哂写蠖葦?shù)(如星形圖和完整圖,這些拓?fù)涞男畔⒐沧R(shí)效率高,通信效率低),要么信息共識(shí)低效(如環(huán)和網(wǎng)格通行效率高)。為了解決這個(gè)問(wèn)題,我們提出了一個(gè)新的拓?fù)漕?lèi)EquiTopo,它具有(幾乎)恒定的度數(shù)和與網(wǎng)絡(luò)大小無(wú)關(guān)的共識(shí)率。

鏈接:

https://openreview.net/forum?id=AyiiHcRzTd

*需注冊(cè)查看

?

17.?AMOS: A Large-Scale Abdominal Multi-Organ Benchmark for Versatile Medical Image Segmentation

作者:

Yuanfeng Ji, Haotian Bai, Jie Yang, Chongjian GE, Ye Zhu,?Ruimao Zhang, Zhen Li, Lingyan Zhang, Wanling Ma, Xiang Wan, Ping Luo

論文簡(jiǎn)介:

近年來(lái),隨著深度學(xué)習(xí)技術(shù)的發(fā)展,基于醫(yī)學(xué)影像的腹部多器官語(yǔ)義分割取得了相當(dāng)大的進(jìn)展。但由于缺乏來(lái)自臨床應(yīng)用的大規(guī)模測(cè)試基準(zhǔn),研究人員很難對(duì)各類(lèi)模型進(jìn)行公平全面的性能評(píng)估。同時(shí),由于醫(yī)學(xué)內(nèi)容分析所需要的專(zhuān)業(yè)知識(shí)較多,因此對(duì)應(yīng)CT/MRI影像的標(biāo)注成本也及其昂貴。精標(biāo)注數(shù)據(jù)的匱乏,也進(jìn)一步限制了面向醫(yī)學(xué)影像分析的深度模型的發(fā)展。為了解決上述問(wèn)題,項(xiàng)目組聯(lián)合香港大學(xué)和深圳市大數(shù)據(jù)研究院共同提出了AMOS,一個(gè)大規(guī)模的、多樣化的、用于腹部器官語(yǔ)義分割的臨床數(shù)據(jù)集。

AMOS提供了500組CT和100組MRI掃描影像,收集自多中心、多廠(chǎng)商、多模式、多階段、多疾病的患者,每組掃描都包含有15個(gè)腹部器官的體素級(jí)精標(biāo)注。該數(shù)據(jù)集的構(gòu)建為研究不同目標(biāo)和場(chǎng)景下的穩(wěn)健分割算法提供了挑戰(zhàn)性的示例,以及統(tǒng)一公平的測(cè)試平臺(tái)。項(xiàng)目組現(xiàn)已公開(kāi)了該數(shù)據(jù)集、以及不同的經(jīng)典深度神經(jīng)網(wǎng)絡(luò)模型在該數(shù)據(jù)集上的評(píng)測(cè)結(jié)果。希望該數(shù)據(jù)集的發(fā)布能夠?qū)ξ磥?lái)的模型研究工作帶來(lái)積極地推動(dòng)作用。

鏈接:

https://arxiv.org/abs/2206.08023v1

?

18.?Adam Can Converge Without Any Modi?cation on Update Rules

作者:

Yushun Zhang, Congliang Chen, Naichen Shi,?Ruoyu Sun,?Zhi-Quan Luo

簡(jiǎn)介:

Adam是深度學(xué)習(xí)中最廣泛使用的算法之一,但它的收斂性一直是個(gè)有爭(zhēng)議的話(huà)題。Reddi et al曾指出Adam會(huì)在簡(jiǎn)單的凸問(wèn)題上發(fā)散,給廣大工程師敲響了警鐘。自從那以后,很多工作嘗試通過(guò)修改Adam算法的機(jī)制來(lái)重新獲得收斂性保障。但于此同時(shí),現(xiàn)實(shí)的深度學(xué)習(xí)任務(wù)中,未經(jīng)任何修改的Adam仍然廣泛被工程師使用,且經(jīng)常取得得非常好的表現(xiàn)。為什么理論上的發(fā)散在實(shí)踐中沒(méi)有被觀(guān)察到?我們指出Reddi et al. 的發(fā)散理論和實(shí)際場(chǎng)景存在差距:Reddi et al. 先固定Adam的超參數(shù),后挑選優(yōu)化問(wèn)題;而實(shí)際任務(wù)往往是先給定優(yōu)化問(wèn)題,再調(diào)整Adam的超參數(shù)。?由于A(yíng)dam通常在后一種情況下表現(xiàn)得很好,我們推測(cè)它仍然可以收斂。

在本文中,我們?cè)诠潭▋?yōu)化問(wèn)題的場(chǎng)景下證實(shí)了這個(gè)猜想。我們證明,當(dāng)二階動(dòng)量參數(shù) $\beta_2$ 很大且一階動(dòng)量參數(shù) $\beta_1 < \sqrt{\beta_2}<1$ 時(shí),Adam 可以收斂。據(jù)我們所知,我們是第一個(gè)證明具有任意大 $\beta_1$ 的 Adam 可以在沒(méi)有任何形式的有界梯度假設(shè)的情況下收斂。這個(gè)結(jié)果表明,沒(méi)有任何修改的Adam在理論上仍然可以收斂。當(dāng)$\beta_2$ 較小時(shí),我們進(jìn)一步指出Adam 可以發(fā)散到無(wú)窮。我們的發(fā)散結(jié)果考慮了與收斂結(jié)果相同的設(shè)定(提前固定優(yōu)化問(wèn)題),這表明當(dāng)增加 $\beta_2$ 時(shí)存在從發(fā)散到收斂的相變。這些結(jié)果可能會(huì)為更好地調(diào)整 Adam 的超參數(shù)提供指導(dǎo)。

鏈接:

https://arxiv.org/abs/2208.09632v2

?

博士后郭丹丹、博士生張雨舜資料

郭丹丹

郭丹丹為我校數(shù)據(jù)科學(xué)學(xué)院博士后,師從查宏遠(yuǎn)教授。郭丹丹2020年博士畢業(yè)于西安電子科技大學(xué),此后在香港中文大學(xué)(深圳)機(jī)器人與智能制造研究院(IRIM)、數(shù)據(jù)科學(xué)學(xué)院進(jìn)行博士后研究,她的主要研究方向是模式識(shí)別機(jī)器學(xué)習(xí),包括概率模型構(gòu)建與統(tǒng)計(jì)推斷,元學(xué)習(xí),算法公平性研究以及最優(yōu)傳輸理論。所涉及的應(yīng)用有圖像生成及分類(lèi)、文本分析、自然語(yǔ)言生成等。目前,她專(zhuān)注于現(xiàn)實(shí)應(yīng)用中小樣本分類(lèi)、小樣本生成、訓(xùn)練數(shù)據(jù)分布有偏等問(wèn)題,著重從分布校正、分布擬合、分布匹配等角度展開(kāi)研究。她的科研成果發(fā)表在機(jī)器學(xué)習(xí)國(guó)際頂級(jí)會(huì)議、期刊上,如NeurIPS、ICML、ICLR、IJCV、TNNLS等。她也是多個(gè)國(guó)際會(huì)議的程序委員會(huì)委員和期刊審稿人,如ICML、NeurIPS、ICLR、JMLR、 TSP等。

?

張雨舜

張雨舜是我校數(shù)據(jù)科學(xué)學(xué)院四年級(jí)博士生,導(dǎo)師為羅智泉教授。張同學(xué)本科畢業(yè)于南方科技大學(xué)數(shù)學(xué)系,曾獲得南方科技大學(xué)優(yōu)秀畢業(yè)生和數(shù)學(xué)系杰出十佳學(xué)生獎(jiǎng)學(xué)金,研究方向是深度學(xué)習(xí)和優(yōu)化理論。