《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 模擬設(shè)計(jì) > 業(yè)界動(dòng)態(tài) > ICLR 2025丨云天勵(lì)飛多篇論文被機(jī)器學(xué)習(xí)頂會(huì)收錄

ICLR 2025丨云天勵(lì)飛多篇論文被機(jī)器學(xué)習(xí)頂會(huì)收錄

2025-02-08
來(lái)源:云天勵(lì)飛
關(guān)鍵詞: 云天勵(lì)飛

日前,第13屆國(guó)際學(xué)習(xí)表征會(huì)議(International Conference on Learning Representations,簡(jiǎn)稱(chēng)ICLR)公布論文錄用結(jié)果,云天勵(lì)飛4篇論文被錄用。

關(guān)于ICLR
ICLR 是深度學(xué)習(xí)領(lǐng)域的頂級(jí)會(huì)議,關(guān)注有關(guān)深度學(xué)習(xí)各個(gè)方面的前沿研究,在人工智能、統(tǒng)計(jì)和數(shù)據(jù)科學(xué)領(lǐng)域以及機(jī)器視覺(jué)、語(yǔ)音識(shí)別、文本理解等重要應(yīng)用領(lǐng)域中發(fā)布了眾多極其有影響力的論文。會(huì)議具有廣泛且深遠(yuǎn)的國(guó)際影響力,與 NeurIPS、ICML 并稱(chēng)為機(jī)器學(xué)習(xí)領(lǐng)域三大頂會(huì)。

錄用論文一覽

1. 《Taming Transformer Without Using Learning Rate Warmup》

Transformer模型是現(xiàn)在大模型的最重要的基礎(chǔ)模型,但訓(xùn)練過(guò)程中,它常常面臨諸如梯度爆炸、模型崩潰等問(wèn)題。這篇論文從矩陣微分的角度推導(dǎo)了self-attention的反向梯度公式,通過(guò)該反向傳播公式的推導(dǎo),作者定位到了模型崩潰的一個(gè)核心問(wèn)題:(Wq)'Wk矩陣在訓(xùn)練的過(guò)程中,它的譜能量集中到了幾個(gè)方向,最終導(dǎo)致所有的X塌陷到一個(gè)點(diǎn)上。通過(guò)理論的推導(dǎo),作者得出了一種簡(jiǎn)單的方案,通過(guò)控制(Wq)'Wk矩陣的奇異值的快速增長(zhǎng),來(lái)阻止能量的過(guò)度集中,作者將提出的方法稱(chēng)之為AdamW2。

實(shí)驗(yàn)證明,該方法無(wú)需依賴(lài)學(xué)習(xí)率預(yù)熱(Learning Rate Warmup),就可以有效緩解訓(xùn)練初期因?qū)W習(xí)率過(guò)大導(dǎo)致的不穩(wěn)定或發(fā)散問(wèn)題。作者通過(guò)在ViT、GPT和Swin-Transformer模型上的大量實(shí)驗(yàn),驗(yàn)證了AdamW2的有效性,證明其在無(wú)需學(xué)習(xí)率預(yù)熱的情況下,依然能夠?qū)崿F(xiàn)穩(wěn)定訓(xùn)練,并取得與使用學(xué)習(xí)率預(yù)熱相當(dāng)?shù)男阅堋_@一成果為T(mén)ransformer模型的訓(xùn)練提供了全新的視角和方法,具有重要的理論意義和實(shí)踐價(jià)值。

論文地址:

https://openreview.net/forum?id=GeUK3zGreN&referrer=%5BAuthor%20Console%5D(%2Fgroup%3Fid%3DICLR.cc%2F2025%2FConference%2FAuthors%23your-submissions)

2.《BiGR : Harnessing Binary Latent Codes for Image Generation and Improved Visual Representation Capabilities》

這篇論文介紹了一個(gè)新的圖像生成模型 BiGR,它能生成高質(zhì)量的圖像,同時(shí)還能提升圖像的視覺(jué)表示能力。BiGR 通過(guò)使用二進(jìn)制代碼來(lái)表示圖像,并結(jié)合一種特殊的編碼器和解碼器來(lái)生成圖像。模型基于 Transformer 架構(gòu),使用掩碼建模方法進(jìn)行訓(xùn)練,通過(guò)預(yù)測(cè)被掩碼的二進(jìn)制代碼來(lái)生成圖像。

作者在多個(gè)任務(wù)上對(duì)BiGR進(jìn)行了驗(yàn)證,包括類(lèi)別生圖、文生圖。實(shí)驗(yàn)表明,BiGR 在生成圖像的質(zhì)量和視覺(jué)表示能力上都優(yōu)于現(xiàn)有的模型。此外,BiGR 還展示了在多種視覺(jué)任務(wù)上的零樣本泛化能力,比如圖像修復(fù)、編輯和插值等,無(wú)需針對(duì)特定任務(wù)進(jìn)行結(jié)構(gòu)調(diào)整或參數(shù)微調(diào),是一個(gè)在圖像生成和視覺(jué)表示方面都很有潛力的模型。

論文地址:

https://openreview.net/forum?id=1Z6PSw7OL8&referrer=%5BAuthor%20Console%5D(%2Fgroup%3Fid%3DICLR.cc%2F2025%2FConference%2FAuthors%23your-submissions)

3. 《Exploring A Principled Framework for Deep Subspace Clustering》現(xiàn)有深度子空間聚類(lèi)方法在處理復(fù)雜數(shù)據(jù)時(shí)常面臨特征崩潰的問(wèn)題,即學(xué)習(xí)到的特征塌縮至低維空間,導(dǎo)致聚類(lèi)效果不理想。為應(yīng)對(duì)這一挑戰(zhàn),本文提出了一種名為PRO-DSC(Principled fRamewOrk for Deep Subspace Clustering)的深度子空間聚類(lèi)框架。通過(guò)引入有效的正則化項(xiàng),該方法成功緩解了特征崩潰現(xiàn)象。實(shí)驗(yàn)結(jié)果顯示,PRO-DSC在合成數(shù)據(jù)及多個(gè)真實(shí)數(shù)據(jù)集上的表現(xiàn)均優(yōu)于現(xiàn)有方法。例如,在CIFAR-10和CIFAR-100數(shù)據(jù)集上,其聚類(lèi)準(zhǔn)確率分別達(dá)到97.2%和71.6%,顯著超越其他方法。這一研究為深度子空間聚類(lèi)提供了全新的高效解決方案。論文地址:https://openreview.net/forum?id=7psWohxvxp&referrer=%5BAuthor%20Console%5D(%2Fgroup%3Fid%3DICLR.cc%2F2025%2FConference%2FAuthors%23your-submissions)
4. 《Unposed Sparse Views Room Layout Reconstruction in the Age of Pretrain Model》該論文提出了一種創(chuàng)新的3D基礎(chǔ)模型——Plane-DUSt3R,能夠直接從多張照片中一步完成房間3D布局的重建,極大簡(jiǎn)化了傳統(tǒng)流程。該方法無(wú)需預(yù)先獲取相機(jī)的位置和角度信息,也不要求照片之間存在重疊部分,即可實(shí)現(xiàn)房間布局的重建。這一特性在實(shí)際應(yīng)用中尤為實(shí)用,因?yàn)樵S多情況下,我們手頭的照片往往是隨意拍攝的,拍攝角度和位置并不固定。而傳統(tǒng)方法通常需要經(jīng)過(guò)復(fù)雜步驟,例如先估計(jì)相機(jī)位置與角度,再進(jìn)行圖像匹配和三角測(cè)量,這不僅流程繁瑣,還容易出錯(cuò)。DUSt3R的引入顯著簡(jiǎn)化了這一過(guò)程。我們的方法Plane-DUSt3R在DUSt3R基礎(chǔ)上,提出了一種新穎的獨(dú)立的多視圖(稀疏視圖)房間布局估計(jì)方法。

實(shí)驗(yàn)結(jié)果顯示,該方法在多個(gè)數(shù)據(jù)集上均表現(xiàn)出色,不僅在合成數(shù)據(jù)集上優(yōu)于現(xiàn)有方法,在真實(shí)世界的數(shù)據(jù)集上也展現(xiàn)了強(qiáng)大的泛化能力。例如,在Structure3D數(shù)據(jù)集上,Plane-DUSt3R在3D平面精度和召回率方面均實(shí)現(xiàn)了超過(guò)5%的提升,進(jìn)一步驗(yàn)證了其卓越性能。

論文地址:https://openreview.net/forum?id=DugT77rRhW&referrer=%5BAuthor%20Console%5D(%2Fgroup%3Fid%3DICLR.cc%2F2025%2FConference%2FAuthors%23your-submissions)


Magazine.Subscription.jpg

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題,請(qǐng)及時(shí)通過(guò)電子郵件或電話(huà)通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話(huà):010-82306118;郵箱:aet@chinaaet.com。