┊文章閱讀:次
近日,NeurIPS 2020(Neural Information Processing Systems Annual Meeting,神經(jīng)信息處理系統(tǒng)年會(huì))落下帷幕,作為人工智能和機(jī)器學(xué)習(xí)領(lǐng)域的國(guó)際頂級(jí)會(huì)議,NeurIPS旨在促進(jìn)有關(guān)神經(jīng)信息處理系統(tǒng)的研究交流,在同行會(huì)議上介紹和討論新穎的研究。此次大會(huì)中,百度研究院參會(huì)并發(fā)表了多篇高質(zhì)量論文,論文聚焦大規(guī)模稀疏學(xué)習(xí)的加速求解、新發(fā)現(xiàn)物種數(shù)量預(yù)測(cè)、隨機(jī)非凸優(yōu)化、高維數(shù)據(jù)判別分析等問題,分別提出了創(chuàng)新算法及理論,突破原有算法在實(shí)際應(yīng)用中泛化效果差、優(yōu)化效率低等限制,有效提升AI技術(shù)在自然生態(tài)學(xué)、統(tǒng)計(jì)學(xué)習(xí)理論等領(lǐng)域中的應(yīng)用價(jià)值,同時(shí)也彰顯出百度在人工智能與機(jī)器學(xué)習(xí)領(lǐng)域的持續(xù)技術(shù)創(chuàng)新力。
(百度研究院多篇論文入選NeurIPS 2020)
首先,論文《Thunder: a Fast Coordinate Selection Solver for Sparse Learning》就大規(guī)模稀疏學(xué)習(xí)提出新方法。大規(guī)模稀疏學(xué)習(xí)是機(jī)器學(xué)習(xí)中的重要方法之一,但大規(guī)模稀疏學(xué)習(xí)的高效訓(xùn)練卻是極具挑戰(zhàn)性的問題。雖然人們借助凸目標(biāo)函數(shù)和模型的稀疏性,已經(jīng)提出很多優(yōu)化方法來加速求解大規(guī)模稀疏學(xué)習(xí)問題,但當(dāng)模型的稀疏度比較低或求解精度需求很高時(shí),大多數(shù)優(yōu)化提速方法便會(huì)失效,對(duì)此,本文提出了一種新穎的方法Thunder。
該方法盡可能地避免了在冗余特征上的計(jì)算,并可以保證算法選取特征的安全性。目前,已在一系列大數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果證明了方法的有效性。如下圖所示,在Finance數(shù)據(jù)集上,百度提出的新方法比現(xiàn)有最佳方法在效率優(yōu)化上有巨大的提升。
其次,論文《Optimal Prediction of the Number of Unseen Species with Multiplicity》對(duì)自然生態(tài)學(xué)中新發(fā)現(xiàn)物種數(shù)量預(yù)測(cè)做出梳理。論文首先提出了更一般化的版本,即對(duì)新樣本中出現(xiàn)的未知元素依據(jù)數(shù)量劃分,從而實(shí)現(xiàn)更精確細(xì)致的穩(wěn)定預(yù)測(cè)。再通過信息論下界的構(gòu)造,證明所提出的算法同時(shí)實(shí)現(xiàn)了最優(yōu)時(shí)間和樣本復(fù)雜度。這一新的理論完整復(fù)現(xiàn)了此前七十年間的諸多研究成果,并在未知參數(shù)領(lǐng)域?qū)崿F(xiàn)了非平凡的拓展,對(duì)自然生態(tài)學(xué)領(lǐng)域具有重要的現(xiàn)實(shí)意義。該工作已被機(jī)器學(xué)習(xí)旗艦會(huì)議NeurIPS 2020所接受并遴選為Spotlight報(bào)告文章。
論文《Towards Better Generalization of Adaptive Gradient Methods》則對(duì)統(tǒng)計(jì)學(xué)習(xí)理論中的重要問題“隨機(jī)非凸優(yōu)化”給出新方案。為優(yōu)化當(dāng)前流行的動(dòng)態(tài)梯度下降算法的泛化效果,百度提出穩(wěn)定動(dòng)態(tài)梯度下降算法,將差分隱私與梯度下降相結(jié)合,并巧妙利用差分隱私防止過擬合的這個(gè)優(yōu)勢(shì)來提高算法的泛化性能。該算法已被證明可以減小泛化誤差,且具備一定優(yōu)越性,為隨機(jī)非凸化問題帶去創(chuàng)新性解決方案。
最后,《Ratio Trace Formulation of Wasserstein Discriminant Analysis》一文,則針對(duì)高維數(shù)據(jù)的判別分析給出新算法。百度研究了維數(shù)約簡(jiǎn)(DR)技術(shù)Wasserstein判別分析,提出用較少計(jì)算成本獲得可比或更好的結(jié)果的公式。同時(shí)從電子結(jié)構(gòu)計(jì)算角度分析,將該判別分析技術(shù)轉(zhuǎn)化為一個(gè)比值跡問題,提出基于特征解算器的判別分析技術(shù)判別子空間計(jì)算算法,依托于比值跡公式封閉形式的解,一旦正則化的最優(yōu)輸運(yùn)問題得到解決,就可以通過廣義特征值分解得到。百度這一算法平均收斂時(shí)間更短,對(duì)初始化合參數(shù)的敏感性也更低。通過在實(shí)際數(shù)據(jù)集上的數(shù)值實(shí)驗(yàn)表明,該算法在分類和聚類任務(wù)中都有很好的應(yīng)用前景。
據(jù)悉,此次入選NeurIPS 2020的多篇優(yōu)質(zhì)論文來自百度研究院西雅圖研究院和百度認(rèn)知計(jì)算實(shí)驗(yàn)室,上述實(shí)驗(yàn)室研究員一直是NIPS/NeurIPS會(huì)議的??停?019年共有6篇論文入選NeurIPS,也曾經(jīng)獲得過NIPS 2014的最佳論文獎(jiǎng);2020年,其在更具難度與深度的頂級(jí)機(jī)器學(xué)習(xí)算法和理論會(huì)議COLT(Conference on Learning Theory)中發(fā)表兩篇百度統(tǒng)一單位的論文,論文針對(duì)求解稀疏約束優(yōu)化問題,提出了可以顯著降低計(jì)算復(fù)雜度的算法,為高維數(shù)據(jù)稀疏學(xué)習(xí)帶來算法與理論的新突破。這也是中國(guó)互聯(lián)網(wǎng)公司罕見的一次在COLT發(fā)表論文。
上述研究成果與百度研究院的發(fā)展布局緊密相連。今年八月,百度研究院宣布架構(gòu)新升級(jí),新增生物計(jì)算實(shí)驗(yàn)室和安全實(shí)驗(yàn)室。至此,百度研究院已囊括了從底層基礎(chǔ)技術(shù)到感知、認(rèn)知技術(shù)的 AI全領(lǐng)域研究,匯聚數(shù)十位 AI領(lǐng)域的世界級(jí)專家,共同推動(dòng)百度研究院的 AI基礎(chǔ)性研究和前瞻性洞察,助力 AI技術(shù)加速落地。
如今,百度研究院結(jié)合自身AI優(yōu)勢(shì),升級(jí)新架構(gòu),深入展開跨領(lǐng)域合作,取得的基礎(chǔ)性研究創(chuàng)新有目共睹;未來,百度研究院還將不斷推動(dòng)百度AI技術(shù)的創(chuàng)新發(fā)展,夯實(shí)其在國(guó)際人工智能領(lǐng)域的影響力,促使AI深入行業(yè)落地應(yīng)用,為全球科技發(fā)展出一份力。
Copyright @ 2013-2020 中國(guó)福建網(wǎng) 版權(quán)所有
聯(lián)系我們
免責(zé)聲明:本站為非營(yíng)利性網(wǎng)站,部分圖片或文章來源于互聯(lián)網(wǎng)如果無意中對(duì)您的權(quán)益構(gòu)成了侵犯,我們深表歉意,請(qǐng)您聯(lián)系,我們立即刪除。