中國福建網(wǎng)

當前位置:中國福建網(wǎng) > 國際 > 正文

國際綜合頂會WWW2020落幕,帶你全面解讀百度入選論文

作者: 編輯 來源:互聯(lián)網(wǎng) 發(fā)布時間:2020-05-09

┊文章閱讀:

近日,國際頂級綜合學術會議WWW2020?(The Web Conference 2020)在中國臺灣如期舉辦。本次會議,百度研究院共有6篇論文入選,位居國內(nèi)科技企業(yè)前列。而且其中大部分論文的全部作者均來自百度,展現(xiàn)出百度公司超高的科研水準和領先的技術實力。

image.png

創(chuàng)辦于1994年,WWW會議由國際萬維網(wǎng)會議委員會(IW3C2)和主辦地地方團隊合作組織,每年召開一次,今年是第29屆。WWW會議被中國計算機學會(CCF)推薦為A類國際學術會議,每次都會吸引大批學者、研究人員、技術專家、政策制定者等人的廣泛關注和參與。自2018年開始,WWW會議有了另外一個別名——“The?Web?Science?(互聯(lián)網(wǎng)科學)”,旨在為世界提供一個主要的論壇,以討論和辯論Web的發(fā)展,其相關技術的標準化以及這些技術對社會和文化的影響,成為互聯(lián)網(wǎng)領域最受關注的頂級學術會議之一。

下面將詳細解讀一下此次百度入選論文中的4篇,向行業(yè)分享研究成果:

論文1:Extracting?Knowledge?from?Web?Text?with?Monte?Carlo?Tree Search

image.png

每一天,互聯(lián)網(wǎng)都會產(chǎn)生海量的非結(jié)構(gòu)化文本數(shù)據(jù),這些文本數(shù)據(jù)(比如新聞、博客等)包含了大量的非結(jié)構(gòu)化的信息。對于人類而言,這些非結(jié)構(gòu)化的信息是易于理解的,但是計算機很難直接利用這些非結(jié)構(gòu)化的文本數(shù)據(jù)進行運算和邏輯處理。因此,從大量的非結(jié)構(gòu)化信息中提取出結(jié)構(gòu)化的知識,為后續(xù)自動化的信息處理、知識計算等任務構(gòu)筑了有力的基石。

在本篇論文中,百度把信息抽取任務通過蒙特卡洛過程建模,提出了基于蒙特卡洛樹搜索的開放領域信息抽取方法。在基于蒙特卡洛樹搜索的強化學習架構(gòu)中,信息抽取模型探索了大量的、可能的結(jié)構(gòu)化知識,通過獎勵函數(shù)的評價,反哺給信息抽取模型,從而在訓練過程和推理過程中顯著的提升了信息抽取模型的效果。在目前最大的人工標注中文結(jié)構(gòu)化知識抽取數(shù)據(jù)集SAOKE中,模型取得了最好的效果。

論文2:Improved?Touch-screen?Inputting?Using?Sequence-level?Prediction?Generation

image.png

近年來,各種移動觸屏設備不斷的深入普及,在觸屏軟鍵盤上的輸入效率則深深影響著人們的交流速度和用戶體驗。本篇論文對“觸屏輸入結(jié)果預測”的問題進行了形式化總結(jié),闡述了依據(jù)“用戶所輸”和“用戶所見”來預測“用戶所想”的一般框架。同時,論文給出了在保證用戶隱私的前提下,以輸入效率為優(yōu)化目標的特化問題描述。此外,論文描述了兩種評價方法,以適應不同的用戶輸入習慣假設。實現(xiàn)方面,目前已有的輸入效率提升方法包含輸入糾錯(包括字符替換、調(diào)序、刪除、插入)、單詞補全和候選打分排序等多個子步驟。本文提出了從“輸入坐標序列”到“期望字符串”端到端的訓練方法,并利用柱狀搜索進行解碼,實現(xiàn)了多個候選的一次性生成與排序。較分步驟的人工規(guī)則方法,這一方法有效提升了準確率,同時降低了特征構(gòu)建成本,達到降本增效的成果。

論文3:Efficient?Online?Multi-Task?Learning?viaAdaptive?Kernel?Selection?

image.png

因為無法在線性不可分的數(shù)據(jù)上應用,傳統(tǒng)的多任務學習限制任務間結(jié)構(gòu)為線性相關。為了解決這一難題,百度提出在線多任務核方法來解決分類任務,這個方法所在的再生核希爾伯特空間能夠提供更準確的分類函數(shù)。特別的是,此方法為每一個子任務維持一個局部-全局高斯分布模型,以此指導參數(shù)更新的方向和規(guī)模。然而,在計算上優(yōu)化這一方法會相當昂貴。大多數(shù)多任務方法需要獲取整個數(shù)據(jù)來訓練算法,這就限制了其在大規(guī)模數(shù)據(jù)流場景的應用。

為此,百度提出了一個隨機采樣的方法來為模型進行可適應素描。此方法不需要所有的數(shù)據(jù)標簽,它會通過相似任務對標簽預測的自信度,來決定是否需要數(shù)據(jù)的標簽。理論上證明,與學習所有標簽的方法比,此方法在采樣樣本上學習能夠得到相似的結(jié)果。實驗上,此方法能夠提高準確性,同時減少了計算復雜度和標簽成本。

論文4:Estimate?theImplicit?Likelihood?of?Gas?with?Application?to?Anomaly?Detection

image.png

本篇論文提出了一種計算對抗生成網(wǎng)絡(GAN)隱含似然值(implicit likelihood value)的方法,并應用于異常檢測。不同于基于極大似然估計的方法,訓練良好的GAN可以學習和生成尖銳的圖像局部信息。但是,GAN是一種隱含模型,很難直接估計給定數(shù)據(jù)點的似然值。這是由于直接通過GAN獲取給定數(shù)據(jù)點(Data Sample)的隱藏變量(Latent Variable)比較困難,再者,對抗學習到的生成網(wǎng)絡(Generator)的雅可比矩陣(Jacobian Matrix)通常不是滿秩的,無法直接用變量變換的形式來通過隱藏變量(Latent Variable)計算數(shù)據(jù)點的似然值。

為克服上述困難,本篇論文提出通過對抗生成模型增加推理網(wǎng)絡(Inference Network)和方差網(wǎng)絡(Variance Network)。基于RBF核的方差網(wǎng)絡,可以把生成網(wǎng)絡的輸出拓展到整個生成空間,并且可以學習數(shù)據(jù)點的局部不確定性。對于給定的數(shù)據(jù)點,可以用學習到的推理網(wǎng)絡直接獲取數(shù)據(jù)點的隱藏變量。此外,通過方差網(wǎng)絡和推理網(wǎng)絡的結(jié)合,可以避免雅可比矩陣的奇異值的問題。本篇論文提出的模型在MNIST,CIFAR10,Imagenet32獲得優(yōu)于其他基于神經(jīng)網(wǎng)絡的成模型的似然估計,在MNIST和 CIFAR10等數(shù)據(jù)集上有不錯的異常檢測的表現(xiàn)。

以上介紹的4篇論文是百度研究院眾多出色研究成果的一小部分。百度研究院由百度CTO王海峰博士兼任院長,已經(jīng)取得了一系列前瞻的研究成果和技術落地應用。后續(xù)還將持續(xù)向行業(yè)介紹更多來自百度研究院的學術論文成果。

  • 分類目錄
  • 軟文發(fā)布平臺
  • 勞務外包公司
  • 帆布水池
  • 運維開發(fā)網(wǎng)
  • 小程序開發(fā)
  • 淘寶優(yōu)惠券
  • IT新聞
  • 淘寶erp
  • 植物提取物網(wǎng)
  • 站長網(wǎng)
  • 源碼論壇
  • 激光打標機
  • 丹泊儀器
  • 礦山生態(tài)修復
  • 青島月子會所
  • 知識付費
  • 辦公家具
  • 呱呱贊小程序
  • 淄博java培訓
  • 小程序開發(fā)
  • seo外包公司
  • 盈江新財網(wǎng)
  • 工程拍照軟件
  • 速賣通論壇
  • 極客網(wǎng)
  • 甘州文化網(wǎng)
  • 優(yōu)鞋論壇
  • 寧波小程序開發(fā)
  • 域名論壇
  • 微軟crm
  • andon系統(tǒng)
  • 鄭州網(wǎng)站建設
  • seo學習網(wǎng)
  • 奢侈品回收
  • 一對一輔導
  • 黑客視野新聞