中國(guó)福建網(wǎng)

當(dāng)前位置:中國(guó)福建網(wǎng) > 國(guó)際 > 正文

世界第一!騰訊優(yōu)圖刷新國(guó)際權(quán)威比賽ICDAR OCR信息提取紀(jì)錄

作者: 編輯 來(lái)源:互聯(lián)網(wǎng) 發(fā)布時(shí)間:2020-12-11

┊文章閱讀:

近日,騰訊優(yōu)圖在國(guó)際權(quán)威的ICDAR 2019“Scanned Receipts OCR and Information Extraction”關(guān)鍵信息抽取任務(wù)中,通過(guò)自研智能結(jié)構(gòu)化方案,以97.67的Hmean排名刷新榜單紀(jì)錄。從識(shí)別到內(nèi)容理解,優(yōu)圖OCR正在不斷突破技術(shù)邊界,進(jìn)行著核心技術(shù)的創(chuàng)新。

ICDAR SROIE比賽榜單

ICDAR SROIE榜單結(jié)果

ICDARInternational Conference on Document Analysis and Recognition是全球OCR領(lǐng)域公認(rèn)最權(quán)威的比賽之一,有OCR領(lǐng)域的奧斯卡盛會(huì)之稱。ICDAR在2019年新增了SROIEScanned Receipts OCR and Information Extraction關(guān)鍵信息抽取任務(wù),標(biāo)志著OCR從識(shí)別到理解的進(jìn)化。

作為首個(gè)針對(duì)結(jié)構(gòu)化文檔提出的信息抽取任務(wù),SROIE因其技術(shù)的挑戰(zhàn)性和廣泛的應(yīng)用性,一直是全球各大名校、科技公司競(jìng)逐的焦點(diǎn)。此次,騰訊優(yōu)圖刷新OCR信息提取紀(jì)錄,也標(biāo)志著業(yè)界對(duì)騰訊OCR科研成果的認(rèn)可。

優(yōu)圖OCR技術(shù)能力

作為快速數(shù)據(jù)采集的手段,OCR技術(shù)已在越來(lái)越多貼近消費(fèi)端需求的真實(shí)場(chǎng)景中落地,例如金融、政務(wù)、醫(yī)療、財(cái)務(wù)報(bào)銷等領(lǐng)域,OCR技術(shù)在優(yōu)化業(yè)務(wù)流程、解放生產(chǎn)力和降低企業(yè)成本方面,實(shí)效凸顯,得到了行業(yè)和客戶的廣泛認(rèn)可。

據(jù)騰訊優(yōu)圖研究人員表示,在此次SROIE任務(wù)中主要存在兩方面難點(diǎn),首先是票據(jù)中的地址和公司名稱字段長(zhǎng)短不一,位置近鄰,內(nèi)容相似且干擾較多。其次是,在應(yīng)付款項(xiàng)字段提取中,同一張票據(jù)中可能存在多個(gè)相同或相近的金額,例如單價(jià)、小計(jì)、含稅金額、優(yōu)惠金額等,而不同票據(jù)之間對(duì)于該項(xiàng)的前綴描述也不盡相同,這些難題對(duì)于OCR算法的適應(yīng)能力更具挑戰(zhàn)性。

方案結(jié)果對(duì)比

為了攻克這兩大難題,騰訊優(yōu)圖提出了一種智能結(jié)構(gòu)化模型,基于相對(duì)位置Attention的結(jié)構(gòu)避免語(yǔ)義可讀性對(duì)模型性能的影響。融入圖像整體表征,使得模型能夠在了解版式分布的同時(shí),關(guān)注局部細(xì)微差異。此外,騰訊優(yōu)圖還細(xì)化了標(biāo)簽層級(jí),內(nèi)聚關(guān)鍵字段內(nèi)部特征,強(qiáng)化字段交界處的語(yǔ)義變化表征,提升模型在地址、公司字段難例上的表現(xiàn)效果。因此相較于TOP榜單模型,騰訊優(yōu)圖的智能結(jié)構(gòu)化方案結(jié)合自然語(yǔ)言處理能力,不僅在速度上更快,字段提取準(zhǔn)確率也更高。

目前,騰訊優(yōu)圖OCR通用文字識(shí)別涵蓋了印刷體、英文、手寫、表格、印章、速算等諸多能力,結(jié)構(gòu)化識(shí)別實(shí)現(xiàn)了從多個(gè)垂直場(chǎng)景結(jié)構(gòu)化到自定義模板結(jié)構(gòu)化方案及智能結(jié)構(gòu)化方案的全覆蓋,幫助各產(chǎn)品和業(yè)務(wù)提升效率、創(chuàng)造價(jià)值。

騰訊優(yōu)圖始終積極推動(dòng)研究成果在業(yè)務(wù)領(lǐng)域的落地。在OCR領(lǐng)域,騰訊優(yōu)圖基于多角度文本檢測(cè)、語(yǔ)義增強(qiáng)的文字識(shí)別、公式識(shí)別、NLP后處理等基礎(chǔ)技術(shù),輸出了通用文字識(shí)別、證照識(shí)別、智能票據(jù)、單據(jù)識(shí)別、車輛信息識(shí)別、教育試題識(shí)別、金融保險(xiǎn)單據(jù)識(shí)別等多個(gè)產(chǎn)品及解決方案,并在政務(wù)、金融、教育、醫(yī)療等多個(gè)應(yīng)用場(chǎng)景落地。

未來(lái),優(yōu)圖將以更加開(kāi)放的心態(tài),深耕于技術(shù)領(lǐng)域,不斷擴(kuò)展技術(shù)成果的落地場(chǎng)景和應(yīng)用空間,帶給大眾更多切實(shí)便利和驚喜體驗(yàn)。

  • 分類目錄
  • 軟文發(fā)布平臺(tái)
  • 勞務(wù)外包公司
  • 帆布水池
  • 運(yùn)維開(kāi)發(fā)網(wǎng)
  • 小程序開(kāi)發(fā)
  • 淘寶優(yōu)惠券
  • IT新聞
  • 淘寶erp
  • 植物提取物網(wǎng)
  • 站長(zhǎng)網(wǎng)
  • 源碼論壇
  • 激光打標(biāo)機(jī)
  • 丹泊儀器
  • 礦山生態(tài)修復(fù)
  • 青島月子會(huì)所
  • 知識(shí)付費(fèi)
  • 辦公家具
  • 呱呱贊小程序
  • 淄博java培訓(xùn)
  • 小程序開(kāi)發(fā)
  • seo外包公司
  • 盈江新財(cái)網(wǎng)
  • 工程拍照軟件
  • 速賣通論壇
  • 極客網(wǎng)
  • 甘州文化網(wǎng)
  • 優(yōu)鞋論壇
  • 寧波小程序開(kāi)發(fā)
  • 域名論壇
  • 微軟crm
  • andon系統(tǒng)
  • 鄭州網(wǎng)站建設(shè)
  • seo學(xué)習(xí)網(wǎng)
  • 奢侈品回收
  • 一對(duì)一輔導(dǎo)
  • 黑客視野新聞