最新的国产成人精品2020,99re综合在线

中科院自動化所副所長劉成林：一窺模式識別背后的人工智能局限

作者：編輯　來源：互聯(lián)網(wǎng) 發(fā)布時間：2018-09-25

┊文章閱讀：次

眾所周知，人工智能目前的快速發(fā)展得益于深度學(xué)習(xí)的興起，但在具體應(yīng)用上，深度學(xué)習(xí)主要在模式識別（感知智能）中獲得成功，同時從智能機理研究上，腦科學(xué)也逐漸跟人工智能深度融合。人工智能領(lǐng)域，正在由感知智能的初步成功，慢慢走向百花齊放。

近期，由中科院自動化研究所主辦的“人工智能：技術(shù)創(chuàng)新與社會影響”百千萬人才工程創(chuàng)新大講堂成功舉辦，論壇從技術(shù)前沿到產(chǎn)業(yè)熱點、人類倫理到社會變革為主線探討了人工智能。

也借此采訪了中科院自動化研究所副所長劉成林，作為將模式識別、深度學(xué)習(xí)等研究方法應(yīng)用于文字識別等領(lǐng)域的大家，劉成林重新闡釋了人工智能方興未艾之時，人臉識別、文字識別等典型模式識別問題的研究難點和重點。

人臉識別、文字識別背后的方法，模式識別是什么？

模式識別是什么？作為人工智能的一個重要方向，模式識別的主要任務(wù)是模擬人的感知能力，如通過視覺和聽覺信息去識別理解環(huán)境，又被稱為“機器感知”或“智能感知”。

人們在觀察事物或現(xiàn)象的時候，常常要尋找它與其他事物或現(xiàn)象的不同之處，并根據(jù)一定目的把相似、但又細節(jié)不同的事物或現(xiàn)象組成一類。字符識別就是一個典型的例子，如數(shù)字“4”可以有各種寫法，但都屬于同一類別。人腦具有很強的模式識別和推廣能力，即使對于某種不同寫法的“4”，以前雖未見過，也能把它分到“4”所屬的這一類別。人腦的這種對模式（事物、現(xiàn)象等）進行歸類和分類的能力，就是模式識別，也就是感知能力。

隨著20世紀40年代電子計算機出現(xiàn)，50年代人工智能興起，模式識別在20世紀60年代初迅速發(fā)展成為一門新學(xué)科。21世紀以來，模式識別又逐漸與深度學(xué)習(xí)融合。近年來，深度學(xué)習(xí)和大數(shù)據(jù)的出現(xiàn)推動了模式識別的快速發(fā)展。

對此，劉成林解釋道，“模式識別是一個智能任務(wù)，是人工智能的一種形式。機器學(xué)習(xí)，包括深度學(xué)習(xí)是模式識別背后的基本方法，通過學(xué)習(xí)（訓(xùn)練）使機器具備識別模式的能力。當(dāng)前，用深度學(xué)習(xí)的方法來實現(xiàn)模式識別，能更好的解決問題?！?/span>

深度學(xué)習(xí)作為機器學(xué)習(xí)的一種，是對生物神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和信息處理機制的簡單模擬。人工神經(jīng)網(wǎng)絡(luò)早在上世紀40年代就有人研究，50年代和80年代都曾產(chǎn)生較大的影響。近年來，隨著計算能力的提升，可以訓(xùn)練層數(shù)較多的神經(jīng)網(wǎng)絡(luò)（稱為深度神經(jīng)網(wǎng)絡(luò)）來提升數(shù)據(jù)擬合和識別能力，有的甚至達到了1000多層。深度學(xué)習(xí)一般就是指利用深度神經(jīng)網(wǎng)絡(luò)來進行學(xué)習(xí)。

復(fù)雜條件下，人臉識別正確率不到50%

得益于深度學(xué)習(xí)，目前人臉識別和文字識別都是人工智能領(lǐng)域應(yīng)用比較成功的方向，可以算是模式識別借助深度學(xué)習(xí)形成的研究成果。

但劉成林認為，目前人臉識別、文字識別雖然已應(yīng)用得較為廣泛，但還不能算“應(yīng)用得很好”。

人臉識別目前應(yīng)用得比較成熟的是門禁、通關(guān)等領(lǐng)域，原因在于被識別的對象能主動配合，距離攝像頭較近，能拍攝到比較清楚的圖像。很多廠商在用戶配合、光照可控的場景下人臉識別正確率能達到99%以上。但在更加復(fù)雜的情況下，如在室外光照不均、距離遠、人臉視角多變情況下，用監(jiān)控攝像頭進行人臉識別，識別正確率就會明顯降低。

目前在計算機前端加入AI模塊，只能起輔助作用，復(fù)雜條件下的人臉識別依舊難以達到成熟應(yīng)用的程度。劉成林表示，室外自然光照條件下，“人臉識別正確率還達不到50%”。

文字識別領(lǐng)域也是如此。文字識別目前主要應(yīng)用在書籍和報紙等的數(shù)字化上。報紙、金融機構(gòu)、保險機構(gòu)以及快遞行業(yè)的的大量單據(jù)，都需要電子化后才能方便檢索、管理和進行大數(shù)據(jù)分析。司法界推行智能法務(wù)，辦案的文書（有印刷體，也有手寫體）需要電子化。醫(yī)院的病例、教育領(lǐng)域的作業(yè)題、考試答卷等，也都有很大的電子化需求。

同人臉識別一樣，圖像清晰度和光照等問題也是文字識別的一大難點。平板掃描儀由于光照均勻，對紙質(zhì)材料掃描得到的圖像清晰度高，文字識別率較高。而拍照圖片的識別率則會降低，室外自然場景圖片中的文字檢測和識別更是當(dāng)今研究的熱點和難點問題。

對抗學(xué)習(xí)、腦科學(xué)并肩，加速AI進程

要克服人臉識別中低分辨率和光照的問題，深度學(xué)習(xí)也存在局限，而運用對抗學(xué)習(xí)的方法來處理圖像則能提高其清晰度或生成更多樣本。

什么是對抗學(xué)習(xí)？對抗學(xué)習(xí)是一種很新的機器學(xué)習(xí)方法，由加拿大學(xué)者Ian Goodfellow首先提出。對抗學(xué)習(xí)實現(xiàn)的方法，是讓兩個網(wǎng)絡(luò)相互競爭對抗，“玩一個游戲”。其中一個是生成器網(wǎng)絡(luò)，它不斷捕捉訓(xùn)練庫里真實圖片的概率分布，將輸入的隨機噪聲轉(zhuǎn)變成新的樣本（也就是假數(shù)據(jù)）。另一個是判別器網(wǎng)絡(luò)，它可以同時觀察真實和假造的數(shù)據(jù)，判斷這個數(shù)據(jù)到底是不是真的。通過反復(fù)對抗，生成器和判別器的能力都會不斷增強，直到達成一個平衡，最后生成器可生成高質(zhì)量的、以假亂真的圖片。

文字識別領(lǐng)域要解決的問題，除了上文提到的拍照圖片、以及手寫筆跡的識別，小樣本條件下的文字識別，如古籍的識別也是一大挑戰(zhàn)，因為用于訓(xùn)練的標記樣本不足，深度學(xué)習(xí)難以取得較高的識別率。

小樣本泛化性、自適應(yīng)性、可解釋性、魯棒性是當(dāng)前以深度學(xué)習(xí)為主的模式識別技術(shù)的主要局限所在，而這些恰恰是人腦的長處。因此，模式識別可以從腦科學(xué)和神經(jīng)科學(xué)上尋找新的借鑒，發(fā)展新的類人感知和認知機理的模式識別學(xué)習(xí)理論與方法。

以泛化能力為例，在訓(xùn)練樣本較少時，可以設(shè)計與人的記憶方式類似的模型進行訓(xùn)練，使機器記住文字的結(jié)構(gòu)和關(guān)鍵特征，如構(gòu)成文字的筆畫、組合和關(guān)系。這種模型叫“生成模型”，可以記住每一類模式的關(guān)鍵特征及分布，并能生成數(shù)據(jù)，如生成滿足一類文字基本結(jié)構(gòu)、細節(jié)不同的手寫字。生成模型也具有很好的解釋性，在識別模式的同時能解釋這個模式是由哪幾部分構(gòu)成的，幾部分之間是什么關(guān)系。

模式識別、深度學(xué)習(xí)、對抗學(xué)習(xí)、腦科學(xué)……越來越多的人工智能研究路徑進入了我們的視野。而對于人工智能發(fā)展的未來，劉成林也認為，深度學(xué)習(xí)依然會是人工智能研究的主流，但對抗學(xué)習(xí)、腦科學(xué)、認知科學(xué)等的理論方法，都會與其進行融合，共同推進人工智能的發(fā)展。

上一篇：西米信儲張慶錦：餐飲金融市場供需痛點突出，缺少標準化行業(yè)解決方案
下一篇：沒有了

加入收藏查看評論復(fù)制給好友打印本頁關(guān)閉窗口

中科院自動化所副所長劉成林：一窺模式識別背后的人工智能局限

熱門文章 Top Article

最新文章 Top Article