中國(guó)福建網(wǎng)

當(dāng)前位置:中國(guó)福建網(wǎng) > 國(guó)內(nèi) > 正文

清華發(fā)布《AI芯片技術(shù)白皮書》:新計(jì)算范式,挑戰(zhàn)馮諾依曼、CMOS瓶頸

作者: 編輯 來(lái)源:互聯(lián)網(wǎng) 發(fā)布時(shí)間:2018-12-14

┊文章閱讀:

近日,在由北京未來(lái)芯片技術(shù)高精尖創(chuàng)新中心和清華大學(xué)微電子學(xué)研究所聯(lián)合主辦的第三屆未來(lái)芯片論壇上,清華大學(xué)正式發(fā)布了《人工智能芯片技術(shù)白皮書(2018)》。

《白皮書》首次整合了國(guó)際化的學(xué)術(shù)和產(chǎn)業(yè)資源,緊扣學(xué)術(shù)研究和產(chǎn)業(yè)發(fā)展前沿,對(duì)人工智能芯片技術(shù)進(jìn)行了深入探討、專業(yè)闡述,完成了對(duì)AI芯片各種技術(shù)路線梳理及對(duì)未來(lái)技術(shù)發(fā)展趨勢(shì)和風(fēng)險(xiǎn)預(yù)判。

據(jù)悉,《白皮書》由斯坦福大學(xué)、清華大學(xué)、香港科技大學(xué)、臺(tái)灣新竹清華大學(xué),北京半導(dǎo)體行業(yè)協(xié)會(huì)及新思科技的頂尖研究者和產(chǎn)業(yè)界資深專家,包括10余位IEEE Fellow共同編寫完成。

無(wú)芯片不AI,新計(jì)算范式來(lái)襲

近些年隨著大數(shù)據(jù)的積聚、理論算法的革新、計(jì)算能力的提升及網(wǎng)絡(luò)設(shè)施的發(fā)展,使得持續(xù)積累了半個(gè)多世紀(jì)的人工智能產(chǎn)業(yè),又一次迎來(lái)革命性的進(jìn)步,人工智能的研究和應(yīng)用進(jìn)入全新的發(fā)展階段。

實(shí)際上,人工智能產(chǎn)業(yè)得以快速發(fā)展,都離不開目前唯一的物理基礎(chǔ)——芯片??梢哉f(shuō),“無(wú)芯片不AI”。

目前,關(guān)于AI芯片的定義沒(méi)有一個(gè)嚴(yán)格和公認(rèn)的標(biāo)準(zhǔn)。較為寬泛的看法是面向人工智能應(yīng)用的芯片都可以稱為AI芯片。具體來(lái)說(shuō),報(bào)告中探討的AI芯片主要分為三類,一是經(jīng)過(guò)軟硬件優(yōu)化可高效支持AI應(yīng)用的通用芯片,如GPU;二是側(cè)重加速機(jī)器學(xué)習(xí)(尤其是神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí))算法的芯片,這也是目前AI芯片中最多的形式;三是受生物腦啟發(fā)設(shè)計(jì)的神經(jīng)形態(tài)計(jì)算芯片。

AI芯片的計(jì)算既不脫離傳統(tǒng)計(jì)算,也具有新的計(jì)算特質(zhì),主要特點(diǎn)有三:處理內(nèi)容往往是非結(jié)構(gòu)化數(shù)據(jù),如視頻、圖像及語(yǔ)音等,需要通過(guò)樣本訓(xùn)練、擬合基環(huán)境交互等方式,利用大量數(shù)據(jù)來(lái)訓(xùn)練模型,再用訓(xùn)練好的模型處理數(shù)據(jù);處理過(guò)程需要很大的計(jì)算量,基本的計(jì)算主要是線性代數(shù)運(yùn)算,大規(guī)模并行計(jì)算硬件更為適合;處理過(guò)程參數(shù)量大,需要巨大的存儲(chǔ)容量,高帶寬、低延時(shí)的訪存能力,及計(jì)算單元和存儲(chǔ)器件間豐富且靈活的連接。

AI芯片的新計(jì)算范式,也為芯片提出了處理非結(jié)構(gòu)化數(shù)據(jù)、計(jì)算量大及存儲(chǔ)和計(jì)算間的訪問(wèn)連接等新問(wèn)題。

AI芯片發(fā)展現(xiàn)狀:云、邊結(jié)合

在應(yīng)用場(chǎng)景上,AI芯片的應(yīng)用主要分為云端和終端,以深度學(xué)習(xí)的算法來(lái)說(shuō),云端人工智能硬件負(fù)責(zé)“訓(xùn)練+推斷”,終端人工智能硬件負(fù)責(zé)“推斷”,因而終端的計(jì)算量更小,相對(duì)沒(méi)有傳輸問(wèn)題。但從自動(dòng)駕駛、智慧家庭,到loT設(shè)備等,速度、能效、安全和硬件成本等是重要因素。

云端AI計(jì)算:目前各大科技巨頭紛紛在自有云平臺(tái)基礎(chǔ)上搭載人工智能系統(tǒng),主要有IBM的waston、亞馬遜的AWS、以及國(guó)內(nèi)的阿里云、百度云平臺(tái)等。其中英偉達(dá)的GPU采用更為廣泛,賽靈思、英特爾、百度等廠商也在積極采用FPGA在云端進(jìn)行加速,一些初創(chuàng)公司,如深鑒科技等也在開發(fā)專門支持 FPGA 的 AI 開發(fā)工具。另外,除GPU和FPGA外,AI領(lǐng)域?qū)S眉軜?gòu)芯片ASIC則因其更好的性能和功耗,成為云端領(lǐng)域新的攪局者,如谷歌的TPU。

邊緣AI計(jì)算:隨著人工智能應(yīng)用生態(tài)的爆發(fā),越來(lái)越多的AI應(yīng)用開始在端設(shè)備上開發(fā)和部署。

智能手機(jī)是目前應(yīng)用最為廣泛的邊緣計(jì)算設(shè)備,包括蘋果、華為、高通、聯(lián)發(fā)科和三星在內(nèi)的手機(jī)芯片廠商紛紛推出或者正在研發(fā)專門適應(yīng) AI 應(yīng)用的芯片產(chǎn)品。另外,也有很多初創(chuàng)公司加入這個(gè)領(lǐng)域,如地平線機(jī)器人、寒武紀(jì)、深鑒科技、元鼎音訊等。傳統(tǒng)的IP 廠商,包括 ARM、Synopsys 等公司也都為包括手機(jī)、智能攝像頭、無(wú)人機(jī)、工業(yè)和服務(wù)機(jī)器人、智能音箱以及各種物聯(lián)網(wǎng)設(shè)備等邊緣計(jì)算設(shè)備開發(fā)專用 IP 產(chǎn)品。

自動(dòng)駕駛是未來(lái)邊緣AI 計(jì)算的最重要應(yīng)用之一,MobileEye SOC 和 NVIDIA Drive PX 系列提供神經(jīng)網(wǎng)絡(luò)的處理能力可以支持半自動(dòng)駕駛和完全自動(dòng)駕駛。

目前云和邊緣設(shè)備在各種AI應(yīng)用中往往是配合工作。最普遍的方式是在云端訓(xùn)練神經(jīng)網(wǎng)絡(luò),然后在云端(由邊緣設(shè)備采集數(shù)據(jù))或者邊緣設(shè)備進(jìn)行推斷。

AI芯片的技術(shù)挑戰(zhàn):馮·諾依曼、CMOS工藝和器件瓶頸

由于前文所述的AI芯片需要滿足高效的數(shù)據(jù)訪問(wèn),以及深度學(xué)習(xí)下的新的計(jì)算范式,AI芯片在發(fā)展上,也遇到了一些瓶頸問(wèn)題,特別是馮·諾依曼瓶頸,及CMOS工藝和器件瓶頸。

馮·諾依曼瓶頸:在傳統(tǒng)“馮·諾依曼架構(gòu)”中,計(jì)算模塊和存儲(chǔ)單元互相分離,數(shù)據(jù)從處理單元外的存儲(chǔ)器提取,處理完之后再寫回存儲(chǔ)器。每一項(xiàng)任務(wù),如果有十個(gè)步驟,那么CPU會(huì)依次進(jìn)行十次讀取、執(zhí)行,再讀取、再執(zhí)行,這就造成了延時(shí),以及大量功耗花費(fèi)在了數(shù)據(jù)讀取上。

可以不夸張地說(shuō),大部分針對(duì)AI,特別是加速神經(jīng)網(wǎng)絡(luò)處理而提出的硬件架構(gòu)創(chuàng)新都是在和這個(gè)問(wèn)題做斗爭(zhēng)。概括來(lái)說(shuō),目前的解決思路包括減少訪問(wèn)存儲(chǔ)器的數(shù)量,降低訪問(wèn)存儲(chǔ)器的代價(jià)。

CMOS工藝和器件瓶頸:目前,人工智能,特別都是機(jī)器學(xué)習(xí)的發(fā)展將需要更有力的、超過(guò)每秒百億次運(yùn)算能力的計(jì)算系統(tǒng),而構(gòu)建這些系統(tǒng)的基礎(chǔ)是CMOS技術(shù)的芯片,而CMOS工藝能不斷提高系統(tǒng)性能主要得益于集成尺寸的縮小。過(guò)去30年,摩爾定律很好預(yù)測(cè)了這種計(jì)算進(jìn)步,但由于基礎(chǔ)物理原理限制和經(jīng)濟(jì)的原因,持續(xù)提高集成密度變得越來(lái)越困難。

目前的解決方案是通過(guò)開發(fā)提供大量存儲(chǔ)空間的片上存儲(chǔ)器技術(shù),并探索利用片上存儲(chǔ)器去構(gòu)建未來(lái)的智能芯片架構(gòu)。另外,近年來(lái),可以存儲(chǔ)模擬數(shù)值的非易失性存儲(chǔ)器發(fā)展迅猛,能同時(shí)具有存儲(chǔ)和處理數(shù)據(jù)能力,可以破解傳統(tǒng)計(jì)算體系結(jié)構(gòu)的一些基本限制,有望實(shí)現(xiàn)類腦突觸功能。

AI芯片架構(gòu)設(shè)計(jì)趨勢(shì):云端、邊緣設(shè)備、軟件定義

而針對(duì)以上AI芯片計(jì)算和應(yīng)用上的需求,目前云端和邊緣設(shè)備的AI芯片都在進(jìn)行新的研發(fā)。

AI云端訓(xùn)練和推斷:大存儲(chǔ)、高性能、可伸縮。從英偉達(dá)和谷歌的設(shè)計(jì)實(shí)踐可以看出云端AI芯片在架構(gòu)層面,技術(shù)發(fā)展的幾個(gè)特點(diǎn)和趨勢(shì):存儲(chǔ)的需求(容量和訪問(wèn)速度原來(lái)越高);處理能力推向每秒千萬(wàn)億,并支持靈活伸縮和部署;專門針對(duì)推斷需求的FPGA和ASIC。

邊緣設(shè)備:目前,衡量AI 芯片實(shí)現(xiàn)效率的一個(gè)重要指標(biāo)是能耗效率——TOPs/W,這也成為很多技術(shù)創(chuàng)新競(jìng)爭(zhēng)的焦點(diǎn)。

其中,降低推斷的量化比特精度是最有效的方法;除降低精度外,提升基本運(yùn)算單元MAC的效率還可以結(jié)合一些數(shù)據(jù)結(jié)構(gòu)轉(zhuǎn)換來(lái)減少運(yùn)算量;另一個(gè)重要的方向是減少對(duì)存儲(chǔ)器的訪問(wèn),如把神經(jīng)網(wǎng)絡(luò)運(yùn)算放在傳感器或存儲(chǔ)器中;此外,在邊緣設(shè)備的AI芯片中,也可以用各種低功耗設(shè)計(jì)方法來(lái)進(jìn)一步降低整體功耗。最后,終端設(shè)備AI芯片往往呈現(xiàn)一個(gè)異構(gòu)系統(tǒng),專門的AI加速器和CPU、GPU、ISP、DSP等協(xié)同工作以達(dá)到最佳效率。

軟件定義芯片:通用處理器如CPU、GPU,缺乏針對(duì)AI算法的專用計(jì)算、存儲(chǔ)單元設(shè)計(jì),功耗大;專用芯片ASIC功能單一;現(xiàn)場(chǎng)可編程陣列FPGA重構(gòu)時(shí)間開銷過(guò)大,且過(guò)多的冗余邏輯導(dǎo)致其功耗過(guò)高。以上傳統(tǒng)芯片都難以實(shí)現(xiàn)AI芯片所需要的“軟件定義芯片”。

可重構(gòu)計(jì)算技術(shù)允許硬件架構(gòu)和功能隨軟件變化而變化,具備處理器的靈活性和專用集成電路的高性能、低功耗,是實(shí)現(xiàn)“軟件定義芯片”的核心,被公認(rèn)為是突破性的下一代集成電路技術(shù),清華大學(xué)的AI芯片Thinker目前采用可重構(gòu)計(jì)算框架,支持卷積神經(jīng)網(wǎng)絡(luò)、全連接神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)等多種AI算法。

AI芯片中的存儲(chǔ)技術(shù)、新興計(jì)算技術(shù)及神經(jīng)形態(tài)芯片

如前所述,提高AI芯片的性能和能效的關(guān)鍵之一在于數(shù)據(jù)訪問(wèn)。而在傳統(tǒng)的馮·諾依曼體系結(jié)構(gòu)中,數(shù)據(jù)從存儲(chǔ)器串行提取并寫入到工作內(nèi)存,導(dǎo)致相當(dāng)長(zhǎng)的延遲和能量開銷。

近期,面向數(shù)字神經(jīng)網(wǎng)絡(luò)的極速器(GPU、FPGA和ASIC)迫切需要AI友好型存儲(chǔ)器;中期,基于存內(nèi)計(jì)算的神經(jīng)網(wǎng)絡(luò)可以為規(guī)避馮·諾依曼瓶頸問(wèn)題提供有效的解決方案;后期,基于憶阻器的神經(jīng)形態(tài)計(jì)算可以模擬人類的大腦,是AI芯片遠(yuǎn)期解決方案的候選之一。

而對(duì)應(yīng)的新興計(jì)算技術(shù)包括近內(nèi)存計(jì)算、存內(nèi)計(jì)算,以及基于新型存儲(chǔ)器的人工神經(jīng)網(wǎng)絡(luò)和生物神經(jīng)網(wǎng)絡(luò)。

神經(jīng)形態(tài)芯片,即“仿生電腦”。如前所說(shuō),對(duì)于馮·諾依曼、CMOS工藝和器件瓶頸形成的AI芯片存儲(chǔ)、計(jì)算間的問(wèn)題,神經(jīng)形態(tài)計(jì)算是一種新的路徑。

近些年,神經(jīng)形態(tài)計(jì)算也用來(lái)指采用模擬、數(shù)字、數(shù)?;旌蟅LSI以及軟件系統(tǒng)實(shí)現(xiàn)的神經(jīng)系統(tǒng)模型。其將數(shù)字處理器當(dāng)作神經(jīng)元,把內(nèi)存作為突觸,內(nèi)存、CPU和通信部件完全集成在一起,采用模擬人腦神經(jīng)元結(jié)構(gòu)來(lái)提升計(jì)算能力。每個(gè)神經(jīng)元計(jì)算都是本地的,且從全局來(lái)看神經(jīng)元們是分布式在工作。受到腦結(jié)構(gòu)研究的成果啟發(fā),研制出的神經(jīng)形態(tài)芯片具有低功耗、低延遲、高速處理、時(shí)空聯(lián)合等特點(diǎn)。

人工智能的未來(lái):算法、架構(gòu)、器件的不斷探索

“未來(lái)能否有一個(gè)終極算法來(lái)實(shí)現(xiàn)通用人工智能?”這個(gè)問(wèn)題還沒(méi)有人能給出肯定的答案。芯片是人工智能算法的物理基礎(chǔ),它與算法唇齒相依。如果能有統(tǒng)一的終極算法出現(xiàn),那么我們很可能會(huì)看到一個(gè)終極芯片出現(xiàn)。

但在未來(lái)很長(zhǎng)一段時(shí)期,不同的應(yīng)用仍然需要不同的算法(也包括傳統(tǒng)算法),因此我們還必須探索不同的架構(gòu),探索新的器件甚至材料。隨著底層芯片技術(shù)的進(jìn)步,人工智能算法也將獲得更好的支持和更快的發(fā)展。

CMOS 技術(shù)與新興信息技術(shù)的交叉融合,開源軟件到開源硬件的潮流漸顯,預(yù)示著將迎來(lái)一個(gè)前所未有的協(xié)同創(chuàng)新機(jī)遇期。

  • 牙齒美容
  • 好愛卡
  • pe管
  • 小軍師遴選
  • SSL證書
  • 裝修平臺(tái)
  • 北京檢測(cè)儀器
  • 鄭州新聞網(wǎng)
  • 不干膠
  • 植物提取物網(wǎng)
  • 香港服務(wù)器租用
  • 源碼論壇
  • 激光打標(biāo)機(jī)
  • 丹泊儀器
  • 礦山生態(tài)修復(fù)
  • 青島月子會(huì)所