国产精品麻豆入口,精品亚洲AV无码影片在线观看,国产综合网曝亚洲

直擊CPU、GPU弱項(xiàng)！第三類AI處理器IPU正在崛起

作者：編輯　來源：互聯(lián)網(wǎng) 發(fā)布時(shí)間：2020-06-12

┊文章閱讀：次

原標(biāo)題：直擊CPU、GPU弱項(xiàng)！第三類AI處理器IPU正在崛起

IPU能否更好完成CPU和GPU不擅長的AI任務(wù)成為當(dāng)之無愧的革命性架構(gòu)？

作者|包永剛

AI沒有走向低潮，而是在催生大量的應(yīng)用。但大量的AI的應(yīng)用非常場(chǎng)景化，既需要成熟的CPU和GPU，也需要全新的AI處理器。IPU（IntelligenceProcessingUnit）就是一種為AI計(jì)算而生的革命性架構(gòu)，如今，IPU已經(jīng)在金融、醫(yī)療、電信、機(jī)器人、云和互聯(lián)網(wǎng)等領(lǐng)域取得成效。

隨著英國初創(chuàng)公司的Graphcore的IPU在AI應(yīng)用市場(chǎng)的規(guī)?；涞?，第三類AI處理器受到的關(guān)注度越來越高的同時(shí)，但I(xiàn)PU能否更好完成CPU和GPU不擅長的AI任務(wù)成為當(dāng)之無愧的革命性架構(gòu)？

IPU如何跨過芯片與AI應(yīng)用之間的鴻溝？

—

去年底，雷鋒網(wǎng)的《為AI顛覆GPU！計(jì)算機(jī)史上迎來第三個(gè)革命性架構(gòu)IPU》一文已經(jīng)解讀了GraphcoreIPU架構(gòu)的獨(dú)特之處。這里再稍作介紹，Graphcore已經(jīng)量產(chǎn)的IPU型號(hào)為GC2，處理器內(nèi)部有1216個(gè)IPUTiles，每個(gè)Tile里面有獨(dú)立的IPU核作為計(jì)算以及InProcessorMemory即處理器之內(nèi)的內(nèi)存。整個(gè)GC2處理器總共有7296個(gè)線程，能夠支持7296個(gè)程序在并行的運(yùn)行。

基于臺(tái)積電16nm工藝集成236億個(gè)晶體管的GC2在120瓦的功耗下有125TFlops的混合精度、300M的SRAM能夠把完整的模型放在片內(nèi)，另外內(nèi)存的帶寬有15TB/s、片上的交換是8TB/s，片間的IPU-Links是2.5Tbps。

也就是說，IPU通過分布式的片上存儲(chǔ)架構(gòu)突破了AI芯片的存儲(chǔ)墻瓶頸。但正如Graphcore銷售副總裁兼中國區(qū)總經(jīng)理盧濤在近日的一場(chǎng)媒體分享會(huì)上所言：“從一個(gè)芯片到落地中間有很多gap。包括是否有比較好的工具鏈、豐富的軟件以及豐富的軟件庫支持，還有對(duì)主流算法、框架以及操作系統(tǒng)的支持。”

這就意味著，只有通過易用的軟件將芯片的優(yōu)勢(shì)發(fā)揮出來AI芯片才能更好地落地。對(duì)于IPU而言，由于架構(gòu)的特色，解決并行硬件的高效編程是一個(gè)非常大的課題。為此，Graphcore在GC2中采用了谷歌、Facebook、百度這些構(gòu)建大規(guī)模數(shù)據(jù)中心集群會(huì)使用的BSP（BulkSynchronousParallel）技術(shù)，通過硬件支持BSP協(xié)議，并通過BSP協(xié)議把整個(gè)計(jì)算邏輯分成計(jì)算、同步、交換。

盧濤說：“對(duì)軟件工程師或者開發(fā)者來說，采用了BSP后就非常易于編程，因?yàn)椴挥锰幚韑ocks。對(duì)用戶來說，也不用管這里面是1216個(gè)核心（Tile）還是7000多個(gè)線程、任務(wù)具體在哪個(gè)核上執(zhí)行，這是一個(gè)非常用戶友好的創(chuàng)新。”

在此基礎(chǔ)上，Graphcore推出了在機(jī)器學(xué)習(xí)框架軟件和硬件之間基于計(jì)算圖的整套工具鏈和庫的Poplar是軟件棧。據(jù)悉，Poplar目前已經(jīng)提供750個(gè)高性能計(jì)算元素的50多種優(yōu)化功能，支持標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)框架，如TensorFlow1、2，ONNX和PyTorch，很快也會(huì)支持PaddlePaddle。

另外，可以支持容器化部署，能夠快速啟動(dòng)并且運(yùn)行。標(biāo)準(zhǔn)生態(tài)方面支持Docker、Kubernetes，還有像微軟的Hyper-v等虛擬化技術(shù)和安全技術(shù)。操作系統(tǒng)支持廣泛應(yīng)用的三個(gè)Linux發(fā)行版：ubuntu、RedHatEnterpriseLinux、CentOS。

今年5月，Graphcore又推出了名為PopVisionGraphAnalyser的分析工具，開發(fā)者、研究者在使用IPU進(jìn)行編程的時(shí)候，可以通過PopVision這個(gè)可視化的圖形展示工具來分析軟件運(yùn)行的情況、效率調(diào)試調(diào)優(yōu)等。同月也上線了Poplar開發(fā)者文檔和社區(qū)。

目前，基于IPU的一些應(yīng)用已經(jīng)覆蓋了機(jī)器學(xué)習(xí)的各個(gè)應(yīng)用領(lǐng)域，包括自然語言處理、圖像/視頻處理、時(shí)序分析、推薦/排名及概率模型。Graphcore在Github不僅提供模型移植的文章，還有豐富的應(yīng)用案例和模型。

還有一個(gè)關(guān)鍵的問題，開發(fā)者把模型遷移到IPU需要進(jìn)行代碼級(jí)修改嗎？盧濤對(duì)雷鋒網(wǎng)表示：“AI的開發(fā)者90都使用開源框架，開發(fā)語言是Python，對(duì)于這類開發(fā)者，代碼的遷移成本非常低。就算是占開發(fā)者群體9的，使用基于NvidiacuDNN的性能級(jí)開發(fā)者，我們也會(huì)盡量提供和cuDNN類似的用戶體驗(yàn)，這個(gè)工作量目前看來完全在接受的范圍?！?/p>

IPU吞吐量最高比GPU提升260倍

—

解決了芯片到應(yīng)用的軟件問題，那IPU更適合在哪些場(chǎng)景應(yīng)用？“我們未來推進(jìn)的策略還是訓(xùn)練和推理兩個(gè)事情并行來做。有可能是一些單獨(dú)的訓(xùn)練任務(wù)，也有可能是一些單獨(dú)的推理任務(wù)，但我們會(huì)更加聚焦在一些對(duì)精度要求更高、對(duì)時(shí)延要求更低、對(duì)吞吐量要求更高的一些場(chǎng)景?！北R濤進(jìn)一步表示。

“當(dāng)前廣泛應(yīng)用、主流的CV類的模型是以Int8為主，但像現(xiàn)在的NLP模型，以及一些搜索引擎里用的模型或者廣告算法模型其實(shí)都是FP16，甚至FP32為主流的數(shù)據(jù)格式，因?yàn)檫@樣一些模型對(duì)于精度的要求會(huì)更高。因此云端推理除了Int8，F(xiàn)P16和FP32的市場(chǎng)也很大?！?/p>

Graphcore中國銷售總監(jiān)朱江指出，除了稠密的數(shù)據(jù)之外，現(xiàn)在代表整個(gè)AI發(fā)展方向的大規(guī)模稀疏化的數(shù)據(jù)，在IPU上處理就會(huì)有非常明顯的優(yōu)勢(shì)。與大規(guī)模的稀疏化數(shù)據(jù)對(duì)應(yīng)的是分組卷積這樣一種新型的卷積算法，與ResNet這種目前比較傳統(tǒng)的方式相比，可以有更好的精度方表現(xiàn)和性能提升。

Graphcore給出了一個(gè)分組卷積內(nèi)核的Micro-Benchmark，將組維度（GroupDimension）分成從1到512來比較。512就是應(yīng)用得較多的“Dense卷積網(wǎng)絡(luò)”，典型的應(yīng)用如ResNet。在212的維度，IPUGC2性能比V100要好近一倍。隨著稠密程度降低、稀疏化程度增加，在組維度為1或?yàn)?2時(shí)，針對(duì)EfficientNet或MobileNet，IPU對(duì)比GPU展現(xiàn)出巨大的優(yōu)勢(shì)，做到成倍的性能提升，同時(shí)延時(shí)大大降低。

之所以在低數(shù)組維度優(yōu)勢(shì)明顯，是因?yàn)榉纸M卷積數(shù)據(jù)不夠稠密，在GPU上可能效果并不好，而IPU的架構(gòu)設(shè)計(jì)在分組卷積中能夠發(fā)揮優(yōu)勢(shì)，并且可以提供GPU很難甚至無法提供的低延遲和高吞吐量。

整體而言，與英偉達(dá)V100相比，Graphcore的IPU在自然語言處理方面的速度能夠提升20-50，圖像分類能有6倍的吞吐量提升實(shí)現(xiàn)更低的時(shí)延。這些優(yōu)勢(shì)在IPU的實(shí)際落地案例中也同明顯的性能優(yōu)勢(shì)。

在金融領(lǐng)域的風(fēng)險(xiǎn)管理、算法交易等應(yīng)用中，會(huì)使用MarkovChain和MCMC等算法，借助IPU，采樣速率能夠比GPU提高26倍。在金融領(lǐng)域應(yīng)用廣泛的強(qiáng)化學(xué)習(xí)，IPU也能把強(qiáng)化學(xué)習(xí)時(shí)間縮短到1/13。還有，采用MLP（多層感知器）加上嵌入一些數(shù)據(jù)的方式來做銷售的預(yù)測(cè)，IPU相比GPU能有5.9倍以上的吞吐量提升。

在醫(yī)療和生命科學(xué)領(lǐng)域，包括新藥發(fā)現(xiàn)、醫(yī)學(xué)圖像、醫(yī)學(xué)研究、精準(zhǔn)醫(yī)療等，IPU也已經(jīng)體現(xiàn)出優(yōu)勢(shì)。微軟使用IPU訓(xùn)練COVID-19影像分析的算法模型CXR，能夠在30分鐘之內(nèi)完成在NVIDIAGPU上需要5個(gè)小時(shí)的訓(xùn)練工作量。

另外，在電信領(lǐng)域，機(jī)器智能可以幫助分析無線數(shù)據(jù)的一些變化，比如采用LSTM模型預(yù)測(cè)未來性能促進(jìn)網(wǎng)絡(luò)規(guī)劃。基于時(shí)間序列分析，采用IPU能夠比GPU有260倍的吞吐量提升。

在5G網(wǎng)絡(luò)切片和資源管理中需要用到的強(qiáng)化學(xué)習(xí)，用IPU訓(xùn)練吞吐量也能夠提升最多13倍。

在創(chuàng)新的客戶體驗(yàn)的自然語言處理（NLP）方面，代表性的模型就是BERT。朱江介紹：“我們目前在BERT上訓(xùn)練的時(shí)間能夠比GPU縮短25以上?！?/p>

還有一個(gè)有意思的應(yīng)用是IPU在機(jī)器人領(lǐng)域的應(yīng)用，是Graphcore和倫敦帝國理工學(xué)院的合作，主要是用到一些空間的AI以及及時(shí)定位和地圖構(gòu)建技術(shù)，幫助機(jī)器人做比較復(fù)雜的動(dòng)作和更高級(jí)的功能。

對(duì)Graphcore更重要的是在IPU在云和數(shù)據(jù)中心中的應(yīng)用，這是他們?cè)缙谕茝V以及現(xiàn)在主要推廣的領(lǐng)域，包括微軟在Azure公有云上開放IPU的服務(wù)，以及歐洲搜索引擎公司Qwant使用IPU做搜圖識(shí)別性能達(dá)到3.5倍以上的提升。

如何搶占中國AI市場(chǎng)先機(jī)？

—

“在IPU的落地上，目前我們整個(gè)策略上還是與云服務(wù)商和服務(wù)器提供商合作，所有地區(qū)基本上是一樣的做法?！北R濤坦言，IPU在美國的落地速度比中國更快，包括Azure公有云上開放IPU的服務(wù)，以及與戴爾易安信合作推出了IPU服務(wù)器等。

他解釋，“這是因?yàn)槊绹挠脩艨赡苁禽^為活躍的研究者社區(qū)，而中國很注重產(chǎn)品化落地。我們中國本地的一些合作伙伴、開發(fā)者可能會(huì)更加務(wù)實(shí)?？赡芮捌趯?dǎo)入會(huì)慢一點(diǎn)，但是后面真正開始加速了，整個(gè)開發(fā)過程速度是會(huì)非?？臁！?/p>

盧濤也透露，Graphcore在和金山云在合作，即將上線一個(gè)面向中國開發(fā)者和創(chuàng)新者的免費(fèi)試用的開發(fā)者云。

在本地化產(chǎn)品服務(wù)方面，“長期來講，我們很開放地希望針對(duì)中國市場(chǎng)的需求做產(chǎn)品的定制化演進(jìn)。從服務(wù)的角度，我們有兩支技術(shù)團(tuán)隊(duì)，工程技術(shù)團(tuán)隊(duì)承擔(dān)兩個(gè)方面的工作，一是根據(jù)中國本地的AI的應(yīng)用的特點(diǎn)和應(yīng)用的需求，把一些AI的算法模型用IPU去落地；二是根據(jù)中國本地用戶對(duì)于AI的穩(wěn)定性學(xué)習(xí)框架平臺(tái)軟件方面的需求，做功能性的一些開發(fā)加強(qiáng)的工作。現(xiàn)場(chǎng)應(yīng)用團(tuán)隊(duì)則是幫助客戶做一些更現(xiàn)場(chǎng)的技術(shù)支持的工作?！?/p>

當(dāng)然，Graphcore支持阿里巴巴為底層的架構(gòu)抽象出來的統(tǒng)一接口APIODLA（OpenDeepLearningAPI）硬件標(biāo)準(zhǔn)，以及支持國內(nèi)重要的深度學(xué)習(xí)框架百度飛槳也都有助于Graphcore的IPU在國內(nèi)的落地。

從AI發(fā)展的未來趨勢(shì)看，IPU也能發(fā)揮優(yōu)勢(shì)。盧濤說：“我們看到一個(gè)大的趨勢(shì)，就是訓(xùn)練和推理有混步的需求。比如線上的推薦算法，以及預(yù)測(cè)汽車類應(yīng)用。能夠同時(shí)滿足訓(xùn)練和推理需求的IPU就能夠發(fā)揮優(yōu)勢(shì)?！?/p>

另外，“分組卷積對(duì)算法設(shè)計(jì)者來說，最簡(jiǎn)單的一個(gè)表現(xiàn)就是設(shè)計(jì)出參數(shù)規(guī)模更小、精度更高的一個(gè)算法模型。我們認(rèn)為這是未來一個(gè)大的趨勢(shì)?！?/p>

雷鋒網(wǎng)小結(jié)

—

作為一個(gè)全新的架構(gòu)，IPU獲得了業(yè)界多位專家的高度評(píng)價(jià)。不過從創(chuàng)新的架構(gòu)到芯片再到成為革命性的產(chǎn)品，Graphcore從芯片到落地之間的距離，需要易用的軟件和豐富的工具來支持，特別是對(duì)軟件生態(tài)依賴程度比較到的云端芯片市場(chǎng)。從目前的情況看，Graphcore在工具鏈、部署支持方面都已經(jīng)有對(duì)應(yīng)的產(chǎn)品，并且在金融、醫(yī)療、數(shù)據(jù)中心等領(lǐng)域都有落地案例。并且，Graphcore下一代基于更先進(jìn)7nm工藝的IPU也即將推出。

接下來的問題就是標(biāo)桿客戶之后市場(chǎng)的接受度如何？以及Graphcore的市場(chǎng)策略是否和他們的產(chǎn)品一樣優(yōu)勢(shì)明顯？

不可忽視的是，全球范圍內(nèi)除了Graphcore還有其他公司也使用了IPU的理念設(shè)計(jì)出了AI芯片并且開始推廣。我們正在見證IPU時(shí)代的到來。

注，文中圖片均來自Graphcore

上一篇：不斷積累核心技術(shù)和專利寒武紀(jì)展現(xiàn)穩(wěn)定創(chuàng)新能力
下一篇：沒有了

加入收藏查看評(píng)論復(fù)制給好友打印本頁關(guān)閉窗口

直擊CPU、GPU弱項(xiàng)！第三類AI處理器IPU正在崛起

熱門文章 Top Article

最新文章 Top Article

直擊CPU、GPU弱項(xiàng)！第三類AI處理器IPU正在崛起

熱門文章 Top Article

最新文章 Top Article

直擊CPU、GPU弱項(xiàng)！第三類AI處理器IPU正在崛起