国产午夜理论不卡电影院888,在线看av一区二区三区

人工智能計算的需求劇增，迫切需要計算架構(gòu)的創(chuàng)新

2021-11-01 17:38

計算架構(gòu)的瓶頸

與突破方向

隨著人工智能計算的需求劇增,現(xiàn)有計算架構(gòu)遭遇功耗墻、性能墻、內(nèi)存墻、摩爾定律趨緩等挑戰(zhàn)迫切需要計算架構(gòu)的創(chuàng)新,解決路徑主要體現(xiàn)在兩點:突破計算架構(gòu)和打破存儲墻。

計算架構(gòu)的創(chuàng)新一直是爭論的焦點,在應(yīng)用上涌現(xiàn)的GPU、FPGA、ASIC、類腦甚至于3DSoC等,都是想打破適應(yīng)性、性能、功效、可編程性和可擴展性等5個硬件特性的瓶頸,任何一個架構(gòu)都不會在5個特性都達(dá)到最優(yōu)。

拋開哪個架構(gòu)最優(yōu),適合人工智能的業(yè)務(wù)場景、數(shù)據(jù)類型、支出成本的架構(gòu),能讓醫(yī)療AI解決方案快速的就是好的架構(gòu)。

計算架構(gòu)更新資金成本的提高、時間成本的延長和復(fù)雜度的提升,促使學(xué)術(shù)界和產(chǎn)業(yè)界轉(zhuǎn)向研究“如何打破存儲墻”,解決路徑好多種,包括:

1．高帶寬的數(shù)據(jù)通信

高速SerDes:點對點的串行通信提升傳輸速度;

光互連:信號間無感應(yīng)、無干擾、速率高、密度大替代電互聯(lián);

2．5D/3D堆疊技術(shù):搭積木,不改變現(xiàn)有產(chǎn)品制程的基礎(chǔ)上提高單位芯片面積內(nèi)的晶體管數(shù)量,處理器周圍堆疊更多的存儲器件。

2．數(shù)據(jù)、計算、存取

增加緩存級數(shù):處理器和主存插入高速緩存,相對來說緩存越大速度越快,但成本高。

高密度片上內(nèi)存:EDRAM動態(tài)隨機存取內(nèi)存、PCM相變存儲的靜態(tài)和非晶體轉(zhuǎn)換。

3．內(nèi)存運算

近數(shù)據(jù)計算:離數(shù)據(jù)更近的邊緣側(cè)進行計算處理。

存算一體:片外高帶寬內(nèi)存HBM、高帶寬存儲(3D-Xtacking,存儲單元和外圍電路在不同晶圓獨立加工)和片內(nèi)(在存儲器顆粒本身的算法嵌入)。

馮諾伊曼架構(gòu)是計算機的經(jīng)典架構(gòu),同時也是目前計算機以及處理器芯片的主流架構(gòu)。在馮諾伊曼架構(gòu)中,計算/處理單元與內(nèi)存是兩個完全分離的單元:計算/處理單元根據(jù)指令從內(nèi)存中讀取數(shù)據(jù),在計算/處理單元中完成計算/處理,并存回內(nèi)存。

存內(nèi)運算的主要改進就是把計算嵌入到內(nèi)存里面去,內(nèi)存變成存儲+計算的利器,在存儲/讀取數(shù)據(jù)的同時完成運算,減少了計算過程中的數(shù)據(jù)存取的耗費。把計算都轉(zhuǎn)化為帶權(quán)重加和計算,把權(quán)重存在內(nèi)存單元中,讓內(nèi)存單元具備計算能力。

AI運算的另一方向

低功耗持續(xù)運行的物聯(lián)網(wǎng)設(shè)備,比如智能家居、可穿戴設(shè)備、移動終端及感知計算、智慧城市需要的低功耗邊緣計算設(shè)備。

目前的計算機系統(tǒng)采用的馮·諾伊曼結(jié)構(gòu),當(dāng) CPU 處理來自 DRAM 芯片外的數(shù)據(jù)時,頻繁使用的數(shù)據(jù)被存儲緩存中(L1級、L2級和L3級),這樣不僅速度快和功耗低,還能夠獲得最大性能。然而在需要處理大量數(shù)據(jù)的應(yīng)用程序中,絕大部分?jǐn)?shù)據(jù)是從內(nèi)存中讀取的,因為與緩存的容量相比起來,要處理的數(shù)據(jù)則大的多。

在這種情況下,CPU 和內(nèi)存之間數(shù)據(jù)通道的帶寬成為限制性能發(fā)揮的瓶頸 ,在 CPU 和內(nèi)存之間傳輸數(shù)據(jù)也消耗了巨大能量。為了突破這一瓶頸,CPU 和內(nèi)存之間的通道帶寬需要擴展,但是如果當(dāng)前 CPU 的管腳數(shù)量已經(jīng)達(dá)到極限,進一步的帶寬改進將面臨技術(shù)上難以逾越的困難。在現(xiàn)代計算機結(jié)構(gòu)中,數(shù)據(jù)存儲和數(shù)據(jù)計算是分開的,這樣的“數(shù)據(jù)墻”問題是不可避免的。我們不妨假設(shè)處理器用于乘法運算的功耗約為1個單位,而從 DRAM 中獲取數(shù)據(jù)到處理器需要消耗的能量是數(shù)據(jù)的實際計算的650倍,也就是說減少數(shù)據(jù)移動對于性能和功耗的提升是巨大的。

深層神經(jīng)網(wǎng)絡(luò)(DNN)是一種機器學(xué)習(xí)(ML) ,其中以用于計算機視覺(CV)的卷積神經(jīng)網(wǎng)絡(luò)(CNN)和用于自然語言處理(NLP)的遞歸神經(jīng)網(wǎng)絡(luò)(RNN)為大家所熟知,并且最近大熱的推薦模型(RM)等新的應(yīng)用程序也趨向于使用 DNN。對于RNN而言,其主要運算是矩陣向量乘法運算,由于其具有低數(shù)據(jù)重用特性,內(nèi)存訪問次數(shù)越多,通過內(nèi)存通道的數(shù)據(jù)移動就越多,而性能瓶頸就越明顯。

所以為了改進這一點,有很多人提出應(yīng)用PIM技術(shù)重新構(gòu)建DRAM內(nèi)存,PIM正如其定義的那樣,其操作和計算是在內(nèi)存中執(zhí)行的,也就是說,PIM的預(yù)期效果是通過在內(nèi)存中執(zhí)行操作而不將數(shù)據(jù)移動到 CPU,從而最小化數(shù)據(jù)移動,用來提升性能。從20世紀(jì)90年代末到21世紀(jì)初,學(xué)術(shù)界積極研究這一概念,但由于 DRAM 處理和邏輯計算的技術(shù)難度大,以及使用 DRAM 處理實現(xiàn)內(nèi)存中 CPU 的成本太高,導(dǎo)致PIM 的競爭力大大削弱,并且也沒有商業(yè)化。但是現(xiàn)今對于性能的需求使得這一概念的商業(yè)化提上了日程。

如果想要理解 PIM,首先我們是要知道 AI究竟進行了什么樣的操作,下圖給我們展示了神經(jīng)網(wǎng)絡(luò)中的完全連接(FC)層,單輸出神經(jīng)元Y1節(jié)點鏈接到X1,X2,X3和X4節(jié)點上,每個節(jié)點突觸上的權(quán)重分別為w11,w12,w13和w14。AI為了處理這個全連接層需要將每個計算節(jié)點和權(quán)重相乘然后再進行求和,然后再應(yīng)用一個激活函數(shù),如RELU等。更復(fù)雜的情況是有幾個輸入(X1．．．Xn)和輸出(Y1．．．Yn)的情況下,AI將每個單元分別乘以其對應(yīng)輸出的權(quán)重然后再分別求和,而這也就是數(shù)學(xué)上的矩陣乘法和加法運算。

同樣的在圖5中,如果我們把這些運算用的電路全部設(shè)計到存儲單元中,則完全不需要將數(shù)據(jù)搬運和傳輸,只需要在存儲單元中完成計算并且把結(jié)果告知CPU即可;這樣不僅能夠顯著減少功耗,還能盡可能的處理更加復(fù)雜的操作。目前SK Hynix公司正在大力開發(fā)采用這一技術(shù)的PIM DRAM,對于RNN 等內(nèi)存瓶頸的應(yīng)用來說,如果在 DRAM 中使用計算電路執(zhí)行應(yīng)用程序,預(yù)計性能和功耗將有顯著提高。而未來CPU需要處理的數(shù)據(jù)還在不斷增多,PIM有望成為計算機提升性能最強有力的方案。

內(nèi)存運算的優(yōu)劣

(1)片外存儲(基于數(shù)字芯片和存儲器配合的存算一體)

①高帶寬內(nèi)存HBM:

對于GPU來講,采用3D的DRAM和GPU金屬線連接,提高通信速度(900GB/S),但功耗高、成本高。

對于其他芯片來說,用SRAM替代HBM(3D DRAM)降低能耗和提升讀寫速度,成本高。這種情況用大量的SRAM可以匹配大量的MPU和CPU等處理器,提升運行的效率。

②新型存儲拓寬內(nèi)存:

使用新型存儲器布局在處理器周圍拓展內(nèi)存,比如磁存儲(MRAM)降低成本、提升存儲密度,斷電數(shù)據(jù)不丟失,工藝僅多提高3-4層MASK,性能有效提升,達(dá)到約10Tops/W(每瓦特10萬億次運算)。

(2)片內(nèi)存儲(數(shù)�；旌系拇嫠阋惑w化)

片內(nèi)存儲就是在存儲器顆粒嵌入算法權(quán)重MAC,將存儲單元具備計算功能,并行計算能力強,加上神經(jīng)網(wǎng)絡(luò)的對于計算精度的誤差容忍度較高(存儲位數(shù)可根據(jù)應(yīng)用調(diào)整),因此存內(nèi)計算數(shù)字和模擬混合即使帶來誤差對于符合的應(yīng)用性能和能效比合適,帶來存內(nèi)計算和人工智能尤其深度學(xué)習(xí)的廣泛結(jié)合。

①相變存儲PCM

相變存儲器通常是改變加熱時間促進硫族化合物在晶態(tài)和非晶態(tài)巨大的導(dǎo)電性差異來存儲數(shù)據(jù),相變時間100-1000ns,可擦寫次數(shù)達(dá)到108,現(xiàn)在新型材料涌現(xiàn)的越來越多。

②阻變存儲器/憶阻器 RRAM/Memristor

憶阻器,是一種有記憶功能的非線性電阻,它的電阻會隨著流過的電流而改變。在斷電之后,即使電流停止了,電阻值仍然會保持下去,直到反向電流通過,它才會返回原狀。所以,通過控制電流變化可以改變它的阻值,然后例如將高阻值定義為“1”,低阻值定義為“0”,就可以實現(xiàn)數(shù)據(jù)存儲功能。人們通常將它用于構(gòu)建高密度非易失性的阻變存儲器(RRAM)。

憶阻器網(wǎng)絡(luò),與生物大腦的神經(jīng)網(wǎng)絡(luò)相似,可以同時處理許多任務(wù)。最重要的是,它無需反復(fù)移動數(shù)據(jù)。它可以并行地處理大量信號,特別適合于機器學(xué)習(xí)系統(tǒng)。編程時間大概10-1000ns,可編程次數(shù)106-1012次。

③浮柵器件

浮柵器件工藝成熟,編程時間10-1000ns,可編程次數(shù)105次,存儲陣列大,實現(xiàn)量產(chǎn)運算精度高、密度大、效率高、成本低,適宜深度學(xué)習(xí)和人工智能使用。

3．芯片優(yōu)化策略

終端存算一體芯片推理應(yīng)用需要更低的成本、更低的功耗,對于精度、通用性要求不高。

云端存算一體芯片訓(xùn)練應(yīng)用需要通用性、速度和精度要求,因此目前存算一體芯片精度不高情況下適宜前端的嵌入式應(yīng)用。

4．存算一體芯片挑戰(zhàn)

(1)現(xiàn)有浮柵器件存儲不適合計算,需要優(yōu)化和改進。

(2)新型存儲器的進展挑戰(zhàn)浮柵器件,會有更適合存算一體的可能。

(3)存算一體目前在8bit運算精度,在適宜的條件下需提升運算精度,比如Nor Flash做到10bit。

(4)存算一體芯片與開發(fā)環(huán)境、架構(gòu)和現(xiàn)有工藝的兼容需要市場和時間。

(5)性能與場景結(jié)合需要落地。

5．存算一體的未來

(1)低精度但準(zhǔn)確的乘法和累加運算帶來端的效率提升,芯片成本降低,目前Nor Flash在40nm/55nm工藝下即可,但Nor 會一定程度限定應(yīng)用,不過未來開發(fā)更優(yōu)化器件和工藝就可突破。

(2)存算一體芯片的投資機構(gòu)包括軟銀、英特爾、微軟、博世、亞馬遜甚至美國政府,中國存算一體的知存科技將獲得下一輪的投資,同時還有清華憶阻器的新憶科技。

(3)存算一體芯片第一代產(chǎn)品都瞄準(zhǔn)語音,未來都將切入安防和細(xì)分市場,但。

(4)存算一體企業(yè)模式應(yīng)分為兩種模式:一是銷售IP,二是做AI存算一體芯片,前者單純IP日子將非常難過。未來還是做芯片吧!不過各類競爭也不小。

(5)目前存算一體的極限效率為>300Tops/W(8bit),現(xiàn)在工業(yè)界差距較大5-50Tops/W,進步空間大。

(6)浮柵器件在摩爾定律帶動下朝著更高工藝發(fā)展,比如從40-14nm過渡,性能將大幅提升。新型存儲器將從28-5nm工藝過渡,提升工藝性能。

(7)存儲器工藝將朝著2X甚至10X及結(jié)構(gòu)優(yōu)化提升存算一體性能。

編譯自:The prospect of Processing In Memory (PIM) in memory systems for AI applications ----EEtimes

關(guān)于慧維智能

慧維智能醫(yī)療科技有限公司成立于2019年6月,專業(yè)從事智能醫(yī)療產(chǎn)品的研發(fā)、生產(chǎn)與銷售。我們的核心成員,均來自全球頂尖的科研機構(gòu)和世界五百強企業(yè)。慧維智能以在“人工智能”和“邊緣計算”領(lǐng)域的自主核心技術(shù)為驅(qū)動力,致力于為全球醫(yī)療機構(gòu)提供“高水準(zhǔn)、好體驗”的醫(yī)療產(chǎn)品與服務(wù),最大程度地幫助醫(yī)生提高診療水平與效率。