訂閱
糾錯(cuò)
加入自媒體

2021年度AI服務(wù)器的巔峰對(duì)決

時(shí)至12月,又到了盤點(diǎn)、總結(jié)的時(shí)候了。遙記當(dāng)年DIY最火的時(shí)代,年底都要做的是硬件產(chǎn)品橫評(píng)與盤點(diǎn)等重要選題,從消費(fèi)者到廠商都能通過對(duì)比來了解產(chǎn)品的性能與市場(chǎng)表現(xiàn),從而為選擇、研發(fā)下一代產(chǎn)品積累經(jīng)驗(yàn)。

我們?cè)賮砜纯雌髽I(yè)級(jí)市場(chǎng),近20年來它的變化速度飛快,從x86服務(wù)器興起開始,多核算力、云計(jì)算、大數(shù)據(jù)、人工智能、容器等等技術(shù)實(shí)現(xiàn)了一次又一次的突破,也為數(shù)字化的未來寫下了一頁頁濃墨重彩的傳奇。

企業(yè)級(jí)市場(chǎng)發(fā)展至今,可以看到無論是技術(shù)還是產(chǎn)品,整體趨勢(shì)都無一例外地朝向應(yīng)用。CPU、GPU、DPU、存儲(chǔ)都不再是單一的衡量標(biāo)準(zhǔn),企業(yè)級(jí)用戶關(guān)注的應(yīng)用,或者說是能夠在什么樣的成本下,提供為我所需的性能,這才是最重要的一點(diǎn)。

2021 MLPerf?人工智能測(cè)試收官之作

正是因?yàn)槿绱,MLPerf?測(cè)試才應(yīng)運(yùn)而生地成為了新一代標(biāo)桿,它所衡量的是服務(wù)器在人工智能相關(guān)領(lǐng)域應(yīng)用的性能表現(xiàn),極具實(shí)戰(zhàn)價(jià)值,因此也備受業(yè)界關(guān)注。

MLPerf?是影響力最廣的國(guó)際AI性能基準(zhǔn)評(píng)測(cè),由圖靈獎(jiǎng)得主大衛(wèi)?帕特森(David Patterson)聯(lián)合頂尖學(xué)術(shù)機(jī)構(gòu)發(fā)起成立。2020年,非盈利性機(jī)器學(xué)習(xí)開放組織MLCommons基于MLPerf?基準(zhǔn)測(cè)試成立,其成員包括谷歌、Facebook、英偉達(dá)、英特爾、浪潮、哈佛大學(xué)、斯坦福大學(xué)、加州大學(xué)伯克利分校等50余家全球AI領(lǐng)軍企業(yè)及頂尖學(xué)術(shù)機(jī)構(gòu),致力于推進(jìn)機(jī)器學(xué)習(xí)和人工智能標(biāo)準(zhǔn)及衡量指標(biāo)。

目前,MLCommons每年組織2次MLPerf? AI訓(xùn)練性能測(cè)試和2次MLPerf? AI推理性能測(cè)試,為用戶衡量設(shè)備性能提供權(quán)威有效的數(shù)據(jù)指導(dǎo)。

MLPerf?基準(zhǔn)測(cè)試分為固定任務(wù)(Closed Model Division)和開放任務(wù)(Open Model Division)兩個(gè)分區(qū)。

固定任務(wù)是通過相同的模型、優(yōu)化器及參數(shù)值測(cè)試深度學(xué)習(xí)在不同服務(wù)器上的性能表現(xiàn),類似于我們?nèi)粘?吹降挠布悓?duì)比評(píng)測(cè)。而開放任務(wù)則對(duì)深度學(xué)習(xí)模型及精度不做過多約束,重點(diǎn)考察服務(wù)器廠商對(duì)深度學(xué)習(xí)模型及算法的優(yōu)化能力,推進(jìn)ML模型和優(yōu)化的創(chuàng)新。

固定任務(wù)(Closed)強(qiáng)調(diào)AI計(jì)算系統(tǒng)的公平比較,競(jìng)賽衡量的是同一深度學(xué)習(xí)模型在不同硬件上的性能,重點(diǎn)考察參測(cè)廠商硬件系統(tǒng)和軟件優(yōu)化的能力。

既然MLPerf?每年組織4次AI相關(guān)測(cè)試,那么年底這次當(dāng)然就屬重頭戲了,業(yè)界對(duì)此的關(guān)注度也非常之高。12月1日,MLPerf?公布了最新一期訓(xùn)練(Training)榜單V1.1,此次共有谷歌、微軟云、英偉達(dá)、浪潮信息、百度、戴爾等14家公司及科研機(jī)構(gòu),參與MLPerf?基準(zhǔn)測(cè)試,全部都是國(guó)際大廠,可謂華山論劍。共提交180項(xiàng)固定任務(wù)(Closed)成績(jī),6項(xiàng)開放任務(wù)(Open)成績(jī)。

在單機(jī)測(cè)試的8項(xiàng)任務(wù)中,浪潮信息獲7項(xiàng)冠軍,英偉達(dá)獲1項(xiàng)冠軍;在集群測(cè)試的8項(xiàng)任務(wù)中,英偉達(dá)獲7項(xiàng)冠軍,微軟云獲1項(xiàng)冠軍。

實(shí)戰(zhàn)應(yīng)用場(chǎng)景,用計(jì)算力推動(dòng)深度學(xué)習(xí)

正如前文所述,本次MLPerf?基準(zhǔn)評(píng)測(cè)涵蓋了8類極具代表性的機(jī)器學(xué)習(xí)任務(wù),分別是圖像分類(ResNet)、醫(yī)學(xué)影像分割(U-Net3D)、目標(biāo)物體檢測(cè)(SSD)、目標(biāo)物體檢測(cè)(Mask R-CNN)、語音識(shí)別(RNN-T)、自然語言理解(BERT)、智能推薦(DLRM)以及強(qiáng)化學(xué)習(xí)(MiniGo)。

為什么MLPerf?的AI性能測(cè)試受關(guān)注度如此高?

還不是因?yàn)樗钯N近用戶使用場(chǎng)景嘛!這一點(diǎn)尤為重要。

這就如同我們挑選智能手機(jī),市場(chǎng)中的機(jī)型幾百、上千款,它們的設(shè)計(jì)、定位本身就有著很大不同。白領(lǐng)注重品質(zhì)和可靠性、游戲玩家關(guān)注性能、年輕人喜歡拍照、學(xué)生更關(guān)注性價(jià)比,根據(jù)自己的使用場(chǎng)景進(jìn)行選擇,這樣才能做到定位精準(zhǔn)。MLPerf?的應(yīng)用場(chǎng)景式評(píng)測(cè),也是意在于此。

場(chǎng)景一:圖像分類(ResNet)

ResNet是非常經(jīng)典的深度學(xué)習(xí)模型,它也被稱為最典型的計(jì)算機(jī)視覺應(yīng)用。將海量圖片識(shí)別后標(biāo)記,然后進(jìn)行分類,這種應(yīng)用場(chǎng)景非常便捷與高效,ResNet考察的就是服務(wù)器在這項(xiàng)模型訓(xùn)練中的表現(xiàn)。

實(shí)戰(zhàn)應(yīng)用場(chǎng)景,2021年度AI服務(wù)器的巔峰對(duì)決

圖像分類(ResNet)任務(wù)單機(jī)訓(xùn)練成績(jī)排名

從上圖可以看到,浪潮信息的兩款經(jīng)典服務(wù)器拿下了前兩名位置,NF5488A5性能最高,NF5688M6排名第二。Supermicro的8卡A100-SXM4-80GB(500W)機(jī)型性能較NF5488A5低1.6%,排名第三。

看到這里可能有人會(huì)產(chǎn)生疑問,為什么只有浪潮和超微用500W的GPU?對(duì)于其他廠商而言是不是有些不公平?

其實(shí),這恰恰證明了它們強(qiáng)大的研發(fā)實(shí)力。因?yàn)槔顺笔堑谝粋(gè)在服務(wù)器中實(shí)現(xiàn)8塊500W功耗GPU部署的廠商,并提供液冷與風(fēng)冷兩種機(jī)型,同期其他品牌的產(chǎn)品大都僅做到了部署4塊500W GPU。本次測(cè)試,超微是第二家以8塊500W GPU服務(wù)器參賽的廠商。

GPU從300W到400W再發(fā)展至500W,多張卡同時(shí)部署的時(shí)候,對(duì)服務(wù)器內(nèi)有限的空間提出了更高散熱需求,因此供電與散熱方面設(shè)計(jì)難度非常高。也正是因?yàn)槿绱,在評(píng)測(cè)中,才能夠觀察出各家企業(yè)、機(jī)構(gòu)參賽產(chǎn)品的設(shè)計(jì)、研發(fā)能力。

場(chǎng)景二:醫(yī)學(xué)影像分割(U-Net3D)

患者到醫(yī)院拍了醫(yī)學(xué)影像,包括X光、超聲、CT和MRI等,AI可以在很短時(shí)間內(nèi)對(duì)分割后的影像進(jìn)行分析,給出合理的初步診斷、分析及預(yù)測(cè),為診斷提供便利。

醫(yī)學(xué)影像分割是醫(yī)學(xué)影像智能分析中的重要領(lǐng)域,也是計(jì)算機(jī)輔助診斷、監(jiān)視、干預(yù)和治療所必需的一環(huán),其關(guān)鍵任務(wù)是對(duì)醫(yī)學(xué)影像中器官或病變進(jìn)行分割,為疾病的精準(zhǔn)識(shí)別、詳細(xì)分析、合理診斷、預(yù)測(cè)與預(yù)防等方面提供非常重要的意義和價(jià)值。

該項(xiàng)測(cè)試主要還是面向數(shù)據(jù)訓(xùn)練,考驗(yàn)服務(wù)器的硬實(shí)力。

實(shí)戰(zhàn)應(yīng)用場(chǎng)景,2021年度AI服務(wù)器的巔峰對(duì)決

醫(yī)學(xué)影像分割(U-Net3D)任務(wù)單機(jī)訓(xùn)練成績(jī)排名

三維醫(yī)學(xué)圖像分割任務(wù)3D U-Net模型的整機(jī)性能對(duì)比。浪潮信息此次僅提交了NF5688M6的結(jié)果,可以看到其性能領(lǐng)先第二名GIGABYTE約4.7%。領(lǐng)先第三名Supermicro約7.7%。相對(duì)而言該項(xiàng)測(cè)試計(jì)算任務(wù)比較繁重,因此各款產(chǎn)品也拉開了較明顯的差距。

場(chǎng)景三:語音識(shí)別(RNN-T)

在一場(chǎng)規(guī)模龐大的線上會(huì)議中,演講者所說的內(nèi)容全部實(shí)時(shí)顯示在屏幕上,既清晰又精準(zhǔn),F(xiàn)在,這樣的場(chǎng)景已經(jīng)無需人力,僅僅通過AI就能實(shí)現(xiàn)了。它的背后,就是語音識(shí)別的功勞。

RNN-T模型巧妙的將語言模型聲學(xué)模型整合在一起,同時(shí)進(jìn)行聯(lián)合優(yōu)化,是一種理論上相對(duì)完美的模型結(jié)構(gòu)。它通過聯(lián)合網(wǎng)絡(luò)將語言模型和聲學(xué)模型的狀態(tài)通過某種思路結(jié)合在一起,可以是拼接操作,也可以是直接相加等,因此也更加精準(zhǔn)。

實(shí)戰(zhàn)應(yīng)用場(chǎng)景,2021年度AI服務(wù)器的巔峰對(duì)決

語音識(shí)別(RNN-T)任務(wù)單機(jī)訓(xùn)練成績(jī)排名

語音識(shí)別RNNT任務(wù)訓(xùn)練的整機(jī)性能對(duì)比。可以看到NF5488A5性能第一,領(lǐng)先第二名NVIDIA約2.6%,領(lǐng)先第三名Microsoft約12.5%。這項(xiàng)測(cè)試可以說兼顧了深度學(xué)習(xí)的多種模型整合,復(fù)雜程度較高,浪潮NF5488A5憑借硬實(shí)力也創(chuàng)造了新的紀(jì)錄。

上述這三種場(chǎng)景測(cè)試僅僅是冰山一角,在MLPerf?基準(zhǔn)測(cè)試中共涵蓋了8項(xiàng)最貼近應(yīng)用場(chǎng)景的機(jī)器學(xué)習(xí)相關(guān)任務(wù),這也是其被譽(yù)為極具實(shí)戰(zhàn)價(jià)值的關(guān)鍵所在。

浪潮AI服務(wù)器,2021收獲滿滿

作為業(yè)內(nèi)最權(quán)威的AI基準(zhǔn)測(cè)試,MLPerf?每年組織AI推理及AI訓(xùn)練性能測(cè)試各2次。12月1日結(jié)果的公布,這也意味著MLPerf? 2021年度4次測(cè)試正式收官。本年度共29家國(guó)際廠商、研究機(jī)構(gòu)參與其中,在數(shù)據(jù)中心推理、邊緣推理、集群訓(xùn)練和單機(jī)訓(xùn)練各類AI場(chǎng)景下,不斷突破AI系統(tǒng)性能。其中,浪潮信息共斬獲44項(xiàng)冠軍,名列MLPerf? 2021年度冠軍榜首,英偉達(dá)、戴爾、高通分列第二、第三、第四。

實(shí)戰(zhàn)應(yīng)用場(chǎng)景,2021年度AI服務(wù)器的巔峰對(duì)決

仔細(xì)觀察不難發(fā)現(xiàn),參賽的廠商與機(jī)構(gòu)所選擇的硬件基本類似,想獲得更高的性能,只能靠系統(tǒng)設(shè)計(jì)與優(yōu)化能力,這里并無捷徑而言。浪潮信息在AI服務(wù)器設(shè)計(jì)與優(yōu)化方面深耕多年,因此才具備如此強(qiáng)勁的硬實(shí)力。

在硬件設(shè)計(jì)方面,針對(duì)AI任務(wù)中常見的密集IO傳輸瓶頸,浪潮AI服務(wù)器以領(lǐng)先設(shè)計(jì)大幅降低通信延遲,極大提升了AI訓(xùn)練效率。同時(shí),針對(duì)高負(fù)載多GPU協(xié)同任務(wù)調(diào)度,對(duì)NUMA節(jié)點(diǎn)與GPU之間的數(shù)據(jù)傳輸進(jìn)行全面優(yōu)化和深度調(diào)校,確保訓(xùn)練任務(wù)中的數(shù)據(jù)IO無阻塞。此外,在散熱層面,A100-SXM-80GB(500W) GPU這款產(chǎn)品功耗非常高,為此浪潮開發(fā)了先進(jìn)冷板液冷系統(tǒng),確保GPU在全功率負(fù)載下依然穩(wěn)定工作,也是讓AI服務(wù)器在各種測(cè)試中表現(xiàn)出色的重要原因之一。

對(duì)于浪潮AI服務(wù)器產(chǎn)品而言,兩款主力機(jī)型NF5488A5和NF5688M6在本年度MLPerf?測(cè)試中分別斬獲18和15項(xiàng)冠軍,它們的成功并非一蹴而就,而是眾多研發(fā)設(shè)計(jì)人員共同努力之下,再輔以多年來的技術(shù)積累,所結(jié)出的成果當(dāng)然極具實(shí)力。

MLPerf?的評(píng)測(cè),可以說在整個(gè)2021年度為IT行業(yè)點(diǎn)燃了一盞明燈,指引大家將關(guān)注重點(diǎn)放在AI實(shí)戰(zhàn)上,而并非硬件指標(biāo)。此次V1.1榜單也可看作是AI服務(wù)器的盤點(diǎn)與總結(jié),極具參考和實(shí)戰(zhàn)價(jià)值。從MLPerf?測(cè)試本身來看,很多優(yōu)秀的硬件產(chǎn)品在不同階段測(cè)試中表現(xiàn)出了強(qiáng)勁的實(shí)力,并在各種優(yōu)化之后一次又一次地實(shí)現(xiàn)“刷榜”,這也是行業(yè)用戶最想看到的一點(diǎn)。在測(cè)試中不斷強(qiáng)大的AI服務(wù)器能夠幫助用戶更高效地完成訓(xùn)練,并且可以嘗試以前無法企及的任務(wù),為AI在不同領(lǐng)域的快速發(fā)展注入新活力。

浪潮AI服務(wù)器在中國(guó)市場(chǎng)份額已連續(xù)五年穩(wěn)居第一,目前全球市場(chǎng)份額也是第一。浪潮信息在MLPerf?中能夠取得優(yōu)異的成績(jī),再次證明了自身研發(fā)實(shí)力,并在實(shí)戰(zhàn)應(yīng)用場(chǎng)景方面有了更加深入的洞察和理解。此外,浪潮信息在MLPerf?測(cè)試中的探索和創(chuàng)新,也進(jìn)一步幫助浪潮能夠在實(shí)際應(yīng)用中更好地回饋行業(yè)客戶,助力其業(yè)務(wù)發(fā)展,并以此推動(dòng)AI快速前行。

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評(píng)論

暫無評(píng)論

人工智能 獵頭職位 更多
掃碼關(guān)注公眾號(hào)
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容
文章糾錯(cuò)
x
*文字標(biāo)題:
*糾錯(cuò)內(nèi)容:
聯(lián)系郵箱:
*驗(yàn) 證 碼:

粵公網(wǎng)安備 44030502002758號(hào)