標(biāo)簽:服務(wù)器,人工智能,浪潮,GPU,
2017年3月5日上午,國務(wù)院總理李克強(qiáng)發(fā)表2017政府工作報(bào)告,指出要加快培育壯大包括人工智能在內(nèi)的新興產(chǎn)業(yè),“人工智能”也首次被寫入了全國政府工作報(bào)告。結(jié)合上月科技部新聞-“科技創(chuàng)新2030—重大項(xiàng)目”或?qū)⑿略?ldquo;人工智能2.0”,人工智能在中國的政治、經(jīng)濟(jì)、學(xué)術(shù)領(lǐng)域都成為重中之重。因此,可以預(yù)言,這是中國 AI人最好的時(shí)代——2017年,中國人工智能迎來真正的新紀(jì)元。
協(xié)處理計(jì)算加速是人工智能最佳架構(gòu)
深度學(xué)習(xí)概念和淺層學(xué)習(xí)算法已經(jīng)被提出多年,而人工智能近年才開始逐漸升溫,原因?yàn)楹?因?yàn)槿斯ぶ悄芗夹g(shù)進(jìn)步受限于相關(guān)軟件、硬件、算法等性能。特別是人工智能硬件的變革:20世紀(jì)90年代,神經(jīng)網(wǎng)絡(luò)的概念就成為熱點(diǎn),但是受限于軟硬件計(jì)算平臺(tái)的限制,十余年間的進(jìn)展極其緩慢,直到以GPU為核心的協(xié)處理加速設(shè)備的應(yīng)用,人工智能應(yīng)用效率才得以大大提升。
正如百度首席科學(xué)家吳恩達(dá)所言:“大概在十年前我們都通過普通的CPU進(jìn)行深度學(xué)習(xí)的訓(xùn)練,當(dāng)時(shí)大概有100萬的連接,進(jìn)步是非常慢的。2008年的時(shí)候我們寫了第一篇在CUDA(GPU平臺(tái)上)上進(jìn)行神經(jīng)網(wǎng)絡(luò)訓(xùn)練的文章,當(dāng)時(shí)是斯坦福大學(xué)的一個(gè)研究,已經(jīng)有了10倍的轉(zhuǎn)變。”
▲相比CPU,更多核心的GPU更適合人工智能應(yīng)用
GPU\FPGA\MIC帶來新的技術(shù)飛躍
從內(nèi)部結(jié)構(gòu)上來看,CPU 中 70%晶體管都是用來構(gòu)建 Cache和一部分控制單元,負(fù)責(zé)邏輯運(yùn)算的部分并不多,控制單元等模塊的存在都是為了保證指令能夠一條接一條的有序執(zhí)行,這種通用性結(jié)構(gòu)對(duì)于傳統(tǒng)的編程計(jì)算模式非常適合,但對(duì)于并不需要太多的程序指令,卻需要海量數(shù)據(jù)運(yùn)算的深度學(xué)習(xí)的計(jì)算需求,這種結(jié)構(gòu)就顯得有心無力了。
與 CPU 少量的邏輯運(yùn)算單元相比,GPU\FPGA\MIC這種協(xié)處理加速設(shè)備整個(gè)就是一個(gè)龐大的計(jì)算矩陣,動(dòng)輒具有數(shù)以千計(jì)的計(jì)算核心、可實(shí)現(xiàn) 10-100 倍應(yīng)用吞吐量,而且它還支持對(duì)深度學(xué)習(xí)至關(guān)重要的并行計(jì)算能力,可以比傳統(tǒng)處理器更加快速,大大加快了訓(xùn)練過程。
目前,高性能的GPU+CPU架構(gòu)服務(wù)器已經(jīng)成為實(shí)現(xiàn)深度學(xué)習(xí)必不可少的基礎(chǔ)硬件。但是,市場(chǎng)上目前有不同廠商提供的GPU服務(wù)器,例如:2U2卡,1U4卡,3U8卡,4U4卡,4U8卡等等服務(wù)器形態(tài)。如何做好選擇,搭建最合理的訓(xùn)練架構(gòu),是開啟深度學(xué)習(xí)之路的第一步,這一步也會(huì)關(guān)系到后期訓(xùn)練的性能。
浪潮GPU服務(wù)器在國內(nèi)主流人工智能企業(yè)市場(chǎng)占有率超過80%。其中NF5568M4這種4U4卡的機(jī)型備受BAT在內(nèi)的領(lǐng)先企業(yè)青睞,這是為何?
▲浪潮NF5568M4 GPU服務(wù)器
性能為王,但仍需考慮適用性
多卡GPU+CPU架構(gòu)需要大量的GPU核心數(shù),在單機(jī)內(nèi)的選型原則,以最多卡數(shù)為主。理論上,單機(jī)越多GPU卡的堆疊,性能也會(huì)達(dá)到更高。但是,每塊GPU卡的功耗在235W—250W左右,加上服務(wù)器的CPU和其他部件,一臺(tái)4卡GPU機(jī)器在工作狀態(tài)會(huì)達(dá)到近2000W的功率,而8卡的甚至能達(dá)到3600W以上。
目前,大部分公司的機(jī)房都是租賃的IDC機(jī)房,現(xiàn)在國內(nèi)機(jī)房提供的機(jī)柜一般為42U高度,電量10A,13A或者16A,換算為功率就是2200W,2860W或者3520W。而42U的機(jī)柜用電,被4U高度的GPU全部占用,這顯然不能被接受。因此,像浪潮NF5568M4這類單機(jī)4塊GPU卡的配置是目前互聯(lián)網(wǎng)行業(yè)的主流,既能達(dá)到足夠的計(jì)算能力,又能兼顧機(jī)房用電。
4U高度,給熱空氣一點(diǎn)出路
一臺(tái)4卡GPU服務(wù)器在工作狀態(tài)會(huì)達(dá)到近2000W的功率,而8卡的甚至能達(dá)到3600W以上,如此大的功率就有大量的散熱需求,一般情況下,GPU卡和服務(wù)器風(fēng)扇的設(shè)計(jì)比例是1:1,以滿足散熱需求。但是根據(jù)實(shí)測(cè)1U或2U高度的服務(wù)器,一旦達(dá)到4卡或8卡跑滿,整機(jī)溫度曾經(jīng)飆升到96攝氏度!
為了解決散熱問題,只能大幅度的提高機(jī)器風(fēng)扇的轉(zhuǎn)速,這樣會(huì)大大提高機(jī)器的功耗,功耗問題還是其次,問題是提高風(fēng)扇轉(zhuǎn)速之后帶來較大的噪音和震動(dòng),會(huì)嚴(yán)重縮減機(jī)器的壽命,甚至?xí)l(fā)生宕機(jī),給業(yè)務(wù)帶來嚴(yán)重影響。另外1U、2U由于空間受限,也會(huì)對(duì)擴(kuò)展能力產(chǎn)生影響,沒有辦法實(shí)現(xiàn)雙網(wǎng)卡+RAID保護(hù)功能。
浪潮NF5568M4擁有4U的高度,因此內(nèi)部有更多的空間和通道用于散熱,并且單機(jī)設(shè)計(jì)了多達(dá)10個(gè)散熱風(fēng)扇,給熱空氣留一點(diǎn)出路,也就為GPU卡降低一點(diǎn)溫度。
硬件性能的發(fā)揮,更需要軟件的調(diào)優(yōu)
為什么GPU服務(wù)器有如此好的性能,但是采用GPU作為協(xié)處理器加速的企業(yè)卻屈指可數(shù)?因?yàn)閱渭冇辛丝煽康挠布脚_(tái)還不夠,還要將自己的業(yè)務(wù)應(yīng)用能遷移到GPU上去,并且需要經(jīng)過專業(yè)的軟件調(diào)優(yōu),最大的發(fā)揮GPU的性能。
目前很多互聯(lián)網(wǎng)公司希望運(yùn)用GPU來加速其業(yè)務(wù),但是由于沒有專門的軟件移植工程師,因此并不能發(fā)揮出GPU的并行計(jì)算性能。因此他們希望能有一套軟硬一體化的解決方案,能夠?qū)⒆约旱臉I(yè)務(wù)快速的部署到GPU集群中。為此,浪潮成立專門針對(duì)深度學(xué)習(xí)的軟件開發(fā)團(tuán)隊(duì),具備10萬核以上CPU+GPU的大規(guī)模并行算法設(shè)計(jì)、程序開發(fā)和軟件調(diào)優(yōu)能力,并通過自主研發(fā)的開源版本CAFFE-MPI和ClusterEngine高性能計(jì)算管理平臺(tái),面向人工智能和深度學(xué)習(xí),幫助用戶進(jìn)行軟件移植、算法調(diào)優(yōu)等工作,加速深度學(xué)習(xí)應(yīng)用在更多領(lǐng)域和企業(yè)落地。
目前,包含GPU服務(wù)器、FPGA定制硬件、caffe-MPI框架等在內(nèi)的浪潮人工智能相關(guān)解決方案在國內(nèi)主流AI領(lǐng)域的占有率超過80%,為百度、阿里巴巴、騰訊、奇虎、搜狗、科大訊飛、今日頭條、Face++等領(lǐng)先企業(yè)提供基于GPU/FPGA/KNL等協(xié)處理加速服務(wù)器和caffe-MPI等軟件、算法優(yōu)化服務(wù),加速中國人工智能應(yīng)用的發(fā)展。
|