最近不少客戶在問H200的功耗問題吶。這塊新卡用的可是NV最新的Hopper架構(gòu),標(biāo)稱TDP 700W,但是是實(shí)際運(yùn)行哪有這么簡(jiǎn)單呀。
咱們得看具體應(yīng)用場(chǎng)景。跑AI訓(xùn)練時(shí),動(dòng)態(tài)功耗能沖到750W左右,要是開了液冷超頻,破800W也不稀奇。不過嘛,NVIDIA這回的功耗墻設(shè)計(jì)挺聰明,待機(jī)狀態(tài)下能自動(dòng)降到150W以下。
顯存配置才是真亮點(diǎn)

別看功耗高了點(diǎn),
HBM3顯存帶來的優(yōu)勢(shì)可太明顯了。141GB的超大容量,配著4.8TB/s的恐怖帶寬,比A100整整翻了兩倍多。做千億參數(shù)大模型的朋友應(yīng)該懂,顯存夠大才能避免頻繁掉算力啊。
對(duì)了,最近有客戶拿它和H100比功耗。說實(shí)話兩款卡的TDP相差不到5%,但是是H200的每瓦算力提升了15%,這買賣劃算不?
散熱方案要跟上
現(xiàn)在深圳這邊現(xiàn)貨價(jià)徘徊在230萬上下,買整機(jī)的話強(qiáng)烈建議選液冷方案。我們已經(jīng)碰到好幾起因風(fēng)冷壓不住,導(dǎo)致算力波動(dòng)的案例了。畢竟700W的持續(xù)輸出,可不是普通散熱能搞定的。
說到采購策略,最近海關(guān)數(shù)據(jù)挺有意思。Q3季度H系列的進(jìn)口量漲了30%,但是是價(jià)格反而降了8個(gè)百分點(diǎn)。要是企業(yè)不急用,等等黨可能還能再蹲蹲看。
H200在滬蘇杭那邊特別吃香,主要是做自動(dòng)駕駛模型的團(tuán)隊(duì)在搶。他們測(cè)試下來,同樣參數(shù)規(guī)模下訓(xùn)練時(shí)間能節(jié)省20%,電費(fèi)開支倒是跟H100差不多。
買卡避坑指南
提醒各位注意看SN碼!上個(gè)月華東區(qū)查到批水貨卡,PCB印刷都有重影。現(xiàn)在正規(guī)渠道拿貨周期大概6-8周,現(xiàn)貨價(jià)格虛高的要當(dāng)心。
最后說個(gè)實(shí)測(cè)數(shù)據(jù)吧。我們用PyTorch跑1750億參數(shù)模型時(shí),
單卡H200的持續(xù)功耗穩(wěn)定在720W左右。比起老黃發(fā)布會(huì)上說的數(shù)值,其實(shí)還保守了點(diǎn)兒呢。