Google的第四代張量處理單元公開(kāi)發(fā)布

2020-07-31 08:44:35 編輯：來(lái)源：國(guó)際品牌資訊

模型時(shí)，第四代TPU的得分也很高。使用256個(gè)第四代TPU進(jìn)行培訓(xùn)需要1.82分鐘，僅比使用4,096個(gè)第三代TPU進(jìn)行培訓(xùn)所需的0.39分鐘稍慢。同時(shí)，使用Nvidia硬件達(dá)到0.81分鐘的培訓(xùn)時(shí)間，需要2,048張A100卡和512個(gè)AMD Epyc 7742 CPU內(nèi)核。

最新的MLPerf包括新的和經(jīng)過(guò)修改的基準(zhǔn)(建議和強(qiáng)化學(xué)習(xí))，并且TPU的結(jié)果參差不齊。由64個(gè)第四代TPU組成的集群在“建議”任務(wù)中表現(xiàn)良好，花費(fèi)了1.12分鐘的時(shí)間來(lái)訓(xùn)練來(lái)自Criteo AI Lab的Terabyte點(diǎn)擊率(CTR)數(shù)據(jù)集的1TB日志的模型。(八個(gè)Nvidia A100卡和兩個(gè)AMD Epyc 7742 CPU內(nèi)核在3.33分鐘內(nèi)完成了訓(xùn)練。)但是Nvidia在強(qiáng)化學(xué)習(xí)方面取得了領(lǐng)先，設(shè)法在29.7分鐘的簡(jiǎn)化版棋盤游戲中將模型訓(xùn)練為50%的獲勝率。帶有256個(gè)A100卡和64個(gè)AMD Epyc 7742 CPU內(nèi)核。256個(gè)第四代TPU花費(fèi)了150.95分鐘。

需要注意的一點(diǎn)是，Nvidia硬件以Facebook的PyTorch框架和Nvidia自己的框架(而不是Google TensorFlow)為基準(zhǔn)。第三代和第四代TPU都使用TensorFlow，JAX和Lingvo。盡管這可能會(huì)在一定程度上影響結(jié)果，甚至允許這樣做，但基準(zhǔn)測(cè)試明確了第四代TPU的性能優(yōu)勢(shì)。

標(biāo)簽： Google