英偉達(dá)護(hù)城河細(xì)節(jié)曝光世界最快超算訓(xùn)完超萬億參數(shù)LLM

2024-01-15 16:05:06 編輯：榮成蓓來源：

導(dǎo)讀近日超算集群Frontier研究人員在AMD硬件平臺(tái)上集合了37888個(gè)MI250X GPU和9472個(gè)Epyc 7A53 CPU的環(huán)境，并且僅使用其中8%左右的GPU，訓(xùn)練...

近日超算集群Frontier研究人員在AMD硬件平臺(tái)上集合了37888個(gè)MI250X GPU和9472個(gè)Epyc 7A53 CPU的環(huán)境，并且僅使用其中8%左右的GPU，訓(xùn)練了一個(gè)GPT-3.5規(guī)模的模型，展示了如何用非英偉達(dá)生態(tài)完成大規(guī)模訓(xùn)練的技術(shù)框架和細(xì)節(jié)，披露了英偉達(dá)的技術(shù)護(hù)城河。

研究人員使用ROCM軟件平臺(tái)在AMD硬件上成功突破了分布式訓(xùn)練模型的難點(diǎn)。在研究人員看來，訓(xùn)練一萬億參數(shù)規(guī)模的LLM最棘手的挑戰(zhàn)是對(duì)內(nèi)存的需求，至少需要14TB的內(nèi)存才可以滿足這樣的需求。單塊GPU最大的內(nèi)存只有64GB，這意味著需要并行使用多個(gè)AMD MI250X GPU才可以滿足要求，多塊GPU并行對(duì)GPU的通信要求非常高，如果不能利用GPU之間的帶寬通信，將會(huì)浪費(fèi)大部分的GPU計(jì)算資源。研究人員將基于CUDA的代碼轉(zhuǎn)換為HIP代碼，預(yù)構(gòu)建DeepSpeed ops，將縮放效率做到87%，完成很多工作之后，終于訓(xùn)練出了超萬億參數(shù)LLM規(guī)模的成果。