2016-2022 All Rights Reserved.平安財經網.復制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標明“本站原創(chuàng)”外所有信息均轉載自互聯(lián)網 版權歸原作者所有。
高性能計算(HPC) - 使用超級計算機和并行處理技術來解決大型計算問題 - 在科學界非常有用。例如,能源部(DOE)布魯克海文實驗室的科學家依靠HPC分析他們在現(xiàn)場大型實驗設施中收集的數(shù)據(jù),并模擬過于昂貴或無法通過實驗證明的復雜過程。
現(xiàn)代科學應用,例如模擬粒子交互,通常需要聚合計算能力,用于數(shù)據(jù)傳輸?shù)母咚倬W絡,大量存儲器和高容量存儲能力的組合。需要HPC硬件和軟件的進步來滿足這些要求。布魯克海文實驗室計算科學計劃(CSI)的計算機和計算科學家以及數(shù)學家正在與物理學家,生物學家和其他領域科學家合作,以了解他們的數(shù)據(jù)分析需求,并提供加速科學發(fā)現(xiàn)過程的解決方案。
HPC行業(yè)領導者
幾十年來,英特爾公司一直是開發(fā)HPC技術的領導者之一。2016年,該公司發(fā)布了英特爾®至強Phi TM處理器(以前代號為“Knights Landing”),這是第二代HPC架構,每個芯片集成了許多處理單元(核心)。同年,英特爾發(fā)布了英特爾®全方位路徑架構,高速通信網絡。為了使現(xiàn)代超級計算機中的5,000到100,000個單獨的計算機或節(jié)點一起工作以解決問題,它們必須能夠在最小化網絡延遲的同時快速地彼此通信。
在這些發(fā)布后不久,最大的綜合研究機構Brookhaven Lab和RIKEN匯集了他們的資源,購買了一臺由Xeon Phi處理器和兩個獨立網絡連接或軌道構建的小型144節(jié)點并行計算機,采用英特爾的Omni-Path架構。該計算機安裝在Brookhaven Lab的科學數(shù)據(jù)和計算中心,該中心是CSI的一部分。
隨著安裝完成,物理學家Chulwoo Jung和CSI計算科學家布魯克海文實驗室的Meifeng Lin; 理論物理學家Christoph Lehner,布魯克海文實驗室和德國雷根斯堡大學的聯(lián)合任命; 諾曼基督,哥倫比亞大學計算理論物理的Ephraim Gildor教授; 愛丁堡大學的理論粒子物理學家Peter Boyle與英特爾的軟件工程師密切合作,為兩種科學應用優(yōu)化網絡軟件:粒子物理學和機器學習。
“自2015年宣布推出以來,CSI一直對英特爾Omni-Path架構非常感興趣,”林說。“英特爾工程師的專業(yè)知識對于實施軟件優(yōu)化至關重要,這使我們能夠充分利用這一高性能通信網絡滿足我們的特定應用需求。”
科學應用的網絡要求
對于許多科學應用程序,在并行計算機上運行一個等級(區(qū)分一個進程與另一個進程的值)或每個節(jié)點可能有幾個等級比每個節(jié)點運行多個等級要高效得多。每個等級通常作為獨立過程執(zhí)行,該過程通過使用稱為消息傳遞接口(MPI)的標準協(xié)議與其他等級通信。
例如,尋求理解早期宇宙形成的物理學家基于量子色動力學理論(QCD)進行粒子相互作用的復雜數(shù)值模擬。這個理論解釋了稱為夸克和膠子的基本粒子如何相互作用形成我們直接觀察到的粒子,如質子和中子。物理學家通過使用代表空間三維的超級計算機和等間距點的四維(4D)晶格中的時間維度來模擬這些相互作用,類似于晶體。晶格被分成較小的相同子體積。對于格子QCD計算,需要在不同子體積之間的邊界處交換數(shù)據(jù)。如果每個節(jié)點有多個等級,則每個等級承載不同的4D子卷。從而,
推動科學發(fā)展的軟件優(yōu)化
為了優(yōu)化用于這種計算密集型科學應用的網絡軟件,該團隊專注于提高單一級別的速度。
“我們使單個MPI等級的代碼運行得更快,因此不需要增加MPI等級來處理每個節(jié)點的大量通信負載,”Christ解釋說。
MPI級別中的軟件利用Xeon Phi節(jié)點上可用的線程并行性。線程并行是指在共享一些計算資源的同時執(zhí)行遵循相同指令的多個進程或線程。通過優(yōu)化的軟件,團隊能夠在單個級別上創(chuàng)建多個通信通道,并使用不同的線程驅動這些通道。
MPI軟件現(xiàn)已設置為科學應用程序,可以更快地運行并充分利用Intel Omni-Path通信硬件。但是在實施軟件之后,團隊成員遇到了另一個挑戰(zhàn):在每次運行中,一些節(jié)點將不可避免地緩慢地通信并保持其他節(jié)點。
他們將這個問題追溯到Linux(大多數(shù)HPC平臺使用的操作系統(tǒng))管理內存的方式。在默認模式下,Linux將內存劃分為稱為頁面的小塊。通過重新配置Linux以使用大(“巨大”)內存頁面,他們解決了這個問題。增加頁面大小意味著映射應用程序使用的虛擬地址空間所需的頁面更少。因此,可以更快地訪問內存。
通過軟件增強功能,團隊成員分析了安裝在英特爾雙軌“Diamond”集群和分布式研究高級計算(DiRAC)單軌集群中的英特爾Omni-Path架構和英特爾至強融核處理器計算節(jié)點的性能。英國。對于他們的分析,他們使用了兩種不同的科學應用:粒子物理學和機器學習。對于這兩種應用代碼,它們實現(xiàn)了近線速性能 - 理論上的最大數(shù)據(jù)傳輸速率。這種改進表示網絡性能的提高是原始代碼的4到10倍。
“由于布魯克海文,愛丁堡和英特爾之間的緊密合作,這些優(yōu)化在全球范圍內以新版本的英特爾Omni-Path MPI實施和配置Linux內存管理的最佳實踐協(xié)議提供,”Christ說。“在布魯克海文實驗室的Xeon Phi計算機和愛丁堡大學的新的,甚至更大的800節(jié)點Hewlett Packard Enterprise”超立方體“計算機上執(zhí)行物理代碼的五倍加速因素現(xiàn)在正在得到很好的利用正在進行的關于粒子物理學基本問題的研究。“
2016-2022 All Rights Reserved.平安財經網.復制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標明“本站原創(chuàng)”外所有信息均轉載自互聯(lián)網 版權歸原作者所有。