使用NVMe-oF共享閃存存儲的AIoT數(shù)據(jù)基礎(chǔ)架構(gòu)的新方法

2022-08-30 01:41:31 編輯：利姣媚來源：

導(dǎo)讀到2023年，物聯(lián)網(wǎng)(IoT)預(yù)計將包含近300億個互聯(lián)設(shè)備。這些物聯(lián)網(wǎng)設(shè)備可在網(wǎng)絡(luò)上創(chuàng)建和傳輸大量數(shù)據(jù)。但是數(shù)據(jù)所有者如何從傳輸?shù)臄?shù)據(jù)中獲得...

到2023年，物聯(lián)網(wǎng)(IoT)預(yù)計將包含近300億個互聯(lián)設(shè)備。這些物聯(lián)網(wǎng)設(shè)備可在網(wǎng)絡(luò)上創(chuàng)建和傳輸大量數(shù)據(jù)。但是數(shù)據(jù)所有者如何從傳輸?shù)臄?shù)據(jù)中獲得情報?那就是AIoT誕生的地方，即人工智能(AI)和IoT的結(jié)合。

AIoT將智能處理功能添加到IoT設(shè)備收集的各種大型數(shù)據(jù)集中。它使企業(yè)能夠分析數(shù)據(jù)并提供見解。如今，AIoT在互聯(lián)用例(例如用于遠(yuǎn)程患者監(jiān)控和預(yù)防醫(yī)學(xué)的醫(yī)療保健)中仍然存在;在制造業(yè)中的機器人領(lǐng)域;在自動駕駛汽車中;在網(wǎng)絡(luò)監(jiān)控中;并在諸如C3.ai數(shù)字轉(zhuǎn)化研究所的研究中努力減輕流行病并防止未來的傳染病爆發(fā)。對于需要深度篩選大量數(shù)據(jù)以執(zhí)行深度學(xué)習(xí)算法的任何用例，AIoT是一種功能強大的工具。它是自我學(xué)習(xí)，自我監(jiān)控和自我修復(fù)。AIoT使預(yù)測決策具有很高的預(yù)測精度，遠(yuǎn)遠(yuǎn)超過了人類。

AIoT面臨的挑戰(zhàn)是系統(tǒng)涉及具有多個階段的復(fù)雜數(shù)據(jù)管道。企業(yè)不僅需要處理來自物聯(lián)網(wǎng)的數(shù)據(jù)的數(shù)量，種類，速度和準(zhǔn)確性，還需要在實現(xiàn)AI解決方案時保持模型質(zhì)量，數(shù)據(jù)訪問延遲，吞吐量和數(shù)據(jù)緩存功能。如果優(yōu)化了計算系統(tǒng)以快速處理數(shù)據(jù)，那么除非建立正確的計算，存儲和內(nèi)存組合，否則將數(shù)據(jù)導(dǎo)入這些系統(tǒng)可能會成為瓶頸。

存儲是關(guān)鍵基礎(chǔ)，需要解決AIoT數(shù)據(jù)管道的所有階段，從攝取到數(shù)據(jù)準(zhǔn)備再到模型訓(xùn)練和推理，并仔細(xì)考慮TCO，性能和功耗要求。它還需要滿足AI工作負(fù)載不斷變化的需求。企業(yè)正在轉(zhuǎn)向NVMe閃存來滿足AI所需的高吞吐量和低延遲，但是讓我們通過基于結(jié)構(gòu)的NVMe(NVMe-oF)進一步邁出一步

一種新方法–共享存儲

一種新方法是將可組合的分解基礎(chǔ)架構(gòu)(CDI)與NVMe閃存，GPU池和大容量存儲系統(tǒng)結(jié)合使用，以在動態(tài)的，軟件定義的應(yīng)用程序環(huán)境中實現(xiàn)快速響應(yīng)時間和AI的擴展需求。

CDI會從物理上分解資源(計算，網(wǎng)絡(luò)，存儲和GPU)，并根據(jù)特定應(yīng)用程序的需要將它們匯總在一起。這樣可以靈活，獨立地擴展資源，以滿足AI工作負(fù)載不斷變化的需求。

可組合存儲將大大提高企業(yè)調(diào)配和優(yōu)化其數(shù)據(jù)基礎(chǔ)架構(gòu)以滿足動態(tài)應(yīng)用程序需求的靈活性和靈活性。

CDI允許在許多主機之間共享和擴展存儲，網(wǎng)絡(luò)和計算資源。與融合系統(tǒng)不同，當(dāng)數(shù)據(jù)隨著服務(wù)器容量的增長而增長時，它避免了后續(xù)數(shù)據(jù)進出GPU服務(wù)器本地SSD的延遲。它可以立即訪問共享閃存中經(jīng)過訓(xùn)練的模型和數(shù)據(jù)，并可以快速響應(yīng)。

選擇存儲解決方案時，具有NVMe閃存的開放式可組合基礎(chǔ)架構(gòu)可以跨團隊無縫分配共享存儲池，以提高效率，成本和CIO關(guān)心的KPI指標(biāo)。

如何跨AIoT數(shù)據(jù)管道實施NVMe-oF共享存儲

實施AI計劃時，重要的是設(shè)計一種存儲基礎(chǔ)架構(gòu)，以支持前所未有的AIoT數(shù)據(jù)量。優(yōu)化TCO和效率的一種方法是查看AI工作負(fù)載的每個階段，以確定哪種存儲類型最適合每個階段。NVMe-oF共享存儲幾乎適用于AIoT工作流程的所有階段：

接收 – 接收階段需要具有速度和規(guī)模，以維持從IoT系統(tǒng)傳入的數(shù)據(jù)的數(shù)量和速度。要提取到臨時著陸區(qū)，可以使用NVMe存儲平臺或大容量存儲系統(tǒng)(基于HDD，對象或云存儲)，而要提取到集中式，全局可訪問的容量層，則可以使用大容量存儲系統(tǒng)。為了吸收到高性能層(無論是在本地還是在云上部署)，都需要NVMe閃存來進行實時分析。

數(shù)據(jù)準(zhǔn)備 –數(shù)據(jù)準(zhǔn)備階段的主要重點應(yīng)該放在數(shù)據(jù)質(zhì)量上。就成本和性能而言，NVMe存儲平臺也是一個不錯的選擇。或者，您可以選擇閃存和HDD的混合選件，以提供性能和更高容量的好處。

模型訓(xùn)練 -模型訓(xùn)練階段對已實現(xiàn)的AI解決方案的模型質(zhì)量，數(shù)據(jù)訪問延遲，吞吐量和數(shù)據(jù)緩存功能敏感。這需要低延遲，面向吞吐量，可擴展的高性能存儲層，并且NVMe-oF存儲平臺非常適合滿足這些需求。

推論 –推論階段同樣需要低數(shù)據(jù)訪問延遲，吞吐量響應(yīng)時間和數(shù)據(jù)緩存功能。當(dāng)模型訓(xùn)練和推理階段訪問分解架構(gòu)中的一個共享存儲時，它們在很大程度上是相互依賴的。例如，如果推理評分較差，則需要對模型進行重新訓(xùn)練，并且在模型訓(xùn)練結(jié)束之前，無法生成推理。因此，對兩者使用相同類型的共享存儲池是有意義的。

備份/還原 –在備份階段，大容量HDD，對象存儲或云存儲最適合存儲和按需訪問舊模型和數(shù)據(jù)。通常需要從備份中還原舊模型以進行推理或重新訓(xùn)練，以滿足新的傳入IoT數(shù)據(jù)的需求，因此最好利用近線或在線備份解決方案。

適用于AIoT的NVMe-oF可組合分解基礎(chǔ)架構(gòu)

NVMe-oF正在統(tǒng)一如何大規(guī)模共享，組合和管理存儲，以滿足不斷變化的應(yīng)用程序和工作負(fù)載的需求。使用NVMe閃存的可組合分解基礎(chǔ)架構(gòu)允許IT即時分配存儲，以支持AI每個階段的AIoT實施。

我們將繼續(xù)看到越來越多地采用可組合的分布式存儲解決方案，這些解決方案可以有效地在以太網(wǎng)結(jié)構(gòu)上擴展，并為各種數(shù)據(jù)中心應(yīng)用程序提供NVMe設(shè)備的全部性能潛力。可組合存儲將大大提高企業(yè)配置和優(yōu)化其數(shù)據(jù)基礎(chǔ)架構(gòu)的靈活性和靈活性，以滿足AIoT及其數(shù)據(jù)中心KPI的動態(tài)應(yīng)用需求。

標(biāo)簽：

免責(zé)聲明：本文由用戶上傳，如有侵權(quán)請聯(lián)系刪除！