DFI 部落格

邊緣運算界的高速公路- ICX610-C621A 為邊緣伺服器帶來更充裕的頻寬與更出色的 AI 效能

作者:DFI編輯團隊 | 2024/12/31 上午 03:28:33
 

隨著邊緣運算對效能的需求日益增長,如何在終端有效率的承載及處理大量數據已成為工業廠房及醫療應用的一大瓶頸。加上空間成本寸土寸金,最能有效降低營運及維護成本的作法,便是安裝高效能邊緣伺服器以精簡佔地面積及簡化佈署的架構。DFI 搭載第三代 Intel® Xeon® 處理器的 ICX610-C621A-C621A 伺服器級ATX 主機板為 AI 應用提供可靠的效能,並透過豐富的擴充槽來提供充沛的頻寬,將邊緣運算的裝置佈署化繁為簡,以最精簡的架構提高生產力。

產業 : 工廠自動化 / 智能醫療
應用 : 邊緣計算伺服器、AOI自動光學檢測、AI 醫療影像辨識
解決方案 : ICX610-C621A-C621A 伺服器級ATX 主機板 (應用建議)

邊緣運算的明顯優勢

在工業及醫療產業,機器視覺乃工業4.0 之母,亦是維持高效生產力的重要環節。身為人工智能最常扮演的應用面向,負責機器視覺的運算裝置在效能的要求上尤其吃重,它需要無遲滯的接收來自終端設備傳來的影像資料,快速而準確的分析後做出回應,並同時儲存結果及記錄對應的影像,對裝置的對外頻寬及運算核心能耐是一大考驗。

而在邊緣運算的框架下,這些資料必須盡其可能的在終端即時處理及分析,不宜再全數回傳至雲端進行,使軟體、硬體及數據資料皆得以最接近邊緣的方式運作。此舉除了可以減少傳輸頻寬,也能避免因為數據延遲拖累生產效率,用最快的反應速度來即時與設備溝通。

邊緣運算要運算哪些內容?影像、聲音、以及來自各種裝置的感測數據。在講求生產效率的產線以及精準度的醫療應用,這些內容必需極其精細,才有可能產生準確的結果,精細的內容則意味著龐大的資料量需要處理。

一言以敝之,只靠雲端架構難以應付終端的運算需求,在終端佈署大量而繁雜的運算設備又會對空間及維護成本上造成難題。邊緣運算伺服器於是順理成章的擔當此重任,在最接近資料的地方接收資料、處理資料、回傳資料,可謂身兼數職。在整個應用場域裡,我們可以把它當做是最靠近終端裝置的節點,在介面的整合能力、軟體的彈性支援及虛擬化能力也會是重要考量,這次我們先把焦點放在「效能」。

 

邊緣運算於工廠自動化應用的範例架構。終端裝置與邊緣運算伺服器溝通並回傳資料,伺服器分析資料後,回傳對應的控制指令,並於本地儲存數據,若有必要再回傳至雲端。雲端主機應盡可能的減少即時性的分析需求,以免造成溝通上的延遲。

 

邊緣運算伺服器 - 「效能」為決勝點

邊緣運算伺服器需具備微型資料中心及邊緣雲的能耐,不脫處理速度、傳輸速度與儲存效率。運算著重即時與精準,傳輸必須低延遲,而在資料的存取上得有足夠的頻寬與空間,這些都剛好是伺服器等級主機板的特長。

以 DFI ICX610-C621A-C621A 為例, 結合多核心多執行緒的第三代 Intel® Xeon® 處理器為多工好手,能滿足來自多台終端設備的資料處理需求,數量驚人的內外部傳輸埠口也提供了充裕的傳輸通道,同時可管理為數眾多的儲存裝置,這些邊緣伺服器的功能在此張主機板上全都能一次達成。

ICX610-C621A-C621A 專為 Intel® Ice Lake 平台量身打造, 支援第三代 Intel® Xeon® 處理器。此代 Xeon® 處理器於 AI 的運算能力極為突出,包含以下三方面的提升:

  • Intel® Deep Learning Boost
  • Intel® AVX-512
  • 支援PCIe 4.0

Intel® Deep Learning Boost 搭配 Intel® AVX-512

Intel®Deep Learning Boost 並非於此代 Xeon® 處理器才問世,但這個立基於 Intel® AVX512 VNNI 指令集的技術隨著處理器的更新而益發強勁,在深度學習及視覺分析效能方面都有顯著提升。在 AI 應用的訓練階段,效能便獲得60% 的提升,而在實際進行推論時,也比第一代快 30 倍以上。

用更嚴謹的數據來判斷及解析,VNNI 暴增了低精度運算在 AI 深度學習及推論的效能成長。透過低精度運算的優化,在進行 AI 應用時處理器的資料吞吐量大幅增加,平均可創造約 2.19 倍的差距,這意味著在時間上快了約 45%。

45% 的速度提升代表什麼?試想在產線上原本辨識一處產品缺陷的耗時為 25 毫秒(註 1),節省了近一半的時間後會小於 15 毫秒,積沙成塔下,同樣的時間內能辨識的產品數量就會變多,大量佈署下能節省的工時及產力提升更是不言而諭。

而在醫療應用上,辨識速度的提升對於受檢者而言,亦可大幅降低容易造成不適的生理掃描或幅射曝露時間,提供更優質的檢測體驗。

*( 註1) 辨識速度依圖像複雜度及機器負載而異,此處數值純粹做為對比用。

上方圖表,是以當前最熱門的物件辨識模型 Yolo_v3 以及醫療領域的 Brain Tumor Segmentation 來做 AI推論效能的實測。透過低精度運算 (Int8) 的優化,在 Yolo_v3 的測試裡,與 FP32 差了將近 3.5 倍,而 Brain Tumor Segmentation 則為 1.6 倍。

智能交通領域的車牌辨識應用也常常需要邊緣伺服器來做運算節點。辨識的速度愈快,系統便能更即時的做出對應的反應,停車場域在匣口及停車位的管控上也更來得順暢及輕鬆許多。

Int8 由於資料體積小,因此需要的整體儲存容量及讀取頻寬也會減少,自然能降低處理延遲以及增加吞吐量。在這個應用範例裡,Int8 的吞吐量是 FP32 的 6 倍之譜,延遲更是接近只有八分之一。

 

PCIe 4.0 頻寬大躍進

PCIe 4.0 則是提升了單個插槽所能承載的最大頻寬, 結合數量的加乘,能承載的資料量不容小覷。ICX610-C621A 的 PCIe x16 插槽有 3 個,PCIe x8 則有 8 個,若單純只就一條 PCIe x16 插槽能處理的未壓縮影像資料來看,單個插槽便能處理 2 個 8K 的最高採樣頻率影像(註 2)。這已經是用最嚴苛的標準來計算,若是經過壓縮、流量較低的 4K 或 Full-HD 影像,能處理的串流數量將會十分驚人。

在有多條生產線、多路影像需辨識的工業場域,單台邊緣伺服器上配有愈多的擴充插槽,愈能減少處理節點的設置數量,達成佈署上的精簡,使單台邊緣伺服器即能管理為數眾多的周邊裝置,並同時身兼本地雲暫存這些裝置的產生數據。

結合了以上優勢的 ICX610-C621A,在周邊埠口的設置上也採用了大艦巨炮策略。光是 10GbE 乙太網路便有兩組, 且在已經最大化 PCIe 插槽數量的前提下,仍然配置了六組 SATA 以及一個 NVMe 插槽,記憶體的部份則利用四通道、八支模組來達到最高 512GB 的容量。從資料的擷取至運算,乃至後方的儲存,全數皆以最高的頻寬規格串連,打造邊緣運算界的高速公路。

*( 註2) 7680x4320 解析度,每秒 60 張,色深 16bit,色彩取樣 4:4:4。

 

ICX610-C621A 規格:
• 3rd Gen Intel® Xeon® Scalable Processor Family
• 8 ECC-RDIMM up to 512GB
• 2 x 10GbE
• IPMI OOB Remote Management
• Single Display: VGA resolution up to 1920x1200 @ 60Hz
• Multiple Expansion: 3 PCIe x16, 2 PCIe x8, 1 x M.2 M key
• Rich I/O: 2 Intel GbE, 1 Dedicated IPMI, 2 COM, 5 USB 3.1 Gen1, 5 USB 2.0
• 15-Year CPU Life Cycle Support Until Q2' 36 (Based on Intel IOTG Roadmap)

DFI 伺服器級產品線精簡 AIoT 架構中的邊緣運算節點佈署

物聯網的部署複雜度日以遽增,接收的資料不但愈來愈多元,需要處理的信息量也不可同日而語。DFI 伺服器產品線以效能、高可靠性及豐沛的頻寬為出發點,將物聯網的佈署化繁為簡,降低節點部署的困難程度,在節省成本的同時亦提高生產力。

 

下載DFI成功案例