北京2022年8月30日 /美通社/ -- 數據已經成為繼土地、勞動力、資本和技術之后的第五大生產要素,是當代經濟社會發展的基礎資源。存儲作為數據載體設備發揮著重要作用,既要滿足當前全球數據量高速增長需求,又要保證數據存儲安全可靠、讀寫高效精準,從而為數據中心提供"穩定的數據存力"。
如何提升數據存儲的可靠性,避免意外場景下的數據丟失,已成為存儲硬件平臺發展的重大挑戰。浪潮存儲從源頭出發,創造性地提出了冷熱備電智能切換方案,改進存儲系統對BBU單元智能管理方案,踐行綠色低碳理念,加固備電質量,增強了數據存儲的可靠性。
存儲備電 -- 數據存儲安全的保障
當前業界存儲系統通常采用電源PSU(Power Supply Unit)"1+1"冗余供電,在供電之外還配置備用電池BBU(Battery Back-Up Unit),當機房市電掉電,存儲系統實時監測PSU供電異常,無縫切換到備用電池BBU供電。BBU提供持續的供電能力,確保存儲系統控制器寫緩存中數據,完整而安全的寫入非易失性介質,如HDD、SSD等,避免數據丟失。
為保證數據存儲的業務連續性,機房市電意外掉電、市電恢復后能快速恢復存儲系統的業務,浪潮存儲對備電設計標準有嚴格要求。比如,浪潮存儲在三年產品生命周期內,備用電池BBU一次充滿電,可滿足兩次掉電數據備份要求;又如,滿足存儲系統高可靠性要求時,創新地采用了備用電池BBU冷熱供電切換策略,提高備電的能效和電池的使用壽命,降低BBU電池報廢的數量,降低對環境的污染。
存儲系統供備電框圖
高端存儲性能提升,存儲備電挑戰升級
隨著數據量爆發式增長、存儲業務復雜程度提升,存儲硬件平臺正朝著高密度與高性能方向發展,傳統供備電策略難以支撐存儲系統的穩定性要求。高端存儲平臺從系統架構到部件性能的升級都伴隨著系統整體功率提升,正常運行時存儲陣列單控制器功率超1700W,掉電時刻控制器快速降低功耗,單控制器功耗仍超過800W;因此單個BBU的電芯節數達到12節(四串三并),才能滿足異常掉電時的備電功耗需求。存儲系統實時獲取BBU充放電次數與健康狀態,BBU單元檢測自身狀態,如果發現異常可快速定位及修復,延長BBU電芯的使用壽命,保證BBU供電能力滿足產品的需求。因為存儲系統控制器功耗不斷增大,備用電池BBU的電芯節數不斷增加,電芯電壓不平衡或損壞無法正常識別等質量隱患逐漸突顯出來;如果沒有支持診斷的BMS(Battery Management System)日志,BBU充電異常、BBU校驗學習(評估BBU備電能力是否滿足一次備電需求)異常、BBU供電鏈路偵測異常等問題則無法準確定位,影響BBU的故障定位效率及使用壽命;如果備電單元故障未及時發現,異常掉電而BBU不能正常供電,嚴重時會出現存儲系統丟數據的隱患。
浪潮存儲:智能備電管理技術
浪潮存儲從系統控制端與備電單元端雙管齊下,提出了智能備電管理技術,將存儲系統備電單元有效電量提升30%、使用壽命延長50%。智能備電管理技術包含BBU單元軟硬一體自診斷方案、存儲系統對BBU的智能管理方案、冷熱備電智能切換方案三部分。通過BBU單元的監測電路與自診斷算法,實現了BBU狀態監測與告警管理;通過存儲系統軟件對BBU單元的管理,提升BBU單元故障定位效率和備電系統穩定性;通過BBU單元冷備與熱備智能切換,BBU單元電池損耗降低30%,提高了電池的使用壽命,降低了電池報廢數量和環境的污染。
浪潮存儲智能備電管理技術框圖
BBU單元軟硬一體自診斷設計方案
浪潮存儲通過自診斷算法為BBU單元提供精準高效的狀態監測與異常處理,存儲研發團隊在設計前詳細梳理BMS 軟硬件接口寄存器、BBU電芯解耦控制參量、狀態保護觸發閾值等,用于監測狀態的分析診斷。硬件設計BBU 供電路徑偵測電路,實時監測BBU供電路徑,跨連接器和板卡不同位置的電壓、電流、功率值,作為自診斷分析依據;軟件設計BBU單元自診斷算法,BBU單元優先查詢電芯物料信息與當前狀態進行初診斷,初診斷無誤后開始對存儲控制信號、充電信號等進行實時記錄,同時分析對外充放電、對內校驗學習等各種狀態下的參數變化情況。如果狀態參數異常,則分析異常原因并進行簡單的自適應調參,同時收集異常日志發送給存儲系統。通過流程化的自診斷,可以在存儲系統業務上線前檢出已知的大部分問題,降低存儲系統業務上線后BBU單元異常的概率。
突破存儲系統對BBU單元智能管理方案
存儲系統對BBU單元的管理至關重要,是備電流程順利進行的核心。存儲系統基于BBU單元自診斷的狀態信息,從以下五方面進行智能備電狀態監測處理:
其一,定期對BBU 供電鏈路偵測,模擬存儲系統供電切換流程,提前識別鏈路隱患。
其二,定期評估BBU單元儲備的電量,判定是否滿足系統一次備電需求,同時累計消除BMS采樣誤差。
其三,存儲系統實時讀取BBU單元電壓與電流、電芯電壓及溫度、充放電MOS管溫度,接近BMS內置閾值時報警處理。
其四,充電過程自動監測存儲設備功率,檢測BBU電量是否滿足一次備電需求,實時校準充電狀態,同時累計充放電次數。
最后,存儲系統對BBU單元BMS狀態寄存器狀態值實時監控,出現異常后進入備份供電異常處理模式。
上述智能備電狀態診斷方案,將潛在異常的識別率提升了1倍;問題診斷完成后,存儲系統對日志進行智能分析,準確定位出問題源頭,例如BBU電芯異常、BBU 控制模塊異常、存儲系統控制電路異常、系統散熱異常等。
創造性的給出了一種冷熱備電智能切換方案
浪潮存儲系統對供電鏈路定期偵測、BBU備電能力定期評估,提前識別供電隱患,并基于此進行供電狀態智能分析,設計了BBU單元冷備、熱備智能切換方案。在1+1冗余,雙PSU都正常狀態下采用冷備以降低備電損耗,存儲系統通過對輸出電壓電流、PWM驅動波形、溫度采樣值等參數的智能分析,提前對PSU的工作狀態進行預測,在單 PSU出現異常后,切換為熱備模式,以保證市電異常時存儲系統無縫切換為BBU供電。浪潮存儲打破了傳統熱備電技術對BBU壽命損耗的弊端,智能供電方案中熱備份供電時間占比不超過10%,BBU單體待機功耗由原來的熱備3W.h, 減小至0.3W.h,一年內充電次數也由450次減少至50次左右,BBU使用壽命由不到一年延長至三年以上,使得廢棄BBU對環境污染程度大幅度降低,貫徹了綠色設計理念。
浪潮存儲
浪潮存儲秉承"云存智用 運籌新數據"的新存儲理念,深耕存儲平臺底層硬件的創新研發,從源頭做起全方位加固存儲產品備電質量,充分發揮硬件平臺的數據備份處理優勢,貫徹落實綠色節能設計理念,打造具備極致可靠性的高端存儲產品,保障企業海量數據存得高效、存得可靠,護航數字經濟發展。
更多信息可以來這里獲取==>>電子技術應用-AET<<