作為中國電子資訊100強企業,某制造業企業是一家在 PCB、PCBA、SUB、SIP 等領域具有出色實力的高新技術企業,在電子電路行業起著舉足輕重的作用。
在集團數位化轉型過程中,傳統架構無法滿足業務連續性需求,面臨著業務發展與技術創新的挑戰。為了實作新型數位化業務的需求,集團決定使用深信服超融合基礎設施替換原有的VMware,以適應使用者業務的動態變化和增長需求。
老舊的 VMware 虛擬化平台已無法滿足業務需求,主要存在以下問題:
缺乏維護: 現有的VMware vSphere 5.1 虛擬化平台已使用超過10年之久,目前已不再享有官方的維護服務,這意味著平台可能面臨安全漏洞、相容性問題以及效能瓶頸,同時缺乏必要的技術支持,這將會對業務和數據帶來風險。
成本問題: VMware對中國大陸使用者的政策調整導致續費和轉向訂閱模式的成本顯著增加。且VMware平台的相關元件擴容和秒級備份解決方案的成本也相對較高。
業務瓶頸: 隨著業務的持續增長,對計算、儲存和網路資源的需求日益增加,原有的VMware平台在處理高並行業務時顯得力不從心。這不僅影響了業務的擴充套件性和靈活性,還可能導致效能瓶頸,影響使用者體驗和業務效率。
一、 建設方案概述
( 一 ) 建設方案
1. 整體架構升級
本次計畫擬采用深信服超融合基礎設施來替換原有的VMware虛擬化平台,使用超融合建設普通混快閃記憶體儲和高效能混快閃記憶體儲兩個資源池,同時對接使用者現有的 DELL FC 外接儲存空間,形成一平台多儲存的融合資源池。從傳統的單一虛擬化升級為私有雲資源池架構,最佳化業務資訊系統架構,更好地適應企業業務的動態變化和增長需求。
原 VMware 配置清單如下:
CPU 配置:20×44 C
記憶體:20×768 G
磁盤資訊:Dell FC 儲存約 100T
備註:ESXI 5.1
本次計畫深信服配置清單如下:
CPU 配置:77×32 C
記憶體:77×768 G
磁盤資訊:普通混閃集群 1.2P(緩存比 10%)、高效能混閃集群 600T(緩存比 24%)、全閃集群 600T。多套集群用於業務區分(HCI 6.8.0R2)
2. 業務系統遷移策略關鍵業務系統針對性遷移
在進行業務系統遷移時,確保業務連續性和穩定性至關重要。針對SRM、CRM、EKP和PCB_MES等關鍵業務系統進行詳細的業務影響分析來評估每個系統在業務中斷時的潛在影響,並確定它們的RTO和RPO要求,以便制定遷移優先級和資源分配。為了最小化業務中斷,在非高峰時段進行遷移,並采用增量遷移技術來減少對業務的影響,確保遷移過程能夠最大程度地保障業務的連續性和穩定性。
3. 強大的備份機制CDP模組實作秒級備份
在可靠性方面,本次計畫擬采用數據冗余架構,在兩個相距約五公裏的數據中心之間搭建起一座數據冗余的橋梁,實作雙活。確保當數據中心出現故障時,業務仍然能夠不間斷執行。同時基於深信服超融合的無代理CDP模組,實作對重要業務系統的秒級備份。規劃將1T的 IO 日誌存放於虛擬儲存,備份數據存放於外接儲存EDS上,在面對突發故障時,能夠迅速從備份中恢復數據,做到RPO =1s。
( 二 ) 方案優勢
1. 高效能與高效能提升系統表現
超融合基礎設施在軟硬體層面深度最佳化,在計算資源層面更有效地應對企業業務系統的高並行處理需求,加速復雜生產管理系統、設計模擬軟體以及數據分析工具的響應速度,從而極大提高工作效率。儲存方面使用高效能混閃卷和全閃卷來滿足高IO的效能承載需求。
2. 最佳化資源利用率
透過精細化的資源整合和智慧排程機制,顯著提升了資源利用效率,確保了業務系統的靈活性和高效性。這種最佳化允許不同業務系統根據自身的具體需求動態分配資源,有效避免了資源的閑置和浪費。特別是在業務高峰期,系統能夠自動辨識並優先分配資源給關鍵業務,保障其效能穩定和響應迅速。而在業務低谷期,系統則能夠智慧回收閑置資源,從而減少能源消耗和降低營運成本。
3. 成本效益優勢,降低軟硬體成本
采用超融合資源池架構簡化數據中心的基礎設施,減少了對多種獨立硬體裝置的需求。企業不再需要依賴於傳統的、由單獨伺服器、儲存裝置和網路裝置構成的復雜組合。這樣的整合化設計不僅降低了硬體采購成本,還減少了因裝置多樣性而產生的維護工作和相關費用,不僅降低了企業的總體擁有成本(TCO),還增強了系統的可延伸性和靈活性。
4. 安全保障提升,數據安全增強
內建的安全防護機制和完善的備份策略,確保了企業數據的安全性和完整性。CDP 備份保護機制、數據冗余和雙活架構等措施,有效地防止了數據遺失和損壞,有效解決了使用者在數據保護與安全防護方面的後顧之憂。這對於制造業企業而言,保護了其研發數據、使用者資訊、生產工藝數據等重要資產,確保企業的核心競爭力不受影響。
二、 遷移過程
本次遷移工程始於 2023 年初,持續至 2024 年 10 月,歷經近兩年的時間跨度,是一項復雜而艱巨的任務。整個過程可以分為以下幾個主要階段:
( 一 ) 前期準備階段
1. 業務分層設計
在正式開始遷移之前,深信服進行了全面而細致的準備工作。首先,對使用者的業務進行了深入梳理,共辨識出 369 台業務虛機, 並根據業務重要性和可中斷性將其分為三類:
一類業務 42 台,僅在 重大節假日 視窗可中斷;
二類業務 59 台,可在 周六日 視窗中斷;
三類業務 268 台,可在 工作日 視窗中斷。
2. 平台風險分析
VMware源端
深信服對原 VMware 配置進行了詳細分析,辨識潛在的風險,制定了科學合理的遷移方案。
遷移前期風險及規避措施
在遷移前期,發現以下問題並提前通知使用者進行風險規避:
(1)部份業務軟體授權與 MAC 地址強關聯,遷移建立時需將網卡 MAC 地址設定一致後再進行遷移。
(2)源業務虛機內部安裝防毒軟體可能導致 SCMT 的 agent 行程無法執行,遷移時建議結束防毒軟體後再安裝 agent。
(3)部份老舊業務系統由於系統內核較低無法安裝 agent,需進行無代理遷移。且遷移至目的端後可能出現 SCMT 切換失敗,此時需源端關機進行最後一次增量同步後,再在 HCI 目標端拉起。建議先取消 virtio,正常開機後嘗試安裝 tools。
超融合目的端
提前會進行主動服務adeploy巡檢和資源檢視,提前發現和規避風險,確保遷移資源充裕,如果資源不夠,會及時跟使用者以及市場同事進行相應溝通,保障整體遷移。
( 二 ) 分階段遷移階段
1. 三類業務遷移
遷移前期,深信服優先將三類業務遷移至混閃集群。整體采用 SCMT 遷移工具進行點對點遷移,在遷移過程中不影響原有業務並同步增量數據。大多數業務系統采用有代理→免代理業務遷移,遷移穩定、數據傳輸速度快,少部份無法安裝agent的業務采用免代理→免代理業務遷移。在這個階段,需要密切關註遷移進度和資源使用情況,透過主動服務 aDeploy 巡檢並檢視資源,確保遷移過程順利進行。若發現資源不足,及時與使用者及市場同事溝通,保障整體遷移順利進行。
2. 二類業務遷移
待三類業務遷移穩定後,深信服開始將二類業務遷移至高效能混閃集群。同樣采用 SCMT 遷移工具,遵循相同的遷移原則和風險規避措施。在這個階段,需要更加註重業務的穩定性和可靠性,確保在遷移過程中不會對使用者的業務造成任何不良影響。
3. 一類業務遷移
在五一、國慶等重大節假日時,深信服將一類業務遷移至全閃集群。由於一類業務的重要性和不可中斷性,在遷移過程中需要格外謹慎,提前做好充分的準備工作,包括與使用者的溝通協調、資源的最佳化配置以及風險的再次評估和規避。
遷移過程的部份截圖如下:
( 三 ) 重點業務遷移階段
—— 以 PCB_MES 業務系統為例
PCB_MES 業務系統作為使用者的核心業務系統,於 2016 年左右新建,執行著 Oracle 11.2 1T 的核心資料庫單機,采用 Linux 5.0 內核 2.6.18。由於系統無法安裝 SCMT 的遷移代理 agent,只能采用免代理方式進行業務遷移。
整個虛機空間約為 1T,遷移速度約為 80MB/s。在遷移過程中,需要密切關註數據的完整性和一致性,確保不會出現數據遺失或損壞的情況。經過約兩天的時間,完成了大部份數據的遷移。
中午11時33分,執行停庫操作,進行最後一次增量同步後切換。切換至業務拉起驗證時間約為 30 分鐘。在此期間,遭遇了因 Linux 內核版本過低而無法在工具上完成切換的問題。依據前期風險排查與規避手段,深信服在 HCI 中取消 virtio 磁盤後拉起,並進行低版本內核的 tools 安裝,最終成功完成業務遷移。
三、 遷移後的驗證
在完成所有業務的遷移後,深信服對遷移後的系統進行了全面的驗證和最佳化。
( 一 ) 功能驗證
系統啟動與執行: 確保遷移後的系統能夠正常啟動,各個服務和行程能夠穩定執行,沒有出現當機、崩潰等異常情況。例如,對於伺服器,檢查其作業系統是否能夠順利載入,各種服務是否能夠正常啟動,如 Web 伺服器、資料庫伺服器等。
業務套用功能業務流程完整性: 驗證業務系統的各個功能模組是否完整,業務流程是否順暢,是否能夠滿足使用者的實際需求。
功能響應速度: 測試業務功能的響應速度,包括頁面載入速度、數據查詢和處理速度等,確保使用者能夠獲得良好的使用體驗。
( 二 ) 數據驗證
數據完整性: 檢查遷移後的數據是否完整,包括資料庫中的表數據、檔數據等,確保數據沒有遺失或損壞。比如,對比遷移前後資料庫中表的記錄數量、數據內容是否一致。
數據一致性: 驗證數據的一致性,確保不同業務系統之間的數據能夠正確互動和共享,沒有出現數據不一致的情況。例如,在涉及多個系統的業務場景中,檢查數據的一致性,如訂單數據在不同系統中的一致性。
四、 業務持續穩定執行
深信服對遷移到HCI的業務套用,透過 雲端智慧大腦 等智慧運維工具,結合線上線下服務協同人機共智的模式實作智慧監控,相較於VMware承載,主要最佳化並解決如下關鍵點:
( 一 ) 構建全棧監控體系
建立涵蓋硬體、雲平台、雲主機、資料庫、套用等全棧的監控體系,實作對 IT 基礎設施和業務系統的全方位監測。透過多種監控指標和告警規則,及時發現潛在問題和異常情況。有效減少生產中斷事件發生次數,保障業務連續性,以全年不發生業務中斷為目標進行建設。
( 二 ) 配備專屬服務團隊
為使用者配備專屬線上線下服務經理,建立線上線下協同的故障處置機制,7*24H及時響應使用者問題,協同進行故障排除和恢復。能夠在事件發生前期提前發出預警,辨識風險,達到提前介入處理,事先消除風險,規避事件發生。
自2023年初啟動,歷經近兩年的精心規劃與實施,於 2024年10月成功完成業務遷移任務,滿足了使用者儲存雙活和數據保護的核心訴求。該企業業務成功遷移,是深信服在制造業打磨技術方案的有效實踐證明。深信服始終關註各行業使用者替代升級的需求,持續打造有效、穩定的解決方案,為使用者構建自主創新的數位化基礎設施。