1. 背景概述
寶武裝備智慧科技有限公司(以下簡稱:寶武智維)是中國寶武裝置智慧運維專業化平台公司,30 余年始終專註於鋼鐵行業裝置技術服務,逐步打通檢測、診斷、檢修、制造等裝置服務環節,形成系統解決方案服務模式,希望為使用者提供穩定可靠、智慧高效的裝置執行保障。
隨著工業物聯網的迅速發展,面向鋼鐵領域裝置的智慧運維成為大數據、人工智慧等先進技術重要的套用方向之一。鋼鐵產線裝置大型化、復雜度高,裝置之間相互耦合,現場問題定位和修復難度非常高。同時,鋼鐵裝置通常處於連續運轉狀態,出現異常對於產線產能影響可觀,實作裝置的即時性、預防性維護對於保障產線效能、實作企業降本增效均十分重要。
為實作鋼鐵產線裝置智慧運維這一項極具挑戰的復雜系統創新工程,寶武智維基於海量工業時序數據積累及其豐富的套用場景,自主構建具備低成本、大規模接入能力的裝置遠端智慧運維平台,並於 2023 年全面融合國產時序資料庫 IoTDB,作為該平台管理寶武全集團時序數據的核心元件。
透過 IoTDB,寶武智維得以「啟用」時序數據價值,大幅提升寶武集團、基地側智慧化數據寫入、儲存、分析、傳輸效能,並為下遊裝置故障排查業務場景提供了堅實的數據支撐,形成了面向鋼鐵全流程,一個平台、一個專家系統、一套標準化體系的智慧裝置運維新模式。
2. 選型痛點
在全面接入 IoTDB 之前,寶武智維已經經過多年探索,並使用基於 Hadoop 的 HBase 和 OpenTSDB 作為鋼鐵裝置的時序數據管理架構。業務初期,該架構套用效果較好,但隨著更多數據量的接入,其慢慢成為了制約發展的底層瓶頸,主要體現在兩個大方面:「慢」和「難」。
寫入慢:常規情況下,舊版架構勉強能夠達到寫入效能要求,但後續業務的擴張伴隨裝置、數據量的激增,結合基地網路資源的有限性,寫入效能逐漸捉襟見肘。如果碰到網路斷線等異常場景,往往大量訊息、數據出現堵塞,網路恢復後需要快速地進行消費,但舊版架構也無法支撐消費速度要求。
查詢慢:寶武集團查詢數據跨度可能以年為單位,並要求大跨度數據實作查詢秒級響應,而在數據量增加後,舊版架構僅能實作 5-30 秒內返回,對於業務平台使用效果與即時監控裝置狀態的目的實作存在較大影響。
加工慢:數據寫入儲存後,需要使用聚合函式等方法實作多類數據加工,但基於舊版架構其速度非常有限,且很容易導致整體數據架構不穩定。
抽取慢、匯聚難:當進行集團-基地數據資產整合時,往往需要不斷地將基地儲存數據抽取至集團側。舊版架構對於數據的即時傳輸支持不足,對持續的傳輸過程穩定性影響較大。
清理難:基於舊版架構的數據清理、刪減主要依靠 TTL,過程復雜且靈活度較低。寶武集團實踐時,曾出現磁盤將滿情況下,定好的數據需要寫程式進行匯出,再導回系統的情況,數據運維工作十分繁瑣。
備份難:龐大的數據體量下,基於舊版架構的策略化備份實作非常困難,基本無法備份,只能選擇部署 3 節點集群以響應備份需求。
耗費大量成本獲取的海量高價值數據,卻變成了深不見底的數據黑洞。隨著數據量不斷增長,執行效率卻無法提升,數據反而成為拖累,下遊套用系統、團隊的施展空間很低,無法將數據價值真正轉化為業務價值。
因此,寶武智維的時序資料庫選型標準可以概括為:
能夠寫入海量並行數據;
能夠用更低成本儲存全量數據、高頻數據;
能夠即時查詢、分析數據,實作高效的數據清理與備份;
能夠實作集團側-基地側數據即時同步、匯聚的易用方案。
3. 部署方案
2023 年開始,IoTDB 全面替換 OpenTSDB,成為寶武集團時序數據湖的數據底座。運用 IoTDB 為時序數據管理核心的寶武智維雲平台,已部署至寶武集團全部生產基地,並逐步擴充套件至集團外,負責接入寶武全集團所有基地內的所有裝置數據,並進行線上狀態監測與裝置智慧運維業務。
目前,寶武智維雲全面覆蓋寶武集團 21 大生產基地,接入 27 個子平台、60 萬以上裝置、240 萬以上數據項,總數據量超 5 PB。平台配置規則超 10 萬條,已沈澱智慧模型超 40 大類,平台使用者數超 1 萬。
從以 IoTDB 進行重構的全新架構來看,寶武超大規模分布式數據湖由 1 個 E4-IoTDB 集團數據湖和 N 個 E3-IoTDB 基地數據湖集群組成。多個 E3-IoTDB 基地數據湖負責儲存管理該基地的裝置數據,而寶武集團層的 E4-IoTDB 數據湖主要覆蓋常態數據的降頻儲存和故障相關數據的原始頻率儲存。同時,集團層可以透過下發任務方式,從各個基地抽取所需數據並進行儲存,用於模型訓練及客製化數據任務。
寶武集團與基地之間的數據同步方式目前有兩種。第一種為透過 Pipe 使用 IoTDB 自研的時序數據標準檔格式 TsFile 進行高效傳輸,不需要數據的重新組織和重復寫入,可實作數據端到端的直接使用。另一種為使用全貫通的 Kafka 數據匯流排進行數據上傳,能夠滿足寶武各基地及集團的數據防火墻傳輸要求。
實作數據的高效能寫入、儲存,並打通數據抽取、傳輸鏈路後,寶武集團成功構建了 E4 集團數據湖與 E3 基地數據湖。集團數據湖包括一個主庫、N 個功能庫和一個備份庫,功能庫又包括故障特征庫與 AI 訓練庫。故障特征庫包括所有基地的裝置故障特征,各基地一天幾十條至幾百條不等的故障事件所涉及到的相關數據均會上傳並進行儲存,方便集團集中分析故障趨勢與原因。各基地數據湖則包括一個主庫、一個功能庫和一個備份庫,功能庫主要做為同步庫使用。
使用 IoTDB 後,寶武集團時序數據管理效果提升非常明顯,實作效能提升 1 個量級,儲存成本大幅下降,運維手段豐富,數據資產匯聚,AI 模型訓練加速等有效成果。
儲存成本方面,透過實踐,基於 IoTDB 可實作 10 倍資料壓縮比,並能夠用少量伺服器儲存集團規模數據。對於鋼鐵領域最重要的數據型別之一——訊號數據的儲存成本也得到大幅降低。
運維手段方面,相比舊版架構僵化、暴力的數據清洗處理方式,寶武集團成功基於 IoTDB 實作備份、清理的靈活策略化,能夠積累豐富的指標、監測資訊,幫助運維人員實作對裝置狀態的更好理解。
效能指標方面,IoTDB 寫入速度可實作千萬點/秒,可以長時間穩定寫入高頻數據;基地上報的秒級數據及邊緣側上報的毫秒級數據,一年數據量查詢可實作秒級返回,並能夠覆蓋長達十年、數百萬點的裝置數據降采樣分析,效能獲得使用者認可。同時,IoTDB 提供了豐富的聚合函式,有效拓寬寶武集團的數據加工場景,加速原始數據加工,並透過上述數據傳輸方案提升數據匯聚速度,方便數據真正形成模型,實作規模化運用。
與前文中的選型要求對照可見,IoTDB 在寫入、儲存、查詢、分析、運維、匯聚等方向,均契合了寶武智維的時序資料庫選型標準,從根源處解決了 OpenTSDB 與 HBase 架構的多個效能與功能實踐痛點。
4. 套用場景舉例
場景一:波形訊號數據處理
鋼鐵行業中,裝置即時上報的振動波形數據是最可靠的時序數據資產之一,能夠有效反映裝置的執行狀態。寶武集團的振動波形數據一般分為兩類,一類是透過 PLC、DCS 采集上報的工藝量數據,一類是透過加裝大量傳感器,如溫振傳感器采集上報的振動波形數據。各類傳感器安裝數量龐大,因此後一類數據的體量十分可觀。
舊版架構中,以上兩類數據基本透過物件儲存方式存入 HBase,儲存量占比在某些基地達到 1:20。一個基地的數據中,20 份為振動數據,1 份為工藝量數據,可見振動傳感器上傳的時序數據體量十分龐大,儲存管理的成本,以及後續使用處理的難度可想而知。
引入 IoTDB 之後,參考 IoTDB 團隊所在的天謀科技技術人員的建議,寶武智維不再將振動波形數據作為物件進行儲存,而是直接將數據拆散之後,以納秒級精度儲存到 IoTDB,這樣能夠有效提升該類數據的儲存壓縮比,大幅降低其儲存成本。同時,儲存模式發生變化後,套用模式也隨之發生變化。寶武智維可以直接在 IoTDB 層面對振動波形數據進行處理,為後續的數據加工工作提供了有力支撐。寶武智維表示該項改良是「非常顛覆性的設計」。
場景二:結合 AI 的創新套用
IoTDB 有效解決了數據的抽取、儲存、處理、上傳問題後,豐富的時序數據資產被徹底啟用,寶武智維也就能夠拓寬目前套用數據的模式與發展空間。其 AI 團隊成功從「找數據」改變為「要數據」,能夠發散更多有想象力的創新套用場景,面向多裝置、長周期數據進行進一步歸納與分析。衍生場景包括但不限於:
通用數據集的自動構建、自動標簽化:基於反饋(誤報和漏報) 和閉環進行標簽化。
同類故障的數據集的構建:故障記錄和多源數據的匹配對映,基於故障記錄和故障匹配的數據對故障型別、故障程度進行標簽化。
同類裝置的數據集的構建:同類裝置數據的歸並和對映,基於裝置基準、裝置參數資訊,對同類、同部件同型號進行匹配和標簽化。
振動訊號的特征提取:時域訊號分段特征的提取、長周期訊號特征的提取、頻域特征的提取。
趨勢特征的提取:長周期數據特征的提取,月度或年度數據特征的提取;生產周期的劃分,周期性生產過程特征的提取。
數據對齊和數據融合:工況數據的匹配,多源異構數據(時序、文本、人工輸入數據)的匹配。
文本物件數據集的構建:文本數據資訊的抽取、實體的匹配。
AI 平台與 IoTDB 的雙向通訊:數據集對映、抽取至 AI 平台,實作儲存處理與深度分析的一體化融合。
5. 未來展望
寶武智維計劃未來在與 IoTDB 深度融合的更多方面進行研究,包括但不限於:
檢視功能:切實結合業務需求,實作測點數據扁平化。圍繞生產、品質、運維等不同角度,結合 IoTDB 內建的時序數據樹狀模型,運用檢視功能組織、復用數據資產,從業務方向組織成不同視角的數據樹狀架構,進一步降低團隊運維學習成本。
中台功能:基於 IoTDB 進行通用數據 API 與專用數據 API 的研發,形成數據資產管理,並在該數據中台之上進行 APP 輕量化,以及數據視覺化的自主探索。
UDF 函式:目前,IoTDB 主要用於構建寶武智維平台中的數據儲存、處理底座,未來希望針對振動波形、訊號數據、長周期趨勢分析等關鍵場景,透過研發 UDF 自訂函式並內嵌至數據湖中,替代原有的外掛 Python 程式呼叫,結合數據 API、AI 模型,全面提升寶武集團工業數據套用分析能力。
AINode:透過引入 IoTDB 內生支持的機器學習智慧節點,替代原有的數據再抽取、單獨外部訓練模式,支持使用已有模型直接在 IoTDB 內部進行推理,針對鋼鐵領域數據預測、異常檢測等方面進行預制模型訓練和載入,達到無需匯出數據,直接使用內建模型進行數據推理的目標,實作端到端的數據深度分析。
以數據為牽引,以平台化為手段,IoTDB 將繼續與寶武智維深度合作,更好地串聯產業鏈上下遊數據資源,共建鋼鐵生態圈智慧運維服務生態,讓數據賦能鋼鐵產業價值。