《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 其他 > 設(shè)計應(yīng)用 > 大規(guī)模異構(gòu)數(shù)據(jù)遷移的自適應(yīng)清洗與智能轉(zhuǎn)換框架
大規(guī)模異構(gòu)數(shù)據(jù)遷移的自適應(yīng)清洗與智能轉(zhuǎn)換框架
網(wǎng)絡(luò)安全與數(shù)據(jù)治理
許文靜,安寧,于重,劉珠慧
國務(wù)院國有資產(chǎn)監(jiān)督管理委員會干部教育培訓中心
摘要: 在數(shù)字化轉(zhuǎn)型背景下,傳統(tǒng)集中式數(shù)據(jù)庫向分布式架構(gòu)遷移面臨異構(gòu)數(shù)據(jù)模型語義沖突、業(yè)務(wù)連續(xù)性要求、人工轉(zhuǎn)換低效等核心挑戰(zhàn)。提出智能轉(zhuǎn)換框架AUTOMIG,其核心創(chuàng)新在于深度挖掘數(shù)據(jù)內(nèi)在關(guān)聯(lián)的智能決策機制與適應(yīng)大規(guī)模異構(gòu)環(huán)境的高效執(zhí)行引擎。AUTOMIG創(chuàng)新性地利用圖神經(jīng)網(wǎng)絡(luò)自動發(fā)現(xiàn)隱含于數(shù)據(jù)庫模式中的復雜表間關(guān)聯(lián),并結(jié)合多目標優(yōu)化模型智能決策最優(yōu)存儲方案,提升跨模型轉(zhuǎn)換的自動化程度。同時,框架設(shè)計獨特的雙模式日志捕獲與流批協(xié)同清洗管道,實現(xiàn)對海量歷史數(shù)據(jù)與高頻實時變更數(shù)據(jù)的低延遲、高可靠同步與清洗。該框架成功實現(xiàn)了在容器化平臺上的部署并以大規(guī)模教育培訓系統(tǒng)數(shù)據(jù)遷移為典型應(yīng)用案例實踐驗證。結(jié)果表明其圖神經(jīng)網(wǎng)絡(luò)驅(qū)動的關(guān)聯(lián)發(fā)現(xiàn)顯著提升了復雜查詢性能,而雙模式協(xié)同執(zhí)行引擎則大幅縮短了遷移總耗時并優(yōu)化了資源利用效率,為企業(yè)數(shù)字化轉(zhuǎn)型提供了可靠的技術(shù)支撐和實踐路徑。
中圖分類號:TP39文獻標識碼:ADOI:10.19358/j.issn.2097-1788.2025.09.006
引用格式:許文靜,安寧,于重,等. 大規(guī)模異構(gòu)數(shù)據(jù)遷移的自適應(yīng)清洗與智能轉(zhuǎn)換框架[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理,2025,44(9):35-45.
Adaptive cleaning and intelligent transformation framework for large-scale heterogeneous data migration
Xu Wenjing,An Ning,Yu Zhong,Liu Zhuhui
SASAC Education and Training Center
Abstract: In the context of digital transformation, migrating from traditional centralized databases to distributed architectures presents core challenges including semantic conflicts in heterogeneous data models, business continuity requirements, and inefficient manual conversion processes. This paper proposes an intelligent transformation framework named AUTO-MIG, whose core innovations lie in an intelligent decision-making mechanism that deeply mines intrinsic data relationships and a high-performance execution engine adapted to large-scale heterogeneous environments. AUTO-MIG innovatively employs graph neural networks(GNN) to automatically uncover complex inter-table relationships embedded within database schemas and combines a multi-objective optimization model to intelligently determine the optimal storage strategy, thereby enhancing the automation of cross-model data transformation. Furthermore, the framework incorporates a uniquely designed dual-mode log capture mechanism and a stream-batch hybrid cleaning pipeline to achieve low-latency, highly reliable synchronization and cleaning of massive historical data and high-frequency real-time changes. The framework has been successfully deployed on containerized platforms and validated through a large-scale educational training system data migration case. The results demonstrate that the GNN-driven relationship discovery significantly improves complex query performance, while the dual-mode collaborative execution engine considerably reduces total migration time and optimizes resource utilization efficiency. This provides reliable technical support and a practical pathway for enterprise digital transformation.
Key words : heterogeneous data;data migration;intelligent transformation framework;metadata awareness;graph neural network

引言

隨著數(shù)字化轉(zhuǎn)型進程的加速推進,企業(yè)信息系統(tǒng)正經(jīng)歷從傳統(tǒng)集中式架構(gòu)向分布式架構(gòu)轉(zhuǎn)型,傳統(tǒng)集中式數(shù)據(jù)庫系統(tǒng)正逐漸被新型混合存儲架構(gòu)所替代[1]。

新舊系統(tǒng)數(shù)據(jù)遷移工作面臨規(guī)模性、異構(gòu)性、時效性三個方面技術(shù)挑戰(zhàn)[2]。規(guī)模性挑戰(zhàn)體現(xiàn)在海量歷史數(shù)據(jù)的遷移需求上。傳統(tǒng)遷移方法需要較長停機時間,導致無法滿足業(yè)務(wù)系統(tǒng)高可用性的要求。異構(gòu)性挑戰(zhàn)體現(xiàn)在不同數(shù)據(jù)庫系統(tǒng)在數(shù)據(jù)模型和查詢語義等方面的差異。這種差異導致自動化遷移過程中出現(xiàn)各種兼容性問題,特別是在業(yè)務(wù)邏輯轉(zhuǎn)換方面。時效性挑戰(zhàn)體現(xiàn)在遷移過程中的數(shù)據(jù)一致性保障。由于缺乏有效的增量同步機制會導致業(yè)務(wù)狀態(tài)不一致,直接影響用戶體驗和系統(tǒng)可靠性。這些挑戰(zhàn)共同形成數(shù)據(jù)遷移工作的主要難點是在有限的時間資源下,難以同時保證遷移效率、數(shù)據(jù)一致性和業(yè)務(wù)連續(xù)性。此外,現(xiàn)有解決方案在異構(gòu)模型轉(zhuǎn)換和智能化能力方面也存在明顯不足,導致成本居高不下。

基于規(guī)則的數(shù)據(jù)轉(zhuǎn)換方法、增量數(shù)據(jù)同步技術(shù)以及分布式事務(wù)管理方案為現(xiàn)有研究工作的主要技術(shù)方向。雖然這些方法在特定場景下取得了一定成效,但普遍存在明顯局限?;谝?guī)則的方法需要大量人工干預(yù),難以應(yīng)對復雜的模型轉(zhuǎn)換需求?;谡Z義映射的方法雖然提高了轉(zhuǎn)換精度,但面臨可擴展性問題。雖然機器學習方法為數(shù)據(jù)轉(zhuǎn)換提供新的思路,但在實際應(yīng)用中仍存在訓練數(shù)據(jù)需求大、業(yè)務(wù)規(guī)則處理能力弱等缺陷[3]。

針對異構(gòu)性、規(guī)模性和時效性三大核心挑戰(zhàn),本文提出智能轉(zhuǎn)換框架 AUTOMIG。該框架的核心創(chuàng)新包括兩方面:一是基于圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Network, GNN)的深度關(guān)聯(lián)發(fā)現(xiàn)機制,可自動識別數(shù)據(jù)庫中未明確定義的復雜表間關(guān)聯(lián),減少對人工規(guī)則的依賴,為跨模型映射提供支持;二是面向大規(guī)模異構(gòu)遷移的雙模式協(xié)同執(zhí)行引擎,結(jié)合全量數(shù)據(jù)分塊并行處理與增量日志流式捕獲,在保障一致性的同時提升吞吐量、降低遷移時間。AUTOMIG 通過元數(shù)據(jù)驅(qū)動的動態(tài)適配、自解釋模式轉(zhuǎn)換與分布式執(zhí)行策略等技術(shù)實現(xiàn)上述機制。為驗證其有效性,本文選取具有海量歷史數(shù)據(jù)、高頻更新、復雜網(wǎng)狀關(guān)聯(lián)和強領(lǐng)域規(guī)則的大規(guī)模教育培訓系統(tǒng)進行遷移測試,該場景能夠充分體現(xiàn)框架的普適性與智能性。


本文詳細內(nèi)容請下載:

http://ihrv.cn/resource/share/2000006705


作者信息:

許文靜,安寧,于重,劉珠慧

(國務(wù)院國有資產(chǎn)監(jiān)督管理委員會干部教育培訓中心,北京100053)


subscribe.jpg

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。