123,123

大规模异构数据迁移的自适应清洗与智能转换框架

网络安全与数据治理

许文静，安宁，于重，刘珠慧

国务院国有资产监督管理委员会干部教育培训中心

摘要： 在数字化转型背景下，传统集中式数据库向分布式架构迁移面临异构数据模型语义冲突、业务连续性要求、人工转换低效等核心挑战。提出智能转换框架AUTOMIG，其核心创新在于深度挖掘数据内在关联的智能决策机制与适应大规模异构环境的高效执行引擎。AUTOMIG创新性地利用图神经网络自动发现隐含于数据库模式中的复杂表间关联，并结合多目标优化模型智能决策最优存储方案，提升跨模型转换的自动化程度。同时，框架设计独特的双模式日志捕获与流批协同清洗管道，实现对海量历史数据与高频实时变更数据的低延迟、高可靠同步与清洗。该框架成功实现了在容器化平台上的部署并以大规模教育培训系统数据迁移为典型应用案例实践验证。结果表明其图神经网络驱动的关联发现显著提升了复杂查询性能，而双模式协同执行引擎则大幅缩短了迁移总耗时并优化了资源利用效率，为企业数字化转型提供了可靠的技术支撑和实践路径。

關(guān)鍵詞： 异构数据数据迁移智能转换框架元数据感知图神经网络

中圖分類號：TP39文獻(xiàn)標(biāo)識碼：ADOI:10.19358/j.issn.2097-1788.2025.09.006
引用格式：許文靜，安寧，于重,等. 大規(guī)模異構(gòu)數(shù)據(jù)遷移的自適應(yīng)清洗與智能轉(zhuǎn)換框架［J］.網(wǎng)絡(luò)安全與數(shù)據(jù)治理，2025，44（9）：35-45.

Adaptive cleaning and intelligent transformation framework for large-scale heterogeneous data migration

Xu Wenjing，An Ning，Yu Zhong，Liu Zhuhui

SASAC Education and Training Center

Abstract： In the context of digital transformation, migrating from traditional centralized databases to distributed architectures presents core challenges including semantic conflicts in heterogeneous data models, business continuity requirements, and inefficient manual conversion processes. This paper proposes an intelligent transformation framework named AUTO-MIG, whose core innovations lie in an intelligent decision-making mechanism that deeply mines intrinsic data relationships and a high-performance execution engine adapted to large-scale heterogeneous environments. AUTO-MIG innovatively employs graph neural networks(GNN) to automatically uncover complex inter-table relationships embedded within database schemas and combines a multi-objective optimization model to intelligently determine the optimal storage strategy, thereby enhancing the automation of cross-model data transformation. Furthermore, the framework incorporates a uniquely designed dual-mode log capture mechanism and a stream-batch hybrid cleaning pipeline to achieve low-latency, highly reliable synchronization and cleaning of massive historical data and high-frequency real-time changes. The framework has been successfully deployed on containerized platforms and validated through a large-scale educational training system data migration case. The results demonstrate that the GNN-driven relationship discovery significantly improves complex query performance, while the dual-mode collaborative execution engine considerably reduces total migration time and optimizes resource utilization efficiency. This provides reliable technical support and a practical pathway for enterprise digital transformation.

Key words : heterogeneous data；data migration；intelligent transformation framework；metadata awareness；graph neural network

引言

隨著數(shù)字化轉(zhuǎn)型進(jìn)程的加速推進(jìn)，企業(yè)信息系統(tǒng)正經(jīng)歷從傳統(tǒng)集中式架構(gòu)向分布式架構(gòu)轉(zhuǎn)型，傳統(tǒng)集中式數(shù)據(jù)庫系統(tǒng)正逐漸被新型混合存儲架構(gòu)所替代［1］。

新舊系統(tǒng)數(shù)據(jù)遷移工作面臨規(guī)模性、異構(gòu)性、時(shí)效性三個(gè)方面技術(shù)挑戰(zhàn)［2］。規(guī)模性挑戰(zhàn)體現(xiàn)在海量歷史數(shù)據(jù)的遷移需求上。傳統(tǒng)遷移方法需要較長停機(jī)時(shí)間，導(dǎo)致無法滿足業(yè)務(wù)系統(tǒng)高可用性的要求。異構(gòu)性挑戰(zhàn)體現(xiàn)在不同數(shù)據(jù)庫系統(tǒng)在數(shù)據(jù)模型和查詢語義等方面的差異。這種差異導(dǎo)致自動化遷移過程中出現(xiàn)各種兼容性問題，特別是在業(yè)務(wù)邏輯轉(zhuǎn)換方面。時(shí)效性挑戰(zhàn)體現(xiàn)在遷移過程中的數(shù)據(jù)一致性保障。由于缺乏有效的增量同步機(jī)制會導(dǎo)致業(yè)務(wù)狀態(tài)不一致，直接影響用戶體驗(yàn)和系統(tǒng)可靠性。這些挑戰(zhàn)共同形成數(shù)據(jù)遷移工作的主要難點(diǎn)是在有限的時(shí)間資源下，難以同時(shí)保證遷移效率、數(shù)據(jù)一致性和業(yè)務(wù)連續(xù)性。此外，現(xiàn)有解決方案在異構(gòu)模型轉(zhuǎn)換和智能化能力方面也存在明顯不足，導(dǎo)致成本居高不下。

基于規(guī)則的數(shù)據(jù)轉(zhuǎn)換方法、增量數(shù)據(jù)同步技術(shù)以及分布式事務(wù)管理方案為現(xiàn)有研究工作的主要技術(shù)方向。雖然這些方法在特定場景下取得了一定成效，但普遍存在明顯局限。基于規(guī)則的方法需要大量人工干預(yù)，難以應(yīng)對復(fù)雜的模型轉(zhuǎn)換需求?；谡Z義映射的方法雖然提高了轉(zhuǎn)換精度，但面臨可擴(kuò)展性問題。雖然機(jī)器學(xué)習(xí)方法為數(shù)據(jù)轉(zhuǎn)換提供新的思路，但在實(shí)際應(yīng)用中仍存在訓(xùn)練數(shù)據(jù)需求大、業(yè)務(wù)規(guī)則處理能力弱等缺陷［3］。

針對異構(gòu)性、規(guī)模性和時(shí)效性三大核心挑戰(zhàn)，本文提出智能轉(zhuǎn)換框架 AUTOMIG。該框架的核心創(chuàng)新包括兩方面：一是基于圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Network, GNN)的深度關(guān)聯(lián)發(fā)現(xiàn)機(jī)制，可自動識別數(shù)據(jù)庫中未明確定義的復(fù)雜表間關(guān)聯(lián)，減少對人工規(guī)則的依賴，為跨模型映射提供支持；二是面向大規(guī)模異構(gòu)遷移的雙模式協(xié)同執(zhí)行引擎，結(jié)合全量數(shù)據(jù)分塊并行處理與增量日志流式捕獲，在保障一致性的同時(shí)提升吞吐量、降低遷移時(shí)間。AUTOMIG 通過元數(shù)據(jù)驅(qū)動的動態(tài)適配、自解釋模式轉(zhuǎn)換與分布式執(zhí)行策略等技術(shù)實(shí)現(xiàn)上述機(jī)制。為驗(yàn)證其有效性，本文選取具有海量歷史數(shù)據(jù)、高頻更新、復(fù)雜網(wǎng)狀關(guān)聯(lián)和強(qiáng)領(lǐng)域規(guī)則的大規(guī)模教育培訓(xùn)系統(tǒng)進(jìn)行遷移測試，該場景能夠充分體現(xiàn)框架的普適性與智能性。

本文詳細(xì)內(nèi)容請下載：

http://ihrv.cn/resource/share/2000006705

作者信息：

許文靜，安寧，于重，劉珠慧

(國務(wù)院國有資產(chǎn)監(jiān)督管理委員會干部教育培訓(xùn)中心，北京100053)

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容