数据血缘关系构建方法综述
网络安全与数据治理
吕琳1,田庆业2,焦冬冬1,郭金磊1,房志奇1,陈瑞1
1.华北计算机系统工程研究所; 2.中电智能科技有限公司
摘要: 随着数据量的急剧增长,如何管理和利用数据面临严峻挑战。而数据血缘作为数据治理的核心组成部分,在数据治理中有重要作用,如提升数据质量、保障数据安全等。研究了构建数据血缘关系的方法,包括系统跟踪法、基于SQL解析的方法、逆置函数法、标注法和机器学习法,分析了不同数据血缘构建方法的优缺点和应用场景,并探讨未来研究方向,为数据血缘关系的应用及后续研究提供参考。
中圖分類號(hào):TP301文獻(xiàn)標(biāo)識(shí)碼:ADOI:10.19358/j.issn.2097-1788.2025.12.001引用格式:呂琳,田慶業(yè),焦冬冬,等. 數(shù)據(jù)血緣關(guān)系構(gòu)建方法綜述[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理,2025,44(12):1-5.
A review of data lineage relationship construction methods
Lv Lin1,Tian Qingye2,Jiao Dongdong1,Guo Jinlei1,Fang Zhiqi1,Chen Rui1
1. National Computer System Engineering Research Institute of China; 2. Intelligence Technology of CEC Co., Ltd.
Abstract: With the rapid growth of data volume, how to manage and utilize data is facing severe challenges. As a core component of data governance, data lineage plays an important role in data governance, such as improving data quality and ensuring data security. Therefore, this paper studies the construction methods of data lineage, including system tracking method, SQL parsingbased method, inverse function method, annotation method and machine learning method. It also explores the advantages and disadvantages of different data lineage construction methods and their application scenarios, and discusses future research directions, providing a reference for the application of data lineage relationships and subsequent research.
Key words : data lineage; metadata; data governance; big data
引言
在當(dāng)今數(shù)據(jù)驅(qū)動(dòng)的時(shí)代,數(shù)據(jù)已成為企業(yè)核心資產(chǎn)之一[1]。隨著數(shù)據(jù)規(guī)模的指數(shù)級(jí)增長(zhǎng),如何管理和利用數(shù)據(jù)成為挑戰(zhàn)[2]。數(shù)據(jù)血緣(Data Lineage)作為數(shù)據(jù)治理的核心組成部分,旨在通過追蹤數(shù)據(jù)從采集、加工、存儲(chǔ)到消費(fèi)的全生命周期路徑,揭示數(shù)據(jù)的演化關(guān)系與依賴鏈條,優(yōu)化資源配置,從而提高公司的決策水平。 近年來,學(xué)術(shù)界形成了多種數(shù)據(jù)血緣構(gòu)建方法。然而,不同方法在自動(dòng)化程度、粒度等方面仍存在顯著差異。本文梳理了目前構(gòu)建數(shù)據(jù)血緣關(guān)系的方法,對(duì)比分析其優(yōu)缺點(diǎn)和應(yīng)用場(chǎng)景,并探討未來研究方向,為數(shù)據(jù)血緣關(guān)系的應(yīng)用及后續(xù)研究提供參考。
本文詳細(xì)內(nèi)容請(qǐng)下載:
http://ihrv.cn/resource/share/2000006893
作者信息:
呂琳1,田慶業(yè)2,焦冬冬1,郭金磊1,房志奇1,陳瑞1
(1.華北計(jì)算機(jī)系統(tǒng)工程研究所,北京100083;
2.中電智能科技有限公司,北京102200)

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。
