《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 其他 > 設(shè)計(jì)應(yīng)用 > 基于起源標(biāo)注的數(shù)據(jù)中臺(tái)原始庫數(shù)據(jù)溯源研究
基于起源標(biāo)注的數(shù)據(jù)中臺(tái)原始庫數(shù)據(jù)溯源研究
網(wǎng)絡(luò)安全與數(shù)據(jù)治理
周學(xué)文,薛猛
中國人民解放軍31306部隊(duì)
摘要: 數(shù)據(jù)中臺(tái)數(shù)據(jù)質(zhì)量審驗(yàn)和問題診斷經(jīng)常需要追溯指定數(shù)據(jù)的歷史變化。著眼于追溯數(shù)據(jù)中臺(tái)源信息系統(tǒng)元數(shù)據(jù)和數(shù)據(jù)記錄變化,進(jìn)行了數(shù)據(jù)表元數(shù)據(jù)起源標(biāo)注和數(shù)據(jù)表數(shù)據(jù)記錄起源標(biāo)注設(shè)計(jì),基于數(shù)據(jù)中臺(tái)結(jié)構(gòu)化數(shù)據(jù)在線抽取功能同步生成相應(yīng)的數(shù)據(jù)起源標(biāo)注,并針對(duì)數(shù)據(jù)表元數(shù)據(jù)版本變化歷史追溯、數(shù)據(jù)表數(shù)據(jù)記錄版本變化歷史追溯和指定時(shí)間段樹形表數(shù)據(jù)歷史追溯等典型溯源需求給出了具體解決方案。本方案在某部數(shù)據(jù)中臺(tái)系統(tǒng)中進(jìn)行了具體實(shí)現(xiàn),為數(shù)據(jù)中臺(tái)數(shù)據(jù)生命周期溯源提供了重要支撐。
中圖分類號(hào):TP391.3文獻(xiàn)標(biāo)識(shí)碼:ADOI:10.19358/j.issn.2097-1788.2025.12.007引用格式:周學(xué)文,薛猛. 基于起源標(biāo)注的數(shù)據(jù)中臺(tái)原始庫數(shù)據(jù)溯源研究[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理,2025,44(12):48-54.
Research on data traceability of the original library in data middle platform based on origin annotation
Zhou Xuewen,Xue Meng
Unit 31306 of PLA
Abstract: Data quality inspection and problem diagnosis often require tracing historical changes in specified data. This paper focuses on the changes of metadata and data records of data source information system, designs the origin annotations of data table metadata and data table data records, generates corresponding data origin annotation based on the structured data online extraction function, and provides specific solutions for the typical traceability requirements of data table metadata version change history, data table data record version change history and data history tracing of tree table data at the specified time. This scheme is specifically implemented in a certain data middle platform system, which provides an important support for the data life cycle traceability of the data middle platform.
Key words : data origin; origin annotation; data middle platform; data version; full extraction; hash alignment

引言

由機(jī)構(gòu)編制體制調(diào)整帶來的機(jī)構(gòu)樹變化、由新裝備入編或老裝備退編所導(dǎo)致的裝備分類樹變化等基礎(chǔ)數(shù)據(jù)調(diào)整是信息系統(tǒng)經(jīng)常需面對(duì)的情況,如何查詢歷史數(shù)據(jù)以及追溯數(shù)據(jù)變化是一個(gè)比較難解決的問題。目前大部分管理信息系統(tǒng)只能通過手工還原歷史數(shù)據(jù)庫版本來滿足歷史數(shù)據(jù)查詢要求,效率低下且難以滿足歷史數(shù)據(jù)自動(dòng)追溯需求。數(shù)據(jù)中臺(tái)建設(shè)可對(duì)解決此問題提供比較理想的解決方案,通過結(jié)構(gòu)化數(shù)據(jù)在線抽取功能,數(shù)據(jù)中臺(tái)支持對(duì)能夠訪問的本地關(guān)系型數(shù)據(jù)進(jìn)行同構(gòu)化抽取,并將數(shù)據(jù)存儲(chǔ)在原始庫。在數(shù)據(jù)抽取過程中,通過應(yīng)用數(shù)據(jù)起源相關(guān)技術(shù),可將所有曾經(jīng)抽取過的歷史數(shù)據(jù)存儲(chǔ)在歷史數(shù)據(jù)庫中,從而能有效滿足歷史快照查詢、樹形表演化歷史追蹤等數(shù)據(jù)溯源需求。本文著眼于追溯數(shù)據(jù)中臺(tái)源信息系統(tǒng)元數(shù)據(jù)和數(shù)據(jù)記錄變化,分別進(jìn)行了數(shù)據(jù)表元數(shù)據(jù)起源標(biāo)注和數(shù)據(jù)表數(shù)據(jù)記錄起源標(biāo)注設(shè)計(jì),并針對(duì)數(shù)據(jù)表元數(shù)據(jù)版本變化歷史追溯、數(shù)據(jù)表數(shù)據(jù)記錄版本變化歷史追溯和指定時(shí)間段機(jī)構(gòu)樹演化歷史追溯等典型溯源需求給出了具體解決方案。這種追溯類似于零部件拆卸所導(dǎo)致的裝備BOM(Bill of Materials)歷史變化溯源,文獻(xiàn)[1-2]針對(duì)裝備維修階段的裝備 BOM數(shù)據(jù)起源追蹤,進(jìn)行了起源標(biāo)注的設(shè)計(jì)和形式化描述,并給出了裝備 BOM數(shù)據(jù)起源追溯算法的形式化描述。文獻(xiàn)[1-2]中的裝備維修BOM類似于本文中的機(jī)構(gòu)樹,但其追溯只考慮了數(shù)據(jù)表數(shù)據(jù)記錄變化,未考慮數(shù)據(jù)表元數(shù)據(jù)變化,且其主要針對(duì)起源標(biāo)注設(shè)計(jì)和起源追溯進(jìn)行了形式化表示,雖證明了基于起源標(biāo)注的BOM數(shù)據(jù)起源追溯可行性,但基本未涉及工程實(shí)現(xiàn)細(xì)節(jié);本文則提出了基于全量哈希比對(duì)的起源標(biāo)注生成和存儲(chǔ)機(jī)制,描述了具體工程實(shí)現(xiàn)。文獻(xiàn)[3]提出了一種數(shù)據(jù)起源形式化表示模型,其重點(diǎn)是基于形式化表示模型,從多個(gè)層面解釋全特性SQL和過程語言中的數(shù)據(jù)起源,主要適用于多表關(guān)聯(lián)聚合情況下數(shù)據(jù)表元數(shù)據(jù)的起源追溯;本文重點(diǎn)則在于數(shù)據(jù)中臺(tái)在線同構(gòu)化抽取情況下單條數(shù)據(jù)表記錄和樹形表數(shù)據(jù)記錄的起源追溯。文獻(xiàn)[4]提出了一種基于時(shí)態(tài)關(guān)系的數(shù)據(jù)起源模型,利用時(shí)態(tài)表可以獲取關(guān)系表在特定時(shí)間戳下的歷史快照,由于快照會(huì)占用較多的存儲(chǔ)資源,該文提出了快照的最優(yōu)放置方案,即計(jì)算指定數(shù)量的時(shí)間戳,使得使用這些時(shí)間戳下的快照對(duì)查詢的優(yōu)化效果最好。其研究重點(diǎn)在于如何降低時(shí)態(tài)關(guān)系的數(shù)據(jù)冗余和提高歷史快照查詢效率,未涉及樹形表溯源問題。


本文詳細(xì)內(nèi)容請(qǐng)下載:

http://ihrv.cn/resource/share/2000006899


作者信息:

周學(xué)文,薛猛

(中國人民解放軍31306部隊(duì),四川成都610036)


官方訂閱.jpg

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。