《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 其他 > 设计应用 > 基于数据元件的领域数据治理工程化路径研究
基于数据元件的领域数据治理工程化路径研究
网络安全与数据治理
陆志鹏
中国电子数据产业集团
摘要: 在数字化转型浪潮下,企业应用大语言模型挖掘数据价值的需求日益增长。然而,领域数据中普遍存在的隐私问题严重制约了模型的直接应用。为解决此难题,提出一条基于数据元件的领域数据治理工程化路径。数据元件是一种通过抽象化、特征化转换实现数据去隐私化的中间数据资产。围绕数据元件,提出了一条将原始数据加工为面向大语言模型应用的高质量数据集与知识库的数据治理路径。通过在财务领域的实例验证,证明了该路径在安全释放数据价值、赋能企业智能化转型方面的有效性与实用价值。
中圖分類號:G203;TP391文獻(xiàn)標(biāo)志碼:ADOI:10.19358/j.issn.2097-1788.2026.01.007
中文引用格式:陸志鵬. 基于數(shù)據(jù)元件的領(lǐng)域數(shù)據(jù)治理工程化路徑研究[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理,2026,45(1):42-47.
英文引用格式:Lu Zhipeng. Research on the engineering path of domain data governance based on data components[J].Cyber Security and Data Governance,2026,45(1):42-47.
Research on the engineering path of domain data governance based on data components
Lu Zhipeng
China Electronics Data Corporation
Abstract: The ongoing digital transformation is fueling enterprise demand to unlock data value with large language models. Yet, this ambition is significantly constrained by privacy issues inherent to domainspecific data, precluding their direct utilization. This research introduces a novel, engineered pathway for data governance built upon "Data Component" to resolve this impasse. Data components are defined as intermediate data assets that undergo abstraction and feature transformation for robust deidentification. Our proposed pathway systematically processes raw data, centered on these components, to construct highquality datasets and knowledge bases for large language model applications. Through empirical validation in the financial sector, we demonstrate the pathway′s efficacy and utility in securely releasing data value and accelerating enterprise intelligence transformation.
Key words : domain data governance; data element; large language model; engineering path

引言

在數(shù)字化浪潮的推動(dòng)下,數(shù)據(jù)已成為驅(qū)動(dòng)現(xiàn)代企業(yè)創(chuàng)新與增長的核心生產(chǎn)要素。隨著數(shù)據(jù)積累的爆炸式增長,企業(yè)對數(shù)據(jù)價(jià)值的深度挖掘需求日益迫切,從傳統(tǒng)的數(shù)據(jù)分析和可視化,正邁向更高級的預(yù)測、推理與自動(dòng)化決策階段。在此背景下,以大語言模型(Large Language Models,LLM)為代表的生成式人工智能技術(shù)展現(xiàn)出前所未有的潛力,其強(qiáng)大的自然語言理解與生成能力,有望革新企業(yè)內(nèi)部信息交互模式,將數(shù)據(jù)洞察轉(zhuǎn)化為更直觀、更智能的業(yè)務(wù)賦能[1-2]。然而,當(dāng)企業(yè)嘗試將LLM應(yīng)用于領(lǐng)域場景以期釋放數(shù)據(jù)深層價(jià)值時(shí),數(shù)據(jù)隱私問題成為了模型應(yīng)用的核心挑戰(zhàn)之一[3]。企業(yè)內(nèi)部最具價(jià)值的領(lǐng)域數(shù)據(jù),往往蘊(yùn)含著高度敏感的個(gè)人身份信息或商業(yè)機(jī)密。未經(jīng)充分脫敏的原始數(shù)據(jù),不僅難以直接用于大模型訓(xùn)練或推理,更可能引發(fā)嚴(yán)重的法律風(fēng)險(xiǎn)與聲譽(yù)危機(jī),使得數(shù)據(jù)資產(chǎn)在合規(guī)壓力下處于“可用而不可見”的狀態(tài)。鑒于上述挑戰(zhàn),本研究的根本動(dòng)機(jī)在于探尋一條在嚴(yán)格遵循數(shù)據(jù)隱私合規(guī)前提下,能夠高效、規(guī)?;蒯尫牌髽I(yè)領(lǐng)域數(shù)據(jù)深層價(jià)值的工程化路徑。為彌合“數(shù)據(jù)可用不可見”所帶來的鴻溝,本文創(chuàng)新性地提出基于數(shù)據(jù)元件領(lǐng)域數(shù)據(jù)治理方案。數(shù)據(jù)元件是一種經(jīng)過精心設(shè)計(jì)、從原始敏感數(shù)據(jù)中提取的、業(yè)務(wù)導(dǎo)向且隱私安全的標(biāo)準(zhǔn)化信息單元。它作為一種新型的中間數(shù)據(jù)資產(chǎn),旨在解決數(shù)據(jù)的“不可見”問題。作為隱私屏障,數(shù)據(jù)元件通過對原始數(shù)據(jù)進(jìn)行抽象化、特征化轉(zhuǎn)換,實(shí)現(xiàn)了數(shù)據(jù)的匿名化與去隱私化。這使得數(shù)據(jù)在不暴露個(gè)體隱私或商業(yè)機(jī)密的前提下,仍能保留核心的業(yè)務(wù)洞察,實(shí)現(xiàn)數(shù)據(jù)資產(chǎn)的“安全可見”。本研究的重點(diǎn)在于構(gòu)建一套以數(shù)據(jù)元件為核心的領(lǐng)域數(shù)據(jù)治理工程化體系,旨在通過標(biāo)準(zhǔn)化、自動(dòng)化的方式,實(shí)現(xiàn)從原始數(shù)據(jù)到高質(zhì)量、隱私安全的“數(shù)據(jù)元件”的轉(zhuǎn)化、管理與應(yīng)用,并特別關(guān)注其如何賦能大語言模型,構(gòu)建新一代的企業(yè)智能應(yīng)用。


本文詳細(xì)內(nèi)容請下載:

http://ihrv.cn/resource/share/2000006932


作者信息:

陸志鵬

(中國電子數(shù)據(jù)產(chǎn)業(yè)集團(tuán),廣東深圳518057)

2.jpg

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。