《電子技術應用》
您所在的位置:首頁 > 其他 > 设计应用 > 数据工厂:国家数据基础设施的新兴业态
数据工厂:国家数据基础设施的新兴业态
网络安全与数据治理
张茜茜1, 殷宏宇2,杨光3
1.北京物资学院计算机与人工智能学院; 2.北京联海信息系统有限公司; 3.中国信息安全测评中心
摘要: 数据要素化价值化面临“供不出、流不动、用不好”的普遍难题,其核心原因在于数据生产业态尚未成熟,高质量数据集仍以作坊式生产为主,无法满足人工智能大模型对数据的规模化需求。针对这一问题,提出“数据工厂”这一概念,将其界定为面向人工智能大模型应用,开展高质量数据集设施化、规模化、标准化生产的数据基础设施。通过梳理工业社会、信息社会和数智社会基础设施业态的演进规律,论证了数据工厂作为国家数据基础设施基本构成单元的理论逻辑。在此基础上,依据物理分布、组织方式和技术水平等特征,将数据工厂划分为集中式、半集中式和分布式三种类型,并归纳出多样化、设施化、规模化、标准化和人工智能化五大特点。研究认为,发展数据工厂能够有效突破人工智能数据供给瓶颈,推动数据产业链上下游协同,是打通数据赋能人工智能“最后一公里”的关键路径。
中圖分類號:F49文獻標志碼:ADOI:10.19358/j.issn.2097-1788.2026.04.001
中文引用格式:張茜茜, 殷宏宇,楊光. 數(shù)據(jù)工廠:國家數(shù)據(jù)基礎設施的新興業(yè)態(tài)[J].網(wǎng)絡安全與數(shù)據(jù)治理,2026,45(4):2-8.
英文引用格式:Zhang Qianqian,Yin Hongyu,Yang Guang. Data Factory: an emerging form of national data infrastructure[J].Cyber Security and Data Governance,2026,45(4):2-8.
Data Factory: an emerging form of national data infrastructure
Zhang Qianqian1,Yin Hongyu2,Yang Guang3
1.School of Computer Science and Artificial Intelligence, Beijing Wuzi University; 2.Beijing Lianhai Information Systems Co., Ltd.; 3.China Information Technology Security Evaluation Center
Abstract: The valorization of data as a factor of production faces widespread challenges, including insufficient supply, restricted circulation, and ineffective utilization. The core reason lies in the immaturity of data production modes, where highquality datasets still rely on workshopstyle production that fails to meet the largescale data demands of Artificial Intelligence (AI) large models. To address this problem, the concept of "Data Factory" is proposed and defined as a data infrastructure dedicated to the facilitybased, largescale, and standardized production of highquality datasets for AI large model applications. By tracing the evolution of infrastructure forms across industrial society, information society, and dataintelligent society, the theoretical logic of Data Factory as a fundamental building block of national data infrastructure is established. Based on characteristics such as physical distribution, organizational structure, and technological sophistication, Data Factories are classified into three types: centralized, semicentralized, and distributed. Five key features are identified: diversity, facilityorientation, scalability, standardization, and AIintegration. The study concludes that the development of Data Factories can effectively break through the data supply bottleneck in AI development, promote upstream and downstream collaboration in the data industry chain, and serve as a critical path to bridge the "last mile" gap between data and AI empowerment.
Key words : Data Factory; data infrastructure; highquality dataset; data factorization

引言

數(shù)據(jù)是數(shù)字經(jīng)濟時代的關鍵生產(chǎn)要素。2022年12月,中共中央、國務院發(fā)布《關于構建數(shù)據(jù)基礎制度更好發(fā)揮數(shù)據(jù)要素作用的意見》(“數(shù)據(jù)二十條”)[1],首次從國家制度層面系統(tǒng)部署了數(shù)據(jù)產(chǎn)權、流通交易、收益分配和安全治理等基礎制度框架,標志著我國數(shù)據(jù)要素化進入制度建設新階段。2024年12月,國家數(shù)據(jù)局發(fā)布《國家數(shù)據(jù)基礎設施建設指引》[2],明確提出要構建橫向聯(lián)通、縱向貫通、協(xié)調有力的國家數(shù)據(jù)基礎設施體系,為數(shù)據(jù)要素的大規(guī)模流通利用提供底座支撐。與此同時,全球主要經(jīng)濟體也在加快數(shù)據(jù)基礎設施戰(zhàn)略布局,歐盟發(fā)布《歐洲數(shù)據(jù)戰(zhàn)略》[3],提出建設歐洲數(shù)據(jù)空間;美國通過“星際之門項目”大規(guī)模投資AI基礎設施[4]。這些政策實踐表明,數(shù)據(jù)基礎設施已成為大國競爭的戰(zhàn)略制高點。

然而,數(shù)據(jù)要素化價值化在實踐中仍面臨“供不出、流不動、用不好”的普遍難題[5]。一方面,算力、算法和數(shù)據(jù)作為人工智能的三大要素[6],在算力和模型技術快速迭代的同時,高質量數(shù)據(jù)集的供給嚴重滯后,特別是2025年初DeepSeek的崛起大幅降低了大模型應用門檻,使得數(shù)據(jù)供給瓶頸更加凸顯。另一方面,長期存儲于政府、企業(yè)中的私域數(shù)據(jù)因安全顧慮難以流通,高質量數(shù)據(jù)集仍以作坊式、分散化方式生產(chǎn),無法滿足大模型對數(shù)據(jù)的規(guī)?;?、標準化需求。數(shù)據(jù)產(chǎn)業(yè)鏈上下游企業(yè)難以協(xié)同,數(shù)據(jù)“采而不存、存而不治、治而不用”的現(xiàn)象普遍存在。

從基礎設施演進的視角看,在工業(yè)社會,水廠、電廠是加工生產(chǎn)戰(zhàn)略資源的基本業(yè)態(tài);在信息社會,網(wǎng)絡廠商、算力廠商承擔了類似角色;進入數(shù)智社會,數(shù)據(jù)已成為國家戰(zhàn)略資源,但作為數(shù)據(jù)基礎設施基本業(yè)態(tài)的“數(shù)據(jù)工廠”尚未形成?,F(xiàn)有研究對數(shù)據(jù)治理[7-8]、數(shù)據(jù)要素市場化配置[9-10]、數(shù)據(jù)流通與共享機制[11-12]以及數(shù)據(jù)確權與價值評估[13]等方面已有較多探討,但對于如何構建面向人工智能大模型的規(guī)?;瘮?shù)據(jù)生產(chǎn)設施,尚缺乏系統(tǒng)的理論闡釋和概念界定。

正如工業(yè)社會水有水廠、電有電廠,數(shù)據(jù)工廠正在成為數(shù)智社會的一種新興生產(chǎn)業(yè)態(tài)。發(fā)展數(shù)據(jù)工廠,不僅是順應全球數(shù)智化發(fā)展趨勢的必然選擇,而且對于創(chuàng)新國家數(shù)據(jù)基礎設施新型業(yè)態(tài),打造高質量數(shù)據(jù)集規(guī)?;┙o設施,推動數(shù)據(jù)產(chǎn)業(yè)高質量發(fā)展,打通數(shù)據(jù)賦能人工智能“最后一公里”等方面,具有重大理論意義和實踐價值。


本文詳細內容請下載:

http://ihrv.cn/resource/share/2000007053


作者信息:

張茜茜1, 殷宏宇2,楊光3

(1.北京物資學院計算機與人工智能學院,北京101126;

2.北京聯(lián)海信息系統(tǒng)有限公司,北京100043;

3.中國信息安全測評中心,北京100085)

2.jpg

此內容為AET網(wǎng)站原創(chuàng),未經(jīng)授權禁止轉載。