123,123,123

数据工厂的构成、建设模式和运营机制研究

网络安全与数据治理

涂群1，耿贵宁2，张茜茜3

1.北京化工大学经济管理学院； 2.三六零数字安全科技集团有限公司； 3.北京物资学院计算机与人工智能学院

摘要： 高质量数据集是人工智能大模型训练的核心“燃料”。当前，高质量数据集构建主要由人工智能企业自行完成，呈现零散化、作坊式、非标化的特点，难以满足人工智能大模型快速发展的需求。借鉴水厂、电厂等资源型基础设施的发展规律，结合国内外高质量数据集设施化生产的典型实践，提出“数据工厂”概念，将其定义为面向人工智能大模型应用、设施化规模化构建高质量数据集的生产设施。系统阐述了数据工厂由“储备车间”“生产车间”“中试车间”构成的三级架构体系，分析了数据标注企业升级、数据存储基地转型、人工智能企业延伸和技术企业创新设立四种建设模式，提出了保障模式、定制模式、电商模式和结对子模式四种运营机制，为推动高质量数据集设施化、规模化供给提供理论支撑和实践参考。

關(guān)鍵詞： 数据工厂高质量数据集数据基础设施数据要素

中圖分類號(hào)：F49文獻(xiàn)標(biāo)志碼：ADOI:10.19358/j.issn.2097-1788.2026.04.002
中文引用格式：涂群，耿貴寧，張茜茜. 數(shù)據(jù)工廠的構(gòu)成、建設(shè)模式和運(yùn)營(yíng)機(jī)制研究［J］.網(wǎng)絡(luò)安全與數(shù)據(jù)治理，2026，45（4）：9-16.
英文引用格式：Tu Qun, Geng Guining, Zhang Qianqian. Research on the composition, construction models and operation mechanisms of data factories［J］.Cyber Security and Data Governance，2026，45（4）：9-16.

Research on the composition, construction models and operation mechanisms of data factories

Tu Qun1, Geng Guining2, Zhang Qianqian3

1. School of Economics and Management, Beijing University of Chemical Technology； 2. 360 Digital Security Technology Group Co., Ltd., ; 3. School of Computer Science and Artificial Intelligence

Abstract： High-quality datasets are the core fuel for training large AI models. Currently, the construction of high-quality datasets is mainly carried out by AI enterprises themselves, which presents the characteristics of fragmentation, workshopstyle operation and non-standardization, making it difficult to meet the rapid development needs of large AI models. Drawing on the development patterns of resource-based infrastructure such as water and power plants, and combining domestic and international best practices in facility-based production, this paper proposes the concept of "data factory"，defining it as a production facility specifically designed for the application of large AI models and for the facility-based, largescale construction of highquality datasets. The paper systematically expounds the threelevel architecture system of the data factory, which consists of storage workshop, production workshop, and pilot workshop. Four construction models and four operation mechanisms are proposed, providing theoretical support and practical references for promoting the facilitybased and largescale supply of highquality datasets.

Key words : data factory; high-quality dataset; data infrastructure; data element

引言

算力、算法和數(shù)據(jù)是人工智能的三個(gè)關(guān)鍵要素，長(zhǎng)期以來(lái)，高耗算力、模型閉源和數(shù)據(jù)短缺一直制約著人工智能大模型的應(yīng)用普及。以DeepSeek為代表的人工智能企業(yè)，實(shí)現(xiàn)了MOE等關(guān)鍵技術(shù)重大突破并采取了模型開(kāi)源策略，實(shí)現(xiàn)了“算力平權(quán)”和“算法平權(quán)”［1］，促進(jìn)人工智能大模型向通信、互聯(lián)網(wǎng)、汽車、能源、金融、醫(yī)療等各行各業(yè)加速滲透，人工智能大模型廣泛應(yīng)用的時(shí)代已經(jīng)到來(lái)。與此同時(shí)，一條面向人工智能的數(shù)據(jù)產(chǎn)業(yè)鏈正在快速形成：上游是公域數(shù)據(jù)資源和基礎(chǔ)大模型，中上游是非結(jié)構(gòu)化高質(zhì)量數(shù)據(jù)集和行業(yè)高質(zhì)量數(shù)據(jù)集，中下游是智能體和垂域大模型兩類應(yīng)用工具，下游則是千行百業(yè)的智能化應(yīng)用。垂域大模型通過(guò)在特定領(lǐng)域的深度應(yīng)用，已在藥品研發(fā)、金融風(fēng)控、醫(yī)療診斷等領(lǐng)域展現(xiàn)出專業(yè)級(jí)能力［2］；智能體通過(guò)“感知—決策—執(zhí)行”的閉環(huán)，在具身智能、工業(yè)制造、自動(dòng)駕駛等場(chǎng)景實(shí)現(xiàn)實(shí)時(shí)交互與自主作業(yè)［3］。在這條產(chǎn)業(yè)鏈中，高質(zhì)量數(shù)據(jù)集處于承上啟下的關(guān)鍵位置：向上承接海量原始數(shù)據(jù)資源，向下支撐大模型訓(xùn)練和智能體運(yùn)行。工具越成熟，應(yīng)用越廣泛，對(duì)高質(zhì)量數(shù)據(jù)集的需求就越迫切。

然而，從原始數(shù)據(jù)到高質(zhì)量數(shù)據(jù)集，還面臨著三重困境。一是數(shù)據(jù)資源“供不出”。據(jù)IDC統(tǒng)計(jì)，全球非結(jié)構(gòu)化數(shù)據(jù)占數(shù)據(jù)總量的80%以上［4］，這類數(shù)據(jù)格式各異、標(biāo)準(zhǔn)不一，加之大量涉及隱私或商業(yè)秘密的私域數(shù)據(jù)開(kāi)放意愿不足，導(dǎo)致絕大多數(shù)數(shù)據(jù)難以直接流通。二是行業(yè)數(shù)據(jù)“存不好”。高價(jià)值的行業(yè)數(shù)據(jù)大多分散保存在各部門、各企業(yè)，據(jù)統(tǒng)計(jì)每年約四成數(shù)據(jù)從未被使用過(guò)［5］，大量潛在價(jià)值數(shù)據(jù)在沉睡中逐漸流失。三是高質(zhì)量數(shù)據(jù)集“產(chǎn)不好”。當(dāng)前高質(zhì)量數(shù)據(jù)集的構(gòu)建主要由人工智能企業(yè)自行完成［6］，生產(chǎn)方式原始、效率低下，投入產(chǎn)出失衡、標(biāo)準(zhǔn)規(guī)范缺失［7］。

從全球發(fā)展趨勢(shì)來(lái)看，高質(zhì)量數(shù)據(jù)集的設(shè)施化、規(guī)?；a(chǎn)已成為共識(shí)。美國(guó)Scale AI自2021年獲得美國(guó)軍方25億美元合同后，從數(shù)據(jù)標(biāo)注外包公司發(fā)展成為專業(yè)的數(shù)據(jù)工廠，構(gòu)建了覆蓋通用、生成式AI、公共部門、汽車等不同領(lǐng)域的專業(yè)化數(shù)據(jù)引擎矩陣［8］。美國(guó)2025年提出的“星際之門”項(xiàng)目整體投資5 000億美元，將高質(zhì)量數(shù)據(jù)明確定位為“國(guó)家戰(zhàn)略資產(chǎn)”［9］。歐盟2025年推出數(shù)據(jù)聯(lián)盟戰(zhàn)略，建設(shè)數(shù)據(jù)實(shí)驗(yàn)室作為人工智能工廠的有機(jī)組成［10］。在國(guó)內(nèi)，帕西尼2025年建成全球規(guī)模最大的具身智能數(shù)據(jù)采集基地，庫(kù)帕思構(gòu)建了包含403個(gè)功能模塊的語(yǔ)料工具鏈平臺(tái)。借鑒水廠、電廠等資源型基礎(chǔ)設(shè)施的發(fā)展規(guī)律，本文提出“數(shù)據(jù)工廠”概念，系統(tǒng)研究其構(gòu)成體系、建設(shè)模式和運(yùn)營(yíng)機(jī)制。

本文詳細(xì)內(nèi)容請(qǐng)下載：

http://ihrv.cn/resource/share/2000007054

作者信息：

涂群1，耿貴寧2，張茜茜3

(1. 北京化工大學(xué)經(jīng)濟(jì)管理學(xué)院，北京100029；

2.三六零數(shù)字安全科技集團(tuán)有限公司，北京100015；

3.北京物資學(xué)院計(jì)算機(jī)與人工智能學(xué)院，北京101126)

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容