中文引用格式:涂群,耿貴寧,張茜茜. 數(shù)據(jù)工廠的構(gòu)成、建設(shè)模式和運(yùn)營(yíng)機(jī)制研究[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理,2026,45(4):9-16.
英文引用格式:Tu Qun, Geng Guining, Zhang Qianqian. Research on the composition, construction models and operation mechanisms of data factories[J].Cyber Security and Data Governance,2026,45(4):9-16.
引言
算力、算法和數(shù)據(jù)是人工智能的三個(gè)關(guān)鍵要素,長(zhǎng)期以來(lái),高耗算力、模型閉源和數(shù)據(jù)短缺一直制約著人工智能大模型的應(yīng)用普及。以DeepSeek為代表的人工智能企業(yè),實(shí)現(xiàn)了MOE等關(guān)鍵技術(shù)重大突破并采取了模型開(kāi)源策略,實(shí)現(xiàn)了“算力平權(quán)”和“算法平權(quán)”[1],促進(jìn)人工智能大模型向通信、互聯(lián)網(wǎng)、汽車、能源、金融、醫(yī)療等各行各業(yè)加速滲透,人工智能大模型廣泛應(yīng)用的時(shí)代已經(jīng)到來(lái)。與此同時(shí),一條面向人工智能的數(shù)據(jù)產(chǎn)業(yè)鏈正在快速形成:上游是公域數(shù)據(jù)資源和基礎(chǔ)大模型,中上游是非結(jié)構(gòu)化高質(zhì)量數(shù)據(jù)集和行業(yè)高質(zhì)量數(shù)據(jù)集,中下游是智能體和垂域大模型兩類應(yīng)用工具,下游則是千行百業(yè)的智能化應(yīng)用。垂域大模型通過(guò)在特定領(lǐng)域的深度應(yīng)用,已在藥品研發(fā)、金融風(fēng)控、醫(yī)療診斷等領(lǐng)域展現(xiàn)出專業(yè)級(jí)能力[2];智能體通過(guò)“感知—決策—執(zhí)行”的閉環(huán),在具身智能、工業(yè)制造、自動(dòng)駕駛等場(chǎng)景實(shí)現(xiàn)實(shí)時(shí)交互與自主作業(yè)[3]。在這條產(chǎn)業(yè)鏈中,高質(zhì)量數(shù)據(jù)集處于承上啟下的關(guān)鍵位置:向上承接海量原始數(shù)據(jù)資源,向下支撐大模型訓(xùn)練和智能體運(yùn)行。工具越成熟,應(yīng)用越廣泛,對(duì)高質(zhì)量數(shù)據(jù)集的需求就越迫切。
然而,從原始數(shù)據(jù)到高質(zhì)量數(shù)據(jù)集,還面臨著三重困境。一是數(shù)據(jù)資源“供不出”。據(jù)IDC統(tǒng)計(jì),全球非結(jié)構(gòu)化數(shù)據(jù)占數(shù)據(jù)總量的80%以上[4],這類數(shù)據(jù)格式各異、標(biāo)準(zhǔn)不一,加之大量涉及隱私或商業(yè)秘密的私域數(shù)據(jù)開(kāi)放意愿不足,導(dǎo)致絕大多數(shù)數(shù)據(jù)難以直接流通。二是行業(yè)數(shù)據(jù)“存不好”。高價(jià)值的行業(yè)數(shù)據(jù)大多分散保存在各部門、各企業(yè),據(jù)統(tǒng)計(jì)每年約四成數(shù)據(jù)從未被使用過(guò)[5],大量潛在價(jià)值數(shù)據(jù)在沉睡中逐漸流失。三是高質(zhì)量數(shù)據(jù)集“產(chǎn)不好”。當(dāng)前高質(zhì)量數(shù)據(jù)集的構(gòu)建主要由人工智能企業(yè)自行完成[6],生產(chǎn)方式原始、效率低下,投入產(chǎn)出失衡、標(biāo)準(zhǔn)規(guī)范缺失[7]。
從全球發(fā)展趨勢(shì)來(lái)看,高質(zhì)量數(shù)據(jù)集的設(shè)施化、規(guī)?;a(chǎn)已成為共識(shí)。美國(guó)Scale AI自2021年獲得美國(guó)軍方25億美元合同后,從數(shù)據(jù)標(biāo)注外包公司發(fā)展成為專業(yè)的數(shù)據(jù)工廠,構(gòu)建了覆蓋通用、生成式AI、公共部門、汽車等不同領(lǐng)域的專業(yè)化數(shù)據(jù)引擎矩陣[8]。美國(guó)2025年提出的“星際之門”項(xiàng)目整體投資5 000億美元,將高質(zhì)量數(shù)據(jù)明確定位為“國(guó)家戰(zhàn)略資產(chǎn)”[9]。歐盟2025年推出數(shù)據(jù)聯(lián)盟戰(zhàn)略,建設(shè)數(shù)據(jù)實(shí)驗(yàn)室作為人工智能工廠的有機(jī)組成[10]。在國(guó)內(nèi),帕西尼2025年建成全球規(guī)模最大的具身智能數(shù)據(jù)采集基地,庫(kù)帕思構(gòu)建了包含403個(gè)功能模塊的語(yǔ)料工具鏈平臺(tái)。借鑒水廠、電廠等資源型基礎(chǔ)設(shè)施的發(fā)展規(guī)律,本文提出“數(shù)據(jù)工廠”概念,系統(tǒng)研究其構(gòu)成體系、建設(shè)模式和運(yùn)營(yíng)機(jī)制。
本文詳細(xì)內(nèi)容請(qǐng)下載:
http://ihrv.cn/resource/share/2000007054
作者信息:
涂群1,耿貴寧2,張茜茜3
(1. 北京化工大學(xué)經(jīng)濟(jì)管理學(xué)院,北京100029;
2.三六零數(shù)字安全科技集團(tuán)有限公司,北京100015;
3.北京物資學(xué)院計(jì)算機(jī)與人工智能學(xué)院,北京101126)

