《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 其他 > 设计应用 > 面向国产数据库的Text-to-SQL数据集设计
面向国产数据库的Text-to-SQL数据集设计
网络安全与数据治理
李国深1,刘莹君2,于莉娜2,纪涛2,张航1,吴继冰1
1.大数据与决策国家级重点实验室;2.智能空间信息国家级重点实验室
摘要: 随着智能技术的发展,数据库数量和规模激增,传统数据存取技术在应对海量数据处理需求时存在耗时长、效率低等问题,Text-to-SQL技术成为衔接用户需求和数据库存取的重要桥梁。然而,现有技术通常在开源非国产数据集上训练,在实际应用中存在数据库操作语言不一致、领域知识欠缺和可靠性差等问题。为此,结合数据库领域软硬件国产化趋势,设计面向国产数据库的Text-to-SQL数据集,采用基于合成数据方法的大语言模型两阶段训练技术,提出一种基于大语言模型的国产数据库Text-to-SQL方法,通过实验对方法的有效性进行了充分验证。
中圖分類號(hào):TP311.138文獻(xiàn)標(biāo)識(shí)碼:ADOI:10.19358/j.issn.2097-1788.2025.11.009引用格式:李國(guó)深,劉瑩君,于莉娜,等. 面向國(guó)產(chǎn)數(shù)據(jù)庫(kù)的Text-to-SQL數(shù)據(jù)集設(shè)計(jì)[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理,2025,44(11):52-59.
The design of Text-to-SQL datasets for domestic databases
Li Guoshen1, Liu Yingjun2, Yu Lina 2, Ji Tao2, Zhang Hang1, Wu Jibing1
1. National Key Laboratory of Big Data and Decision; 2. National Key Laboratory of Intelligent Geospatial Information
Abstract: With the development of intelligent technology, the number and scale of databases have surged. Traditional data access technologies face problems such as long-time consumption and low efficiency when meeting the needs of massive data processing. Text-to-SQL technology has thus become an important bridge connecting user needs and database access. However, existing technologies are usually trained on open-source non-domestic datasets, and their application is plagued by issues like inconsistent database operation languages, lack of domain knowledge, and poor reliability. To address this, this paper, in line with the localization trend of software and hardware in the database field, designs a Text-to-SQL dataset for domestic databases, adopts a two-stage training technology for large language models based on synthetic data methods, proposes a Text-to-SQL method for domestic databases based on large language models, and fully verifies the effectiveness of the method through experiments.
Key words : fine-tuning of large language models; synthetic dataset; preference learning; domestic databas

引言

文本到結(jié)構(gòu)化查詢語(yǔ)言(Text-to-SQL,T2S)是自然語(yǔ)言問題和數(shù)據(jù)庫(kù)工具結(jié)合的重要研究領(lǐng)域,具體是指將自然語(yǔ)言轉(zhuǎn)化為計(jì)算機(jī)可執(zhí)行的SQL查詢語(yǔ)句的過程,它解決了從非結(jié)構(gòu)化的自然語(yǔ)言和數(shù)據(jù)庫(kù)模式到結(jié)構(gòu)化SQL的轉(zhuǎn)換等系列問題。T2S技術(shù)的核心在于從文本數(shù)據(jù)里自動(dòng)識(shí)別專業(yè)術(shù)語(yǔ)、所屬領(lǐng)域、關(guān)聯(lián)關(guān)系及結(jié)構(gòu)特征,進(jìn)而構(gòu)建相應(yīng)映射體系。傳統(tǒng)映射構(gòu)建模式高度依賴領(lǐng)域?qū)<业娜斯ひ?guī)范操作,這種方式在知識(shí)體系持續(xù)迭代更新,或者領(lǐng)域?qū)<屹Y源匱乏的場(chǎng)景下,往往會(huì)暴露出耗時(shí)久、成本高、易出錯(cuò)等諸多弊端。而隨著自然語(yǔ)言處理技術(shù)的迅猛發(fā)展,大語(yǔ)言模型與T2S技術(shù)的融合應(yīng)用已成為新的發(fā)展趨勢(shì)。

傳統(tǒng)的T2S方法是基于規(guī)則模式的語(yǔ)法解析和模板匹配,需要大量人工標(biāo)注或手動(dòng)構(gòu)建規(guī)則[1]。而大語(yǔ)言模型具有強(qiáng)大的語(yǔ)言理解和生成能力[2],能夠理解文本內(nèi)容、提取關(guān)鍵信息、識(shí)別語(yǔ)義關(guān)系。利用大語(yǔ)言模型對(duì)大規(guī)模文本進(jìn)行預(yù)訓(xùn)練,可從中自動(dòng)學(xué)習(xí)實(shí)體和關(guān)系以及數(shù)據(jù)庫(kù)模式,進(jìn)而構(gòu)建和更新從文本到SQL的映射關(guān)系,減輕領(lǐng)域?qū)<以跀?shù)據(jù)標(biāo)注、規(guī)則構(gòu)建階段的工作量。然而,當(dāng)前Text-to-SQL研究的進(jìn)展仍受限于數(shù)據(jù)集的質(zhì)量與規(guī)模[3]。現(xiàn)有主流數(shù)據(jù)集如Spider、WikiSQL、Bird雖在多領(lǐng)域覆蓋與復(fù)雜查詢標(biāo)注上取得一定成果,但仍存在領(lǐng)域分布不均衡、真實(shí)業(yè)務(wù)場(chǎng)景模擬不足、標(biāo)注成本高昂等問題[4],難以滿足實(shí)際應(yīng)用中多樣化的SQL查詢需求。與此同時(shí),合成數(shù)據(jù)技術(shù)憑借其高效、低成本的優(yōu)勢(shì)展現(xiàn)出巨大潛力[5],特別是訓(xùn)練數(shù)據(jù)數(shù)量匱乏條件下,在數(shù)據(jù)增強(qiáng)與模型泛化能力提升方面表現(xiàn)突出。

綜上,本文采用國(guó)產(chǎn)達(dá)夢(mèng)數(shù)據(jù)庫(kù)(DM)開展數(shù)據(jù)集設(shè)計(jì),達(dá)夢(mèng)數(shù)據(jù)庫(kù)作為國(guó)產(chǎn)數(shù)據(jù)庫(kù)系統(tǒng)之一,在軍事、政務(wù)等關(guān)鍵領(lǐng)域逐步替代Oracle等國(guó)外數(shù)據(jù)庫(kù)。本文針對(duì)“執(zhí)勤”業(yè)務(wù)場(chǎng)景,設(shè)計(jì)國(guó)產(chǎn)數(shù)據(jù)庫(kù)系統(tǒng)并構(gòu)建專用數(shù)據(jù)集,該數(shù)據(jù)集包含300條高質(zhì)量標(biāo)注樣本,主要針對(duì)軍事典型業(yè)務(wù)查詢場(chǎng)景。達(dá)夢(mèng)數(shù)據(jù)庫(kù)的模式權(quán)限設(shè)計(jì)參考《達(dá)夢(mèng)數(shù)據(jù)庫(kù)技術(shù)文檔》[6]。同時(shí),采用基于合成數(shù)據(jù)方法的大語(yǔ)言模型兩階段訓(xùn)練技術(shù),通過對(duì)比實(shí)驗(yàn)評(píng)估合成數(shù)據(jù)與真實(shí)數(shù)據(jù)的分布一致性及對(duì)模型性能的提升效果,探索大語(yǔ)言模型在國(guó)產(chǎn)數(shù)據(jù)庫(kù)環(huán)境下的適配方法,為數(shù)據(jù)保障業(yè)務(wù)提供技術(shù)支撐。實(shí)驗(yàn)結(jié)果表明,本數(shù)據(jù)集不僅能有效補(bǔ)充現(xiàn)有數(shù)據(jù)資源的不足,且通過合成數(shù)據(jù)驗(yàn)證的方式,為TexttoSQL數(shù)據(jù)集的構(gòu)建與評(píng)估提供了新的技術(shù)路徑。


本文詳細(xì)內(nèi)容請(qǐng)下載:

http://ihrv.cn/resource/share/2000006862


作者信息:

李國(guó)深1,劉瑩君2,于莉娜2,紀(jì)濤2,張航1,吳繼冰1

(1.大數(shù)據(jù)與決策國(guó)家級(jí)重點(diǎn)實(shí)驗(yàn)室,湖南長(zhǎng)沙410073;

2.智能空間信息國(guó)家級(jí)重點(diǎn)實(shí)驗(yàn)室,北京100029)


subscribe.jpg

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。