引言
文本到結(jié)構(gòu)化查詢語言(Text-to-SQL,T2S)是自然語言問題和數(shù)據(jù)庫工具結(jié)合的重要研究領(lǐng)域,具體是指將自然語言轉(zhuǎn)化為計算機可執(zhí)行的SQL查詢語句的過程,它解決了從非結(jié)構(gòu)化的自然語言和數(shù)據(jù)庫模式到結(jié)構(gòu)化SQL的轉(zhuǎn)換等系列問題。T2S技術(shù)的核心在于從文本數(shù)據(jù)里自動識別專業(yè)術(shù)語、所屬領(lǐng)域、關(guān)聯(lián)關(guān)系及結(jié)構(gòu)特征,進而構(gòu)建相應(yīng)映射體系。傳統(tǒng)映射構(gòu)建模式高度依賴領(lǐng)域?qū)<业娜斯ひ?guī)范操作,這種方式在知識體系持續(xù)迭代更新,或者領(lǐng)域?qū)<屹Y源匱乏的場景下,往往會暴露出耗時久、成本高、易出錯等諸多弊端。而隨著自然語言處理技術(shù)的迅猛發(fā)展,大語言模型與T2S技術(shù)的融合應(yīng)用已成為新的發(fā)展趨勢。
傳統(tǒng)的T2S方法是基于規(guī)則模式的語法解析和模板匹配,需要大量人工標注或手動構(gòu)建規(guī)則[1]。而大語言模型具有強大的語言理解和生成能力[2],能夠理解文本內(nèi)容、提取關(guān)鍵信息、識別語義關(guān)系。利用大語言模型對大規(guī)模文本進行預訓練,可從中自動學習實體和關(guān)系以及數(shù)據(jù)庫模式,進而構(gòu)建和更新從文本到SQL的映射關(guān)系,減輕領(lǐng)域?qū)<以跀?shù)據(jù)標注、規(guī)則構(gòu)建階段的工作量。然而,當前Text-to-SQL研究的進展仍受限于數(shù)據(jù)集的質(zhì)量與規(guī)模[3]。現(xiàn)有主流數(shù)據(jù)集如Spider、WikiSQL、Bird雖在多領(lǐng)域覆蓋與復雜查詢標注上取得一定成果,但仍存在領(lǐng)域分布不均衡、真實業(yè)務(wù)場景模擬不足、標注成本高昂等問題[4],難以滿足實際應(yīng)用中多樣化的SQL查詢需求。與此同時,合成數(shù)據(jù)技術(shù)憑借其高效、低成本的優(yōu)勢展現(xiàn)出巨大潛力[5],特別是訓練數(shù)據(jù)數(shù)量匱乏條件下,在數(shù)據(jù)增強與模型泛化能力提升方面表現(xiàn)突出。
綜上,本文采用國產(chǎn)達夢數(shù)據(jù)庫(DM)開展數(shù)據(jù)集設(shè)計,達夢數(shù)據(jù)庫作為國產(chǎn)數(shù)據(jù)庫系統(tǒng)之一,在軍事、政務(wù)等關(guān)鍵領(lǐng)域逐步替代Oracle等國外數(shù)據(jù)庫。本文針對“執(zhí)勤”業(yè)務(wù)場景,設(shè)計國產(chǎn)數(shù)據(jù)庫系統(tǒng)并構(gòu)建專用數(shù)據(jù)集,該數(shù)據(jù)集包含300條高質(zhì)量標注樣本,主要針對軍事典型業(yè)務(wù)查詢場景。達夢數(shù)據(jù)庫的模式權(quán)限設(shè)計參考《達夢數(shù)據(jù)庫技術(shù)文檔》[6]。同時,采用基于合成數(shù)據(jù)方法的大語言模型兩階段訓練技術(shù),通過對比實驗評估合成數(shù)據(jù)與真實數(shù)據(jù)的分布一致性及對模型性能的提升效果,探索大語言模型在國產(chǎn)數(shù)據(jù)庫環(huán)境下的適配方法,為數(shù)據(jù)保障業(yè)務(wù)提供技術(shù)支撐。實驗結(jié)果表明,本數(shù)據(jù)集不僅能有效補充現(xiàn)有數(shù)據(jù)資源的不足,且通過合成數(shù)據(jù)驗證的方式,為TexttoSQL數(shù)據(jù)集的構(gòu)建與評估提供了新的技術(shù)路徑。
本文詳細內(nèi)容請下載:
http://ihrv.cn/resource/share/2000006862
作者信息:
李國深1,劉瑩君2,于莉娜2,紀濤2,張航1,吳繼冰1
(1.大數(shù)據(jù)與決策國家級重點實驗室,湖南長沙410073;
2.智能空間信息國家級重點實驗室,北京100029)

