面向國產(chǎn)數(shù)據(jù)庫的Text-to-SQL數(shù)據(jù)集設(shè)計
所屬分類:技術(shù)論文
上傳者:wwei
文檔大小:2011 K
標簽: 大語言模型微調(diào) 合成數(shù)據(jù)集 偏好學(xué)習(xí)
所需積分:0分積分不夠怎么辦?
文檔介紹:隨著智能技術(shù)的發(fā)展,數(shù)據(jù)庫數(shù)量和規(guī)模激增,傳統(tǒng)數(shù)據(jù)存取技術(shù)在應(yīng)對海量數(shù)據(jù)處理需求時存在耗時長、效率低等問題,Text-to-SQL技術(shù)成為銜接用戶需求和數(shù)據(jù)庫存取的重要橋梁。然而,現(xiàn)有技術(shù)通常在開源非國產(chǎn)數(shù)據(jù)集上訓(xùn)練,在實際應(yīng)用中存在數(shù)據(jù)庫操作語言不一致、領(lǐng)域知識欠缺和可靠性差等問題。為此,結(jié)合數(shù)據(jù)庫領(lǐng)域軟硬件國產(chǎn)化趨勢,設(shè)計面向國產(chǎn)數(shù)據(jù)庫的Text-to-SQL數(shù)據(jù)集,采用基于合成數(shù)據(jù)方法的大語言模型兩階段訓(xùn)練技術(shù),提出一種基于大語言模型的國產(chǎn)數(shù)據(jù)庫Text-to-SQL方法,通過實驗對方法的有效性進行了充分驗證。
現(xiàn)在下載
VIP會員,AET專家下載不扣分;重復(fù)下載不扣分,本人上傳資源不扣分。