基于預訓練模型的基層治理敏感實體識別方法
所屬分類:技術論文
上傳者:zhoubin333
文檔大?。?span>3658 K
標簽: 預訓練語言模型 基層治理 中文命名實體識別
所需積分:0分積分不夠怎么辦?
文檔介紹:基層治理產生的大量敏感數(shù)據可通過數(shù)據脫敏去除隱私內容,但這些數(shù)據包含較多非結構化文本數(shù)據,難以直接進行數(shù)據脫敏。因此,需要對非結構化文本數(shù)據進行命名實體識別以提取敏感數(shù)據。首先把敏感實體分為16類并對信訪文本進行標注,輸入層表示采用預訓練模型BERT,編碼層利用雙向長短時記憶網絡汲取上下文信息,解碼層通過條件隨機場模型優(yōu)化序列,構建了較高精度的基層治理敏感實體識別模型。針對脫敏工作需要,改變假陰性和假陽性的loss權重,并采用敏感實體框選率輔助評價模型性能。在基層治理信訪數(shù)據集和公共數(shù)據集MSRA上進行實驗,F(xiàn)1值分別為88.38%和90.11%,相較于基準模型提升了4.64%和3.78%。該模型可應用于非結構化文本的敏感實體識別,識別成功率高。現(xiàn)有評價指標未能較好地反映敏感實體的間接推理關系,應當探索更完善的敏感實體評價體系。
現(xiàn)在下載
VIP會員,AET專家下載不扣分;重復下載不扣分,本人上傳資源不扣分。