中文引用格式: 吳磊,汪杭軍. 基于預(yù)訓(xùn)練模型的基層治理敏感實(shí)體識別方法[J]. 電子技術(shù)應(yīng)用,2023,49(9):109-114.
英文引用格式: Wu Lei,Wang Hangjun. Identification method of sensitive entities in grassroots governance based on pre-training models[J]. Application of Electronic Technique,2023,49(9):109-114.
0 引言
隨著中國特色社會主義進(jìn)入新時(shí)代,構(gòu)建現(xiàn)代化的基層治理體系對鄉(xiāng)村振興和國家長治久安意義重大,而治理體系現(xiàn)代化需要信息化要素的融入[1]?;鶎又卫頂?shù)字化產(chǎn)生的大量數(shù)據(jù)經(jīng)過數(shù)據(jù)分析與挖掘,可用于鄉(xiāng)、鎮(zhèn)、街道的信息化、智慧化建設(shè)。這些數(shù)據(jù)難以避免地會包含個(gè)人隱私信息,且在現(xiàn)有安全條件下這些數(shù)據(jù)采集和使用可能存在數(shù)據(jù)泄露風(fēng)險(xiǎn)[2]。數(shù)據(jù)脫敏是一種將結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)中的敏感信息按照一定脫敏規(guī)則進(jìn)行數(shù)據(jù)變形的技術(shù),經(jīng)過脫敏后的數(shù)據(jù)兼顧了可用性和安全性,能夠在保護(hù)隱私的前提下正常應(yīng)用于各個(gè)場景。文獻(xiàn)[3]闡述司法領(lǐng)域結(jié)構(gòu)化文本和非結(jié)構(gòu)化文本的脫敏問題,并以匈牙利法律文件作為案例研究可能的方案。該文獻(xiàn)提供了一種思路,即將命名實(shí)體識別與數(shù)據(jù)脫敏聯(lián)系起來。結(jié)構(gòu)化數(shù)據(jù)中敏感數(shù)據(jù)較為明確,可依據(jù)不同的數(shù)據(jù)列劃分,但非結(jié)構(gòu)化數(shù)據(jù)需要將敏感數(shù)據(jù)從大量文本中識別出來,這就需要命名實(shí)體識別技術(shù)應(yīng)用于基層治理文本的數(shù)據(jù)脫敏過程中。
命名實(shí)體識別[4]是一種從非結(jié)構(gòu)化文本中識別出具有特定意義實(shí)體的技術(shù),為自然語言處理中的一項(xiàng)基礎(chǔ)任務(wù)。該任務(wù)有助于關(guān)系抽取、知識圖譜等下游任務(wù)[5]。常見的實(shí)體有人名、地名、機(jī)構(gòu)名等,例如在“李彥宏在北京舉辦了百度AI開發(fā)大會”識別出李彥宏(人名)、北京(地名)、百度(機(jī)構(gòu)名)3個(gè)實(shí)體。命名實(shí)體識別技術(shù)的發(fā)展可劃分為3個(gè)階段:基于詞典和規(guī)則的方法、基于機(jī)器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法[4]。除了通用語料的實(shí)體識別,還存在面向特定應(yīng)用場景的領(lǐng)域命名實(shí)體識別(Domain Named Entity Recognition,DNER),例如醫(yī)療、生物、金融、司法、農(nóng)業(yè)等領(lǐng)域[6]。雙向長短期記憶網(wǎng)絡(luò)(Bidirectional Long Short-Term Memory Networks,BiLSTM)和條件隨機(jī)場(Conditional Random Field,CRF)的組合模型由于良好的表現(xiàn),在不同領(lǐng)域都被作為最經(jīng)典的模型而廣泛使用。本文將基層治理非結(jié)構(gòu)化文本的敏感詞識別任務(wù)轉(zhuǎn)換為命名實(shí)體識別任務(wù),沿用常規(guī)的序列標(biāo)注方法。
英文單詞之間有空格劃分,分詞邊界明確,以及首字母、詞根、后綴等區(qū)分信息使得命名實(shí)體識別表現(xiàn)較好。而中文最明顯的特點(diǎn)是詞界模糊,沒有分隔符來表示詞界[7]。由于中文字詞之間沒有空格分隔,中文命名實(shí)體識別若以詞粒度劃分,必須先進(jìn)行分詞。分詞錯(cuò)誤導(dǎo)致的誤差傳遞使得詞粒度識別效果差于字粒度。因此,中文命名實(shí)體識別常采用字粒度進(jìn)行識別。文獻(xiàn)[8]綜述了中文命名實(shí)體識別的方法、難點(diǎn)問題和未來研究方向。文獻(xiàn)[9]通過在中文詞嵌入加入語義、語音信息以提升識別效果。目前,命名實(shí)體識別廣泛應(yīng)用于各個(gè)領(lǐng)域,但在基層治理領(lǐng)域的相關(guān)應(yīng)用較少。與通用領(lǐng)域數(shù)據(jù)相比,基層治理過程中的敏感信息識別實(shí)體嵌套、一詞多義和字詞錯(cuò)誤等問題更為嚴(yán)重。
此外,通用領(lǐng)域的命名實(shí)體識別雖包含了人名、地名和機(jī)構(gòu)名等部分敏感實(shí)體,但未能將身份證號、手機(jī)號和銀行卡號等數(shù)字類型的敏感實(shí)體作為數(shù)據(jù)標(biāo)注,難以包含基層治理過程中產(chǎn)生的眾多敏感實(shí)體類型。
本文詳細(xì)內(nèi)容請下載:http://ihrv.cn/resource/share/2000005647
作者信息:
吳磊1,汪杭軍2
(1.浙江農(nóng)林大學(xué) 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,浙江 杭州 311300;2.浙江農(nóng)林大學(xué)暨陽學(xué)院 工程技術(shù)學(xué)院,浙江 諸暨 311800)