《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 電源技術(shù) > 設(shè)計(jì)應(yīng)用 > 基于規(guī)則和詞典的用電安全領(lǐng)域命名實(shí)體識(shí)別
基于規(guī)則和詞典的用電安全領(lǐng)域命名實(shí)體識(shí)別
2022年電子技術(shù)應(yīng)用第12期
袁金斗1,潘明明1,張 騰2,姜 玨1
1.中國(guó)電力科學(xué)研究院有限公司,北京100192;2.國(guó)網(wǎng)江蘇省電力有限公司,江蘇 南京210000
摘要: 在用電安全領(lǐng)域,存在著大量數(shù)據(jù)、知識(shí)未得到充分挖掘和利用,構(gòu)建領(lǐng)域知識(shí)圖譜不僅可以實(shí)現(xiàn)用電安全知識(shí)的整合,還能極大地提高電力行業(yè)的工作效率。命名實(shí)體識(shí)別是構(gòu)建知識(shí)圖譜的基礎(chǔ)性工作,研究了基于字典和規(guī)則的命名實(shí)體識(shí)別,通過(guò)領(lǐng)域?qū)嶓w詞典、構(gòu)詞特征字符規(guī)則匹配和詞性組合特征規(guī)則匹配三種方法從非結(jié)構(gòu)文本中準(zhǔn)確地提取用電安全相關(guān)實(shí)體,為用電安全領(lǐng)域知識(shí)圖譜的構(gòu)建提供高質(zhì)量和高精度的實(shí)體。為優(yōu)化識(shí)別流程、提高響應(yīng)速度,將通用詞性標(biāo)注任務(wù)交由邊緣節(jié)點(diǎn)進(jìn)行處理,中心服務(wù)器僅需響應(yīng)規(guī)則模板匹配等任務(wù)。在小規(guī)模測(cè)試實(shí)驗(yàn)中,綜合使用三種方法對(duì)用電安全文本進(jìn)行領(lǐng)域?qū)嶓w識(shí)別,F(xiàn)1值能達(dá)到85%以上。
中圖分類號(hào): TP391.1
文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.16157/j.issn.0258-7998.223323
中文引用格式: 袁金斗,潘明明,張騰,等. 基于規(guī)則和詞典的用電安全領(lǐng)域命名實(shí)體識(shí)別[J].電子技術(shù)應(yīng)用,2022,48(12):22-27.
英文引用格式: Yuan Jindou,Pan Mingming,Zhang Teng,et al. Electricity safety domain named entity recognition based on rules and dictionaries[J]. Application of Electronic Technique,2022,48(12):22-27.
Electricity safety domain named entity recognition based on rules and dictionaries
Yuan Jindou1,Pan Mingming1,Zhang Teng2,Jiang Jue1
1.China Electric Power Research Institute,Beijing 100192,China; 2.State Grid Jiangsu Electric Power Co.,Ltd.,Nanjing 210000,China
Abstract: In the field of electricity safety, there are a lots of data and knowledge has not been excavated and utilized, constructing a knowledge graph in the electricity safety field can not only integrate power knowledge, but also greatly improve the efficiency of the power industry. Named entity recognition(NER) is the basis for constructing knowledge graph, this paper studies the named entity recognition based on dictionaries and rules, through three methods: the domain entity dictionary, the word-building feature character rule matching and the part-of-speech combination feature rule matching,to accurately extract electricity safety related entities from non-structured text, providing high-quality and high-precision entities for the construction of knowledge graph in the field of electricity safety. In order to optimize the recognition process and improve the response speed, the general part-of-speech tagging task is sent to the edge node for processing, and the central server processes the rule template matching task. Experimental results show that using the three methods comprehensively to recognition the domain entity of small-scale electricity safety text, the F1 score can reach more than 85%.
Key words : electricity safety domain;NER;domain dictionary;featured character rules;part-of-speech combination rules

0 引言

    命名實(shí)體識(shí)別[1-3](Named Entity Recognition,NER)在通用領(lǐng)域中主要是指識(shí)別文本中的人名、地名、機(jī)構(gòu)名、時(shí)間、貨幣等具有特定意義的實(shí)體。目前,命名實(shí)體識(shí)別的主要方法包括三類:基于規(guī)則[4]和詞典[5-6]的方法、基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法[7]和基于深度神經(jīng)網(wǎng)絡(luò)的方法[8]。

    目前,用電安全領(lǐng)域缺乏權(quán)威數(shù)據(jù)集[9],命名實(shí)體識(shí)別研究工作首先需要對(duì)語(yǔ)料集進(jìn)行序列標(biāo)注,標(biāo)記非結(jié)構(gòu)文本中的相關(guān)實(shí)體、無(wú)關(guān)字符、詞性序列等,在此研究背景下,采用統(tǒng)計(jì)機(jī)器學(xué)習(xí)、深度神經(jīng)網(wǎng)絡(luò)的方法較難獲取大規(guī)模的訓(xùn)練語(yǔ)料集。因此,本文主要基于規(guī)則和詞典的方法對(duì)實(shí)體命名識(shí)別進(jìn)行第一階段研究,發(fā)掘用電安全領(lǐng)域?qū)嶓w構(gòu)詞規(guī)則及詞性特征,構(gòu)建領(lǐng)域詞典及規(guī)則模板,進(jìn)一步擴(kuò)充語(yǔ)料庫(kù),為后續(xù)用電安全領(lǐng)域命名實(shí)體識(shí)別的機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)方法的研究奠定基礎(chǔ)。

    從技術(shù)角度分析,如果構(gòu)建的領(lǐng)域詞典能夠覆蓋待識(shí)別文本中絕大多數(shù)相關(guān)實(shí)體,那么,基于詞典的命名實(shí)體識(shí)別方法將具有高準(zhǔn)確度及高響應(yīng)度。但是,領(lǐng)域?qū)嶓w的多樣性、復(fù)雜性、衍生性導(dǎo)致構(gòu)建覆蓋全面的高質(zhì)量詞典較為困難。因此,基于詞典的方法通常是基于規(guī)則方法的輔助補(bǔ)充手段[10]?;谝?guī)則的實(shí)體命名識(shí)別多采用人工歸納并構(gòu)造規(guī)則模板,選用特征包括標(biāo)點(diǎn)符號(hào)、關(guān)鍵字、指示詞和方向詞、位置詞(如前后綴)、中心詞等,以規(guī)則模板的正則匹配為主要手段[11]。當(dāng)語(yǔ)料規(guī)模不大且提取的規(guī)則能比較精確地反映語(yǔ)言現(xiàn)象時(shí),基于規(guī)則和詞典的方法其性能要優(yōu)于基于統(tǒng)計(jì)的方法[12]。

    另一方面,物聯(lián)網(wǎng)設(shè)備和數(shù)據(jù)的爆發(fā)式增長(zhǎng),使得基于云計(jì)算模型的聚合性服務(wù)逐漸顯露出其在實(shí)時(shí)性、網(wǎng)絡(luò)制約、資源開(kāi)銷等方面的不足。為彌補(bǔ)集中式云計(jì)算的不足,本文采用邊緣計(jì)算架構(gòu),其優(yōu)勢(shì)在于能夠在數(shù)據(jù)產(chǎn)生側(cè)快捷、高效地響應(yīng)業(yè)務(wù)需求,減小服務(wù)對(duì)網(wǎng)絡(luò)的依賴,在離線狀態(tài)下也能夠提供基礎(chǔ)業(yè)務(wù)服務(wù)。




本文詳細(xì)內(nèi)容請(qǐng)下載:http://ihrv.cn/resource/share/2000005035。




作者信息:

袁金斗1,潘明明1,張  騰2,姜  玨1

(1.中國(guó)電力科學(xué)研究院有限公司,北京100192;2.國(guó)網(wǎng)江蘇省電力有限公司,江蘇 南京210000)




wd.jpg

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。