文獻(xiàn)標(biāo)志碼:A
DOI: 10.16157/j.issn.0258-7998.234136
引用格式: 樂楊,胡軍國,李耀. 基于RoBERTa和多層次特征的中文事件抽取方法[J]. 電子技術(shù)應(yīng)用,2023,49(11):49-54.
【引言】
事件抽取作為一種信息抽取技術(shù),旨在從文本中識(shí)別和提取出事件的關(guān)鍵要素[1],以自動(dòng)化處理大規(guī)模的非結(jié)構(gòu)化文本數(shù)據(jù),在知識(shí)圖譜[2]、信息檢索[3]、自動(dòng)問答[4]、情報(bào)收集[5]等領(lǐng)域均有著廣泛的應(yīng)用。
近年來,隨著深度學(xué)習(xí)的發(fā)展,深度學(xué)習(xí)在事件抽取任務(wù)中取得了廣泛的應(yīng)用且取得了優(yōu)異的效果?;谏疃葘W(xué)習(xí)的事件抽取方法,先將文本中的詞轉(zhuǎn)換成向量,再將向量作為模型的輸入進(jìn)行特征抽取和分類。目前使用最廣泛的詞向量工具是Word2Vec,但通過Word2Vec得到的詞向量是靜態(tài)的,只針對(duì)單獨(dú)的詞,無法解決中文詞語在不同環(huán)境下?lián)碛胁煌Z義信息的問題[6]。
同時(shí)大部分的神經(jīng)網(wǎng)絡(luò)模型著重于抽取向量中部分特征信息,無法覆蓋所有的特征信息。如卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)通過卷積操作提取向量中的局部特征,但由于卷積核大小和步幅的限制,可能導(dǎo)致一些全局上下文相關(guān)的特征被局部特征所掩蓋或丟失[7];雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Bidirectional Long Short-Term Memory,BiLSTM)可以處理長(zhǎng)序列數(shù)據(jù),提取全局特征,但無法直接捕捉文本中的詞與詞之間的關(guān)系[8]。
針對(duì)上述提到的中文語義復(fù)雜和特征信息抽取不全面,提出一種基于RoBERTa預(yù)訓(xùn)練模型[9]和多層次特征的中文事件抽取方法。本文的主要貢獻(xiàn)在于:
(1)采用RoBERTa預(yù)訓(xùn)練模型訓(xùn)練的詞向量,拼接詞性特征向量,獲取含有豐富語音的向量表示。并在論元抽取中基于Layer Normalization將觸發(fā)詞語義信息融入句子中,拼接字與觸發(fā)詞的距離向量,增強(qiáng)句子與觸發(fā)詞的關(guān)聯(lián)。
(2)利用CNN和BiLSTM抽取詞級(jí)特征和句子級(jí)特征,并采用注意力機(jī)制將特征聚焦于與事件更相關(guān)的特征上,滿足事件抽取的特征要求。
(3)將事件抽取視為序列標(biāo)注任務(wù),通過CRF和BIO序列標(biāo)注對(duì)句子中的每個(gè)字進(jìn)行標(biāo)注,得到多個(gè)觸發(fā)詞或事件論元,解決多事件抽取問題。
文章詳細(xì)內(nèi)容下載請(qǐng)點(diǎn)擊:基于RoBERTa和多層次特征的中文事件抽取方法AET-電子技術(shù)應(yīng)用-最豐富的電子設(shè)計(jì)資源平臺(tái) (chinaaet.com)
【作者信息】
樂楊,胡軍國,李耀
(浙江農(nóng)林大學(xué) 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,浙江 杭州 311300)