文獻(xiàn)標(biāo)志碼:A
DOI: 10.16157/j.issn.0258-7998.233824
中文引用格式: 陳曉晉,唐球,王耀君. 面向農(nóng)業(yè)知識(shí)圖譜構(gòu)建的文本實(shí)體標(biāo)注準(zhǔn)則構(gòu)建及應(yīng)用[J]. 電子技術(shù)應(yīng)用,2023,49(5):1-7.
英文引用格式: Chen Xiaojin,Tang Qiu,Wang Yaojun. Construction and application of agricultural text data entity labeling criteria for agricultural knowledge graph construction[J]. Application of Electronic Technique,2023,49(5):1-7.
0 引言
近年來(lái),隨著大數(shù)據(jù)技術(shù)的發(fā)展,各個(gè)領(lǐng)域的數(shù)值、圖像、文本、語(yǔ)音視頻等多源大數(shù)據(jù)增長(zhǎng)迅速。以農(nóng)業(yè)領(lǐng)域?yàn)槔r(nóng)業(yè)新聞、農(nóng)資信息、農(nóng)業(yè)政策法規(guī)等與農(nóng)業(yè)生產(chǎn)生活息息相關(guān)的信息通過(guò)互聯(lián)網(wǎng)發(fā)布和傳播,構(gòu)成了農(nóng)業(yè)文本大數(shù)據(jù)的主要組成部分。農(nóng)業(yè)從業(yè)者及研究者主要通過(guò)網(wǎng)絡(luò)中的文本信息來(lái)獲取農(nóng)業(yè)資訊,有效分析文本數(shù)據(jù)不僅可以幫助農(nóng)業(yè)從業(yè)者了解最新的實(shí)踐和趨勢(shì),還可以為農(nóng)業(yè)從業(yè)者、專(zhuān)家在農(nóng)業(yè)任務(wù)管理中做出決策提供支持。農(nóng)業(yè)資訊中蘊(yùn)含著大量的專(zhuān)業(yè)農(nóng)業(yè)知識(shí)及豐富的農(nóng)業(yè)信息,且主要以非結(jié)構(gòu)化的形式存在。農(nóng)業(yè)領(lǐng)域的命名實(shí)體識(shí)別的任務(wù)是從非結(jié)構(gòu)化的文本中識(shí)別與農(nóng)業(yè)領(lǐng)域相關(guān)的實(shí)體,例如作物名稱(chēng)、病蟲(chóng)害、農(nóng)藥、肥料等,是作為農(nóng)業(yè)知識(shí)圖譜構(gòu)建和問(wèn)答等下游任務(wù)不可或缺的基本組成部分。
針對(duì)命名實(shí)體識(shí)別任務(wù)的主要方法為,基于規(guī)則和字典匹配、基于機(jī)器學(xué)習(xí)的方法以及兩者混合的方法。但存在不足,無(wú)法滿(mǎn)足復(fù)雜文本需求,仍有局限性。
近年來(lái)隨著深度學(xué)習(xí)的快速發(fā)展,其實(shí)現(xiàn)了無(wú)需復(fù)雜的特征工程和豐富的領(lǐng)域知識(shí)就可以學(xué)習(xí)復(fù)雜的隱藏表示。目前,基于深度學(xué)習(xí)的模型已被廣泛應(yīng)用于完成命名實(shí)體識(shí)別任務(wù),并已廣泛應(yīng)用于醫(yī)學(xué)、金融等領(lǐng)域,但是目前,在農(nóng)業(yè)領(lǐng)域仍存在挑戰(zhàn)。
農(nóng)業(yè)文本實(shí)體存在著領(lǐng)域特殊性、實(shí)體命名方式繁多、實(shí)體邊界模糊、特征提取不充分、實(shí)體邊界標(biāo)注不一致、數(shù)據(jù)庫(kù)不足等問(wèn)題。這在一定程度上增加了識(shí)別農(nóng)業(yè)文本中實(shí)體的成本和難度。
為了解決上述問(wèn)題,并促進(jìn)基于農(nóng)業(yè)文本命名實(shí)體識(shí)別任務(wù)及其后續(xù)應(yīng)用的完成,本文將構(gòu)建農(nóng)業(yè)文本數(shù)據(jù)實(shí)體標(biāo)注準(zhǔn)則,并以此建立農(nóng)業(yè)實(shí)體標(biāo)注語(yǔ)料庫(kù)。為農(nóng)業(yè)領(lǐng)域相關(guān)從業(yè)人員提供實(shí)體標(biāo)注準(zhǔn)則,便于其開(kāi)展農(nóng)業(yè)文本研究,例如知識(shí)圖譜構(gòu)建及問(wèn)答等相關(guān)工作。
本文詳細(xì)內(nèi)容請(qǐng)下載:http://ihrv.cn/resource/share/2000005299
作者信息:
陳曉晉1,唐球2,王耀君1
(1.中國(guó)農(nóng)業(yè)大學(xué) 信息與電氣工程學(xué)院,北京 100083;2.中國(guó)電子信息產(chǎn)業(yè)集團(tuán)有限公司第六研究所,北京 100083)