文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.191420
中文引用格式: 趙曉平,馬文,劉雪萍,等. 一種面向科技項目文本的相似度度量方法[J].電子技術(shù)應(yīng)用,2020,46(5):31-34,39.
英文引用格式: Zhao Xiaoping,Ma Wen,Liu Xueping,et al. A similarity measurement method for science and technology project text[J]. Application of Electronic Technique,2020,46(5):31-34,39.
0 引言
文本相似度度量是指將文本看成一組詞的集合體,分析每個詞在文本中出現(xiàn)的次數(shù)以及在整個文本集合中出現(xiàn)次數(shù),進而利用這些詞頻信息將文本建模為一個向量,并利用向量間的余弦距離等計算文本之間的相似度[1-2]。
文本相似度度量被廣泛應(yīng)用于許多領(lǐng)域,例如:信息檢索領(lǐng)域[3-4]、文本分類[5-8]、文本摘要的自動生成[9-10]、文本的查重檢測[11-12]。本文關(guān)注的是在電力行業(yè)的科技項目查重中應(yīng)用文本相似度度量。
現(xiàn)有的TF-IDF[13-15]方法主要將文本建模為詞頻向量,再使用余弦相似度來計算兩個文本間的相似度。但是對于多數(shù)文本而言,這種采用詞頻向量模型的方法需要將文本表示為詞項數(shù)目與文本數(shù)目大致相當(dāng)?shù)木仃嚕仃囍械男辛邢蛄慷加兄浅8叩木S度并且是極度稀疏的,從而最終導(dǎo)致非常低效的計算[1,16]。此外,這種方法也忽略了文本的的結(jié)構(gòu)特征。
針對上述問題,本文提出一種既考慮了文本的結(jié)構(gòu)特征,又能有效降低文本表示模型維度的文本相似度度量方法。給定兩個文本,通過文本所提方法能夠高效、準確地計算出兩者間的相似度,為電力行業(yè)科技項目的查重提供有效支撐。
論文詳細內(nèi)容請下載http://ihrv.cn/resource/share/2000002786
作者信息:
趙曉平1,馬 文1,劉雪萍2,陳 達2
(1. 云南電網(wǎng)有限責(zé)任公司 信息中心,云南 昆明 650011;2. 云南云電同方科技有限公司,云南 昆明 650220)