文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.16157/j.issn.0258-7998.191420
中文引用格式: 趙曉平,馬文,劉雪萍,等. 一種面向科技項(xiàng)目文本的相似度度量方法[J].電子技術(shù)應(yīng)用,2020,46(5):31-34,39.
英文引用格式: Zhao Xiaoping,Ma Wen,Liu Xueping,et al. A similarity measurement method for science and technology project text[J]. Application of Electronic Technique,2020,46(5):31-34,39.
0 引言
文本相似度度量是指將文本看成一組詞的集合體,分析每個(gè)詞在文本中出現(xiàn)的次數(shù)以及在整個(gè)文本集合中出現(xiàn)次數(shù),進(jìn)而利用這些詞頻信息將文本建模為一個(gè)向量,并利用向量間的余弦距離等計(jì)算文本之間的相似度[1-2]。
文本相似度度量被廣泛應(yīng)用于許多領(lǐng)域,例如:信息檢索領(lǐng)域[3-4]、文本分類[5-8]、文本摘要的自動(dòng)生成[9-10]、文本的查重檢測(cè)[11-12]。本文關(guān)注的是在電力行業(yè)的科技項(xiàng)目查重中應(yīng)用文本相似度度量。
現(xiàn)有的TF-IDF[13-15]方法主要將文本建模為詞頻向量,再使用余弦相似度來(lái)計(jì)算兩個(gè)文本間的相似度。但是對(duì)于多數(shù)文本而言,這種采用詞頻向量模型的方法需要將文本表示為詞項(xiàng)數(shù)目與文本數(shù)目大致相當(dāng)?shù)木仃?,矩陣中的行列向量都有著非常高的維度并且是極度稀疏的,從而最終導(dǎo)致非常低效的計(jì)算[1,16]。此外,這種方法也忽略了文本的的結(jié)構(gòu)特征。
針對(duì)上述問(wèn)題,本文提出一種既考慮了文本的結(jié)構(gòu)特征,又能有效降低文本表示模型維度的文本相似度度量方法。給定兩個(gè)文本,通過(guò)文本所提方法能夠高效、準(zhǔn)確地計(jì)算出兩者間的相似度,為電力行業(yè)科技項(xiàng)目的查重提供有效支撐。
論文詳細(xì)內(nèi)容請(qǐng)下載http://ihrv.cn/resource/share/2000002786
作者信息:
趙曉平1,馬 文1,劉雪萍2,陳 達(dá)2
(1. 云南電網(wǎng)有限責(zé)任公司 信息中心,云南 昆明 650011;2. 云南云電同方科技有限公司,云南 昆明 650220)