123,123,123

一种面向科技项目文本的相似度度量方法

2020年电子技术应用第5期

赵晓平1，马文1，刘雪萍2，陈达2

1. 云南电网有限责任公司信息中心，云南昆明 650011；2. 云南云电同方科技有限公司，云南昆明 650220

摘要： 现有的文本相似度度量方法主要采用TF-IDF方法，把文本建模为词频向量，但未考虑文本的结构特征。现将文本的结构特征和TF-IDF方法进行融合，提出了一种面向科技项目文本的相似度度量方法。该方法首先对文本进行预处理，其次根据文本的结构特征提取模块文本，然后使用TF-IDF方法提取每个模块文本的TOP-N关键词，作为模块文本的特征向量表示，最后使用余弦聚类计算文本的相似度。实验结果表明，在电力行业的科技项目文档数据集上，所提方法优于TF-IDF方法。

關鍵詞： 文本相似度 TF-IDF 文本聚类自然语言处理

中圖分類號： TP311
文獻標識碼： A
DOI：10.16157/j.issn.0258-7998.191420
中文引用格式： 趙曉平，馬文，劉雪萍，等. 一種面向科技項目文本的相似度度量方法[J].電子技術應用，2020，46(5)：31-34，39.
英文引用格式： Zhao Xiaoping，Ma Wen，Liu Xueping，et al. A similarity measurement method for science and technology project text[J]. Application of Electronic Technique，2020，46(5)：31-34，39.

A similarity measurement method for science and technology project text

Zhao Xiaoping1，Ma Wen1，Liu Xueping2，Chen Da2

1.Information Center，Yunnan Power Grid Co.，Ltd.，Kunming 650011，China； 2.Yunnan Yundian Tongfang Technology Co.，Ltd.，Kunming 650220，China

Abstract： Existing text similarity measurements often use the TF-IDF method to model texts as term frequency vectors without considering the structural features of texts. This paper combines the structural features of texts with the TF-IDF method and proposes a text similarity measurement for science and technology project texts. This approach firstly pre-processes a text and extracts module texts according to its structural features. After applying the TF-IDF method to these extracted module texts, this method extracts the top keywords of each module text, obtains its feature vector representation, and finally uses cosine formula to calculate the similarity of two texts. By comparing with the TF-IDF method, experimental results show that the proposed method can promote the evaluation metrics of F-measure.

Key words : text similarity；TF-IDF；text clustering；natural language process

0 引言

文本相似度度量是指將文本看成一組詞的集合體，分析每個詞在文本中出現(xiàn)的次數(shù)以及在整個文本集合中出現(xiàn)次數(shù)，進而利用這些詞頻信息將文本建模為一個向量，并利用向量間的余弦距離等計算文本之間的相似度^[1-2]。

文本相似度度量被廣泛應用于許多領域，例如：信息檢索領域^[3-4]、文本分類^[5-8]、文本摘要的自動生成^[9-10]、文本的查重檢測^[11-12]。本文關注的是在電力行業(yè)的科技項目查重中應用文本相似度度量。

現(xiàn)有的TF-IDF^[13-15]方法主要將文本建模為詞頻向量，再使用余弦相似度來計算兩個文本間的相似度。但是對于多數(shù)文本而言，這種采用詞頻向量模型的方法需要將文本表示為詞項數(shù)目與文本數(shù)目大致相當?shù)木仃?，矩陣中的行列向量都有著非常高的維度并且是極度稀疏的，從而最終導致非常低效的計算^[1，16]。此外，這種方法也忽略了文本的的結(jié)構(gòu)特征。

針對上述問題，本文提出一種既考慮了文本的結(jié)構(gòu)特征，又能有效降低文本表示模型維度的文本相似度度量方法。給定兩個文本，通過文本所提方法能夠高效、準確地計算出兩者間的相似度，為電力行業(yè)科技項目的查重提供有效支撐。

論文詳細內(nèi)容請下載http://ihrv.cn/resource/share/2000002786

作者信息:

趙曉平1，馬文1，劉雪萍2，陳達2

（1. 云南電網(wǎng)有限責任公司信息中心，云南昆明 650011；2. 云南云電同方科技有限公司，云南昆明 650220）

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權禁止轉(zhuǎn)載。

相關內(nèi)容