《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 模擬設(shè)計(jì) > 設(shè)計(jì)應(yīng)用 > 基于HybridDL模型的文本相似度檢測(cè)方法
基于HybridDL模型的文本相似度檢測(cè)方法
2020年電子技術(shù)應(yīng)用第6期
肖 晗1,毛雪松1,朱澤德2
1.武漢科技大學(xué) 信息科學(xué)與工程學(xué)院,湖北 武漢430081; 2.中科院合肥技術(shù)創(chuàng)新工程院,安徽 合肥230031
摘要: 為了提高文本相似度檢測(cè)算法的準(zhǔn)確度,提出一種結(jié)合潛在狄利克雷分布(Latent Dirichlet Allocation,LDA)與Doc2Vec模型的文本相似度檢測(cè)方法,并把該算法得到的模型命名為HybridDL模型。該算法通過(guò)Doc2Vec對(duì)文檔訓(xùn)練得到文檔向量,再利用LDA模型得到文檔主題與各個(gè)主題下特征詞出現(xiàn)的概率,對(duì)文檔中各主題及特征詞計(jì)算概率加權(quán)和,映射到Doc2Vec文檔向量中。實(shí)驗(yàn)結(jié)果表明,新算法模型比傳統(tǒng)的Doc2Vec模型對(duì)相似文本的判斷更加敏感,在文本相似度檢測(cè)上具有更高的準(zhǔn)確度。
中圖分類號(hào): TN957.52;TP391.1
文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.16157/j.issn.0258-7998.191257
中文引用格式: 肖晗,毛雪松,朱澤德. 基于HybridDL模型的文本相似度檢測(cè)方法[J].電子技術(shù)應(yīng)用,2020,46(6):28-31,35.
英文引用格式: Xiao Han,Mao Xuesong,Zhu Zede. Text similarity detection method based on HybridDL model[J]. Application of Electronic Technique,2020,46(6):28-31,35.
Text similarity detection method based on HybridDL model
Xiao Han1,Mao Xuesong1,Zhu Zede2
1.School of Information Science and Engineering,Wuhan University of Science and Technology,Wuhan 430081,China; 2.Institute of Technology Innovation,Hefei Institutes of Physical Science,Chinese Academy of Sciences,Hefei 230031,China
Abstract: In order to improve the accuracy of text similarity detection algorithm, this paper proposes a text similarity detection method combining latent Dirichlet Allocation(LDA) and Doc2Vec model, and names the model obtained by the algorithm HybridDL model. This algorithm obtains the document vector through Doc2Vec training of the document, and then obtains the probability of the occurrence of the document topic and the feature words under each topic with the LDA model, calculates the probability weighted sum of each topic and feature words in the document, and maps them to the Doc2Vec document vector. Experimental results show that the new algorithm model is more sensitive to the judgment of similar text than the traditional Doc2Vec model, and has higher accuracy in the detection of text similarity.
Key words : Doc2Vec;latent Dirichlet allocation;text representation;text similarity

0 引言

    在當(dāng)下這個(gè)信息時(shí)代,互聯(lián)網(wǎng)已經(jīng)成為人們生活中不可或缺的一部分,在機(jī)器計(jì)算能力大幅度提高的同時(shí),獲得的數(shù)據(jù)也呈爆炸式增長(zhǎng)。文本數(shù)據(jù)作為數(shù)據(jù)中的重要組成部分,量大且關(guān)鍵。因此,從大量的文本數(shù)據(jù)中高效地提取出滿足人們需要的信息成為了當(dāng)下的熱門話題。在自然語(yǔ)言處理領(lǐng)域,通過(guò)計(jì)算機(jī)處理文本數(shù)據(jù)時(shí),由于語(yǔ)言的多樣性,相同的詞語(yǔ)在不同的句子或者語(yǔ)境中表達(dá)出來(lái)的意思可能會(huì)存在差異,導(dǎo)致計(jì)算機(jī)無(wú)法直接并準(zhǔn)確地獲取文本特征[1]。所以,如何從語(yǔ)料中學(xué)習(xí)到好的文本表示,如何提升文本表示模型的性能,對(duì)于后續(xù)自然語(yǔ)言處理的相關(guān)研究,如機(jī)器翻譯、文本分類[2]、情感分析[3]、問(wèn)答系統(tǒng)、文本檢索等,具有十分深遠(yuǎn)的意義。

    建立文本表示模型包括對(duì)詞、主題、語(yǔ)句、文檔等各個(gè)級(jí)別任務(wù)進(jìn)行建模。對(duì)于詞級(jí)別的文本表示模型,通常使用被稱作詞向量的數(shù)學(xué)表示方法來(lái)處理。詞向量顧名思義是一種通過(guò)向量來(lái)表示句子中詞語(yǔ)的方法,向量中的每一維都在實(shí)數(shù)范圍內(nèi)進(jìn)行取值操作[4]。

    詞向量最早由BENGIO Y、DUCHARME R、VINCENT P等人提出[5],其傳統(tǒng)做法是One-hot表示方法,即將不同詞用相對(duì)應(yīng)的維度很高的向量來(lái)表示,其中,向量的維度對(duì)應(yīng)字典大小,在各個(gè)詞的向量中只存在一個(gè)位置為1,其余位置為0。該表示模型十分簡(jiǎn)潔,便于理解,但是由于數(shù)據(jù)稀疏會(huì)造成維數(shù)災(zāi)難,并且該模型沒(méi)有考慮詞與詞之間的關(guān)聯(lián)性,準(zhǔn)確度不高。

    近年來(lái),被稱作詞的分布式表示的向量表示得到了較為廣泛的應(yīng)用,理論思路是通過(guò)訓(xùn)練,將句子中的各詞語(yǔ)映射到N維向量空間中。該方法在One-hot的基礎(chǔ)上,聯(lián)系了前后文的語(yǔ)義信息,使語(yǔ)義相近詞語(yǔ)所映射得到的詞向量比較接近,而One-hot法得到的是毫無(wú)關(guān)聯(lián)的詞向量。即可以通過(guò)詞與詞在空間中的距離計(jì)算詞與詞在語(yǔ)義上的相關(guān)性,距離越小則語(yǔ)義越相關(guān),距離越大則越無(wú)關(guān)。2013年,MIKOLOV T等人提出利用神經(jīng)網(wǎng)絡(luò)模型來(lái)訓(xùn)練分布式詞向量[6],所得到的模型被稱作Word2Vec,該模型可以通過(guò)前后文的詞匯預(yù)測(cè)中心詞或者通過(guò)中心詞來(lái)預(yù)測(cè)前后文的詞匯。它相當(dāng)于一個(gè)里程碑,現(xiàn)在也被廣泛使用。Doc2Vec是Word2Vec的擴(kuò)展,于2014年由MIKOLOV T等人提出[7],同樣用于學(xué)習(xí)文檔表示。該模型在構(gòu)建的過(guò)程中,在獲取上下文單詞信息的同時(shí),增加了一個(gè)段落標(biāo)記,能夠更精確地表示原始文本。但是在實(shí)際應(yīng)用中Doc2Vec需要大量數(shù)據(jù)進(jìn)行訓(xùn)練才能有較好的效果,當(dāng)數(shù)據(jù)量不足時(shí),提取信息不充分,結(jié)果產(chǎn)生的偶然性較大。

    主題模型由于可以發(fā)掘深層次的語(yǔ)義信息,因此在構(gòu)建文本表示模型時(shí)也可以達(dá)到較好的效果。2003年BLEI D M、JORDAN M I等人提出了潛在狄利克雷分布[8],首次將狄利克雷先驗(yàn)分布加入到文檔、主題、詞的多項(xiàng)式分布中,效果顯著。LDA是一種從大量文檔中發(fā)現(xiàn)潛在主題的概率主題模型,它從文本的統(tǒng)計(jì)學(xué)特性入手,將文本語(yǔ)料庫(kù)映射到各個(gè)主題空間中,從而發(fā)掘文本中各主題與詞語(yǔ)之間的對(duì)應(yīng)關(guān)系,得到文本的主題分布[9]。它通常被認(rèn)為是一種通過(guò)對(duì)不同主題中的單詞進(jìn)行分組的特征約簡(jiǎn)方法,因此可以將文檔映射到更低的維度空間。但LDA沒(méi)有考慮詞語(yǔ)的前后文關(guān)聯(lián),構(gòu)建出的文本向量比較稀疏,在表示原始文本的信息方面效果一般。

    本文嘗試將LDA和Doc2Vec進(jìn)行融合。LDA從每個(gè)文檔到所有主題的全局關(guān)系建模,而Doc2Vec則通過(guò)從目標(biāo)單詞的上下文中學(xué)習(xí)來(lái)捕獲這些關(guān)系。發(fā)揮這兩種模型各自的優(yōu)點(diǎn),從而產(chǎn)生比傳統(tǒng)模型更高的準(zhǔn)確率判斷。




論文詳細(xì)內(nèi)容請(qǐng)下載http://ihrv.cn/resource/share/2000002836




作者信息:

肖  晗1,毛雪松1,朱澤德2

(1.武漢科技大學(xué) 信息科學(xué)與工程學(xué)院,湖北 武漢430081;

2.中科院合肥技術(shù)創(chuàng)新工程院,安徽 合肥230031)


此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。