文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.16157/j.issn.0258-7998.191257
中文引用格式: 肖晗,毛雪松,朱澤德. 基于HybridDL模型的文本相似度檢測(cè)方法[J].電子技術(shù)應(yīng)用,2020,46(6):28-31,35.
英文引用格式: Xiao Han,Mao Xuesong,Zhu Zede. Text similarity detection method based on HybridDL model[J]. Application of Electronic Technique,2020,46(6):28-31,35.
0 引言
在當(dāng)下這個(gè)信息時(shí)代,互聯(lián)網(wǎng)已經(jīng)成為人們生活中不可或缺的一部分,在機(jī)器計(jì)算能力大幅度提高的同時(shí),獲得的數(shù)據(jù)也呈爆炸式增長(zhǎng)。文本數(shù)據(jù)作為數(shù)據(jù)中的重要組成部分,量大且關(guān)鍵。因此,從大量的文本數(shù)據(jù)中高效地提取出滿足人們需要的信息成為了當(dāng)下的熱門話題。在自然語(yǔ)言處理領(lǐng)域,通過(guò)計(jì)算機(jī)處理文本數(shù)據(jù)時(shí),由于語(yǔ)言的多樣性,相同的詞語(yǔ)在不同的句子或者語(yǔ)境中表達(dá)出來(lái)的意思可能會(huì)存在差異,導(dǎo)致計(jì)算機(jī)無(wú)法直接并準(zhǔn)確地獲取文本特征[1]。所以,如何從語(yǔ)料中學(xué)習(xí)到好的文本表示,如何提升文本表示模型的性能,對(duì)于后續(xù)自然語(yǔ)言處理的相關(guān)研究,如機(jī)器翻譯、文本分類[2]、情感分析[3]、問(wèn)答系統(tǒng)、文本檢索等,具有十分深遠(yuǎn)的意義。
建立文本表示模型包括對(duì)詞、主題、語(yǔ)句、文檔等各個(gè)級(jí)別任務(wù)進(jìn)行建模。對(duì)于詞級(jí)別的文本表示模型,通常使用被稱作詞向量的數(shù)學(xué)表示方法來(lái)處理。詞向量顧名思義是一種通過(guò)向量來(lái)表示句子中詞語(yǔ)的方法,向量中的每一維都在實(shí)數(shù)范圍內(nèi)進(jìn)行取值操作[4]。
詞向量最早由BENGIO Y、DUCHARME R、VINCENT P等人提出[5],其傳統(tǒng)做法是One-hot表示方法,即將不同詞用相對(duì)應(yīng)的維度很高的向量來(lái)表示,其中,向量的維度對(duì)應(yīng)字典大小,在各個(gè)詞的向量中只存在一個(gè)位置為1,其余位置為0。該表示模型十分簡(jiǎn)潔,便于理解,但是由于數(shù)據(jù)稀疏會(huì)造成維數(shù)災(zāi)難,并且該模型沒(méi)有考慮詞與詞之間的關(guān)聯(lián)性,準(zhǔn)確度不高。
近年來(lái),被稱作詞的分布式表示的向量表示得到了較為廣泛的應(yīng)用,理論思路是通過(guò)訓(xùn)練,將句子中的各詞語(yǔ)映射到N維向量空間中。該方法在One-hot的基礎(chǔ)上,聯(lián)系了前后文的語(yǔ)義信息,使語(yǔ)義相近詞語(yǔ)所映射得到的詞向量比較接近,而One-hot法得到的是毫無(wú)關(guān)聯(lián)的詞向量。即可以通過(guò)詞與詞在空間中的距離計(jì)算詞與詞在語(yǔ)義上的相關(guān)性,距離越小則語(yǔ)義越相關(guān),距離越大則越無(wú)關(guān)。2013年,MIKOLOV T等人提出利用神經(jīng)網(wǎng)絡(luò)模型來(lái)訓(xùn)練分布式詞向量[6],所得到的模型被稱作Word2Vec,該模型可以通過(guò)前后文的詞匯預(yù)測(cè)中心詞或者通過(guò)中心詞來(lái)預(yù)測(cè)前后文的詞匯。它相當(dāng)于一個(gè)里程碑,現(xiàn)在也被廣泛使用。Doc2Vec是Word2Vec的擴(kuò)展,于2014年由MIKOLOV T等人提出[7],同樣用于學(xué)習(xí)文檔表示。該模型在構(gòu)建的過(guò)程中,在獲取上下文單詞信息的同時(shí),增加了一個(gè)段落標(biāo)記,能夠更精確地表示原始文本。但是在實(shí)際應(yīng)用中Doc2Vec需要大量數(shù)據(jù)進(jìn)行訓(xùn)練才能有較好的效果,當(dāng)數(shù)據(jù)量不足時(shí),提取信息不充分,結(jié)果產(chǎn)生的偶然性較大。
主題模型由于可以發(fā)掘深層次的語(yǔ)義信息,因此在構(gòu)建文本表示模型時(shí)也可以達(dá)到較好的效果。2003年BLEI D M、JORDAN M I等人提出了潛在狄利克雷分布[8],首次將狄利克雷先驗(yàn)分布加入到文檔、主題、詞的多項(xiàng)式分布中,效果顯著。LDA是一種從大量文檔中發(fā)現(xiàn)潛在主題的概率主題模型,它從文本的統(tǒng)計(jì)學(xué)特性入手,將文本語(yǔ)料庫(kù)映射到各個(gè)主題空間中,從而發(fā)掘文本中各主題與詞語(yǔ)之間的對(duì)應(yīng)關(guān)系,得到文本的主題分布[9]。它通常被認(rèn)為是一種通過(guò)對(duì)不同主題中的單詞進(jìn)行分組的特征約簡(jiǎn)方法,因此可以將文檔映射到更低的維度空間。但LDA沒(méi)有考慮詞語(yǔ)的前后文關(guān)聯(lián),構(gòu)建出的文本向量比較稀疏,在表示原始文本的信息方面效果一般。
本文嘗試將LDA和Doc2Vec進(jìn)行融合。LDA從每個(gè)文檔到所有主題的全局關(guān)系建模,而Doc2Vec則通過(guò)從目標(biāo)單詞的上下文中學(xué)習(xí)來(lái)捕獲這些關(guān)系。發(fā)揮這兩種模型各自的優(yōu)點(diǎn),從而產(chǎn)生比傳統(tǒng)模型更高的準(zhǔn)確率判斷。
論文詳細(xì)內(nèi)容請(qǐng)下載http://ihrv.cn/resource/share/2000002836
作者信息:
肖 晗1,毛雪松1,朱澤德2
(1.武漢科技大學(xué) 信息科學(xué)與工程學(xué)院,湖北 武漢430081;
2.中科院合肥技術(shù)創(chuàng)新工程院,安徽 合肥230031)