《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 通信與網(wǎng)絡(luò) > 設(shè)計(jì)應(yīng)用 > 基于標(biāo)簽嵌入的多模態(tài)多標(biāo)簽情感識(shí)別算法
基于標(biāo)簽嵌入的多模態(tài)多標(biāo)簽情感識(shí)別算法
網(wǎng)絡(luò)安全與數(shù)據(jù)治理 2022年 第1期
張 超,張信明
(中國(guó)科學(xué)技術(shù)大學(xué) 大數(shù)據(jù)學(xué)院,安徽 合肥230026)
摘要: 多模態(tài)情感分析目前是多模態(tài)分析和自然語(yǔ)言處理領(lǐng)域的研究熱點(diǎn),在商品推薦、智能客服等場(chǎng)景中具有廣泛的應(yīng)用?,F(xiàn)有的方法在多標(biāo)簽場(chǎng)景下對(duì)標(biāo)簽間依賴(lài)性表示不充分,并且忽略了模態(tài)特征之間語(yǔ)義差距。對(duì)此提出了一種基于標(biāo)簽嵌入的多模態(tài)多標(biāo)簽情感識(shí)別算法,通過(guò)訓(xùn)練的標(biāo)簽嵌入向量捕獲標(biāo)簽之間依賴(lài)關(guān)系,對(duì)模態(tài)特征添加約束減小模態(tài)之間的語(yǔ)義差距。實(shí)驗(yàn)結(jié)果顯示,該算法在多模態(tài)多標(biāo)簽情感識(shí)別任務(wù)中在準(zhǔn)確率和漢明損失指標(biāo)上相較于現(xiàn)有方法有明顯提升。
中圖分類(lèi)號(hào): TP391.1
文獻(xiàn)標(biāo)識(shí)碼: A
DOI: 10.20044/j.csdg.2097-1788.2022.01.016
引用格式: 張超,張信明. 基于標(biāo)簽嵌入的多模態(tài)多標(biāo)簽情感識(shí)別算法[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理,2022,41(1):101-107.
Label embedding based multimodal multi-label emotion recognition
Zhang Chao,Zhang Xinming
(School of Data Science,University of Science and Technology of China,Hefei 230026,China)
Abstract: Multimodal utterance-level emotion recognition has been a hot topic in both multimodal analysis and natural language processing communities which has a variety of applications such as product recommendation and intelligent customer service. Previous methods do not adequately represent inter-label dependencies in multi-label scenarios and ignore the semantic gap between modality features. The proposed method uses learned label embedding to capture label dependency and adds a constraint to modality features aiming at learning modality-invariant representations to reduce the modality gap. Detailed experimental results demonstrate that the proposed method has a significant improvement on accuracy and hamming loss on the multi-modal multi-label emotion recognition task compared with existing methods.
Key words : multimodal;emotion recognition;multi-label;label embedding

0 引言

隨著互聯(lián)網(wǎng)與社交媒體的不斷發(fā)展,越來(lái)越多的人使用包含文本、語(yǔ)音、圖像在內(nèi)的多模態(tài)數(shù)據(jù)在社交媒體上表達(dá)自己的看法或觀點(diǎn)。海量的多模態(tài)數(shù)據(jù)中蘊(yùn)含著豐富的情感信息,對(duì)多模態(tài)數(shù)據(jù)進(jìn)行情感分析有利于了解人們對(duì)某些事件的態(tài)度和看法,在輿論監(jiān)控、商品推薦、股市預(yù)測(cè)等方面具有很大的應(yīng)用價(jià)值。此外,近年來(lái)的研究表明,與單模態(tài)情感識(shí)別模型相比,多模態(tài)模型在處理社交媒體數(shù)據(jù)時(shí)具有更強(qiáng)的魯棒性,并在識(shí)別準(zhǔn)確率方面取得了顯著的改進(jìn)[1]。不同的模態(tài)信息可能暗含著不同的情緒,如圖1所示,可能從文本信息中只能推斷出厭惡的情緒,而從視覺(jué)和語(yǔ)音的組合信息中推斷出悲傷和生氣的情緒,因此必須充分融合來(lái)自不同模態(tài)的信息才能準(zhǔn)確識(shí)別出多模態(tài)數(shù)據(jù)中的情感信息。

盡管目前多模態(tài)情感分析在模型性能方面已經(jīng)取得了較好的效果,但是仍然存在兩個(gè)問(wèn)題需要解決。第一個(gè)問(wèn)題是情感識(shí)別在現(xiàn)實(shí)場(chǎng)景中通常是一個(gè)多標(biāo)簽分類(lèi)問(wèn)題,如何對(duì)標(biāo)簽依賴(lài)關(guān)系建模并使用標(biāo)簽信息是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。目前大多數(shù)工作將多標(biāo)簽分類(lèi)問(wèn)題轉(zhuǎn)換為多個(gè)二分類(lèi)問(wèn)題,而忽視了標(biāo)簽之間的依賴(lài)性。另一個(gè)問(wèn)題是異構(gòu)模態(tài)信號(hào)之間的巨大語(yǔ)義差異,使得模態(tài)特征難以直接融合。

目前關(guān)于多模態(tài)情感分析的研究主要集中在設(shè)計(jì)高效的模態(tài)融合機(jī)制。Zadeh等[2]利用張量的外積來(lái)對(duì)不同模態(tài)之間的相互作用進(jìn)行建模,Tsai等[3]提出了基于注意力的模型,使用跨模態(tài)注意力融合來(lái)自不同模態(tài)的信息。盡管這些模型在多模態(tài)情感識(shí)別任務(wù)中取得了良好的效果,但是忽略了模態(tài)特征之間的語(yǔ)義差異,影響了多模態(tài)特征融合的效果。Ju等[4]提出了基于序列生成的模型來(lái)解決多模態(tài)多標(biāo)簽情感識(shí)別問(wèn)題,利用序列生成的方式對(duì)標(biāo)簽之間依賴(lài)關(guān)系建模,但是這種方法依賴(lài)于預(yù)先定義的標(biāo)簽順序并且計(jì)算效率低。

本文提出了一種基于標(biāo)簽嵌入的多模態(tài)多標(biāo)簽情感識(shí)別算法,即使用標(biāo)簽嵌入向量對(duì)標(biāo)簽依賴(lài)性建模,使用模態(tài)不變表示來(lái)減少模態(tài)語(yǔ)義差異。首先,鑒于情感標(biāo)簽包含著豐富的信息,本文使用標(biāo)簽之間的共現(xiàn)信息來(lái)學(xué)習(xí)多模態(tài)情感標(biāo)簽嵌入。然后,使用CMD分布度量[5]限制不同模態(tài)特征的分布差距,獲得模態(tài)不變表示,這種限制有助于縮小不同模態(tài)之間的語(yǔ)義差距,從而使用更簡(jiǎn)單的融合方法融合不同模態(tài)特征。最后,將所有的模態(tài)特征連接起來(lái),利用學(xué)習(xí)到的標(biāo)簽嵌入和融合特征完成情感識(shí)別任務(wù)。

本文在一個(gè)公開(kāi)的多模態(tài)多標(biāo)簽情感數(shù)據(jù)集CMU-MOSEI上進(jìn)行了廣泛的實(shí)驗(yàn),以評(píng)估方法性能。實(shí)驗(yàn)結(jié)果表明,該方法能夠有效地融合模態(tài)特征并且對(duì)標(biāo)簽依賴(lài)進(jìn)行建模。本文主要貢獻(xiàn)有:

(1)使用標(biāo)簽的共現(xiàn)信息來(lái)學(xué)習(xí)標(biāo)簽嵌入,用標(biāo)簽嵌入來(lái)表示標(biāo)簽依賴(lài)關(guān)系。

(2)考慮了模態(tài)特征之間的語(yǔ)義差距,通過(guò)在損失函數(shù)中添加對(duì)模態(tài)特征的約束來(lái)減小模態(tài)特征語(yǔ)義差距。

(3)MOSEI數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,該方法在多模態(tài)多標(biāo)簽情感識(shí)別任務(wù)上相較于現(xiàn)有方法,性能有明顯提升。




本文詳細(xì)內(nèi)容請(qǐng)下載:http://ihrv.cn/resource/share/2000004619




作者信息:

張  超,張信明

(中國(guó)科學(xué)技術(shù)大學(xué) 大數(shù)據(jù)學(xué)院,安徽 合肥230026)


此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。