基于深度學(xué)習(xí)的詞語(yǔ)級(jí)中文唇語(yǔ)識(shí)別
所屬分類:技術(shù)論文
上傳者:aetmagazine
文檔大?。?span>653 K
標(biāo)簽: 唇語(yǔ)識(shí)別 ResNet Bi-LSTM
所需積分:0分積分不夠怎么辦?
文檔介紹:在無(wú)聲或噪聲干擾嚴(yán)重的環(huán)境下,或?qū)τ诖嬖诼?tīng)覺(jué)障礙的人群,唇語(yǔ)識(shí)別至關(guān)重要。針對(duì)詞語(yǔ)級(jí)中文唇語(yǔ)識(shí)別的問(wèn)題,提出了SinoLipReadingNet模型,前端采用Conv3D+ResNet34結(jié)構(gòu)用于時(shí)空特征提取,后端分別采用Conv1D結(jié)構(gòu)和Bi-LSTM結(jié)構(gòu)用于分類預(yù)測(cè),并引入Self-Attention、CTCLoss對(duì)Bi-LSTM后端進(jìn)行改進(jìn)。最終在新網(wǎng)銀行唇語(yǔ)識(shí)別數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果表明,SinoLipReadingNet模型在識(shí)別準(zhǔn)確率上明顯優(yōu)于中科院D3D模型,多模型融合的預(yù)測(cè)準(zhǔn)確率達(dá)到了77.64%,平均字錯(cuò)率為21.68%。
現(xiàn)在下載
VIP會(huì)員,AET專家下載不扣分;重復(fù)下載不扣分,本人上傳資源不扣分。