文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.16157/j.issn.0258-7998.222903
中文引用格式: 陳紅順,陳觀明. 基于深度學(xué)習(xí)的詞語級(jí)中文唇語識(shí)別[J].電子技術(shù)應(yīng)用,2022,48(12):54-58.
英文引用格式: Chen Hongshun,Chen Guanming. Chinese word-level lip reading based deep learning[J]. Application of Electronic Technique,2022,48(12):54-58.
0 引言
語言是人類溝通交流的主要方式,語音是人類語言交流的主要載體之一。在無聲或噪聲干擾嚴(yán)重的環(huán)境下,或?qū)τ诖嬖诼犛X障礙的人群,如何利用通過嘴唇運(yùn)動(dòng)進(jìn)行語言識(shí)別至關(guān)重要。唇語識(shí)別是指通過觀察和分析人說話時(shí)唇部運(yùn)動(dòng)的特征變化,識(shí)別出人所說話的內(nèi)容。唇語識(shí)別具有廣闊的應(yīng)用前景:在醫(yī)療健康領(lǐng)域,可以借助唇語識(shí)別輔助患有聽力障礙的病人溝通交流[1];在安防領(lǐng)域,人臉識(shí)別同時(shí)通過唇語識(shí)別以提高活體識(shí)別的安全性[2];在視頻合成領(lǐng)域, 利用唇語識(shí)別可以合成特定人物講話場(chǎng)景的視頻[3],或者合成高真實(shí)感的虛擬人物動(dòng)畫等。
唇語識(shí)別主要包含4個(gè)步驟[4]:人臉關(guān)鍵點(diǎn)檢測(cè)與跟蹤、唇語區(qū)域提取、時(shí)空特征提取和分類與解碼。其中,時(shí)空特征提取和分類與解碼是唇語識(shí)別的研究重點(diǎn)。近年來,隨著大規(guī)模數(shù)據(jù)集[5]的出現(xiàn),基于深度學(xué)習(xí)的方法可以自動(dòng)抽取深層特征,逐漸成為唇語識(shí)別研究的主流方法[6]。如圖1所示,基于深度學(xué)習(xí)的唇語學(xué)習(xí)方法將一系列的唇部圖像送入前端以提取特征,然后傳遞給后端以進(jìn)行分類預(yù)測(cè),并以端到端的形式進(jìn)行訓(xùn)練。
本文詳細(xì)內(nèi)容請(qǐng)下載:http://ihrv.cn/resource/share/2000005040。
作者信息:
陳紅順1,陳觀明1,2
(1.北京師范大學(xué)珠海分校 信息技術(shù)學(xué)院,廣東 珠海519087;2.珠海歐比特宇航科技股份有限公司,廣東 珠海519080)