18禁美女黄网站色大片免费观看,免费精品久久天干天干

基于深度学习的词语级中文唇语识别

2022年电子技术应用第12期

陈红顺1，陈观明1，2

1.北京师范大学珠海分校信息技术学院，广东珠海519087；2.珠海欧比特宇航科技股份有限公司，广东珠海519080

摘要： 在无声或噪声干扰严重的环境下，或对于存在听觉障碍的人群，唇语识别至关重要。针对词语级中文唇语识别的问题，提出了SinoLipReadingNet模型，前端采用Conv3D+ResNet34结构用于时空特征提取，后端分别采用Conv1D结构和Bi-LSTM结构用于分类预测，并引入Self-Attention、CTCLoss对Bi-LSTM后端进行改进。最终在新网银行唇语识别数据集上进行实验，结果表明，SinoLipReadingNet模型在识别准确率上明显优于中科院D3D模型，多模型融合的预测准确率达到了77.64%，平均字错率为21.68%。

關(guān)鍵詞： 唇语识别 ResNet Bi-LSTM CTCLoss 自注意力机制

中圖分類號： TP391.4
文獻(xiàn)標(biāo)識碼： A
DOI：10.16157/j.issn.0258-7998.222903
中文引用格式： 陳紅順，陳觀明. 基于深度學(xué)習(xí)的詞語級中文唇語識別[J].電子技術(shù)應(yīng)用，2022，48(12)：54-58.
英文引用格式： Chen Hongshun，Chen Guanming. Chinese word-level lip reading based deep learning[J]. Application of Electronic Technique，2022，48(12)：54-58.

Chinese word-level lip reading based deep learning

Chen Hongshun1，Chen Guanming1，2

1.School of Information Technology，Beijing Normal University(Zhuhai)，Zhuhai 519087，China； 2.Zhuhai Orbita Aerospace Science & Technology Co.，Ltd.，Zhuhai 519080，China

Abstract： Lip reading is crucial in the silent environment or environments with serious noise interference, or for people with hearing impairment. For word-level Chinese lip reading problem, SinoLipReadingNet model is proposed, the front end of which with Conv3D and ResNet34 is used to extract temporal-spatial features, and the back end of which with Conv1D and Bi-LSTM are used for classification and prediction respectively. Also, self-attention and CTCLoss are added to improve the back end with Bi-LSTM. Finally,the SinoLipReadingNet model is tested on XWBank lipreading dataset and results show that the prediction accuracy is significantly better than that of D3D model, the prediction accuracy and avrage CER of multi-model fusion reaches 77.64% and 21.68% respectively.

Key words : lip reading；ResNet；Bi-LSTM；CTCLoss；self-attention

0 引言

語言是人類溝通交流的主要方式，語音是人類語言交流的主要載體之一。在無聲或噪聲干擾嚴(yán)重的環(huán)境下，或?qū)τ诖嬖诼犛X障礙的人群，如何利用通過嘴唇運(yùn)動(dòng)進(jìn)行語言識別至關(guān)重要。唇語識別是指通過觀察和分析人說話時(shí)唇部運(yùn)動(dòng)的特征變化，識別出人所說話的內(nèi)容。唇語識別具有廣闊的應(yīng)用前景：在醫(yī)療健康領(lǐng)域，可以借助唇語識別輔助患有聽力障礙的病人溝通交流^[1]；在安防領(lǐng)域，人臉識別同時(shí)通過唇語識別以提高活體識別的安全性^[2]；在視頻合成領(lǐng)域, 利用唇語識別可以合成特定人物講話場景的視頻^[3]，或者合成高真實(shí)感的虛擬人物動(dòng)畫等。

唇語識別主要包含4個(gè)步驟^[4]：人臉關(guān)鍵點(diǎn)檢測與跟蹤、唇語區(qū)域提取、時(shí)空特征提取和分類與解碼。其中，時(shí)空特征提取和分類與解碼是唇語識別的研究重點(diǎn)。近年來，隨著大規(guī)模數(shù)據(jù)集^[5]的出現(xiàn)，基于深度學(xué)習(xí)的方法可以自動(dòng)抽取深層特征，逐漸成為唇語識別研究的主流方法^[6]。如圖1所示，基于深度學(xué)習(xí)的唇語學(xué)習(xí)方法將一系列的唇部圖像送入前端以提取特征，然后傳遞給后端以進(jìn)行分類預(yù)測，并以端到端的形式進(jìn)行訓(xùn)練。

本文詳細(xì)內(nèi)容請下載：http://ihrv.cn/resource/share/2000005040。

作者信息：

陳紅順1，陳觀明1，2

(1.北京師范大學(xué)珠海分校信息技術(shù)學(xué)院，廣東珠海519087；2.珠海歐比特宇航科技股份有限公司，廣東珠海519080)

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容