文獻(xiàn)標(biāo)識碼: A
DOI:10.16157/j.issn.0258-7998.190645
中文引用格式: 鄧小海,姜周曙. 圖像識別技術(shù)在智慧教室錄播系統(tǒng)中的應(yīng)用研究[J].電子技術(shù)應(yīng)用,2020,46(3):92-96.
英文引用格式: Deng Xiaohai,Jiang Zhoushu. Application of image recognition technology in recording and broadcasting system of intelligent classroom[J]. Application of Electronic Technique,2020,46(3):92-96.
0 引言
在落實“互聯(lián)網(wǎng)+教育”戰(zhàn)略、深化教育教學(xué)改革的背景下,建設(shè)智慧教室是學(xué)校創(chuàng)新教學(xué)環(huán)境、提升人才培養(yǎng)質(zhì)量的必然選擇[1]。隨著微課、MOOC等移動學(xué)習(xí)方式的興起,將現(xiàn)代教育技術(shù)融入教學(xué)生活并促進(jìn)教學(xué)改革已成為教育行業(yè)研究的熱點。
傳統(tǒng)的錄制方式難以滿足人們對優(yōu)質(zhì)教學(xué)資源的需求,智慧教室錄播系統(tǒng)能夠智能高效地完成整個教學(xué)過程的錄制并根據(jù)不同的需求生成對應(yīng)的教學(xué)文件[2]。基于圖像處理的錄播系統(tǒng)使得智慧教室成為了優(yōu)秀的教學(xué)成果展示平臺,也進(jìn)一步促進(jìn)了移動學(xué)習(xí)模式的發(fā)展。
1 錄播系統(tǒng)概述
1.1 自動錄播系統(tǒng)概述
自動錄播系統(tǒng)主要由跟蹤定位系統(tǒng)、音視頻信號采集與處理系統(tǒng)、錄播主控系統(tǒng)3個子系統(tǒng)構(gòu)成[3]。錄播系統(tǒng)能完整地記錄教學(xué)過程,并且根據(jù)授課時間自動生成教學(xué)錄像,多路原始文件的保留模式也使得編輯更加方便。錄播系統(tǒng)不僅能以直播的形式提供教學(xué),還能在網(wǎng)上重復(fù)播放。
1.2 錄播系統(tǒng)中的跟蹤技術(shù)
跟蹤技術(shù)作為錄播系統(tǒng)的核心技術(shù)之一,其主要功能就是在課堂中對老師和學(xué)生進(jìn)行跟蹤。錄播的畫面質(zhì)量直接影響受眾的學(xué)習(xí)體驗,而圖像跟蹤的準(zhǔn)確性與實時性是影響畫面質(zhì)量的重要因素。現(xiàn)今的跟蹤技術(shù)主要有4種:
(1)紅外線感應(yīng)跟蹤
此技術(shù)通過在師生身上放置的紅外信號源,并根據(jù)接收到的紅外信號進(jìn)行目標(biāo)跟蹤定位以及相應(yīng)的攝像機拍攝方位調(diào)整。這種需要輔助設(shè)備的跟蹤技術(shù)并不智能,收發(fā)信號的裝置繁瑣,并且無法精細(xì)地了解節(jié)點信號變化,這都局限了其適用范圍。
(2)超聲波定位技術(shù)
超聲波定位與紅外感應(yīng)技術(shù)在原理上有異曲同工之處,差別在于所采用的信號源是超聲波而不是紅外,安裝的位置也從人身上移動到了黑板桌椅上。雖然此技術(shù)操作簡單、技術(shù)成熟,但是無法確定被拍攝對象的高度,而且拍攝的精度也無法得到保障。
(3)空間網(wǎng)格定位技術(shù)
空間網(wǎng)格劃分是將一個教室三維空間劃分為包含多個矩形網(wǎng)格的三維空間,通過計算師生的三維坐標(biāo)從而實現(xiàn)追蹤。這是一項較為先進(jìn)的技術(shù),能夠精確地捕捉師生互動的細(xì)節(jié)。由于高額的安裝成本以及其對安裝性能的高要求,這項技術(shù)的使用并不廣泛。
(4)圖像識別技術(shù)
前3種跟蹤定位技術(shù)都是基于輔助設(shè)備,不利于系統(tǒng)的集成,也無法通過控制硬件設(shè)備來降低系統(tǒng)成本。圖像定位技術(shù)能夠根據(jù)師生在畫面中的差異自動識別并進(jìn)行動態(tài)跟蹤。此技術(shù)無需配備專門的信號裝置,多素材的輸入也使得計算與優(yōu)化更加精準(zhǔn),是眾多跟蹤技術(shù)中最為有效的方式之一[4]。
2 智慧教室錄播系統(tǒng)整體框架
2.1 智慧教室系統(tǒng)模型
基于圖像識別技術(shù)的智慧教室系統(tǒng)主要由物理空間、交互空間、資源空間以及數(shù)據(jù)一體化組成,系統(tǒng)模型如圖1所示。
2.2 錄播系統(tǒng)模型
錄播系統(tǒng)所產(chǎn)生的錄播資源是智慧教室系統(tǒng)資源空間建設(shè)的主要來源之一,系統(tǒng)框架如圖2所示。
2.3 系統(tǒng)各模塊說明
(1)圖像跟蹤定位模塊
圖像跟蹤模塊由4個子模塊構(gòu)成,它們相互合作,共同完成教室內(nèi)師生的檢測與跟蹤。此模塊根據(jù)圖像的差異匹配相應(yīng)的控制策略驅(qū)動系統(tǒng)內(nèi)的攝像機進(jìn)行智能跟蹤定位并對師生運動軌跡進(jìn)行識別分析,以此來實現(xiàn)對授課場景的特寫、鏡頭切換等相關(guān)錄制。同時在不同的場景下能實現(xiàn)多目標(biāo)的追蹤及鏡頭切換。
(2)音源抓取與后期處理模塊
音質(zhì)的好壞往往決定了整體的錄播質(zhì)量。如果對教室噪聲、背景音處理不當(dāng),將會使得有效音源的清晰度降低。錄播系統(tǒng)中的音頻數(shù)字信號處理能有效地處理噪聲問題并且達(dá)到有效音優(yōu)化擴音的效果。教室的多個拾音器采集音頻信號傳到主控系統(tǒng)進(jìn)行聲音的去分化處理,進(jìn)而提高錄制視頻的音質(zhì)。
(3)錄播主控模塊
錄播系統(tǒng)最核心的模塊就是錄播主控模塊,其余模塊皆為其服務(wù)。錄播主機集數(shù)據(jù)采集、錄播平臺軟件、數(shù)據(jù)處理于一體,因而系統(tǒng)集成度高,并且能夠?qū)崿F(xiàn)系統(tǒng)的小型化,便于操作。錄播主控模塊還能實現(xiàn)視頻影音的智能導(dǎo)播、智能直播、攝像機的智能控制等功能。錄播框架圖如圖3所示。
3 控制策略
3.1 畫面切換策略
視頻錄像的時候根據(jù)畫面要呈現(xiàn)的效果需要進(jìn)行畫面的切換以及人物的特寫,這也就意味著控制中心要清晰地知道畫面切換的控制策略,并根據(jù)相應(yīng)的輸入對多個視頻輸入源進(jìn)行數(shù)據(jù)切換[5]。根據(jù)教學(xué)過程的特征以及可能出現(xiàn)的場景,給出了如圖4所示的畫面切換控制策略。
3.2 目標(biāo)跟蹤策略
錄播系統(tǒng)所表現(xiàn)出的智能化就是依靠它的目標(biāo)跟蹤策略,主要通過圖像對三維空間建模并計算師生的三維空間坐標(biāo),從而實現(xiàn)定位及跟蹤。由于師生在教室中的活動空間有較大的差異,因而根據(jù)師生的運動特性分別制定跟蹤策略。
(1)學(xué)生跟蹤策略
在一般的教學(xué)活動過程中,學(xué)生大多只會出現(xiàn)起立回答問題這一單一事件,他們在三維空間中大體只會呈現(xiàn)縱向位移而不會有橫向位移,因此只需在視頻相鄰的幀畫面中判斷學(xué)生座位圖像區(qū)域的圖像輪廓是否發(fā)生了明顯變化。
(2)老師跟蹤策略
在教學(xué)過程中,大多數(shù)時間老師占據(jù)的是主導(dǎo)位置,因而在授課過程中老師的移動更加隨意,但大多數(shù)時候總是圍繞在講臺周圍。在簡化模型的情況下,檢測老師在講臺水平空間的位置信息和輪廓高度信息,根據(jù)這些信息調(diào)整攝像頭實現(xiàn)定位跟蹤。
4 基于圖像識別的運動目標(biāo)定位跟蹤算法
4.1 算法概述
基于圖像識別的運動目標(biāo)定位跟蹤算法能在課堂人數(shù)眾多且背景復(fù)雜的條件下對視頻流數(shù)據(jù)中的目標(biāo)進(jìn)行精確的識別與跟蹤。該算法將獲取的視頻流幀序列進(jìn)行精細(xì)劃分并在幀序列的處理中引入了背景幀差目標(biāo)檢測算法以及特征識別目標(biāo)跟蹤算法[6]。算法整體流程圖如圖5所示。
4.2 運動目標(biāo)自動檢測算法
運動目標(biāo)檢測算法基于圖像分割技術(shù),通過剔除圖像幀序列的固定背景檢測出運動的物體。然而檢測的準(zhǔn)確性受到光線變化、攝像機抖動、背景改變等因素的影響,這也直接影響了對后續(xù)目標(biāo)的跟蹤和行為分析的準(zhǔn)確性[7]。
(1)算法比對
目標(biāo)檢測算法根據(jù)背景的差異劃分成為兩個類別,即靜態(tài)背景和動態(tài)背景。由于智慧教室錄播系統(tǒng)中所使用的攝像機在整個錄播過程中相對固定,因此根據(jù)這一特性在教室目標(biāo)檢測算法中采用靜態(tài)背景?;陟o態(tài)背景的目標(biāo)檢測算法主要有3種,其對比如表1所示。
(2)改進(jìn)背景幀差目標(biāo)檢測算法
智慧教室錄播系統(tǒng)中有多個視頻流數(shù)據(jù)采集點,也為同一目標(biāo)提供不同的背景差比對,能進(jìn)一步提高檢測的精度。背景差分法的核心就是利用視頻幀圖像與預(yù)設(shè)背景的差異分離出運動目標(biāo)。
建立一個符合要求的背景模型能在一定程度上減小光線、抖動等因素帶來的干擾。由于智慧教室背景的特性,因此采用高斯背景建模。高斯背景建模是基于混合高斯模型來對樣品進(jìn)行建模,根據(jù)圖像理論,連續(xù)視頻幀序列的每個像素點在基礎(chǔ)噪聲的影響下,像素點的灰度值變化都呈現(xiàn)出高斯分布,當(dāng)特定幀之間像素差小于閾值時[8],則認(rèn)為像素?zé)o明顯變化即為背景;否則為目標(biāo)運動區(qū)域,系統(tǒng)模型參數(shù)也應(yīng)隨著目標(biāo)運動進(jìn)行更新,參數(shù)更新如式(1)和式(2)所示。
式中,μ和σ分別表示均值和方差,K為特定幀,α為比例系數(shù),(x,y)為特定幀中的位置點。
比例系數(shù)α的更新將使算法能在連續(xù)的視頻幀圖像中及時刷新背景,從而在視頻幀序列中實現(xiàn)目標(biāo)的實時檢測。智慧教室多個超清攝像頭采集的視頻數(shù)據(jù)也為算法提供了足夠全面清晰的背景對比數(shù)據(jù)。然而差分法對目標(biāo)速度變化不敏感且背景實時更新困難,導(dǎo)致其在動態(tài)目標(biāo)追蹤的過程中實時性不高。
幀差法的核心就是比對不同圖像幀之間的差異來進(jìn)行目標(biāo)運動檢測并通過當(dāng)前幀來進(jìn)行背景幀的更新。假設(shè)當(dāng)前幀與前一幀在同一時間節(jié)點t,同一位置點(x,y)處的灰度值分別為K(x,y,t)和K(x,y,t-1),通過差值運算可得式(3):
幀差法的重心是傾向于相鄰幀的差別比較,師生在區(qū)域范圍內(nèi)運動時相鄰幀之間差異將更明顯,因此幀差法對于運動目標(biāo)的感知更為明顯。經(jīng)處理過的課堂錄制視頻其幀速較快,利用幀差法進(jìn)行目標(biāo)跟蹤能極大程度地降低光線對檢測的影響。
幀差法雖然能夠更加穩(wěn)定地識別運動區(qū)域,但是其對相鄰幀比對的注重使得樣本量不足,分割出的運動區(qū)域易產(chǎn)生空洞。將幀差法和背景差分法聯(lián)合使用,既解決了實時性不強和區(qū)域空洞的問題,也保證了檢測的精度。由于目標(biāo)只占整個圖形區(qū)域的一部分,對圖像分割時需要判斷目標(biāo),因此只篩選有用背景幀信息進(jìn)行比對,整個方法流程如圖6所示。
4.3 運動目標(biāo)跟蹤算法
目標(biāo)跟蹤算法的核心理念就是要保證檢測出來的目標(biāo)在后續(xù)的跟蹤過程中不丟失。因此運動目標(biāo)檢測更加注重標(biāo)記的識別分析,不再需要高精度分析定位來區(qū)分目標(biāo)。
4.3.1 算法比對
運動目標(biāo)的跟蹤是通過連續(xù)圖像幀快速找到預(yù)先標(biāo)記好的目標(biāo),其核心不是差別分析,而是采用高效且具有辨識度的標(biāo)記方法使得在后續(xù)的追蹤中標(biāo)記能夠清晰可見。目前的動態(tài)跟蹤算法大致分為4類,算法對比如表2所示。
4.3.2 HOG+樸素貝葉斯目標(biāo)跟蹤算法
智慧教室擁有多個角度的視頻數(shù)據(jù)輸入源,這也使得特征點的選擇更加精細(xì)。HOG+樸素貝葉斯目標(biāo)跟蹤算法最重要的步驟就是對視頻幀數(shù)據(jù)中被跟蹤目標(biāo)的特征提取以及匹配。該方法框圖如圖7所示。
4.3.3 特征提取
特征提取需要提取被跟蹤目標(biāo)的特征點,該特征點能在整個視頻幀圖像中保持穩(wěn)定不變。特征提取是目標(biāo)跟蹤中最重要的一步,需要抓住本質(zhì)的特征點才能有效地提高特征辨識度。特征往往不能局限于一種,多元特征的提取才能更好地提高算法精確度。
在提取特征點時,為了獲得最大的特征信息量,采取方向梯度直方圖(HOG)。HOG特征主要由被跟蹤目標(biāo)局部區(qū)域梯度方向的直方圖組成,將圖像局部的梯度統(tǒng)計特征拼接起來作為總特征,并通過邊緣密度分布和目標(biāo)表象進(jìn)行跟蹤定位。將HOG特征識別算法作為樣本輸入,通過倍增權(quán)值進(jìn)行更新篩選,并設(shè)計分類器采集圖像的HOG特征[9]。
式中,gi表示由特征值構(gòu)成的分類器,d表示Bhattacharya 距離,θj表示閾值。如圖7所示,HOG特征向量作為算法的輸入,經(jīng)不斷訓(xùn)練產(chǎn)生一系列弱分類器,并將它們級聯(lián)組成性能更好的目標(biāo)跟蹤分類器。
4.3.4 特征匹配
特征匹配是以特征點為基礎(chǔ),通過相應(yīng)幀圖像特征點比對,從而達(dá)到特征點之間的最佳匹配并在此基礎(chǔ)上完成對運動目標(biāo)的跟蹤。為了提高算法的性能進(jìn)而達(dá)到最佳匹配,采用基于樸素貝葉斯分類器的特征匹配來輸出目標(biāo)位置并不斷更新分類器參數(shù)。
5 應(yīng)用與研究
5.1 運動目標(biāo)檢測模擬實驗
本文采用的目標(biāo)檢測算法充分發(fā)揮了幀差法與背景差分法這兩種算法的優(yōu)勢。為了驗證它在目標(biāo)檢測上的實際效果,通過3個算法的性能比對來分析其性能上的差異。
采用智慧教室錄制的一段10 min的超清教學(xué)視頻。高分辨率的圖像能確保更加精細(xì)的比對,從而避免圖像像素對實驗的影響。視頻中包含老師講課畫面、學(xué)生起立回答問題畫面以及板書特寫畫面等。將此視頻作為樣本輸入,通過算法判斷運動目標(biāo)出現(xiàn)的總幀數(shù)以及運動目標(biāo)的大小。通過測定運動目標(biāo)出現(xiàn)總幀數(shù)與預(yù)先測定的準(zhǔn)確幀數(shù)比對,得到目標(biāo)檢測算法的準(zhǔn)確性,其結(jié)果如表3所示。
通過表3可以看出,幀差法在檢測速度上的優(yōu)越性比較大但精度較低,而背景差分法雖然檢測速度較慢但是精度高。背景幀差法結(jié)合了兩者的優(yōu)勢,在保證檢測速度的同時也達(dá)到了90%左右的準(zhǔn)確率,并且能夠一定程度上克服空洞問題。
5.2 運動目標(biāo)跟蹤模擬實驗
根據(jù)智慧教室的特點采用HOG+樸素貝葉斯跟蹤算法,為了驗證此跟蹤算法的實際效果,本文同樣地比對3個跟蹤算法的性能。其結(jié)果如表4所示。
將本文算法與基于灰度標(biāo)識、基于角點標(biāo)識算法進(jìn)行比對,通過檢測連續(xù)時間內(nèi)有效動作跟蹤幀與運動幀總數(shù)的比值得到跟蹤的正確率。從表4中可看出,本文算法的準(zhǔn)確率高于90%,其跟蹤的準(zhǔn)確性相較于其他兩種更具優(yōu)勢。
5.3 運動目標(biāo)定位跟蹤算法實驗
為了驗證運動目標(biāo)定位跟蹤算法的可行性,同樣選取教室攝像頭錄制的10 min教學(xué)視頻進(jìn)行實驗。實驗結(jié)果圖如表5所示。
從表5中可看出系統(tǒng)定位跟蹤的準(zhǔn)確率超過了90%,基本能達(dá)到現(xiàn)場要求。對比老師跟蹤與學(xué)生跟蹤的準(zhǔn)確率,可以發(fā)現(xiàn)老師跟蹤的準(zhǔn)確率比較低,這是因為學(xué)生跟蹤場景更簡單單一。
6 結(jié)論
基于圖像處理的智慧教室錄播系統(tǒng)是一套集音視頻處理、主控人機交互以及多媒體軟硬件配置一體化的協(xié)同運行系統(tǒng)。該系統(tǒng)通過研究師生在教學(xué)過程中的運動,進(jìn)行實時的跟蹤定位以及鏡頭切換。該系統(tǒng)具有以下幾點優(yōu)勢:
(1)圖像處理技術(shù)的使用減少了課堂教學(xué)錄制過程中的人力投入,降低了設(shè)備成本,提高了自動化水平。
(2)提供課堂授課完整資源,供學(xué)生回顧與加強學(xué)習(xí),供老師分析課堂授課效果,了解學(xué)生真實反映情況,以使其進(jìn)行教學(xué)改進(jìn)。
(3)提高知識的傳播效率,進(jìn)一步促進(jìn)了教育資源的網(wǎng)絡(luò)共享,同時也是對教學(xué)模式的一種革新。
參考文獻(xiàn)
[1] 安寧,牛愛芳,齊瑞紅,等.高校智慧教室建設(shè)的探索與思考[J].實驗技術(shù)與管理,2017(5):257-261.
[2] 張軍,黃忠毅,程樊啟.從教學(xué)過程的需求分析錄播系統(tǒng)的發(fā)展趨勢[J].中國電化教育,2019(11):113-115.
[3] 黃山涯.錄播教室的功能設(shè)計及其建設(shè)[J].實驗室研究與探索,2010,29(10):391-393.
[4] 李先友,趙曙光,段永成,等.基于FPGA的實時MIPI CSI-2圖像采集與處理系統(tǒng)[J].電子技術(shù)應(yīng)用,2019,45(1):103-106.
[5] 張志剛,趙振宇,張國兵.圖像識別技術(shù)在網(wǎng)絡(luò)錄播系統(tǒng)中的應(yīng)用研究[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2014(4):7-8.
[6] 高海壯,段先華.基于幀差法和混合高斯的海上運動目標(biāo)檢測[J].計算機與數(shù)字工程,2019,47(5):1140-1144.
[7] 孫挺,齊迎春,耿國華.基于幀間差分和背景差分的運動目標(biāo)檢測算法[J].吉林大學(xué)學(xué)報(工學(xué)版),2016,46(4):1325-1329.
[8] 周劍華.基于智能圖像跟蹤定位的錄播教室視同設(shè)計與實現(xiàn)[D].蘭州:蘭州大學(xué),2018.
[9] 黃友文,萬超倫.基于深度學(xué)習(xí)的人體行為識別算法[J].電子技術(shù)應(yīng)用,2018,44(10):7-11,16.
[10] Shen Bin,Su Xiaoyuan,GREINER R,et al.Discriminative parameter learning of general bayesian network classifiers[C].IEEE International Conference on Tools with Artificial Intelligence,2003:296-305.
作者信息:
鄧小海,姜周曙
(杭州電子科技大學(xué) 自動化學(xué)院,浙江 杭州310000)