《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 嵌入式技術(shù) > 設(shè)計應(yīng)用 > 圖像識別技術(shù)在智慧教室錄播系統(tǒng)中的應(yīng)用研究
圖像識別技術(shù)在智慧教室錄播系統(tǒng)中的應(yīng)用研究
2020年電子技術(shù)應(yīng)用第3期
鄧小海,姜周曙
杭州電子科技大學(xué) 自動化學(xué)院,浙江 杭州310000
摘要: 錄播系統(tǒng)的使用使得教學(xué)資源能夠突破時間與空間的限制,讓優(yōu)秀的教學(xué)資源更加普及大眾。但傳統(tǒng)的錄播操作模式需要人為地操作多個攝像源,這樣不僅操作復(fù)雜,而且效果一般。將圖像識別技術(shù)應(yīng)用于錄播系統(tǒng),既能夠還原本真的課堂,又能充分發(fā)揮技術(shù)對教學(xué)的輔助作用,為教學(xué)活動提供更加高效的錄播服務(wù)。
中圖分類號: TN92
文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.190645
中文引用格式: 鄧小海,姜周曙. 圖像識別技術(shù)在智慧教室錄播系統(tǒng)中的應(yīng)用研究[J].電子技術(shù)應(yīng)用,2020,46(3):92-96.
英文引用格式: Deng Xiaohai,Jiang Zhoushu. Application of image recognition technology in recording and broadcasting system of intelligent classroom[J]. Application of Electronic Technique,2020,46(3):92-96.
Application of image recognition technology in recording and broadcasting system of intelligent classroom
Deng Xiaohai,Jiang Zhoushu
College of Automation,Hangzhou Dianzi University,Hangzhou 310000,China
Abstract: The use of automatic recording and broadcasting system enables teaching resources to break through the limitations of time and space, and make excellent teaching resources more popular with the public. But the traditional operation mode of recording and broadcasting requires artificial operation of multiple camera sources, which is not only complicated but also general in effect. Applying image recognition technology to the recording and broadcasting system can not only restore the authentic classroom, but also give full play to the auxiliary role of technology in teaching and provide more efficient recording and broadcasting services for teaching activities.
Key words : smart classroom;image processing;active recorder;visual tracking

0 引言

    在落實“互聯(lián)網(wǎng)+教育”戰(zhàn)略、深化教育教學(xué)改革的背景下,建設(shè)智慧教室是學(xué)校創(chuàng)新教學(xué)環(huán)境、提升人才培養(yǎng)質(zhì)量的必然選擇[1]。隨著微課、MOOC等移動學(xué)習(xí)方式的興起,將現(xiàn)代教育技術(shù)融入教學(xué)生活并促進教學(xué)改革已成為教育行業(yè)研究的熱點。

    傳統(tǒng)的錄制方式難以滿足人們對優(yōu)質(zhì)教學(xué)資源的需求,智慧教室錄播系統(tǒng)能夠智能高效地完成整個教學(xué)過程的錄制并根據(jù)不同的需求生成對應(yīng)的教學(xué)文件[2]?;?a class="innerlink" href="http://ihrv.cn/tags/圖像處理" target="_blank">圖像處理的錄播系統(tǒng)使得智慧教室成為了優(yōu)秀的教學(xué)成果展示平臺,也進一步促進了移動學(xué)習(xí)模式的發(fā)展。

1 錄播系統(tǒng)概述

1.1 自動錄播系統(tǒng)概述

    自動錄播系統(tǒng)主要由跟蹤定位系統(tǒng)、音視頻信號采集與處理系統(tǒng)、錄播主控系統(tǒng)3個子系統(tǒng)構(gòu)成[3]。錄播系統(tǒng)能完整地記錄教學(xué)過程,并且根據(jù)授課時間自動生成教學(xué)錄像,多路原始文件的保留模式也使得編輯更加方便。錄播系統(tǒng)不僅能以直播的形式提供教學(xué),還能在網(wǎng)上重復(fù)播放。

1.2 錄播系統(tǒng)中的跟蹤技術(shù)

    跟蹤技術(shù)作為錄播系統(tǒng)的核心技術(shù)之一,其主要功能就是在課堂中對老師和學(xué)生進行跟蹤。錄播的畫面質(zhì)量直接影響受眾的學(xué)習(xí)體驗,而圖像跟蹤的準確性與實時性是影響畫面質(zhì)量的重要因素?,F(xiàn)今的跟蹤技術(shù)主要有4種:

    (1)紅外線感應(yīng)跟蹤

    此技術(shù)通過在師生身上放置的紅外信號源,并根據(jù)接收到的紅外信號進行目標跟蹤定位以及相應(yīng)的攝像機拍攝方位調(diào)整。這種需要輔助設(shè)備的跟蹤技術(shù)并不智能,收發(fā)信號的裝置繁瑣,并且無法精細地了解節(jié)點信號變化,這都局限了其適用范圍。

    (2)超聲波定位技術(shù)

    超聲波定位與紅外感應(yīng)技術(shù)在原理上有異曲同工之處,差別在于所采用的信號源是超聲波而不是紅外,安裝的位置也從人身上移動到了黑板桌椅上。雖然此技術(shù)操作簡單、技術(shù)成熟,但是無法確定被拍攝對象的高度,而且拍攝的精度也無法得到保障。

    (3)空間網(wǎng)格定位技術(shù)

    空間網(wǎng)格劃分是將一個教室三維空間劃分為包含多個矩形網(wǎng)格的三維空間,通過計算師生的三維坐標從而實現(xiàn)追蹤。這是一項較為先進的技術(shù),能夠精確地捕捉師生互動的細節(jié)。由于高額的安裝成本以及其對安裝性能的高要求,這項技術(shù)的使用并不廣泛。

    (4)圖像識別技術(shù)

    前3種跟蹤定位技術(shù)都是基于輔助設(shè)備,不利于系統(tǒng)的集成,也無法通過控制硬件設(shè)備來降低系統(tǒng)成本。圖像定位技術(shù)能夠根據(jù)師生在畫面中的差異自動識別并進行動態(tài)跟蹤。此技術(shù)無需配備專門的信號裝置,多素材的輸入也使得計算與優(yōu)化更加精準,是眾多跟蹤技術(shù)中最為有效的方式之一[4]。

2 智慧教室錄播系統(tǒng)整體框架

2.1 智慧教室系統(tǒng)模型

    基于圖像識別技術(shù)的智慧教室系統(tǒng)主要由物理空間、交互空間、資源空間以及數(shù)據(jù)一體化組成,系統(tǒng)模型如圖1所示。

jsj2-t1.gif

2.2 錄播系統(tǒng)模型

    錄播系統(tǒng)所產(chǎn)生的錄播資源是智慧教室系統(tǒng)資源空間建設(shè)的主要來源之一,系統(tǒng)框架如圖2所示。

jsj2-t2.gif

2.3 系統(tǒng)各模塊說明

    (1)圖像跟蹤定位模塊

    圖像跟蹤模塊由4個子模塊構(gòu)成,它們相互合作,共同完成教室內(nèi)師生的檢測與跟蹤。此模塊根據(jù)圖像的差異匹配相應(yīng)的控制策略驅(qū)動系統(tǒng)內(nèi)的攝像機進行智能跟蹤定位并對師生運動軌跡進行識別分析,以此來實現(xiàn)對授課場景的特寫、鏡頭切換等相關(guān)錄制。同時在不同的場景下能實現(xiàn)多目標的追蹤及鏡頭切換。

    (2)音源抓取與后期處理模塊

    音質(zhì)的好壞往往決定了整體的錄播質(zhì)量。如果對教室噪聲、背景音處理不當(dāng),將會使得有效音源的清晰度降低。錄播系統(tǒng)中的音頻數(shù)字信號處理能有效地處理噪聲問題并且達到有效音優(yōu)化擴音的效果。教室的多個拾音器采集音頻信號傳到主控系統(tǒng)進行聲音的去分化處理,進而提高錄制視頻的音質(zhì)。

    (3)錄播主控模塊

    錄播系統(tǒng)最核心的模塊就是錄播主控模塊,其余模塊皆為其服務(wù)。錄播主機集數(shù)據(jù)采集、錄播平臺軟件、數(shù)據(jù)處理于一體,因而系統(tǒng)集成度高,并且能夠?qū)崿F(xiàn)系統(tǒng)的小型化,便于操作。錄播主控模塊還能實現(xiàn)視頻影音的智能導(dǎo)播、智能直播、攝像機的智能控制等功能。錄播框架圖如圖3所示。

jsj2-t3.gif

3 控制策略

3.1 畫面切換策略

    視頻錄像的時候根據(jù)畫面要呈現(xiàn)的效果需要進行畫面的切換以及人物的特寫,這也就意味著控制中心要清晰地知道畫面切換的控制策略,并根據(jù)相應(yīng)的輸入對多個視頻輸入源進行數(shù)據(jù)切換[5]。根據(jù)教學(xué)過程的特征以及可能出現(xiàn)的場景,給出了如圖4所示的畫面切換控制策略。

jsj2-t4.gif

3.2 目標跟蹤策略

    錄播系統(tǒng)所表現(xiàn)出的智能化就是依靠它的目標跟蹤策略,主要通過圖像對三維空間建模并計算師生的三維空間坐標,從而實現(xiàn)定位及跟蹤。由于師生在教室中的活動空間有較大的差異,因而根據(jù)師生的運動特性分別制定跟蹤策略。

    (1)學(xué)生跟蹤策略

    在一般的教學(xué)活動過程中,學(xué)生大多只會出現(xiàn)起立回答問題這一單一事件,他們在三維空間中大體只會呈現(xiàn)縱向位移而不會有橫向位移,因此只需在視頻相鄰的幀畫面中判斷學(xué)生座位圖像區(qū)域的圖像輪廓是否發(fā)生了明顯變化。

    (2)老師跟蹤策略

    在教學(xué)過程中,大多數(shù)時間老師占據(jù)的是主導(dǎo)位置,因而在授課過程中老師的移動更加隨意,但大多數(shù)時候總是圍繞在講臺周圍。在簡化模型的情況下,檢測老師在講臺水平空間的位置信息和輪廓高度信息,根據(jù)這些信息調(diào)整攝像頭實現(xiàn)定位跟蹤。

4 基于圖像識別的運動目標定位跟蹤算法

4.1 算法概述

    基于圖像識別的運動目標定位跟蹤算法能在課堂人數(shù)眾多且背景復(fù)雜的條件下對視頻流數(shù)據(jù)中的目標進行精確的識別與跟蹤。該算法將獲取的視頻流幀序列進行精細劃分并在幀序列的處理中引入了背景幀差目標檢測算法以及特征識別目標跟蹤算法[6]。算法整體流程圖如圖5所示。

jsj2-t5.gif

4.2 運動目標自動檢測算法

    運動目標檢測算法基于圖像分割技術(shù),通過剔除圖像幀序列的固定背景檢測出運動的物體。然而檢測的準確性受到光線變化、攝像機抖動、背景改變等因素的影響,這也直接影響了對后續(xù)目標的跟蹤和行為分析的準確性[7]。

    (1)算法比對

    目標檢測算法根據(jù)背景的差異劃分成為兩個類別,即靜態(tài)背景和動態(tài)背景。由于智慧教室錄播系統(tǒng)中所使用的攝像機在整個錄播過程中相對固定,因此根據(jù)這一特性在教室目標檢測算法中采用靜態(tài)背景?;陟o態(tài)背景的目標檢測算法主要有3種,其對比如表1所示。

jsj2-b1.gif

    (2)改進背景幀差目標檢測算法

    智慧教室錄播系統(tǒng)中有多個視頻流數(shù)據(jù)采集點,也為同一目標提供不同的背景差比對,能進一步提高檢測的精度。背景差分法的核心就是利用視頻幀圖像與預(yù)設(shè)背景的差異分離出運動目標。

    建立一個符合要求的背景模型能在一定程度上減小光線、抖動等因素帶來的干擾。由于智慧教室背景的特性,因此采用高斯背景建模。高斯背景建模是基于混合高斯模型來對樣品進行建模,根據(jù)圖像理論,連續(xù)視頻幀序列的每個像素點在基礎(chǔ)噪聲的影響下,像素點的灰度值變化都呈現(xiàn)出高斯分布,當(dāng)特定幀之間像素差小于閾值時[8],則認為像素?zé)o明顯變化即為背景;否則為目標運動區(qū)域,系統(tǒng)模型參數(shù)也應(yīng)隨著目標運動進行更新,參數(shù)更新如式(1)和式(2)所示。

    jsj2-gs1-2.gif

式中,μ和σ分別表示均值和方差,K為特定幀,α為比例系數(shù),(x,y)為特定幀中的位置點。

    比例系數(shù)α的更新將使算法能在連續(xù)的視頻幀圖像中及時刷新背景,從而在視頻幀序列中實現(xiàn)目標的實時檢測。智慧教室多個超清攝像頭采集的視頻數(shù)據(jù)也為算法提供了足夠全面清晰的背景對比數(shù)據(jù)。然而差分法對目標速度變化不敏感且背景實時更新困難,導(dǎo)致其在動態(tài)目標追蹤的過程中實時性不高。

    幀差法的核心就是比對不同圖像幀之間的差異來進行目標運動檢測并通過當(dāng)前幀來進行背景幀的更新。假設(shè)當(dāng)前幀與前一幀在同一時間節(jié)點t,同一位置點(x,y)處的灰度值分別為K(x,y,t)和K(x,y,t-1),通過差值運算可得式(3):

     jsj2-gs3-4.gif

    幀差法的重心是傾向于相鄰幀的差別比較,師生在區(qū)域范圍內(nèi)運動時相鄰幀之間差異將更明顯,因此幀差法對于運動目標的感知更為明顯。經(jīng)處理過的課堂錄制視頻其幀速較快,利用幀差法進行目標跟蹤能極大程度地降低光線對檢測的影響。

    幀差法雖然能夠更加穩(wěn)定地識別運動區(qū)域,但是其對相鄰幀比對的注重使得樣本量不足,分割出的運動區(qū)域易產(chǎn)生空洞。將幀差法和背景差分法聯(lián)合使用,既解決了實時性不強和區(qū)域空洞的問題,也保證了檢測的精度。由于目標只占整個圖形區(qū)域的一部分,對圖像分割時需要判斷目標,因此只篩選有用背景幀信息進行比對,整個方法流程如圖6所示。

jsj2-t6.gif

4.3 運動目標跟蹤算法

    目標跟蹤算法的核心理念就是要保證檢測出來的目標在后續(xù)的跟蹤過程中不丟失。因此運動目標檢測更加注重標記的識別分析,不再需要高精度分析定位來區(qū)分目標。

4.3.1 算法比對

    運動目標的跟蹤是通過連續(xù)圖像幀快速找到預(yù)先標記好的目標,其核心不是差別分析,而是采用高效且具有辨識度的標記方法使得在后續(xù)的追蹤中標記能夠清晰可見。目前的動態(tài)跟蹤算法大致分為4類,算法對比如表2所示。

jsj2-b2.gif

4.3.2 HOG+樸素貝葉斯目標跟蹤算法

    智慧教室擁有多個角度的視頻數(shù)據(jù)輸入源,這也使得特征點的選擇更加精細。HOG+樸素貝葉斯目標跟蹤算法最重要的步驟就是對視頻幀數(shù)據(jù)中被跟蹤目標的特征提取以及匹配。該方法框圖如圖7所示。

jsj2-t7.gif

4.3.3 特征提取

    特征提取需要提取被跟蹤目標的特征點,該特征點能在整個視頻幀圖像中保持穩(wěn)定不變。特征提取是目標跟蹤中最重要的一步,需要抓住本質(zhì)的特征點才能有效地提高特征辨識度。特征往往不能局限于一種,多元特征的提取才能更好地提高算法精確度。

    在提取特征點時,為了獲得最大的特征信息量,采取方向梯度直方圖(HOG)。HOG特征主要由被跟蹤目標局部區(qū)域梯度方向的直方圖組成,將圖像局部的梯度統(tǒng)計特征拼接起來作為總特征,并通過邊緣密度分布和目標表象進行跟蹤定位。將HOG特征識別算法作為樣本輸入,通過倍增權(quán)值進行更新篩選,并設(shè)計分類器采集圖像的HOG特征[9]。

jsj2-gs5-6.gif

式中,gi表示由特征值構(gòu)成的分類器,d表示Bhattacharya 距離,θj表示閾值。如圖7所示,HOG特征向量作為算法的輸入,經(jīng)不斷訓(xùn)練產(chǎn)生一系列弱分類器,并將它們級聯(lián)組成性能更好的目標跟蹤分類器。

4.3.4 特征匹配

    特征匹配是以特征點為基礎(chǔ),通過相應(yīng)幀圖像特征點比對,從而達到特征點之間的最佳匹配并在此基礎(chǔ)上完成對運動目標的跟蹤。為了提高算法的性能進而達到最佳匹配,采用基于樸素貝葉斯分類器的特征匹配來輸出目標位置并不斷更新分類器參數(shù)。

jsj2-gs7-10.gif

5 應(yīng)用與研究

5.1 運動目標檢測模擬實驗

    本文采用的目標檢測算法充分發(fā)揮了幀差法與背景差分法這兩種算法的優(yōu)勢。為了驗證它在目標檢測上的實際效果,通過3個算法的性能比對來分析其性能上的差異。

    采用智慧教室錄制的一段10 min的超清教學(xué)視頻。高分辨率的圖像能確保更加精細的比對,從而避免圖像像素對實驗的影響。視頻中包含老師講課畫面、學(xué)生起立回答問題畫面以及板書特寫畫面等。將此視頻作為樣本輸入,通過算法判斷運動目標出現(xiàn)的總幀數(shù)以及運動目標的大小。通過測定運動目標出現(xiàn)總幀數(shù)與預(yù)先測定的準確幀數(shù)比對,得到目標檢測算法的準確性,其結(jié)果如表3所示。

jsj2-b3.gif

    通過表3可以看出,幀差法在檢測速度上的優(yōu)越性比較大但精度較低,而背景差分法雖然檢測速度較慢但是精度高。背景幀差法結(jié)合了兩者的優(yōu)勢,在保證檢測速度的同時也達到了90%左右的準確率,并且能夠一定程度上克服空洞問題。

5.2 運動目標跟蹤模擬實驗

    根據(jù)智慧教室的特點采用HOG+樸素貝葉斯跟蹤算法,為了驗證此跟蹤算法的實際效果,本文同樣地比對3個跟蹤算法的性能。其結(jié)果如表4所示。

jsj2-b4.gif

    將本文算法與基于灰度標識、基于角點標識算法進行比對,通過檢測連續(xù)時間內(nèi)有效動作跟蹤幀與運動幀總數(shù)的比值得到跟蹤的正確率。從表4中可看出,本文算法的準確率高于90%,其跟蹤的準確性相較于其他兩種更具優(yōu)勢。

5.3 運動目標定位跟蹤算法實驗

    為了驗證運動目標定位跟蹤算法的可行性,同樣選取教室攝像頭錄制的10 min教學(xué)視頻進行實驗。實驗結(jié)果圖如表5所示。

jsj2-b5.gif

    從表5中可看出系統(tǒng)定位跟蹤的準確率超過了90%,基本能達到現(xiàn)場要求。對比老師跟蹤與學(xué)生跟蹤的準確率,可以發(fā)現(xiàn)老師跟蹤的準確率比較低,這是因為學(xué)生跟蹤場景更簡單單一。

6 結(jié)論

    基于圖像處理的智慧教室錄播系統(tǒng)是一套集音視頻處理、主控人機交互以及多媒體軟硬件配置一體化的協(xié)同運行系統(tǒng)。該系統(tǒng)通過研究師生在教學(xué)過程中的運動,進行實時的跟蹤定位以及鏡頭切換。該系統(tǒng)具有以下幾點優(yōu)勢:

    (1)圖像處理技術(shù)的使用減少了課堂教學(xué)錄制過程中的人力投入,降低了設(shè)備成本,提高了自動化水平。

    (2)提供課堂授課完整資源,供學(xué)生回顧與加強學(xué)習(xí),供老師分析課堂授課效果,了解學(xué)生真實反映情況,以使其進行教學(xué)改進。

    (3)提高知識的傳播效率,進一步促進了教育資源的網(wǎng)絡(luò)共享,同時也是對教學(xué)模式的一種革新。

參考文獻

[1] 安寧,牛愛芳,齊瑞紅,等.高校智慧教室建設(shè)的探索與思考[J].實驗技術(shù)與管理,2017(5):257-261.

[2] 張軍,黃忠毅,程樊啟.從教學(xué)過程的需求分析錄播系統(tǒng)的發(fā)展趨勢[J].中國電化教育,2019(11):113-115.

[3] 黃山涯.錄播教室的功能設(shè)計及其建設(shè)[J].實驗室研究與探索,2010,29(10):391-393.

[4] 李先友,趙曙光,段永成,等.基于FPGA的實時MIPI CSI-2圖像采集與處理系統(tǒng)[J].電子技術(shù)應(yīng)用,2019,45(1):103-106.

[5] 張志剛,趙振宇,張國兵.圖像識別技術(shù)在網(wǎng)絡(luò)錄播系統(tǒng)中的應(yīng)用研究[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2014(4):7-8.

[6] 高海壯,段先華.基于幀差法和混合高斯的海上運動目標檢測[J].計算機與數(shù)字工程,2019,47(5):1140-1144.

[7] 孫挺,齊迎春,耿國華.基于幀間差分和背景差分的運動目標檢測算法[J].吉林大學(xué)學(xué)報(工學(xué)版),2016,46(4):1325-1329.

[8] 周劍華.基于智能圖像跟蹤定位的錄播教室視同設(shè)計與實現(xiàn)[D].蘭州:蘭州大學(xué),2018.

[9] 黃友文,萬超倫.基于深度學(xué)習(xí)的人體行為識別算法[J].電子技術(shù)應(yīng)用,2018,44(10):7-11,16.

[10] Shen Bin,Su Xiaoyuan,GREINER R,et al.Discriminative parameter learning of general bayesian network classifiers[C].IEEE International Conference on Tools with Artificial Intelligence,2003:296-305.



作者信息:

鄧小海,姜周曙

(杭州電子科技大學(xué) 自動化學(xué)院,浙江 杭州310000)

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。