文獻(xiàn)標(biāo)識碼: A
DOI:10.16157/j.issn.0258-7998.2018.S1.030
0 引言
近年來隨著移動(dòng)通信的快速發(fā)展,手持終端在電力行業(yè)的應(yīng)用也越來越多。在電力現(xiàn)場,施工人員用手持終端完成業(yè)務(wù)流程,用圖片和視頻等記錄施工現(xiàn)場,降低了電力行業(yè)的管理成本,提高了工作效率,加強(qiáng)了對業(yè)務(wù)的管理。但是現(xiàn)場施工人員依然需要輸入較多的文字信息,特別是在輸入所維護(hù)設(shè)備的設(shè)備型號和設(shè)備編號時(shí),型號和編號一般是比較長的英文字母和數(shù)字組合,難以記憶,容易輸入錯(cuò)誤。從視頻中提取設(shè)備型號和編號實(shí)現(xiàn)自動(dòng)錄入將降低施工人員信息輸入難度,減少工作失誤。然而,施工現(xiàn)場光照條件難以預(yù)計(jì),拍攝角度不定,如何準(zhǔn)確地定位視頻中文字的位置以便進(jìn)行進(jìn)一步文字識別仍是一個(gè)技術(shù)難題。
文字作為高抽象化的信息載體,在信息交互過程中起著重要作用。隨著智能終端的普及和虛擬現(xiàn)實(shí)、增強(qiáng)現(xiàn)實(shí)等新概念、新技術(shù)不斷發(fā)展,文字檢測技術(shù)的應(yīng)用空間正呈現(xiàn)飛躍式的發(fā)展。在日常生活中,有很多場合適合或已經(jīng)正在使用文字檢測技術(shù)來改善我們的體驗(yàn)。比如,在視頻會(huì)議過程中自動(dòng)定位文字,進(jìn)而進(jìn)行關(guān)鍵文檔區(qū)域的局部增強(qiáng)、放大或自動(dòng)保存。其它較為典型的例子還包括,智能輔助駕駛系統(tǒng)通過文字檢測技術(shù)進(jìn)行的道路交通標(biāo)識識別,智能手機(jī)里的視頻取景自動(dòng)翻譯功能等。在過去的幾年里,依托圖像、視頻文字定位技術(shù)有大量諸如此類的應(yīng)用衍生。
現(xiàn)有的文字定位算法可以初略劃分為三類:基于紋理分析的方法、基于區(qū)域分析的方法以及混合算法?;诩y理分析的方法[1]認(rèn)為文字區(qū)域與其它類型目標(biāo)的紋理特性相比具有較大的差異,一般借助空間濾波、局部強(qiáng)度分析或小波分析等傳統(tǒng)技術(shù)進(jìn)行紋理信息的提取。此類方法的一個(gè)主要缺點(diǎn)是,紋理特征模型只能適應(yīng)特定朝向的文字,不能應(yīng)對文字在影像內(nèi)的幾何變換,因此算法的遷移能力較差。基于區(qū)域分析的方法[2]是以邊沿檢測、聚類分析等方法確定備選的文字區(qū)域,進(jìn)而用特定的啟發(fā)式策略逐一排除非文字區(qū)域?;旌纤惴梢跃C合前兩者的優(yōu)勢,能夠應(yīng)對圖像的尺度變換、旋轉(zhuǎn)等干擾因素[3]。但這類算法往往需要建立復(fù)雜的決策規(guī)則或計(jì)算大量的模型參數(shù),因此實(shí)用性受到很大限制。
相對于靜態(tài)的圖像數(shù)據(jù)而言,視頻數(shù)據(jù)的時(shí)空線索在文字定位、分析過程中具有獨(dú)特的優(yōu)勢。近年來,研究者們已經(jīng)對視頻文字定位問題做出了很多有益的探索。然而,目前而言仍然有很多問題還沒有得到很好的解決,比如強(qiáng)烈的尺度變化、畸變、遮擋、成像質(zhì)量退化等[4]。針對圖像文字識別過程中文字形狀畸變的問題,基于連通區(qū)域分析的方法[5]取得了一定的效果。該方法在顏色量化后通過區(qū)域增長將空間近鄰并且特征相似的像素連接成相連通的區(qū)域,不易受文字形狀拓?fù)渥兓挠绊?。遺憾的是,基于連通區(qū)域分析的方法其效果對影像質(zhì)量的依賴程度較高,而視頻數(shù)據(jù)在增加時(shí)間分辨率的同時(shí)往往要犧牲成像質(zhì)量。對于成像尺度因素,文獻(xiàn)[6]Wu等人在多個(gè)尺度上進(jìn)行紋理特征分析,取得不錯(cuò)的效果。但該方法計(jì)算代價(jià)較高,在處理視頻數(shù)據(jù)時(shí)難以滿足實(shí)時(shí)性的要求。Garcia和Apostolidis[7]提出一種邊緣朝向變異特征,該特征能有效刻畫文字區(qū)域由于筆劃朝向多樣性所帶來的邊緣朝向分布特性。Shivakumara等人[8]基于邊緣特征,以貝葉斯分類器進(jìn)行像素級的分類,進(jìn)而通過區(qū)域增長技術(shù)得到文字區(qū)域。這一類方法能夠應(yīng)對文字旋轉(zhuǎn)因素,但難以檢測到平行筆劃較多的文字。
本文提供了一種魯棒的視頻文本定位方法,該方法以改進(jìn)的連通區(qū)域分析框架有效應(yīng)對文字旋轉(zhuǎn)、畸變和尺度變化因素,并利用子域映射技術(shù)以保障在視頻數(shù)據(jù)中獲取充分的信息。
1 方法
本文所提出的方法以迭代模式進(jìn)行視頻文字定位,其技術(shù)流程如圖1所示。該方法有五個(gè)主要的技術(shù)模塊:數(shù)據(jù)增強(qiáng)用以提升邊緣響應(yīng)的對比度;連通區(qū)域分析用以連接備選文字像素;幀間校驗(yàn)用以甄選備選的文字區(qū)域;子域映射用以挖掘多通道顏色信息進(jìn)行備選區(qū)域的描述;分類進(jìn)行特征描述與分類以實(shí)現(xiàn)文字區(qū)域與非文字區(qū)域的判別。
1.1 數(shù)據(jù)增強(qiáng)
邊緣是在影像中進(jìn)行物體劃分最直觀的物理屬性。通常而言,影像中的文字與其背景介質(zhì)相比具有極高的對比度。因此,在分割文字目標(biāo)時(shí),邊緣信息能夠提供強(qiáng)有效的線索。然而,由于視頻數(shù)據(jù)的幀率較高,單幀影像的曝光時(shí)間較短,導(dǎo)致影像中邊緣模糊、對比度下降、噪聲增強(qiáng)等質(zhì)量退化問題。對此,本文以二階拉普拉斯算子進(jìn)行視頻數(shù)據(jù)的邊緣增強(qiáng)[9],提升邊緣信息的對比度。
首先,采用亮度-色度顏色空間對影像進(jìn)行表達(dá)。然后,針對亮度通道進(jìn)行差分操作獲取圖像邊緣,并在亮度通道對邊緣位置的像素進(jìn)行增強(qiáng)。具體算子定義如下:
式中,l(x,y)為(x,y)位置的原始亮度值,f(x,y)為增強(qiáng)后的亮度值。最后,采用形態(tài)學(xué)閉操作填充局部不相一致的像素。
以上策略一方面可以羽化邊緣,從而使得文字的邊緣與背景介質(zhì)的對比度加大;另一方面還可以抑制噪聲,使得到針對每個(gè)目標(biāo)可以獲取較為平滑的邊緣。
1.2 子域映射
視頻文字定位問題的另一個(gè)關(guān)鍵是顏色的表達(dá)。計(jì)算機(jī)視頻采用的顏色模型為RGB三基色模型,該模型便于顏色的硬件實(shí)現(xiàn)而不能很好地?cái)M合人的主觀視覺體驗(yàn)。生理心理學(xué)的有關(guān)研究表明,人類感知系統(tǒng)的早期視覺感知符合拮抗原則(視覺四色說)而非混合原則(視覺三色說)[10]。色覺拮抗原則認(rèn)為人眼對光反應(yīng)的基本視覺單位是成對組織的,包括紅-綠、黃-藍(lán)兩對原色,加上黑-白共組成三對拮抗。也就是說,色度-亮度分離的顏色空間,比如Lab、YCbCr、HSV等,更符合人的感知。然而,目前為止并沒有單獨(dú)一種顏色模型能夠充分契合人的顏色感知過程。如何綜合多種顏色空間而挖掘其中最為本質(zhì)的顏色子域以有效表征顏色,是一個(gè)值得深入研究的問題。對此,機(jī)器學(xué)習(xí)領(lǐng)域中有很多線性、非線性的特征抽取技術(shù)能夠發(fā)揮作用。
本文以主成分分析(principle component analysis,PCA)為例來說明顏色模型的子域映射方法。視頻數(shù)據(jù)以{Xi,t}=i,1,2,…,N,t=1,2,…,M表示,其中N為單幀中的像素?cái)?shù),M是幀數(shù)。Xi,t是像素的9維顏色向量[h,s,v,L,a,b,Y,Cb,Cr],分別對于HSV、Lab、YCbCr顏色空降的三個(gè)通道。依據(jù)該數(shù)據(jù)計(jì)算協(xié)方差矩陣:
1.3 連通區(qū)域分析
本文基于連通區(qū)域分析框架進(jìn)行文字成分提取。連通區(qū)域(Connected Component)一般是指影像中取值相同且將空間上具有連續(xù)關(guān)系的像素點(diǎn)組成的圖像區(qū)域。連通區(qū)域分析(Connected Component Analysis)旨在將圖像中的各個(gè)連通區(qū)域找出并標(biāo)記。再此基礎(chǔ)上,后續(xù)進(jìn)一步的處理、分析過程可以各個(gè)群體為單位進(jìn)行。
本文的連通區(qū)域分析過程包含4個(gè)環(huán)節(jié):(1)在子域映射表達(dá)后對連續(xù)5幀的影像進(jìn)行聚類分析,賦予每個(gè)像素以類別標(biāo)簽;(2)對每幀影像單獨(dú)進(jìn)行連通區(qū)標(biāo)記;(3)對連通區(qū)域標(biāo)記蒙板進(jìn)行形態(tài)學(xué)閉操作,消除較小的孤立團(tuán)(約5個(gè)像素);(4)對相鄰兩幀影像所標(biāo)定的連通區(qū)域計(jì)算交疊面積,并將交疊面積較低的連通區(qū)域去除。
聚類過程中以k均值算法實(shí)現(xiàn)類簇的劃分。設(shè)qi,t為第t幀標(biāo)簽為i的連通區(qū)域,若qi,t與其前一幀關(guān)聯(lián)區(qū)域qj,t-1的重疊比R小于0.5,則排除qi,t。j與R通過以下公式確定:
1.4 文字分類
經(jīng)過連通區(qū)域標(biāo)記后,我們從原始影像中獲取了一些文字目標(biāo)疑區(qū)。對于這些文字目標(biāo)疑區(qū),傳統(tǒng)的方法設(shè)定了一系列的針對形狀輪廓、邊緣朝向等方面的啟發(fā)式規(guī)則來最終判別該區(qū)域是否包含文字,比如筆畫寬度變化(Stroke Width Transform)[2]、邊緣朝向變異性[7]等。這些啟發(fā)式規(guī)則通常是針對特定的語種和特定的問題背景來設(shè)立,因此在使用過程中具有較大的局限性。得益于機(jī)器學(xué)習(xí)和模式識別領(lǐng)域的飛速發(fā)展,有很多優(yōu)秀的工具能夠以強(qiáng)大的學(xué)習(xí)能力在大量數(shù)據(jù)中建立模式,支撐我們進(jìn)行數(shù)據(jù)驅(qū)動(dòng)的算法設(shè)計(jì)。
針對文字定位這一特定任務(wù),本文以矩朝向直方圖(Histogram of Oriented Moments,HOM)[11]進(jìn)性文字目標(biāo)疑區(qū)的特征描述。HOM特征針對待測區(qū)域以二階幾何矩檢測朝向,以直方圖統(tǒng)計(jì)的方式描述待測區(qū)域的主朝向,具有旋轉(zhuǎn)、尺度、拓?fù)渥儞Q不變性。HOM特征提取形式如圖3所示。在得到文字疑區(qū)的特征表達(dá)之后,本文以SVM算法進(jìn)行二分類鑒別,最終判定待測區(qū)域是否為文字區(qū)域。
2 實(shí)驗(yàn)與分析
為了驗(yàn)證本文所提方法的有效性,實(shí)驗(yàn)中采用公開數(shù)據(jù)集ICDAR 2013[12]對算法的性能進(jìn)行分析。ICDAR 2013數(shù)據(jù)集包含24段不同場景的視頻,視頻中有不同類型的文字呈現(xiàn),包括不同字體、尺度、朝向。本文所提方法的模型參數(shù)是在ICDAR 2013數(shù)據(jù)集的訓(xùn)練集上進(jìn)行學(xué)習(xí),分類過程中的SVM算法采用RBF核函數(shù)。實(shí)驗(yàn)中選用了4種現(xiàn)有算法進(jìn)行比較分析,算法的性能以3個(gè)指標(biāo)進(jìn)行評價(jià):準(zhǔn)確率(Precision)、召回率(Recall)、F分?jǐn)?shù)(F-measure)。
表1給出了本文所提出的算法與4種對比算法的結(jié)果比較。從表中可以看出,本文的算法在3個(gè)性能指標(biāo)上都明顯優(yōu)于對比算法。為了進(jìn)一步解析本文算法性能優(yōu)勢的來源,實(shí)驗(yàn)中分離了算法主要環(huán)節(jié)的作用,結(jié)果如表2所示。其中需要特別說明的是,排除子域映射是指算法直接以RGB顏色模型進(jìn)行顏色表達(dá);排除連通區(qū)域分析是指算法直接與滑窗方式檢測文字,以窗口內(nèi)的邊緣特征作為特征輸入;排除SVM分類是指算法在HOM特征提取后以硬分割方式判定是否為文字區(qū)域。從表2中可以看出,排除特定策略后本文的算法性能顯著退化。由此可以推斷,本文算法中這些主要環(huán)節(jié)的策略都是有效的、必要的。
3 結(jié)束語
隨著現(xiàn)代網(wǎng)絡(luò)通訊技術(shù)的飛速發(fā)展,視頻數(shù)據(jù)已逐漸成為人們交流信息的主要載體。在視覺數(shù)據(jù)中,常常會(huì)攜帶一些文字,而這些文字往往包含著影像內(nèi)的重要信息,比如交通標(biāo)識、數(shù)據(jù)報(bào)表、演示文稿等。因此,對視頻內(nèi)的文字進(jìn)行精準(zhǔn)定位進(jìn)而準(zhǔn)確識別,在視頻內(nèi)容的高層語義理解過程中起著極其重要的作用。自然場景的視頻數(shù)據(jù)由于成像條件復(fù)雜,給文字定位帶來了很多技術(shù)難點(diǎn),比如成像尺度變化、畸變、遮擋、成像質(zhì)量退化等。
本文提供了一種魯棒的視頻文本定位方法,該方法以改進(jìn)的連通區(qū)域分析框架有效應(yīng)對文字旋轉(zhuǎn)、畸變和尺度變化因素,并利用子域映射技術(shù)進(jìn)行顏色空間的表達(dá)以保障在視頻數(shù)據(jù)中獲取充分的信息。實(shí)驗(yàn)結(jié)果表明,本文所提出的算法較對比算法而言具有更好的文字定位效果,且其中所涉及的核心策略對算法的總體性能都起到了積極的保障作用。
基于子域映射的視頻文字定位方法在電力現(xiàn)場手持終端中的應(yīng)用能降低電力現(xiàn)場施工人員的文字信息輸入難度,提高工作效率,減少工作失誤,為電力現(xiàn)場手持終端的普及應(yīng)用提供了必要的技術(shù)手段。
參考文獻(xiàn)
[1] CHEN X, YUILLE A L. Detecting and reading text in natural scenes[C]. IEEE Conference on Computer Vision and Pattern Recognition. 2004: 366-373.
[2] EPSHTEIN B, OFEK E, WEXLER Y. Detecting text in natural scenes with stroke width transform[C]. IEEE Conference on Computer Vision and Pattern Recognition. 2010: 2963-2970.
[3] SHIVAKUMARA P, PHAN T Q, TAN C L. A laplacian approach to multi-oriented text detection in video [J]. IEEE Transactions on Pattern Analysis & Machine Intelligence. 2011, 33(2): 412-9.
[4] ZHANG J, KASTURI R. Extraction of text objects in video documents: recent progress[C]. IAPR International Workshop on Document Analysis Systems. 2008: 5-17.
[5] ZHONG Y, KARU K, JAIN A K. Locating text in complex color images[C]. International Conference on Document Analysis and Recognition. 2002: 146.
[6] WU V, MANMATHA R, RISEMAN E M. Finding text in images [C]. ACM International Conference on Digital Libraries. 1997: 23-26.
[7] GARCIA C, APOSTOLIDIS X. Text detection and segmentation in complex color images[C]. IEEE International Conference on Acoustics, Speech, and Signal Processing. 2002: 2326-2329.
[8] SHIVAKUMARA P, SREEDHAR R P, PHAN T Q, et al. Multioriented video scene text detection through bayesian classification and boundary growing [J]. IEEE Transactions on Circuits & Systems for Video Technology. 2012, 22(8): 1227-1235.
[9] MA T, LI L, JI S, et al. Optimized laplacian image sharpening algorithm based on graphic processing unit [J]. Physica A Statistical Mechanics & Its Applications. 2014, 416: 400-410.
[10] BUCHSBAUM G, GOTTSCHALK A. Trichromacy, opponent colours coding and optimum colour information transmission in the retina [J]. Proceedings of the Royal Society of London. 1983, 220(1218): 89.
[11] KHARE V, SHIVAKUMARA P, RAVEENDRAN P. A new histogram oriented moments descriptor for multi-oriented moving text detection in video[J]. Expert Systems with applications. 2015, 42(21): 7627-7640.
[12] KARATZAS D, SHAFAIT F, UCHIDA S, et al. ICDAR 2013 robust reading competition[C]. International Conference on Document Analysis and Recognition. 2013: 1484-1493.
作者信息:
武立平,王文賢,馬維青
(國網(wǎng)山西省電力公司陽泉供電公司,山西 陽泉 045000)