日本樱花云服务器网址,欧美激情aⅴ精品一区二区高清

電力現(xiàn)場手持終端中視頻數(shù)據(jù)定位方法

2018智能電網(wǎng)增刊

武立平，王文賢，馬維青

國網(wǎng)山西省電力公司陽泉供電公司，山西陽泉 045000

摘要： 電力現(xiàn)場手持終端以視頻結(jié)合文字識(shí)別的形式實(shí)現(xiàn)文字信息的自動(dòng)錄入，在電力行業(yè)日益普及。手持終端中視頻文字準(zhǔn)確定位是數(shù)據(jù)信息進(jìn)一步處理、識(shí)別的前提?；谧佑蛴成浼夹g(shù)，在連通區(qū)域分析的技術(shù)框架下提出了一種手持終端視頻文本的精確定位方法，能夠應(yīng)對(duì)視頻文字的旋轉(zhuǎn)、畸變和尺度變化等問題，實(shí)驗(yàn)表明提出的定位方法具有更好的定位精度和魯棒性。

關(guān)鍵詞： 電力現(xiàn)場手持終端視頻理解文字定位機(jī)器學(xué)習(xí) 子空間

中圖分類號(hào)：TM76
文獻(xiàn)標(biāo)識(shí)碼： A
DOI：10.16157/j.issn.0258-7998.2018.S1.030

Abstract：

Key words :

0 引言

近年來隨著移動(dòng)通信的快速發(fā)展，手持終端在電力行業(yè)的應(yīng)用也越來越多。在電力現(xiàn)場，施工人員用手持終端完成業(yè)務(wù)流程，用圖片和視頻等記錄施工現(xiàn)場，降低了電力行業(yè)的管理成本，提高了工作效率，加強(qiáng)了對(duì)業(yè)務(wù)的管理。但是現(xiàn)場施工人員依然需要輸入較多的文字信息，特別是在輸入所維護(hù)設(shè)備的設(shè)備型號(hào)和設(shè)備編號(hào)時(shí)，型號(hào)和編號(hào)一般是比較長的英文字母和數(shù)字組合，難以記憶，容易輸入錯(cuò)誤。從視頻中提取設(shè)備型號(hào)和編號(hào)實(shí)現(xiàn)自動(dòng)錄入將降低施工人員信息輸入難度，減少工作失誤。然而，施工現(xiàn)場光照條件難以預(yù)計(jì)，拍攝角度不定，如何準(zhǔn)確地定位視頻中文字的位置以便進(jìn)行進(jìn)一步文字識(shí)別仍是一個(gè)技術(shù)難題。

文字作為高抽象化的信息載體，在信息交互過程中起著重要作用。隨著智能終端的普及和虛擬現(xiàn)實(shí)、增強(qiáng)現(xiàn)實(shí)等新概念、新技術(shù)不斷發(fā)展，文字檢測技術(shù)的應(yīng)用空間正呈現(xiàn)飛躍式的發(fā)展。在日常生活中，有很多場合適合或已經(jīng)正在使用文字檢測技術(shù)來改善我們的體驗(yàn)。比如，在視頻會(huì)議過程中自動(dòng)定位文字，進(jìn)而進(jìn)行關(guān)鍵文檔區(qū)域的局部增強(qiáng)、放大或自動(dòng)保存。其它較為典型的例子還包括，智能輔助駕駛系統(tǒng)通過文字檢測技術(shù)進(jìn)行的道路交通標(biāo)識(shí)識(shí)別，智能手機(jī)里的視頻取景自動(dòng)翻譯功能等。在過去的幾年里，依托圖像、視頻文字定位技術(shù)有大量諸如此類的應(yīng)用衍生。

現(xiàn)有的文字定位算法可以初略劃分為三類：基于紋理分析的方法、基于區(qū)域分析的方法以及混合算法?；诩y理分析的方法^[1]認(rèn)為文字區(qū)域與其它類型目標(biāo)的紋理特性相比具有較大的差異，一般借助空間濾波、局部強(qiáng)度分析或小波分析等傳統(tǒng)技術(shù)進(jìn)行紋理信息的提取。此類方法的一個(gè)主要缺點(diǎn)是，紋理特征模型只能適應(yīng)特定朝向的文字，不能應(yīng)對(duì)文字在影像內(nèi)的幾何變換，因此算法的遷移能力較差?；趨^(qū)域分析的方法^[2]是以邊沿檢測、聚類分析等方法確定備選的文字區(qū)域，進(jìn)而用特定的啟發(fā)式策略逐一排除非文字區(qū)域?；旌纤惴梢跃C合前兩者的優(yōu)勢，能夠應(yīng)對(duì)圖像的尺度變換、旋轉(zhuǎn)等干擾因素^[3]。但這類算法往往需要建立復(fù)雜的決策規(guī)則或計(jì)算大量的模型參數(shù)，因此實(shí)用性受到很大限制。

相對(duì)于靜態(tài)的圖像數(shù)據(jù)而言，視頻數(shù)據(jù)的時(shí)空線索在文字定位、分析過程中具有獨(dú)特的優(yōu)勢。近年來，研究者們已經(jīng)對(duì)視頻文字定位問題做出了很多有益的探索。然而，目前而言仍然有很多問題還沒有得到很好的解決，比如強(qiáng)烈的尺度變化、畸變、遮擋、成像質(zhì)量退化等^[4]。針對(duì)圖像文字識(shí)別過程中文字形狀畸變的問題，基于連通區(qū)域分析的方法^[5]取得了一定的效果。該方法在顏色量化后通過區(qū)域增長將空間近鄰并且特征相似的像素連接成相連通的區(qū)域，不易受文字形狀拓?fù)渥兓挠绊憽＿z憾的是，基于連通區(qū)域分析的方法其效果對(duì)影像質(zhì)量的依賴程度較高，而視頻數(shù)據(jù)在增加時(shí)間分辨率的同時(shí)往往要犧牲成像質(zhì)量。對(duì)于成像尺度因素，文獻(xiàn)[6]Wu等人在多個(gè)尺度上進(jìn)行紋理特征分析，取得不錯(cuò)的效果。但該方法計(jì)算代價(jià)較高，在處理視頻數(shù)據(jù)時(shí)難以滿足實(shí)時(shí)性的要求。Garcia和Apostolidis^[7]提出一種邊緣朝向變異特征，該特征能有效刻畫文字區(qū)域由于筆劃朝向多樣性所帶來的邊緣朝向分布特性。Shivakumara等人^[8]基于邊緣特征，以貝葉斯分類器進(jìn)行像素級(jí)的分類，進(jìn)而通過區(qū)域增長技術(shù)得到文字區(qū)域。這一類方法能夠應(yīng)對(duì)文字旋轉(zhuǎn)因素，但難以檢測到平行筆劃較多的文字。

本文提供了一種魯棒的視頻文本定位方法，該方法以改進(jìn)的連通區(qū)域分析框架有效應(yīng)對(duì)文字旋轉(zhuǎn)、畸變和尺度變化因素，并利用子域映射技術(shù)以保障在視頻數(shù)據(jù)中獲取充分的信息。

1 方法

本文所提出的方法以迭代模式進(jìn)行視頻文字定位，其技術(shù)流程如圖1所示。該方法有五個(gè)主要的技術(shù)模塊：數(shù)據(jù)增強(qiáng)用以提升邊緣響應(yīng)的對(duì)比度；連通區(qū)域分析用以連接備選文字像素；幀間校驗(yàn)用以甄選備選的文字區(qū)域；子域映射用以挖掘多通道顏色信息進(jìn)行備選區(qū)域的描述；分類進(jìn)行特征描述與分類以實(shí)現(xiàn)文字區(qū)域與非文字區(qū)域的判別。

1.1 數(shù)據(jù)增強(qiáng)

邊緣是在影像中進(jìn)行物體劃分最直觀的物理屬性。通常而言，影像中的文字與其背景介質(zhì)相比具有極高的對(duì)比度。因此，在分割文字目標(biāo)時(shí)，邊緣信息能夠提供強(qiáng)有效的線索。然而，由于視頻數(shù)據(jù)的幀率較高，單幀影像的曝光時(shí)間較短，導(dǎo)致影像中邊緣模糊、對(duì)比度下降、噪聲增強(qiáng)等質(zhì)量退化問題。對(duì)此，本文以二階拉普拉斯算子進(jìn)行視頻數(shù)據(jù)的邊緣增強(qiáng)^[9]，提升邊緣信息的對(duì)比度。

首先，采用亮度-色度顏色空間對(duì)影像進(jìn)行表達(dá)。然后，針對(duì)亮度通道進(jìn)行差分操作獲取圖像邊緣，并在亮度通道對(duì)邊緣位置的像素進(jìn)行增強(qiáng)。具體算子定義如下：

式中，l(x,y)為(x,y)位置的原始亮度值，f(x,y)為增強(qiáng)后的亮度值。最后，采用形態(tài)學(xué)閉操作填充局部不相一致的像素。

以上策略一方面可以羽化邊緣，從而使得文字的邊緣與背景介質(zhì)的對(duì)比度加大；另一方面還可以抑制噪聲，使得到針對(duì)每個(gè)目標(biāo)可以獲取較為平滑的邊緣。

1.2 子域映射

視頻文字定位問題的另一個(gè)關(guān)鍵是顏色的表達(dá)。計(jì)算機(jī)視頻采用的顏色模型為RGB三基色模型，該模型便于顏色的硬件實(shí)現(xiàn)而不能很好地?cái)M合人的主觀視覺體驗(yàn)。生理心理學(xué)的有關(guān)研究表明，人類感知系統(tǒng)的早期視覺感知符合拮抗原則（視覺四色說）而非混合原則（視覺三色說）^[10]。色覺拮抗原則認(rèn)為人眼對(duì)光反應(yīng)的基本視覺單位是成對(duì)組織的，包括紅-綠、黃-藍(lán)兩對(duì)原色，加上黑-白共組成三對(duì)拮抗。也就是說，色度-亮度分離的顏色空間，比如Lab、YCbCr、HSV等，更符合人的感知。然而，目前為止并沒有單獨(dú)一種顏色模型能夠充分契合人的顏色感知過程。如何綜合多種顏色空間而挖掘其中最為本質(zhì)的顏色子域以有效表征顏色，是一個(gè)值得深入研究的問題。對(duì)此，機(jī)器學(xué)習(xí)領(lǐng)域中有很多線性、非線性的特征抽取技術(shù)能夠發(fā)揮作用。

本文以主成分分析（principle component analysis，PCA）為例來說明顏色模型的子域映射方法。視頻數(shù)據(jù)以{X_i,t}=i,1,2,…,N,t=1,2,…,M表示，其中N為單幀中的像素?cái)?shù)，M是幀數(shù)。X_i,t是像素的9維顏色向量[h,s,v,L,a,b,Y,C_b,C_r]，分別對(duì)于HSV、Lab、YCbCr顏色空降的三個(gè)通道。依據(jù)該數(shù)據(jù)計(jì)算協(xié)方差矩陣：

1.3 連通區(qū)域分析

本文基于連通區(qū)域分析框架進(jìn)行文字成分提取。連通區(qū)域（Connected Component）一般是指影像中取值相同且將空間上具有連續(xù)關(guān)系的像素點(diǎn)組成的圖像區(qū)域。連通區(qū)域分析（Connected Component Analysis）旨在將圖像中的各個(gè)連通區(qū)域找出并標(biāo)記。再此基礎(chǔ)上，后續(xù)進(jìn)一步的處理、分析過程可以各個(gè)群體為單位進(jìn)行。

本文的連通區(qū)域分析過程包含4個(gè)環(huán)節(jié)：（1）在子域映射表達(dá)后對(duì)連續(xù)5幀的影像進(jìn)行聚類分析，賦予每個(gè)像素以類別標(biāo)簽；（2）對(duì)每幀影像單獨(dú)進(jìn)行連通區(qū)標(biāo)記；（3）對(duì)連通區(qū)域標(biāo)記蒙板進(jìn)行形態(tài)學(xué)閉操作，消除較小的孤立團(tuán)（約5個(gè)像素）；（4）對(duì)相鄰兩幀影像所標(biāo)定的連通區(qū)域計(jì)算交疊面積，并將交疊面積較低的連通區(qū)域去除。

聚類過程中以k均值算法實(shí)現(xiàn)類簇的劃分。設(shè)q_i,t為第t幀標(biāo)簽為i的連通區(qū)域，若q_i,t與其前一幀關(guān)聯(lián)區(qū)域q_j,t-1的重疊比R小于0.5，則排除q_i,t。j與R通過以下公式確定：

1.4 文字分類

經(jīng)過連通區(qū)域標(biāo)記后，我們從原始影像中獲取了一些文字目標(biāo)疑區(qū)。對(duì)于這些文字目標(biāo)疑區(qū)，傳統(tǒng)的方法設(shè)定了一系列的針對(duì)形狀輪廓、邊緣朝向等方面的啟發(fā)式規(guī)則來最終判別該區(qū)域是否包含文字，比如筆畫寬度變化（Stroke Width Transform）^[2]、邊緣朝向變異性^[7]等。這些啟發(fā)式規(guī)則通常是針對(duì)特定的語種和特定的問題背景來設(shè)立，因此在使用過程中具有較大的局限性。得益于機(jī)器學(xué)習(xí)和模式識(shí)別領(lǐng)域的飛速發(fā)展，有很多優(yōu)秀的工具能夠以強(qiáng)大的學(xué)習(xí)能力在大量數(shù)據(jù)中建立模式，支撐我們進(jìn)行數(shù)據(jù)驅(qū)動(dòng)的算法設(shè)計(jì)。

針對(duì)文字定位這一特定任務(wù)，本文以矩朝向直方圖（Histogram of Oriented Moments，HOM）^[11]進(jìn)性文字目標(biāo)疑區(qū)的特征描述。HOM特征針對(duì)待測區(qū)域以二階幾何矩檢測朝向，以直方圖統(tǒng)計(jì)的方式描述待測區(qū)域的主朝向，具有旋轉(zhuǎn)、尺度、拓?fù)渥儞Q不變性。HOM特征提取形式如圖3所示。在得到文字疑區(qū)的特征表達(dá)之后，本文以SVM算法進(jìn)行二分類鑒別，最終判定待測區(qū)域是否為文字區(qū)域。

2 實(shí)驗(yàn)與分析

為了驗(yàn)證本文所提方法的有效性，實(shí)驗(yàn)中采用公開數(shù)據(jù)集ICDAR 2013^[12]對(duì)算法的性能進(jìn)行分析。ICDAR 2013數(shù)據(jù)集包含24段不同場景的視頻，視頻中有不同類型的文字呈現(xiàn)，包括不同字體、尺度、朝向。本文所提方法的模型參數(shù)是在ICDAR 2013數(shù)據(jù)集的訓(xùn)練集上進(jìn)行學(xué)習(xí)，分類過程中的SVM算法采用RBF核函數(shù)。實(shí)驗(yàn)中選用了4種現(xiàn)有算法進(jìn)行比較分析，算法的性能以3個(gè)指標(biāo)進(jìn)行評(píng)價(jià)：準(zhǔn)確率（Precision）、召回率（Recall）、F分?jǐn)?shù)（F-measure）。

表1給出了本文所提出的算法與4種對(duì)比算法的結(jié)果比較。從表中可以看出，本文的算法在3個(gè)性能指標(biāo)上都明顯優(yōu)于對(duì)比算法。為了進(jìn)一步解析本文算法性能優(yōu)勢的來源，實(shí)驗(yàn)中分離了算法主要環(huán)節(jié)的作用，結(jié)果如表2所示。其中需要特別說明的是，排除子域映射是指算法直接以RGB顏色模型進(jìn)行顏色表達(dá)；排除連通區(qū)域分析是指算法直接與滑窗方式檢測文字，以窗口內(nèi)的邊緣特征作為特征輸入；排除SVM分類是指算法在HOM特征提取后以硬分割方式判定是否為文字區(qū)域。從表2中可以看出，排除特定策略后本文的算法性能顯著退化。由此可以推斷，本文算法中這些主要環(huán)節(jié)的策略都是有效的、必要的。

3 結(jié)束語

隨著現(xiàn)代網(wǎng)絡(luò)通訊技術(shù)的飛速發(fā)展，視頻數(shù)據(jù)已逐漸成為人們交流信息的主要載體。在視覺數(shù)據(jù)中，常常會(huì)攜帶一些文字，而這些文字往往包含著影像內(nèi)的重要信息，比如交通標(biāo)識(shí)、數(shù)據(jù)報(bào)表、演示文稿等。因此，對(duì)視頻內(nèi)的文字進(jìn)行精準(zhǔn)定位進(jìn)而準(zhǔn)確識(shí)別，在視頻內(nèi)容的高層語義理解過程中起著極其重要的作用。自然場景的視頻數(shù)據(jù)由于成像條件復(fù)雜，給文字定位帶來了很多技術(shù)難點(diǎn)，比如成像尺度變化、畸變、遮擋、成像質(zhì)量退化等。

本文提供了一種魯棒的視頻文本定位方法，該方法以改進(jìn)的連通區(qū)域分析框架有效應(yīng)對(duì)文字旋轉(zhuǎn)、畸變和尺度變化因素，并利用子域映射技術(shù)進(jìn)行顏色空間的表達(dá)以保障在視頻數(shù)據(jù)中獲取充分的信息。實(shí)驗(yàn)結(jié)果表明，本文所提出的算法較對(duì)比算法而言具有更好的文字定位效果，且其中所涉及的核心策略對(duì)算法的總體性能都起到了積極的保障作用。

基于子域映射的視頻文字定位方法在電力現(xiàn)場手持終端中的應(yīng)用能降低電力現(xiàn)場施工人員的文字信息輸入難度，提高工作效率，減少工作失誤，為電力現(xiàn)場手持終端的普及應(yīng)用提供了必要的技術(shù)手段。

參考文獻(xiàn)

[1] CHEN X, YUILLE A L. Detecting and reading text in natural scenes[C]. IEEE Conference on Computer Vision and Pattern Recognition. 2004: 366-373.

[2] EPSHTEIN B, OFEK E, WEXLER Y. Detecting text in natural scenes with stroke width transform[C]. IEEE Conference on Computer Vision and Pattern Recognition. 2010: 2963-2970.

[3] SHIVAKUMARA P, PHAN T Q, TAN C L. A laplacian approach to multi-oriented text detection in video [J]. IEEE Transactions on Pattern Analysis & Machine Intelligence. 2011, 33(2): 412-9.

[4] ZHANG J, KASTURI R. Extraction of text objects in video documents: recent progress[C]. IAPR International Workshop on Document Analysis Systems. 2008: 5-17.

[5] ZHONG Y, KARU K, JAIN A K. Locating text in complex color images[C]. International Conference on Document Analysis and Recognition. 2002: 146.

[6] WU V, MANMATHA R, RISEMAN E M. Finding text in images [C]. ACM International Conference on Digital Libraries. 1997: 23-26.

[7] GARCIA C, APOSTOLIDIS X. Text detection and segmentation in complex color images[C]. IEEE International Conference on Acoustics, Speech, and Signal Processing. 2002: 2326-2329.

[8] SHIVAKUMARA P, SREEDHAR R P, PHAN T Q, et al. Multioriented video scene text detection through bayesian classification and boundary growing [J]. IEEE Transactions on Circuits & Systems for Video Technology. 2012, 22(8): 1227-1235.

[9] MA T, LI L, JI S, et al. Optimized laplacian image sharpening algorithm based on graphic processing unit [J]. Physica A Statistical Mechanics & Its Applications. 2014, 416: 400-410.

[10] BUCHSBAUM G, GOTTSCHALK A. Trichromacy, opponent colours coding and optimum colour information transmission in the retina [J]. Proceedings of the Royal Society of London. 1983, 220(1218): 89.

[11] KHARE V, SHIVAKUMARA P, RAVEENDRAN P. A new histogram oriented moments descriptor for multi-oriented moving text detection in video[J]. Expert Systems with applications. 2015, 42(21): 7627-7640.

[12] KARATZAS D, SHAFAIT F, UCHIDA S, et al. ICDAR 2013 robust reading competition[C]. International Conference on Document Analysis and Recognition. 2013: 1484-1493.

作者信息:

武立平，王文賢，馬維青

（國網(wǎng)山西省電力公司陽泉供電公司，山西陽泉 045000）

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容