馬思碩1,張 冰2,張 瑩3
(1.國網(wǎng)北京市電力公司 信息通信分公司,北京 100071;
2.國家電網(wǎng)公司信息通信分公司,北京 100761; 3. 北京國電通網(wǎng)絡(luò)技術(shù)有限公司,北京 100761)
摘 要: 主數(shù)據(jù)的應(yīng)用與數(shù)據(jù)質(zhì)量息息相關(guān)。國家電網(wǎng)公司為進(jìn)一步完善業(yè)務(wù)應(yīng)用數(shù)據(jù)的質(zhì)量和安全管理,推進(jìn)建設(shè)了主數(shù)據(jù)管理系統(tǒng)。然而目前主數(shù)據(jù)管理系統(tǒng)的數(shù)據(jù)創(chuàng)建效率有待提升,供應(yīng)商主數(shù)據(jù)的審核依舊采用人工審核方式。本文通過采用漢字OCR技術(shù)實現(xiàn)了供應(yīng)商主數(shù)據(jù)的自動輔助審核功能,提高了數(shù)據(jù)質(zhì)量和維護(hù)效率,提升了用戶體驗,獲得了較高的用戶滿意度。
關(guān)鍵詞: 主數(shù)據(jù);數(shù)據(jù)質(zhì)量;OCR技術(shù)
0 引言
隨著國家電網(wǎng)公司信息化工程的進(jìn)一步深化和推進(jìn),公司對業(yè)務(wù)數(shù)據(jù)和信息化數(shù)據(jù)進(jìn)一步重視,數(shù)據(jù)質(zhì)量和數(shù)據(jù)安全已成為公司關(guān)注的重中之重。當(dāng)前信息行業(yè)越來越重視對大數(shù)據(jù)的應(yīng)用,利用目前已有的業(yè)務(wù)數(shù)據(jù)對行業(yè)和公司的發(fā)展進(jìn)行判斷和預(yù)測,未來服務(wù)中心和咨詢中心的核心也將是對數(shù)據(jù)的分析和處理,這對信息數(shù)據(jù)的規(guī)范性和質(zhì)量提出了更高的要求。通過進(jìn)一步規(guī)范數(shù)據(jù)和提升數(shù)據(jù)質(zhì)量,滿足大數(shù)據(jù)時代對于數(shù)據(jù)更加嚴(yán)格的要求[1]。
主數(shù)據(jù)的應(yīng)用與數(shù)據(jù)質(zhì)量相輔相成、互相推動。主數(shù)據(jù)管理系統(tǒng)的構(gòu)建和執(zhí)行是提升公司數(shù)據(jù)管理與應(yīng)用水平、保障可靠數(shù)據(jù)質(zhì)量的關(guān)鍵措施。為了提升數(shù)據(jù)的一致性、完整性、相關(guān)性和精確性,國家電網(wǎng)公司推進(jìn)建設(shè)了主數(shù)據(jù)管理系統(tǒng),實現(xiàn)了對大部分主數(shù)據(jù)的統(tǒng)一管理[2]。從公司層面把從多個業(yè)務(wù)系統(tǒng)中抽取的主數(shù)據(jù)并進(jìn)行整合,集中進(jìn)行數(shù)據(jù)清洗,并以服務(wù)的方式把統(tǒng)一、完整、準(zhǔn)確的主數(shù)據(jù)分發(fā)給企業(yè)的操作型和分析型應(yīng)用。使公司能夠有效地管理存儲在分布系統(tǒng)中的數(shù)據(jù),并對數(shù)據(jù)進(jìn)行驗證。
1 主數(shù)據(jù)管理系統(tǒng)應(yīng)用現(xiàn)狀
國家電網(wǎng)主數(shù)據(jù)管理系統(tǒng)依托數(shù)據(jù)資源管理平臺,建立了主數(shù)據(jù)管理的標(biāo)準(zhǔn)規(guī)范和管理體系。自上線運行以來,公司通過主數(shù)據(jù)管理系統(tǒng)先后實現(xiàn)了對物資、財務(wù)、項目、人資、營銷等五大類主數(shù)據(jù)的集中管理和維護(hù)[3-4],為業(yè)務(wù)系統(tǒng)提供實時、完整、準(zhǔn)確的主數(shù)據(jù)信息。
主數(shù)據(jù)管理系統(tǒng)的建設(shè)目標(biāo)是創(chuàng)建低成本、高擴(kuò)展性、標(biāo)準(zhǔn)、優(yōu)質(zhì)的可共享主數(shù)據(jù)。主數(shù)據(jù)管理系統(tǒng)需在保證高數(shù)據(jù)質(zhì)量的前提下,實現(xiàn)數(shù)據(jù)在不同業(yè)務(wù)系統(tǒng)之間傳輸和同步的自動化。為保證數(shù)據(jù)的準(zhǔn)確性,國家電網(wǎng)公司主數(shù)據(jù)管理系統(tǒng)創(chuàng)建了數(shù)據(jù)審批機(jī)制,數(shù)據(jù)的審核包含自動校驗和人工審批兩方面。主數(shù)據(jù)創(chuàng)建申請?zhí)峤缓?,系統(tǒng)將通過數(shù)據(jù)查重等簡單規(guī)則進(jìn)行規(guī)范性、唯一性校驗。經(jīng)過系統(tǒng)自動校驗后的主數(shù)據(jù)申請需按工作流完成在線審批后,方可入庫。
主數(shù)據(jù)創(chuàng)建效率和準(zhǔn)確性是衡量系統(tǒng)的重要標(biāo)準(zhǔn)之一。為了保證數(shù)據(jù)的創(chuàng)建效率,對于數(shù)據(jù)規(guī)范性要求比較高的主數(shù)據(jù)均設(shè)置了至少兩級的審批環(huán)節(jié),主數(shù)據(jù)的維護(hù)準(zhǔn)確性得到了大大提升,但是創(chuàng)建效率上并不十分令人滿意。供應(yīng)商主數(shù)據(jù)是主數(shù)據(jù)管理系統(tǒng)中最重要的數(shù)據(jù)類型,供應(yīng)商主數(shù)據(jù)從提報數(shù)據(jù)、經(jīng)過兩級審批通過,到最終統(tǒng)一分發(fā)最少需要1天的時間,如遇數(shù)據(jù)量大或工作繁忙等情況,整體流程甚至?xí)娱L至多天。對于入庫緊急程度較高的主數(shù)據(jù),目前的審核流程還無法滿足用戶的使用需求。
本文對該問題進(jìn)行重點分析和研究,提出一套基于OCR技術(shù)的優(yōu)化方案,利用技術(shù)創(chuàng)新對以上問題進(jìn)行了功能優(yōu)化,并通過了方案論證、測試部署驗證,有效地提升工作效率,改善了主數(shù)據(jù)管理系統(tǒng)的功能。
2 利用OCR技術(shù)實現(xiàn)供應(yīng)商主數(shù)據(jù)自動審核功能
2.1 供應(yīng)商主數(shù)據(jù)審批功能
主數(shù)據(jù)管理系統(tǒng)的數(shù)據(jù)管理模塊是本系統(tǒng)的核心,該模塊包含主數(shù)據(jù)的查詢、申請、審批等主要功能,以及數(shù)據(jù)和配置的管理,數(shù)據(jù)分發(fā)和報表管理等功能。
當(dāng)用戶對供應(yīng)商主數(shù)據(jù)提出申請后,將通過?。ㄊ校┕具\維和總部主數(shù)據(jù)運維兩級審批,審批通過后將創(chuàng)建或更新主數(shù)據(jù)。經(jīng)統(tǒng)計,僅2014年通過主數(shù)據(jù)管理平臺申請創(chuàng)建和更新的供應(yīng)商主數(shù)據(jù)就有82 000條,其中公司類數(shù)據(jù)占到90%以上,而該類數(shù)據(jù)需上傳的信息包括組織機(jī)構(gòu)代碼證、稅務(wù)登記證、營業(yè)執(zhí)照三類電子掃描圖片,兩級審批人員都需對這三項信息進(jìn)行人工對比審核,效率低且需大量的人力支持。總部運維情況如表1所示。
從以上表格可以看出,需要運維人員為3-6人,且長時間的重復(fù)工作必然導(dǎo)致效率和準(zhǔn)確率的下降。此外,運維組還需承擔(dān)其他種類主數(shù)據(jù)的審批、電話咨詢、工單處理、應(yīng)用分析以及專項工作等多項工作,工作量繁重,運維效率亟待提升。
2.2 OCR技術(shù)介紹
光學(xué)字符識別(Optical Character Recognition,OCR)技術(shù)是通過檢測印刷或手寫文字的暗、亮模式確定其形狀,然后用字符識別方法將形狀翻譯成計算機(jī)文字的過程[5]。
目前,OCR技術(shù)已經(jīng)在圖書業(yè)、印刷業(yè)等相關(guān)產(chǎn)業(yè)廣泛使用,對數(shù)字和西文字母印刷字體的識別率達(dá)到99.99%以上[6]。我國從上世紀(jì)70年代末起開始研究漢字識別技術(shù)(Chinese Character Recognition),目前國內(nèi)已經(jīng)有多項成熟的漢字識別技術(shù)在廣泛使用,對印刷漢字的識別成功率都在99.96%左右[7],如北京信息工程學(xué)院研制的BI-OCR和清華大學(xué)研制的TH-OCR等。漢字識別OCR技術(shù)的原理框圖如圖1所示。
由圖1可以看出,漢字識別的具體步驟為:先對文字進(jìn)行前處理,將灰度值變換為黑白二值,之后對漢字文本進(jìn)行圖像處理、分析、行切分、字切分、規(guī)范化(文字尺寸、位置、筆畫粗細(xì)等規(guī)范),在抽取特征后, 跟存儲在字典中已知的標(biāo)準(zhǔn)漢字特征集匹配判別,就可以識別出輸入的漢字。最后,利用上下文匹配關(guān)系或機(jī)器學(xué)習(xí)等方法進(jìn)行后處理,進(jìn)一步提高識別的準(zhǔn)確率。
2.3 供應(yīng)商主數(shù)據(jù)自動審核功能實現(xiàn)步驟
本研究的具體思路為,在不改變原有審批流程和準(zhǔn)確率的基礎(chǔ)上,進(jìn)一步提升審批工作的效率。按照這種思路,設(shè)計如下的自動審核步驟。
?。?)規(guī)范供應(yīng)商材料格式
由于使用的掃描儀型號不同,操作人員水平有差異,所以需要對上傳的圖像質(zhì)量在分辨率、清晰程度以及掃描方法等各方面提出要求,通過對輸入圖像格式的要求,可以極大地提升自動審核的準(zhǔn)確率和成功率。
分辨率:統(tǒng)一分辨率為300 dpi;
清晰度:彩色掃描,文字清晰,邊框邊線清晰;
掃描方法:摘除封面,將掃描儀設(shè)置成原稿紙掃描模式。
在用戶上傳供應(yīng)商數(shù)據(jù)資料時,系統(tǒng)進(jìn)行預(yù)判,如不滿足格式要求,將要求用戶重新上傳。
?。?)OCR技術(shù)自動審批
為了更好地適應(yīng)當(dāng)前系統(tǒng),并保證準(zhǔn)確率,自動審批環(huán)節(jié)保留原有的省(市)公司和總部兩級人工審批。自動審批有可能出現(xiàn)3種情況,見表2。
由于主數(shù)據(jù)審批存在正確對照文字,前兩種情況對于審批準(zhǔn)確率不會產(chǎn)生影響。為了盡可能的杜絕第三種情況的發(fā)生,使用了BI-OCR和TH-OCR兩種OCR技術(shù)進(jìn)行自動識別,進(jìn)一步降低了審批的錯誤率。由于兩種技術(shù)對于印刷漢字的成功率都很高,所以兩種識別技術(shù)都驗證正確后即可認(rèn)為審批通過,如果機(jī)器兩次識別結(jié)果不同,則將自動審批不通過的文件加標(biāo)識后轉(zhuǎn)到人工審批。具體的審批流程如圖2所示。
(3)OCR自動審批界面設(shè)計
在系統(tǒng)界面中,除在供應(yīng)商主數(shù)據(jù)申請環(huán)節(jié)對數(shù)據(jù)格式進(jìn)行一定的約束外,在?。ㄊ校┖涂偛恐鲾?shù)據(jù)運維兩步審批環(huán)節(jié),均設(shè)置自動審批按鈕,通過調(diào)用OCR的自動識別開發(fā)包(SDK)對圖片中的文字進(jìn)行識別審批,如圖3所示。
2.4 供應(yīng)商主數(shù)據(jù)自動審核功能實現(xiàn)測試
通過對供應(yīng)商主數(shù)據(jù)自動審核功能的多次設(shè)計實驗,使用單一的自動審核已經(jīng)可以達(dá)到較高的識別率。對隨機(jī)選取的110份原稿掃描文件進(jìn)行了測試,其中工商登記證、稅務(wù)登記證各30份,組織機(jī)構(gòu)代碼證40份,身份證10份,字符識別率達(dá)到94%,字段識別率為90%。而通過使用主數(shù)據(jù)自動輔助審批流程,使用人工和自動雙審批機(jī)制,準(zhǔn)確率達(dá)到100%。
3 效益分析
通過以上的功能優(yōu)化,使得工作效率得到極大的提升,通過應(yīng)用采用OCR技術(shù),使得大量的日常審批工作可以由機(jī)器自動完成,節(jié)省了人工成本。通過該項功能優(yōu)化,在提升效率的同時也提高的用戶滿意度。下面對功能優(yōu)化帶來的效率提升和準(zhǔn)確率提升分別進(jìn)行量化分析。
3.1 效率提升
由于熟練運維人員的工作效率一定,本研究使用工作量進(jìn)行效率分析。
在供應(yīng)商主數(shù)據(jù)審批功能優(yōu)化中,利用兩種技術(shù)對一副圖片的識別審批速度都在1 s左右,對應(yīng)于一個供應(yīng)商的公司類數(shù)據(jù)有三份必須資料,利用兩項技術(shù)獨立串行審批需6 s左右,并行審批只需3 s左右。對于這三份必須資料,兩次自動審批都通過的比率大概占到60%左右,而轉(zhuǎn)人工審批的資料文件中,存在關(guān)鍵字段字體重疊、印刷位置錯誤等現(xiàn)象而無法自動審批的文件占50%左右。即機(jī)器總的審批數(shù)能占到80%左右。機(jī)器輔助審批工作量統(tǒng)計見表3,效率提升統(tǒng)計見表4。
通過表4可以看出,審批效率提升了5倍左右,而且審批條數(shù)越多,效率越高,對于一般的審批工作量,一個運維人員已經(jīng)可以完全勝任。
3.2 準(zhǔn)確率提升
眾所周知,人的注意力處于一個變化的狀態(tài),而且受身體狀況、心情、睡眠狀況等多種因素影響[8],而機(jī)器的注意力可以認(rèn)為是不會下降,甚至隨著機(jī)器學(xué)習(xí)的進(jìn)展,識別準(zhǔn)確率會有進(jìn)一步的提升。
由于經(jīng)過了兩級審批,人工的識別準(zhǔn)確率在99%左右。而機(jī)器輔助審批經(jīng)過兩種算法的判斷識別,識別準(zhǔn)確率保持在99.99%以上。
4 結(jié)束語
主數(shù)據(jù)管理作為數(shù)據(jù)治理中最為核心的一環(huán),是企業(yè)獲得一個完整、可信的數(shù)據(jù)視圖的必經(jīng)途徑。本文通過對國家電網(wǎng)公司主數(shù)據(jù)管理系統(tǒng)相關(guān)功能進(jìn)行研究,采用先進(jìn)的OCR技術(shù)實現(xiàn)了數(shù)據(jù)的自動輔助審批。在實際應(yīng)用中,大幅度提升了運維效率和運維質(zhì)量,經(jīng)測算,運維效率提升了3倍左右,使得運維資源能夠更多的向咨詢和應(yīng)用分析等工作傾斜,在提升運維質(zhì)量的同時,提升了用戶的服務(wù)滿意度。
下一步的建設(shè)和運維工作將著眼于建立行之有效的主數(shù)據(jù)運維體系,挖掘主數(shù)據(jù)運維的潛力,有效提升主數(shù)據(jù)運維的質(zhì)量,從而充分體現(xiàn)數(shù)據(jù)這項無形資產(chǎn)在企業(yè)中的核心價值。
參考文獻(xiàn)
[1]張當(dāng)中.漢字識別技術(shù)綜述[J]. 語言文字應(yīng)用,1997(2): 77-86.
[2]馬玲. 基于主數(shù)據(jù)管理的電網(wǎng)調(diào)度數(shù)據(jù)整合[D].昆明:云南大學(xué).2014.
[3]岳曉峰,焦圣喜,韓立強,等.模式識別中的光字符識別技術(shù)及應(yīng)用綜述[J].河北工業(yè)科技,2006, 23(5):312-316.
[4]呂冬.山東電力ERP與SG-MDM實現(xiàn)項目主數(shù)據(jù)縱向貫通[J]. 電力信息化.2011,9(3):28-31.
[5]張仰森,俞士汶.文本自動校對技術(shù)研究綜述[J].計算機(jī)應(yīng)用研究,2006,06: 8-12.
[6]李成城,白濤, 趙述芳等. 基于OCR的縱向文字校對的研究與實現(xiàn)[J].計算機(jī)應(yīng)用研究,2006,(4):234-236.
[7]賈紅龍.面向服務(wù)體系架構(gòu)(SOA)的主數(shù)據(jù)管理(MDM)和流程監(jiān)控(PM)研究[J].信息技術(shù)與信息化,2010(2):78-82.
[8]顏魯林.利用SPSS對大學(xué)生學(xué)習(xí)注意力集中程度進(jìn)行多元線性回歸分析[D].蘭州:蘭州大學(xué).2012.