《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 嵌入式技術(shù) > 設(shè)計(jì)應(yīng)用 > 基于OCR技術(shù)的主數(shù)據(jù)管理功能研究與實(shí)現(xiàn)
基于OCR技術(shù)的主數(shù)據(jù)管理功能研究與實(shí)現(xiàn)
2015《電子技術(shù)應(yīng)用》智能電網(wǎng)增刊
馬思碩1,張 冰2,張 瑩3
(1.國(guó)網(wǎng)北京市電力公司 信息通信分公司,北京 100071; 2.國(guó)家電網(wǎng)公司信息通信分公司,北京 100761; 3. 北京國(guó)電通網(wǎng)絡(luò)技術(shù)有限公司,北京 100761)
摘要: 主數(shù)據(jù)的應(yīng)用與數(shù)據(jù)質(zhì)量息息相關(guān)。國(guó)家電網(wǎng)公司為進(jìn)一步完善業(yè)務(wù)應(yīng)用數(shù)據(jù)的質(zhì)量和安全管理,推進(jìn)建設(shè)了主數(shù)據(jù)管理系統(tǒng)。然而目前主數(shù)據(jù)管理系統(tǒng)的數(shù)據(jù)創(chuàng)建效率有待提升,供應(yīng)商主數(shù)據(jù)的審核依舊采用人工審核方式。本文通過(guò)采用漢字OCR技術(shù)實(shí)現(xiàn)了供應(yīng)商主數(shù)據(jù)的自動(dòng)輔助審核功能,提高了數(shù)據(jù)質(zhì)量和維護(hù)效率,提升了用戶體驗(yàn),獲得了較高的用戶滿意度。
Abstract:
Key words :

  馬思碩1,張  冰2,張  瑩3

  (1.國(guó)網(wǎng)北京市電力公司 信息通信分公司,北京 100071;

  2.國(guó)家電網(wǎng)公司信息通信分公司,北京 100761; 3. 北京國(guó)電通網(wǎng)絡(luò)技術(shù)有限公司,北京 100761)

  摘  要主數(shù)據(jù)的應(yīng)用與數(shù)據(jù)質(zhì)量息息相關(guān)。國(guó)家電網(wǎng)公司為進(jìn)一步完善業(yè)務(wù)應(yīng)用數(shù)據(jù)的質(zhì)量和安全管理,推進(jìn)建設(shè)了主數(shù)據(jù)管理系統(tǒng)。然而目前主數(shù)據(jù)管理系統(tǒng)的數(shù)據(jù)創(chuàng)建效率有待提升,供應(yīng)商主數(shù)據(jù)的審核依舊采用人工審核方式。本文通過(guò)采用漢字OCR技術(shù)實(shí)現(xiàn)了供應(yīng)商主數(shù)據(jù)的自動(dòng)輔助審核功能,提高了數(shù)據(jù)質(zhì)量和維護(hù)效率,提升了用戶體驗(yàn),獲得了較高的用戶滿意度。

  關(guān)鍵詞: 主數(shù)據(jù);數(shù)據(jù)質(zhì)量;OCR技術(shù)

0 引言

  隨著國(guó)家電網(wǎng)公司信息化工程的進(jìn)一步深化和推進(jìn),公司對(duì)業(yè)務(wù)數(shù)據(jù)和信息化數(shù)據(jù)進(jìn)一步重視,數(shù)據(jù)質(zhì)量和數(shù)據(jù)安全已成為公司關(guān)注的重中之重。當(dāng)前信息行業(yè)越來(lái)越重視對(duì)大數(shù)據(jù)的應(yīng)用,利用目前已有的業(yè)務(wù)數(shù)據(jù)對(duì)行業(yè)和公司的發(fā)展進(jìn)行判斷和預(yù)測(cè),未來(lái)服務(wù)中心和咨詢中心的核心也將是對(duì)數(shù)據(jù)的分析和處理,這對(duì)信息數(shù)據(jù)的規(guī)范性和質(zhì)量提出了更高的要求。通過(guò)進(jìn)一步規(guī)范數(shù)據(jù)和提升數(shù)據(jù)質(zhì)量,滿足大數(shù)據(jù)時(shí)代對(duì)于數(shù)據(jù)更加嚴(yán)格的要求[1]。

  主數(shù)據(jù)的應(yīng)用與數(shù)據(jù)質(zhì)量相輔相成、互相推動(dòng)。主數(shù)據(jù)管理系統(tǒng)的構(gòu)建和執(zhí)行是提升公司數(shù)據(jù)管理與應(yīng)用水平、保障可靠數(shù)據(jù)質(zhì)量的關(guān)鍵措施。為了提升數(shù)據(jù)的一致性、完整性、相關(guān)性和精確性,國(guó)家電網(wǎng)公司推進(jìn)建設(shè)了主數(shù)據(jù)管理系統(tǒng),實(shí)現(xiàn)了對(duì)大部分主數(shù)據(jù)的統(tǒng)一管理[2]。從公司層面把從多個(gè)業(yè)務(wù)系統(tǒng)中抽取的主數(shù)據(jù)并進(jìn)行整合,集中進(jìn)行數(shù)據(jù)清洗,并以服務(wù)的方式把統(tǒng)一、完整、準(zhǔn)確的主數(shù)據(jù)分發(fā)給企業(yè)的操作型和分析型應(yīng)用。使公司能夠有效地管理存儲(chǔ)在分布系統(tǒng)中的數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行驗(yàn)證。

1 主數(shù)據(jù)管理系統(tǒng)應(yīng)用現(xiàn)狀

  國(guó)家電網(wǎng)主數(shù)據(jù)管理系統(tǒng)依托數(shù)據(jù)資源管理平臺(tái),建立了主數(shù)據(jù)管理的標(biāo)準(zhǔn)規(guī)范和管理體系。自上線運(yùn)行以來(lái),公司通過(guò)主數(shù)據(jù)管理系統(tǒng)先后實(shí)現(xiàn)了對(duì)物資、財(cái)務(wù)、項(xiàng)目、人資、營(yíng)銷等五大類主數(shù)據(jù)的集中管理和維護(hù)[3-4],為業(yè)務(wù)系統(tǒng)提供實(shí)時(shí)、完整、準(zhǔn)確的主數(shù)據(jù)信息。

  主數(shù)據(jù)管理系統(tǒng)的建設(shè)目標(biāo)是創(chuàng)建低成本、高擴(kuò)展性、標(biāo)準(zhǔn)、優(yōu)質(zhì)的可共享主數(shù)據(jù)。主數(shù)據(jù)管理系統(tǒng)需在保證高數(shù)據(jù)質(zhì)量的前提下,實(shí)現(xiàn)數(shù)據(jù)在不同業(yè)務(wù)系統(tǒng)之間傳輸和同步的自動(dòng)化。為保證數(shù)據(jù)的準(zhǔn)確性,國(guó)家電網(wǎng)公司主數(shù)據(jù)管理系統(tǒng)創(chuàng)建了數(shù)據(jù)審批機(jī)制,數(shù)據(jù)的審核包含自動(dòng)校驗(yàn)和人工審批兩方面。主數(shù)據(jù)創(chuàng)建申請(qǐng)?zhí)峤缓?,系統(tǒng)將通過(guò)數(shù)據(jù)查重等簡(jiǎn)單規(guī)則進(jìn)行規(guī)范性、唯一性校驗(yàn)。經(jīng)過(guò)系統(tǒng)自動(dòng)校驗(yàn)后的主數(shù)據(jù)申請(qǐng)需按工作流完成在線審批后,方可入庫(kù)。

  主數(shù)據(jù)創(chuàng)建效率和準(zhǔn)確性是衡量系統(tǒng)的重要標(biāo)準(zhǔn)之一。為了保證數(shù)據(jù)的創(chuàng)建效率,對(duì)于數(shù)據(jù)規(guī)范性要求比較高的主數(shù)據(jù)均設(shè)置了至少兩級(jí)的審批環(huán)節(jié),主數(shù)據(jù)的維護(hù)準(zhǔn)確性得到了大大提升,但是創(chuàng)建效率上并不十分令人滿意。供應(yīng)商主數(shù)據(jù)是主數(shù)據(jù)管理系統(tǒng)中最重要的數(shù)據(jù)類型,供應(yīng)商主數(shù)據(jù)從提報(bào)數(shù)據(jù)、經(jīng)過(guò)兩級(jí)審批通過(guò),到最終統(tǒng)一分發(fā)最少需要1天的時(shí)間,如遇數(shù)據(jù)量大或工作繁忙等情況,整體流程甚至?xí)娱L(zhǎng)至多天。對(duì)于入庫(kù)緊急程度較高的主數(shù)據(jù),目前的審核流程還無(wú)法滿足用戶的使用需求。

  本文對(duì)該問(wèn)題進(jìn)行重點(diǎn)分析和研究,提出一套基于OCR技術(shù)的優(yōu)化方案,利用技術(shù)創(chuàng)新對(duì)以上問(wèn)題進(jìn)行了功能優(yōu)化,并通過(guò)了方案論證、測(cè)試部署驗(yàn)證,有效地提升工作效率,改善了主數(shù)據(jù)管理系統(tǒng)的功能。

2 利用OCR技術(shù)實(shí)現(xiàn)供應(yīng)商主數(shù)據(jù)自動(dòng)審核功能

  2.1 供應(yīng)商主數(shù)據(jù)審批功能

  主數(shù)據(jù)管理系統(tǒng)的數(shù)據(jù)管理模塊是本系統(tǒng)的核心,該模塊包含主數(shù)據(jù)的查詢、申請(qǐng)、審批等主要功能,以及數(shù)據(jù)和配置的管理,數(shù)據(jù)分發(fā)和報(bào)表管理等功能。

  當(dāng)用戶對(duì)供應(yīng)商主數(shù)據(jù)提出申請(qǐng)后,將通過(guò)?。ㄊ校┕具\(yùn)維和總部主數(shù)據(jù)運(yùn)維兩級(jí)審批,審批通過(guò)后將創(chuàng)建或更新主數(shù)據(jù)。經(jīng)統(tǒng)計(jì),僅2014年通過(guò)主數(shù)據(jù)管理平臺(tái)申請(qǐng)創(chuàng)建和更新的供應(yīng)商主數(shù)據(jù)就有82 000條,其中公司類數(shù)據(jù)占到90%以上,而該類數(shù)據(jù)需上傳的信息包括組織機(jī)構(gòu)代碼證、稅務(wù)登記證、營(yíng)業(yè)執(zhí)照三類電子掃描圖片,兩級(jí)審批人員都需對(duì)這三項(xiàng)信息進(jìn)行人工對(duì)比審核,效率低且需大量的人力支持??偛窟\(yùn)維情況如表1所示。

001.jpg

  從以上表格可以看出,需要運(yùn)維人員為3-6人,且長(zhǎng)時(shí)間的重復(fù)工作必然導(dǎo)致效率和準(zhǔn)確率的下降。此外,運(yùn)維組還需承擔(dān)其他種類主數(shù)據(jù)的審批、電話咨詢、工單處理、應(yīng)用分析以及專項(xiàng)工作等多項(xiàng)工作,工作量繁重,運(yùn)維效率亟待提升。

  2.2 OCR技術(shù)介紹

  光學(xué)字符識(shí)別(Optical Character Recognition,OCR)技術(shù)是通過(guò)檢測(cè)印刷或手寫文字的暗、亮模式確定其形狀,然后用字符識(shí)別方法將形狀翻譯成計(jì)算機(jī)文字的過(guò)程[5]。

002.jpg

  目前,OCR技術(shù)已經(jīng)在圖書業(yè)、印刷業(yè)等相關(guān)產(chǎn)業(yè)廣泛使用,對(duì)數(shù)字和西文字母印刷字體的識(shí)別率達(dá)到99.99%以上[6]。我國(guó)從上世紀(jì)70年代末起開(kāi)始研究漢字識(shí)別技術(shù)(Chinese Character Recognition),目前國(guó)內(nèi)已經(jīng)有多項(xiàng)成熟的漢字識(shí)別技術(shù)在廣泛使用,對(duì)印刷漢字的識(shí)別成功率都在99.96%左右[7],如北京信息工程學(xué)院研制的BI-OCR和清華大學(xué)研制的TH-OCR等。漢字識(shí)別OCR技術(shù)的原理框圖如圖1所示。

003.jpg

  由圖1可以看出,漢字識(shí)別的具體步驟為:先對(duì)文字進(jìn)行前處理,將灰度值變換為黑白二值,之后對(duì)漢字文本進(jìn)行圖像處理、分析、行切分、字切分、規(guī)范化(文字尺寸、位置、筆畫粗細(xì)等規(guī)范),在抽取特征后, 跟存儲(chǔ)在字典中已知的標(biāo)準(zhǔn)漢字特征集匹配判別,就可以識(shí)別出輸入的漢字。最后,利用上下文匹配關(guān)系或機(jī)器學(xué)習(xí)等方法進(jìn)行后處理,進(jìn)一步提高識(shí)別的準(zhǔn)確率。

  2.3 供應(yīng)商主數(shù)據(jù)自動(dòng)審核功能實(shí)現(xiàn)步驟

  本研究的具體思路為,在不改變?cè)袑徟鞒毯蜏?zhǔn)確率的基礎(chǔ)上,進(jìn)一步提升審批工作的效率。按照這種思路,設(shè)計(jì)如下的自動(dòng)審核步驟。

 ?。?)規(guī)范供應(yīng)商材料格式

  由于使用的掃描儀型號(hào)不同,操作人員水平有差異,所以需要對(duì)上傳的圖像質(zhì)量在分辨率、清晰程度以及掃描方法等各方面提出要求,通過(guò)對(duì)輸入圖像格式的要求,可以極大地提升自動(dòng)審核的準(zhǔn)確率和成功率。

  分辨率:統(tǒng)一分辨率為300 dpi;

  清晰度:彩色掃描,文字清晰,邊框邊線清晰;

  掃描方法:摘除封面,將掃描儀設(shè)置成原稿紙掃描模式。

  在用戶上傳供應(yīng)商數(shù)據(jù)資料時(shí),系統(tǒng)進(jìn)行預(yù)判,如不滿足格式要求,將要求用戶重新上傳。

 ?。?)OCR技術(shù)自動(dòng)審批

  為了更好地適應(yīng)當(dāng)前系統(tǒng),并保證準(zhǔn)確率,自動(dòng)審批環(huán)節(jié)保留原有的?。ㄊ校┕竞涂偛?jī)杉?jí)人工審批。自動(dòng)審批有可能出現(xiàn)3種情況,見(jiàn)表2。

  由于主數(shù)據(jù)審批存在正確對(duì)照文字,前兩種情況對(duì)于審批準(zhǔn)確率不會(huì)產(chǎn)生影響。為了盡可能的杜絕第三種情況的發(fā)生,使用了BI-OCR和TH-OCR兩種OCR技術(shù)進(jìn)行自動(dòng)識(shí)別,進(jìn)一步降低了審批的錯(cuò)誤率。由于兩種技術(shù)對(duì)于印刷漢字的成功率都很高,所以兩種識(shí)別技術(shù)都驗(yàn)證正確后即可認(rèn)為審批通過(guò),如果機(jī)器兩次識(shí)別結(jié)果不同,則將自動(dòng)審批不通過(guò)的文件加標(biāo)識(shí)后轉(zhuǎn)到人工審批。具體的審批流程如圖2所示。

004.jpg

 ?。?)OCR自動(dòng)審批界面設(shè)計(jì)

  在系統(tǒng)界面中,除在供應(yīng)商主數(shù)據(jù)申請(qǐng)環(huán)節(jié)對(duì)數(shù)據(jù)格式進(jìn)行一定的約束外,在?。ㄊ校┖涂偛恐鲾?shù)據(jù)運(yùn)維兩步審批環(huán)節(jié),均設(shè)置自動(dòng)審批按鈕,通過(guò)調(diào)用OCR的自動(dòng)識(shí)別開(kāi)發(fā)包(SDK)對(duì)圖片中的文字進(jìn)行識(shí)別審批,如圖3所示。

005.jpg

  2.4 供應(yīng)商主數(shù)據(jù)自動(dòng)審核功能實(shí)現(xiàn)測(cè)試

  通過(guò)對(duì)供應(yīng)商主數(shù)據(jù)自動(dòng)審核功能的多次設(shè)計(jì)實(shí)驗(yàn),使用單一的自動(dòng)審核已經(jīng)可以達(dá)到較高的識(shí)別率。對(duì)隨機(jī)選取的110份原稿掃描文件進(jìn)行了測(cè)試,其中工商登記證、稅務(wù)登記證各30份,組織機(jī)構(gòu)代碼證40份,身份證10份,字符識(shí)別率達(dá)到94%,字段識(shí)別率為90%。而通過(guò)使用主數(shù)據(jù)自動(dòng)輔助審批流程,使用人工和自動(dòng)雙審批機(jī)制,準(zhǔn)確率達(dá)到100%。

3 效益分析

  通過(guò)以上的功能優(yōu)化,使得工作效率得到極大的提升,通過(guò)應(yīng)用采用OCR技術(shù),使得大量的日常審批工作可以由機(jī)器自動(dòng)完成,節(jié)省了人工成本。通過(guò)該項(xiàng)功能優(yōu)化,在提升效率的同時(shí)也提高的用戶滿意度。下面對(duì)功能優(yōu)化帶來(lái)的效率提升和準(zhǔn)確率提升分別進(jìn)行量化分析。

  3.1 效率提升

  由于熟練運(yùn)維人員的工作效率一定,本研究使用工作量進(jìn)行效率分析。

  在供應(yīng)商主數(shù)據(jù)審批功能優(yōu)化中,利用兩種技術(shù)對(duì)一副圖片的識(shí)別審批速度都在1 s左右,對(duì)應(yīng)于一個(gè)供應(yīng)商的公司類數(shù)據(jù)有三份必須資料,利用兩項(xiàng)技術(shù)獨(dú)立串行審批需6 s左右,并行審批只需3 s左右。對(duì)于這三份必須資料,兩次自動(dòng)審批都通過(guò)的比率大概占到60%左右,而轉(zhuǎn)人工審批的資料文件中,存在關(guān)鍵字段字體重疊、印刷位置錯(cuò)誤等現(xiàn)象而無(wú)法自動(dòng)審批的文件占50%左右。即機(jī)器總的審批數(shù)能占到80%左右。機(jī)器輔助審批工作量統(tǒng)計(jì)見(jiàn)表3,效率提升統(tǒng)計(jì)見(jiàn)表4。

007.jpg

006.jpg

  通過(guò)表4可以看出,審批效率提升了5倍左右,而且審批條數(shù)越多,效率越高,對(duì)于一般的審批工作量,一個(gè)運(yùn)維人員已經(jīng)可以完全勝任。

  3.2 準(zhǔn)確率提升

  眾所周知,人的注意力處于一個(gè)變化的狀態(tài),而且受身體狀況、心情、睡眠狀況等多種因素影響[8],而機(jī)器的注意力可以認(rèn)為是不會(huì)下降,甚至隨著機(jī)器學(xué)習(xí)的進(jìn)展,識(shí)別準(zhǔn)確率會(huì)有進(jìn)一步的提升。

  由于經(jīng)過(guò)了兩級(jí)審批,人工的識(shí)別準(zhǔn)確率在99%左右。而機(jī)器輔助審批經(jīng)過(guò)兩種算法的判斷識(shí)別,識(shí)別準(zhǔn)確率保持在99.99%以上。

4 結(jié)束語(yǔ)

  主數(shù)據(jù)管理作為數(shù)據(jù)治理中最為核心的一環(huán),是企業(yè)獲得一個(gè)完整、可信的數(shù)據(jù)視圖的必經(jīng)途徑。本文通過(guò)對(duì)國(guó)家電網(wǎng)公司主數(shù)據(jù)管理系統(tǒng)相關(guān)功能進(jìn)行研究,采用先進(jìn)的OCR技術(shù)實(shí)現(xiàn)了數(shù)據(jù)的自動(dòng)輔助審批。在實(shí)際應(yīng)用中,大幅度提升了運(yùn)維效率和運(yùn)維質(zhì)量,經(jīng)測(cè)算,運(yùn)維效率提升了3倍左右,使得運(yùn)維資源能夠更多的向咨詢和應(yīng)用分析等工作傾斜,在提升運(yùn)維質(zhì)量的同時(shí),提升了用戶的服務(wù)滿意度。

  下一步的建設(shè)和運(yùn)維工作將著眼于建立行之有效的主數(shù)據(jù)運(yùn)維體系,挖掘主數(shù)據(jù)運(yùn)維的潛力,有效提升主數(shù)據(jù)運(yùn)維的質(zhì)量,從而充分體現(xiàn)數(shù)據(jù)這項(xiàng)無(wú)形資產(chǎn)在企業(yè)中的核心價(jià)值。

參考文獻(xiàn)

  [1]張當(dāng)中.漢字識(shí)別技術(shù)綜述[J]. 語(yǔ)言文字應(yīng)用,1997(2): 77-86.

  [2]馬玲. 基于主數(shù)據(jù)管理的電網(wǎng)調(diào)度數(shù)據(jù)整合[D].昆明:云南大學(xué).2014.

  [3]岳曉峰,焦圣喜,韓立強(qiáng),等.模式識(shí)別中的光字符識(shí)別技術(shù)及應(yīng)用綜述[J].河北工業(yè)科技,2006, 23(5):312-316.

  [4]呂冬.山東電力ERP與SG-MDM實(shí)現(xiàn)項(xiàng)目主數(shù)據(jù)縱向貫通[J]. 電力信息化.2011,9(3):28-31.

  [5]張仰森,俞士汶.文本自動(dòng)校對(duì)技術(shù)研究綜述[J].計(jì)算機(jī)應(yīng)用研究,2006,06: 8-12.

  [6]李成城,白濤, 趙述芳等. 基于OCR的縱向文字校對(duì)的研究與實(shí)現(xiàn)[J].計(jì)算機(jī)應(yīng)用研究,2006,(4):234-236.

  [7]賈紅龍.面向服務(wù)體系架構(gòu)(SOA)的主數(shù)據(jù)管理(MDM)和流程監(jiān)控(PM)研究[J].信息技術(shù)與信息化,2010(2):78-82.

  [8]顏魯林.利用SPSS對(duì)大學(xué)生學(xué)習(xí)注意力集中程度進(jìn)行多元線性回歸分析[D].蘭州:蘭州大學(xué).2012.


此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。