基于混合視覺策略的異構(gòu)表格抽取研究
所屬分類:技術(shù)論文
上傳者:wwei
文檔大小:1671 K
標(biāo)簽: 表格檢測(cè) 表格文本識(shí)別 PP-OCRv4
所需積分:0分積分不夠怎么辦?
文檔介紹:本研究旨在解決軍事領(lǐng)域中異構(gòu)表格數(shù)據(jù)的識(shí)別與抽取問題,提出了一種基于混合視覺策略的表格抽取與體系化存儲(chǔ)框架。首先采用融合Mask R-CNN和Unet的表格檢測(cè)算法與基于PP-OCRv4表格文本識(shí)別方法,實(shí)現(xiàn)了對(duì)于原始數(shù)據(jù)的檢測(cè)及電子化,并引入IoT指標(biāo)解決現(xiàn)實(shí)表格數(shù)據(jù)的文本換行、溢出等問題;然后,提出了一種自適應(yīng)的表格標(biāo)準(zhǔn)化重構(gòu)方法,使得多來源的異構(gòu)表格數(shù)據(jù)可實(shí)現(xiàn)結(jié)構(gòu)化、體系化的統(tǒng)一存儲(chǔ);最后探討了如何將提取的結(jié)構(gòu)化數(shù)據(jù)應(yīng)用于軍事知識(shí)庫構(gòu)建,為海量知識(shí)數(shù)據(jù)的自動(dòng)化提取與標(biāo)準(zhǔn)化存儲(chǔ)提供了數(shù)據(jù)支撐。
現(xiàn)在下載
VIP會(huì)員,AET專家下載不扣分;重復(fù)下載不扣分,本人上傳資源不扣分。