版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、表單是日常生活中常見的文件,比如銀行填寫的存款單,郵政匯款單,政府報(bào)表,問卷調(diào)查等。處理這些表單,主要依靠人手工輸入表單中的用戶填寫項(xiàng),然后再進(jìn)行后續(xù)的統(tǒng)計(jì),分析等步驟。由于人為因素的加入,使表單結(jié)構(gòu)的提取成為了表單處理過程中的瓶頸。本文的主要研究工作是分析表單組織結(jié)構(gòu),包括物理結(jié)構(gòu)和邏輯結(jié)構(gòu),實(shí)現(xiàn)表單結(jié)構(gòu)的自動(dòng)提取。 表單從其外觀上看是由單元格組成的,這些單元格之間的邏輯約束關(guān)系是由其相對位置關(guān)系決定的,因此通過識別表單物
2、理結(jié)構(gòu),分析其邏輯約束關(guān)系,再結(jié)合文字識別軟件,達(dá)到表單自動(dòng)處理的目的,這也是表單分析的兩個(gè)重點(diǎn)研究方向。 物理結(jié)構(gòu)識別的主要操作是利用表單物理特性識別得到單元格之間的絕對位置。表單與普通文本文件相比,它的物理特點(diǎn)在于它是由水平和豎直的線框相交而得到的矩形單元格組成,因此可以通過識別線框或者它們相交形成的直角來得到物理結(jié)構(gòu)。因?yàn)樽R別的輸入是掃描后得到的表單圖像,所以識別算法存在的主要問題在于,掃描后得到的表單圖像質(zhì)量會(huì)下降,
3、如表單線框不連續(xù)。因此,如何提高識別效率和適應(yīng)性成為物理結(jié)構(gòu)識別的難點(diǎn)。 對于邏輯結(jié)構(gòu)分析,可以從兩方面入手。一是通過分析表單物理結(jié)構(gòu),得到其整體樹形組成方法,它主要探討的是單個(gè)單元格和表單整體之間的關(guān)系,而忽略了單元格之間的語義約束關(guān)系。另一種方法是通過對單元格進(jìn)行分類,分析其相對位置關(guān)系,采用基于規(guī)則的方法得到單元格之間的約束關(guān)系。因?yàn)槠涫褂昧嘶谝?guī)則的方法,從而具有很好的可擴(kuò)展性,并且提取了單元格之間的語義約束。
4、 本文針對表單文件的物理特性,優(yōu)化了識別物理結(jié)構(gòu)的算法,主要有傾斜校正算法,表單線框識別算法和矢量化算法。針對掃描到計(jì)算機(jī)中的表單圖像可能會(huì)有傾斜,需要首先進(jìn)行傾斜校正。本文的研究對象是普通表單,內(nèi)容可以包含表格、圖像等,文中提出了一種時(shí)間復(fù)雜度較低、適應(yīng)性較強(qiáng)的校正表單傾斜的算法,針對掃描可能引起的多種不利因素,如因?yàn)榇蛴』驋呙枰鸬谋韱沃芯€框斷裂、線框不光滑以及人為因素引起的如表單線框和手寫字體的交叉等不利因素的影響,提出了新
5、的表單線框識別的算法,在保證識別效果的前提下,算法在效率上也有很大的提高。針對單元格在表單中的功能不同,本文將單元格分為四類:空白型單元格,插入型單元格,指示型單元格和說明型單元格。按照這種分類方式,通過分析約束關(guān)系,討論如何使用規(guī)則描述單元格之間的邏輯關(guān)系,修改了原有規(guī)則中的缺陷,提出了經(jīng)過自己改進(jìn)的邏輯結(jié)構(gòu)分析算法。 本文主要研究了物理識別和邏輯識別兩個(gè)部分,重點(diǎn)對使用的算法進(jìn)行細(xì)致的分析,并提出了一些新的處理算法,所做
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 表單源文件
- 藥品gmp認(rèn)證用的文件表單大全
- 智能空間中人的行為識別與理解.pdf
- iso程序文件表單之員工申訴表
- ts16949文件(全套質(zhì)量手冊、程序文件、表單)
- 基于視覺感知的室內(nèi)場景識別與理解.pdf
- 超級全ts16949文件(全套質(zhì)量手冊、程序文件、表單)
- 基于條件隨機(jī)場的人體行為識別與理解.pdf
- 基于點(diǎn)云的空間物體理解與識別方法研究.pdf
- 無人駕駛汽車的交通標(biāo)志圖文識別與理解.pdf
- 深入理解文件系統(tǒng)
- 基于PE文件的加殼檢測與木馬識別技術(shù).pdf
- 一類建筑平面圖的識別與理解.pdf
- 【表單】績效管理全程表單
- iso程序文件表單之員工培訓(xùn)申請登記表
- 基于射頻識別和圖像理解的智能監(jiān)控系統(tǒng)的研究與實(shí)現(xiàn).pdf
- 基于語音識別與文字理解的導(dǎo)購機(jī)器人設(shè)計(jì)與實(shí)現(xiàn).pdf
- istf16949-2016新版全套質(zhì)量手冊、程序文件、表單
- 基于視頻圖像理解的中國象棋棋子識別.pdf
- 基于版面理解的選票快速識別方法研究.pdf
評論
0/150
提交評論