版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、表格文檔是一種簡明、規(guī)范的文檔形式,它非常便于填寫和處理,在人們的日常生活和工作中得到了較為廣泛的應用。伴隨著信息化時代的到來,文檔電子化已經成為未來發(fā)展的必然趨勢。相應地,表格文檔自動處理系統得到了國內外學者的廣泛關注。一般地,一個表格文檔自動處理系統分為兩大模塊:表格文檔分類和信息提取。輸入表格文檔的類別一旦確定,接下來就可以借助在模板庫中其對應的模板表格文檔知識實現關鍵信息的提取,所以說表格文檔分類是后續(xù)表格文檔信息能否正確提取的
2、關鍵。
本文主要對表格文檔圖像的分析方法進行了初步研究。首先,在文檔圖像預處理部分,本文提出了一種基于Haar-like特征的文檔圖像傾斜估計方法;同時,在傾角檢測過程中,為了提高處理速度,我們提出了一種由粗到精的傾角搜索策略。通過與現有的比較出色的文檔傾斜校正算法相比,該方法對通用的印刷類文檔有較高的傾斜估計精度,而且算法性能受文檔的內容、語言和版面結構變化影響較小。另外,本文對傳統的基于固定模板的表格分類系統進行了改進,構
3、建了一個基于可變模板的表格文檔分類原型系統。該系統一方面可以有效地應對固定模板文檔分類面臨的各種實際問題,像文檔圖像的平移、傾斜和尺度變化等等。對于這些位置變動,我們建立了一個從固定模板到變動模板的變換模型。通過基于Ho ugh投票的策略,去估計模型參數,利用估計的參數值對輸入的變動模板表格文檔進行歸一化;另一方面,在固定表格模板的基礎上,允許在原模板的基礎上某幾個單元格大小可變,單元格數目可變,以提高系統在處理實際表格文檔分類問題時的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 文檔圖像邏輯結構分析方法研究.pdf
- 文檔圖像中表格結構定位與分析的性能評測.pdf
- 復雜版面文檔圖像表格與圖的提取及分析.pdf
- 漢字文檔圖像的圖文分割方法研究.pdf
- 基于圖像內容的文檔檢索方法研究.pdf
- 基于內容的文檔圖像壓縮方法研究.pdf
- c#文檔圖像矯正方法研究
- 復雜文檔圖像分析.pdf
- 文檔圖像的高速插值方法的研究.pdf
- 文檔圖像的版面分析技術研究.pdf
- 基于表格的影像文檔類別的識別方法研究.pdf
- 文獻綜述_文檔圖像矯正方法研究.docx
- 表格圖像處理自動評測方法與實現.pdf
- 基于版面分析的文檔圖像檢索算法研究.pdf
- 掃描文檔圖像的處理方法的研究和應用.pdf
- 文獻綜述封面_文檔圖像矯正方法研究.doc
- 深度圖像分析方法研究.pdf
- 基于頂點鏈編碼的表格圖像分析.pdf
- 基于語義分析的文檔排序方法研究.pdf
- 復雜的中文文檔圖像版面分析研究.pdf
評論
0/150
提交評論