項(xiàng)目名稱: 復(fù)雜文本信息分析與理解的基礎(chǔ)理論和應(yīng)用方法的研究
推薦單位: 教育部
項(xiàng)目簡(jiǎn)介: 復(fù)雜文本信息分析與理解是模式識(shí)別的一個(gè)重要分支,是將復(fù)雜文本信息轉(zhuǎn)換為數(shù)字信息并進(jìn)行計(jì)算機(jī)自動(dòng)分析與處理進(jìn)而理解的基本理論和方法。長(zhǎng)期以來(lái),由于缺乏系統(tǒng)的理論基礎(chǔ),這項(xiàng)工作一直進(jìn)展緩慢,很多研究難以實(shí)現(xiàn)。經(jīng)過(guò)十五年的努力,項(xiàng)目小組在該領(lǐng)域幾個(gè)關(guān)鍵理論難題上合作攻關(guān),深入系統(tǒng)地研究,取得如下進(jìn)展。
針對(duì)半個(gè)多世紀(jì)來(lái),困擾文本信息分析與理解基本理論問(wèn)題,即幾何與邏輯結(jié)構(gòu)表示與分析、文本結(jié)構(gòu)復(fù)雜度定義等,本項(xiàng)目建立了基于參數(shù)元素組的文本分析和理解模型,比較完整地揭示文本分析與理解之間的關(guān)系。在此基礎(chǔ)上,提出了文本信息處理的非層次理論,從理論上解決了復(fù)雜幾何結(jié)構(gòu)文本信息的分析與理解。突破了傳統(tǒng)的上推與下推理論的理論瓶頸,使文本分析與理解理論在智能信息處理與信息安全等方面得以推廣與應(yīng)用。本項(xiàng)目構(gòu)造了國(guó)際上第一個(gè)用于文本信息分析與理解的特殊小波函數(shù),創(chuàng)造性地提出了基于小波的文本分析與理解理論,為處理復(fù)雜幾何結(jié)構(gòu)的文本提供了新的理論和工具。本項(xiàng)目深入探討發(fā)現(xiàn)小波新性質(zhì),提出模角分離理論成功分離了兩種不同結(jié)構(gòu)奇異信號(hào)并給予數(shù)學(xué)證明,把奇異信號(hào)的研究推進(jìn)一大步。
本項(xiàng)目提出的模型理論被國(guó)際權(quán)威的《模式識(shí)別與計(jì)算機(jī)視覺(jué)手冊(cè)》收錄,已作為現(xiàn)代模式識(shí)別理論體系的重要部分。基于小波文本信息分析與理解理論開(kāi)辟了文本信息分析與理解的新途徑,并從分析與理解性能上得到明顯改進(jìn)而被美國(guó)著名專家G.Nagy評(píng)價(jià)該理論"展示了完美的性能"。美國(guó)模式識(shí)別專家A.K.Jain高度評(píng)價(jià)研究成果"解決了高度復(fù)雜性的文本信息分析問(wèn)題"。本項(xiàng)目成果先后被美、英、加、意、日、韓、新加坡、香港等地同行大量引用,并作為他們研究的基礎(chǔ)理論,部分成果得到推廣和應(yīng)用。本項(xiàng)目發(fā)表論文260多篇,SCI檢索101篇,他引1168次。項(xiàng)目第一完成人被選為IEEE Fellow和IAPR Fellow,還在國(guó)際上創(chuàng)辦了第一個(gè)小波理論及其應(yīng)用的國(guó)際期刊,并成為SCI檢索源。
主要發(fā)現(xiàn)點(diǎn): 1. 首次建立了一個(gè)基于參數(shù)元素組的文本信息分析和理解模型。該模型揭示了各種復(fù)雜文本信息的幾何結(jié)構(gòu)與邏輯結(jié)構(gòu)關(guān)系,并給出了基于熵理論的文本信息幾何結(jié)構(gòu)復(fù)雜度的定義,使各種具體文本信息能夠通過(guò)模型轉(zhuǎn)化為可用于計(jì)算機(jī)分析與理解的抽象信息元,這一模型建立構(gòu)成現(xiàn)代文本信息分析與理解的基礎(chǔ)理論體系的重要部分 [主要論文1,2]。學(xué)科分類:模式識(shí)別理論。
2. 在國(guó)際上提出了文本信息分析的新理論。從理論上解決了傳統(tǒng)的上推理論及下推理論的不能分析與處理復(fù)雜幾何結(jié)構(gòu)文本信息的致命弱點(diǎn),使各種文本信息計(jì)算機(jī)自動(dòng)分析、處理與理解因這一理論瓶頸的突破,而開(kāi)始得到廣泛實(shí)際應(yīng)用 [主要論文5]。學(xué)科分類:模式識(shí)別理論、信號(hào)與信號(hào)處理理論。
3. 把小波分析理論研究與文本信息分析與理解理論研究相結(jié)合,創(chuàng)造性地建立了文本信息分析與理解的新理論和方法,并取得下面三項(xiàng)主要成果。學(xué)科分類:模式識(shí)別理論、信號(hào)與信號(hào)處理理論。
3.1 首次把多分辨分析思想引入復(fù)雜表格文本信息的處理,建立了表格文本信息分析、處理與理解的二維多分辨分析理論。有效地從各種文本信息中提取出表格的幾何結(jié)構(gòu),并給出相應(yīng)的邏輯理解,使困擾文本分析與理解的一個(gè)核心問(wèn)題――表格分析與理解得到解決 [主要論文6]。
3.2 構(gòu)造了國(guó)際上第一個(gè)滿足文本信息分析與理解的特殊小波函數(shù),發(fā)現(xiàn)了其相應(yīng)小波變換處理文本信息的良好特性并給出數(shù)學(xué)證明,在此基礎(chǔ)上給出復(fù)雜文本信息的小波表示理論,為復(fù)雜文本信息的精確表示提供一般理論和方法 [主要論文10]。
3.3 提出模角分析理論,第一次成功把Dirac結(jié)構(gòu)奇異信號(hào)從Step型結(jié)構(gòu)中檢測(cè)并分離出來(lái),并給予完整數(shù)學(xué)證明,推動(dòng)了多尺度信號(hào)奇異性檢測(cè)和分析理論的發(fā)展 [主要論文7]。
4. 第一次提出了基于非線性變換的變形校正理論,建立了雙二次、雙三次、半彈性和全彈性變換的的近似公式,并給出了實(shí)用的算法,成功地解決了非線性變形校正問(wèn)題 [主要論文9]。學(xué)科分類:模式識(shí)別理論。
5. 在國(guó)際上提出了若干文本元素理解和識(shí)別的理論及算法:
包括基于標(biāo)志線條和描述語(yǔ)言的的表格文本分析方法 [主要論文4]、基于多特征,多層次分類的手寫(xiě)文字識(shí)別方法 [主要論文3]、基于彈性形變的附加正例算法 [主要論文8]。學(xué)科分類:模式識(shí)別理論、信號(hào)與信號(hào)處理理論。
主要完成人: 1. 唐遠(yuǎn)炎
提出了文本信息分析和理解模型,提出了文本信息非層次分析的思想和理論,提出了基于小波分析的文本信息分析與理解的思想和理論,提出了特殊小波函數(shù)構(gòu)建思想和理論,提出模角分析思想和理論,提出了基于非線性變換的變形校正思想和理論,提出了若干文本元素理解和識(shí)別的思想和理論,對(duì)本項(xiàng)目主要發(fā)現(xiàn)點(diǎn)1、2、3、4和5做出了創(chuàng)造性貢獻(xiàn)。本人在該項(xiàng)研究中的工作量占本人工作量的90%。
2. 房斌
提出了若干文本元素理解和識(shí)別的思想和理論,對(duì)本項(xiàng)目主要發(fā)現(xiàn)點(diǎn)5做出了創(chuàng)造性貢獻(xiàn)。本人在該項(xiàng)研究中的工作量占本人工作量的70%。
3. 尤新革
部分參與了模角分析理論和特殊小波函數(shù)構(gòu)建的工作,對(duì)本項(xiàng)目主要發(fā)現(xiàn)點(diǎn)3.2及3.3做出了創(chuàng)造性貢獻(xiàn)。本人在該項(xiàng)研究中的工作量占本人工作量的60%。
4. 馬洪
部分參與了文本信息分析的非層次理論和基于小波的文本分析理論的工作,對(duì)本項(xiàng)目主要發(fā)現(xiàn)點(diǎn)2和3.1做出了創(chuàng)造性貢獻(xiàn)。本人在該項(xiàng)研究中的工作量占本人工作量的40%。
5. 楊力華
部分參與了模角分析理論和特殊小波函數(shù)構(gòu)建的工作,對(duì)本項(xiàng)目主要發(fā)現(xiàn)點(diǎn)3.2及3.3做出了創(chuàng)造性貢獻(xiàn)。本人在該項(xiàng)研究中的工作量占本人工作量的40%。
10篇代表性論文: 1. Automatic Document Processing: A Survey / Pattern Recognition
2. Document processing for automatic knowledge acquisition / IEEE Transactions on Knowledge and Data Engineering
3. Offline recognition of chinese handwriting by multifeature and multilevel classification/ IEEE Transactions on Pattern Analysis and Machine Intelligence
4. Financial document processing based on staff line and description language / IEEE Transactions on Systems, Man, and Cybernetics
5. A new approach to document analysis based on modified fractal signature /ICDAR95
6. Multiresolution analysis in extraction of reference lines from documents with gray level background / IEEE Transactions on Pattern Analysis and Machine Intelligence
7. Characterization and Detection of Edges by Lipschitz Exponents and MASW Wavelet Transform/ICPR 98
8. Off-line Signature Verification with Generated Training Samples / IEE Proceedings - Vision, Image and Signal Processing
9. Image Transformations Approach to NonlinearShape Restoration / IEEE Transactions on Systems, Man, and Cybernetics
10. Skeletonization of Ribbon-like shapes based on a new wavelet function / IEEE Transactions on Pattern Analysis and Machine Intelligence
|