項目名稱: 概念層次網(wǎng)絡理論(HNC)
推薦單位: 中國科學院
項目簡介: 1.所屬科學領域
HNC是 Hierarchical Network of Concepts(概念層次網(wǎng)絡)的簡稱,是關(guān)于自然語言理解處理的理論框架,屬于計算機科學和語言學的交叉學科――計算語言學的研究領域。
2.主要研究內(nèi)容
發(fā)達國家對自然語言理解已進行了長達50余年的研究,但所獲甚微。究其原因,西方文明缺乏切入語言本體研究的基礎,而以方塊字為基礎的漢語卻為攻克這一難題提供了天然條件。黃曾陽發(fā)現(xiàn)漢語"字義基元化,詞義組合化"的現(xiàn)象,提出具有原始創(chuàng)新特征的、切合語言本質(zhì)的概念層次網(wǎng)絡理論,其主要思路就是對不同層級的語言單位設計相應的基元模式,以有限的基元表述無限的語言現(xiàn)象,讓計算機通過對有限基元的操控完成對自然語言的理解處理。現(xiàn)已經(jīng)形成完整的理論框架,形成語句分析和句群篇章處理技術(shù)。目前已有基于HNC技術(shù)的軟件產(chǎn)品問世,顯現(xiàn)出"懂"的特點。HNC還將形成一系列計算機自動處理人類語言的理論成果與核心技術(shù),為我國搶占信息時代的技術(shù)制高點奠定堅實基礎。
3.科學價值
該理論有助于推進自然語言理解處理研究,有望在自然語言語義知識的利用方面取得突破性進展,它對語言學,人工智能,計算機科學和認知科學等都具有重要的理論和應用價值,對中文信息處理和漢語研究尤其具有特殊重要的意義。
4.同行引用評價情況
HNC理論已經(jīng)作為一門研究生課程,進入高等學府。全國人大副委員長、著名語言學家許嘉璐先生曾撰文將HNC理論列為目前我國中文信息處理的三大流派之一。該理論提出的學術(shù)觀點及研究方法為國內(nèi)外學術(shù)界所公認和引用:"HNC理論,提出了創(chuàng)新的自然語言理解處理思路,突破了現(xiàn)有的自然語言的知識表述和處理模式,直接進入自然語言的語義深層進行處理,特別適合于非形態(tài)變化的漢語的理解與處理,在漢語語句理解處理方面達到國際領先水平。"(見信息產(chǎn)業(yè)部科技司組織的技術(shù)鑒定會的專家鑒定意見),經(jīng)中科院文獻情報中心查詢中國科學引文數(shù)據(jù)庫(CSCD)1997~2004年數(shù)據(jù),黃曾陽發(fā)表論文(著)被收錄1篇;有7篇(部)論著被他人引用28次。
主要發(fā)現(xiàn)點: 1、自然語言理解是人工智能的重要組成部分,也是根本難題之一。HNC理論發(fā)現(xiàn)了世界上各種語言都對應著一個語言概念空間,漢語具有"字義基元化,詞義組合化"的特點。設計了數(shù)字化的語言概念空間,建立了模擬人腦交際引擎的交互引擎,為自然語言理解處理提供了凸現(xiàn)自然語言內(nèi)在關(guān)聯(lián)性的符號設計,把語義內(nèi)容的關(guān)聯(lián)顯現(xiàn)出來,使語義變成可計算的內(nèi)容。本發(fā)現(xiàn)點屬于語言信息理論與系統(tǒng)(1201040)和人工智能理論(5201410),見論文“HNC理論概要”和專著《HNC(概念層次網(wǎng)絡)理論》。
2、發(fā)現(xiàn)了語言概念空間包括四個層級:概念基元空間,句類空間,語境單元空間,語境空間。四層級的發(fā)現(xiàn),為自然語言理解處理建立了從詞語到篇章的全景處理模式。本發(fā)現(xiàn)點屬于語言信息理論與系統(tǒng)(1201040)和人工智能理論(5201410),見論文“在反思中前進,在碰撞中成長”和專著《語言概念空間的基本定理和數(shù)學物理表示式》。
3、在語言概念空間的基礎上,發(fā)現(xiàn)了語言概念無限而語言概念基元有限,語句無限而句類有限,語境無限而語境單元有限。從而在自然語言處理上能化無限為有限,化繁為簡。本發(fā)現(xiàn)點屬于人工智能理論(5201410),見論文“在反思中前進,在碰撞中成長”和專著《語言概念空間的基本定理和數(shù)學物理表示式》。
4、在語言概念空間的基礎上,發(fā)現(xiàn)了自然語言理解處理的3級提升,形成了計算機理解自然語言詞句、句群以及篇章語義的三大核心技術(shù):句類分析技術(shù),語境單元萃取技術(shù),語境生成技術(shù)。為從詞語到篇章的內(nèi)容處理建立恰當?shù)奶幚韺蛹,使處理具備了可以攀登的臺階。本發(fā)現(xiàn)點屬于人工智能理論(5201410),參見同上。
5、從句類分析的角度出發(fā),發(fā)現(xiàn)了語句處理的20項難點,從深層次揭示語句處理的本質(zhì),給自然語言處理研究提供一個新的角度,必將使語言分析更深入、更透徹。本發(fā)現(xiàn)點屬于語言信息理論與系統(tǒng)(1201040)和人工智能理論(5201410),見網(wǎng)上公布的專著《自然語言理解處理的20項難點及其對策》。
6、發(fā)現(xiàn)了語境單元萃取的8項基本原則:語境單元與句群SG對應原則、 領域DOM認定原則、領域句類SCD認定原則、情景SIT框架描述原則、事件背景BACE描述原則、情景與事件背景轉(zhuǎn)換原則、述者背景的立場判定原則、基本判斷句功能原則,為計算機具有短時記憶或工作記憶機制奠定了基礎。本發(fā)現(xiàn)點屬于語言信息理論與系統(tǒng)(1201040)和人工智能理論(5201410)及語言認知理論(3105425),見論文“在反思中前進,在碰撞中成長”和專著《語言概念空間的基本定理和數(shù)學物理表示式》。
7、發(fā)現(xiàn)了語境生成ABS的6項基本原則:變換原則、同步原則、適應原則、對應原則、虛實原則、層次與要點原則,為計算機獲得長時記憶、知識存儲和自學習能力奠定了基礎。所屬學科及參見同上。
主要完成人: 1. 黃曾陽
對"主要發(fā)現(xiàn)點"欄中全部發(fā)現(xiàn)點均做出了創(chuàng)造性貢獻:
第1-2點:發(fā)現(xiàn)語言概念空間及四層級,漢語"字義基元化,詞義組合化";
第3-4點:發(fā)現(xiàn)語言概念基元,句類及語境單元的有限性和3級提升;
第5-7點:提出語句和語境處理的原則。
投入本項目研究的工作量占本人工作量的100%。
10篇代表性論文: 1. 《HNC(概念層次網(wǎng)絡)理論》/清華大學出版社
2. HNC理論概要/中文信息學報
3. HNC理論與自然語言語句的理解/中國基礎科學
4. HNC的發(fā)展與未來/漢語學報
5. 語義及概念體系在NLP中的作用/中文信息處理若干重要問題/科學出版社
6. 語言概念空間的基本定理和數(shù)學物理表示式/海洋出版社
7. 在反思中前進,在碰撞中成長/第二屆HNC與語言學研討會論文集/海洋出版社
|