2003年8月27日在華盛頓召開了第九屆知識發(fā)現(xiàn)與數(shù)據(jù)挖掘國際會議,參與討論的專家一致認(rèn)為:數(shù)據(jù)挖掘正面臨著巨大的機遇和挑戰(zhàn);作為一門僅有17年歷史的新興交叉學(xué)科,當(dāng)前知識發(fā)現(xiàn)(數(shù)據(jù)挖掘)的研究進(jìn)展中,存在著兩個大的核心問題(難題): 其一是“缺乏基礎(chǔ)理論”;另一個是缺少“殺手锏”式的應(yīng)用。 U. Fayyad認(rèn)為:從科學(xué)發(fā)展的長遠(yuǎn)來看,最大的絆腳石是基礎(chǔ)理論的缺乏以及所面臨的問題和挑戰(zhàn)的清晰明白的闡述。 他認(rèn)為對于我們要做什么,幾乎沒有理論甚至工程實踐來指導(dǎo):在今天它仍然是” 不為人知的藝術(shù)”。 我們需要理論來指導(dǎo)我們要做什么以及要如何作。這些理論能夠促使工程解決方法的出現(xiàn),這樣我們也可以將我們的 “手藝”更有效的教給其他人。而這種形勢與從業(yè)者以及對應(yīng)用感興趣的人們的巨大的熱情同時存在,這些人來自不同的領(lǐng)域,但是沒有科學(xué)根基以及持續(xù)的學(xué)術(shù)發(fā)展,本領(lǐng)域不可能得到發(fā)展與鞏固。

      R.Uthurusamy也認(rèn)為:WEB的使用和生產(chǎn)廠家的大肆宣傳等都會在短期內(nèi)影響本領(lǐng)域的發(fā)展,它們會使得我們將更多的精力投向數(shù)據(jù)庫營銷、CRM和OLAP等方面,而不是致力于使KDD從根本上或科學(xué)上有大的進(jìn)步。KDD的基礎(chǔ)研究界必須消除這些干擾而去努力解決KDD的真正的根本的問題。

      有些學(xué)者在KDD的基礎(chǔ)理論的相關(guān)研究中做出一些成果,主要包括從數(shù)據(jù)庫的角度進(jìn)行研究,它強調(diào)知識發(fā)現(xiàn)的效率(efficiency);從機器學(xué)習(xí)的角度進(jìn)行研究,它強調(diào)知識發(fā)現(xiàn)的有效性(effectiveness)、從統(tǒng)計分析的角度進(jìn)行研究,它強調(diào)知識發(fā)現(xiàn)的正確性(valid)、以及從微觀經(jīng)濟(jì)學(xué)的角度進(jìn)行研究, 它強調(diào)的是知識發(fā)現(xiàn)的最大效用(maximum utility)等。但遺憾的是這些研究或者沒有深入探討其理論基礎(chǔ),或者沒有給出具體的實現(xiàn)方法,因此無法從根本上明顯提高現(xiàn)有知識發(fā)現(xiàn)的性能,也無法解決KDD發(fā)展過程中極富挑戰(zhàn)性的一些問題。事實上,上述的成果,只是提供了KDD的方法論基礎(chǔ),而要真正構(gòu)建其理論體系,必須抓住KDD的本質(zhì),形成與其本質(zhì)相適應(yīng)的理論基礎(chǔ)。KDD的本質(zhì)何在?至少有兩個可信的路徑:一個是將KDD過程(系統(tǒng))視為認(rèn)知過程(系統(tǒng));另一個是將KDD過程(系統(tǒng))視為非線性動力系統(tǒng)中非平衡態(tài)轉(zhuǎn)化的過程(系統(tǒng))。

      第一完成人是國內(nèi)較早進(jìn)入知識發(fā)現(xiàn)領(lǐng)域的學(xué)者。圍繞這兩個核心問題,早就開始在國家自然科學(xué)基金重點項目、863項目、教育部重點科技項目、國家九五攻關(guān)重點項目等11個項目的資助下,用十余年的時間全面、穩(wěn)定、系統(tǒng)地跟蹤前沿,另辟蹊徑地給出了令人信服的答案,即在這兩大核心問題上有所突破:1) 于1997年跳出主流發(fā)展,以認(rèn)知自主性為核心,在國際上開創(chuàng)了從內(nèi)在認(rèn)知機理出發(fā)、用認(rèn)知科學(xué)與系統(tǒng)論方法研究知識發(fā)現(xiàn)的新路徑;首次提出五個系列的原創(chuàng)性技術(shù)發(fā)明;進(jìn)而于2002年構(gòu)建并逐步完善與拓展了基于內(nèi)在認(rèn)知機理的知識發(fā)現(xiàn)技術(shù)理論體系(KDTICM),且據(jù)查至今國內(nèi)外尚無人像第一完成人那樣針對知識發(fā)現(xiàn)系統(tǒng)地提出一整套理論(包括作為理論的實現(xiàn)研發(fā)了相應(yīng)的集成化組合構(gòu)件式知識發(fā)現(xiàn)軟件系統(tǒng)ICCKDSS)。2) 利用七年時間深入實際,將KDTICM與ICCKDSS應(yīng)用于鋁電解生產(chǎn)領(lǐng)域,產(chǎn)生了較大的經(jīng)濟(jì)效益;以及農(nóng)業(yè)、氣象、現(xiàn)代遠(yuǎn)程教育網(wǎng)及國際商務(wù)等領(lǐng)域,產(chǎn)生了較大的社會效益;進(jìn)一步應(yīng)用到蛋白質(zhì)三維結(jié)構(gòu)預(yù)測這一國際性重大課題的研究中。以下分述之。

      1. 科學(xué)發(fā)現(xiàn)導(dǎo)致技術(shù)發(fā)明,確保了技術(shù)發(fā)明的原創(chuàng)性

        1.1 開創(chuàng)了知識發(fā)現(xiàn)研究的新路徑

      我們首先進(jìn)行了若干先導(dǎo)性工作,主要集中在相關(guān)的邏輯基礎(chǔ)、方法論與哲學(xué)基礎(chǔ)方面的工作。比較典型的研究成果是:1) 提出基于語言場與語言值結(jié)構(gòu)的知識表示方法與數(shù)據(jù)歸約(離散化)方法,成為數(shù)據(jù)挖掘研究中貫穿性的方法;2) 形成因果聯(lián)系能行可判定方法——基于單一語言場的因果關(guān)系定性推理模型——基于綜合語言場的因果關(guān)系定性推理模型——廣義細(xì)胞自動機及廣義歸納邏輯因果模型的系列性成果,這為后面的因果關(guān)聯(lián)規(guī)則的挖掘算法等研究奠定了基礎(chǔ);3) 結(jié)合專家系統(tǒng)研究,提出“一類不確定性歸納型自動推理機制”和“專家知識的歸納獲取機制”,為KDK模型與算法的研究、新型實用智能系統(tǒng)的研究作了技術(shù)儲備;4) 提出了認(rèn)知自主性的實現(xiàn)策略與幾點哲學(xué)思考,成為內(nèi)在認(rèn)知機理研究中重要的思想來源。

      在知識發(fā)現(xiàn)的主流發(fā)展中,特別是在復(fù)雜系統(tǒng)知識發(fā)現(xiàn)過程中,存在著許多富有挑戰(zhàn)性的問題。比如,1)迫切需要領(lǐng)域知識的參與;2)自主發(fā)現(xiàn)知識的機制;3)知識庫的實時維護(hù);4)盡量縮小搜索空間與挖掘空間;5) 免失重要的意外規(guī)則;6) 挖掘新知識的動態(tài)評價等。這些問題靠傳統(tǒng)數(shù)據(jù)挖掘技術(shù)方法是難于處理或無法處理的,必須有與其復(fù)雜性相適應(yīng)的創(chuàng)新性技術(shù)方法來解決。第一完成人是國內(nèi)較早進(jìn)入知識發(fā)現(xiàn)領(lǐng)域的學(xué)者,于1997年開始逐步形成如下的解決方案:1) 從根基(機理)研究入手,另辟蹊徑地把知識發(fā)現(xiàn)過程(系統(tǒng))視為認(rèn)知過程(系統(tǒng)),用系統(tǒng)論與認(rèn)知科學(xué)的思想和方法(特別是模型化的方法)來研究復(fù)雜的知識發(fā)現(xiàn)過程,揭示了作為認(rèn)知系統(tǒng)的知識發(fā)現(xiàn)的潛在本質(zhì)、規(guī)律與復(fù)雜性;2) 機理研究導(dǎo)致數(shù)據(jù)挖掘技術(shù)的創(chuàng)新與發(fā)明——包括機制的實現(xiàn)技術(shù)、過程模型構(gòu)造方法、技術(shù)方法、系統(tǒng)構(gòu)造方法、作為其技術(shù)發(fā)明載體的軟件系統(tǒng);3) 將諸發(fā)明點(創(chuàng)新技術(shù))集成與系統(tǒng)化,形成技術(shù)理論體系;4) 擴(kuò)展原有的四個應(yīng)用領(lǐng)域,力求在工業(yè)生產(chǎn)中取得硬效益 (這是近一年多新做的工作)。 

        1.2 發(fā)現(xiàn)了三個機制

      首次從認(rèn)知心理學(xué)、認(rèn)知物理學(xué)等新理念出發(fā),發(fā)現(xiàn)了知識發(fā)現(xiàn)系統(tǒng)內(nèi)在認(rèn)知機理涵蓋的三個機制(原理):雙庫協(xié)同機制(揭示了知識庫與數(shù)據(jù)庫間的內(nèi)在聯(lián)系)、雙基融合機制(揭示了基于數(shù)據(jù)庫和基于知識庫兩個發(fā)現(xiàn)過程的內(nèi)在聯(lián)系;與此相聯(lián)系的還獨立提出KDK)、信息擴(kuò)張機制(揭示了動態(tài)挖掘過程中參數(shù)的演化規(guī)律等);分別相應(yīng)地給出其核心定理及其實現(xiàn)技術(shù)(通過協(xié)調(diào)器實現(xiàn))。內(nèi)在認(rèn)知機理的研究確保了技術(shù)發(fā)明的原創(chuàng)性,揭示了知識發(fā)現(xiàn)作為認(rèn)知系統(tǒng)潛在的本質(zhì)、規(guī)律與復(fù)雜性;在很大程度上解決了“用戶的先驗知識與先前發(fā)現(xiàn)的知識可以耦合到發(fā)現(xiàn)過程中” 、“知識與數(shù)據(jù)庫的同步進(jìn)化” 、“知識庫的實時維護(hù)”等主流發(fā)展中極富挑戰(zhàn)性的問題;對主流發(fā)展產(chǎn)生重要的驅(qū)動作用。其內(nèi)容將在以下具體論述。 

         1.2.1雙庫協(xié)同機制 (知識庫與數(shù)據(jù)庫間的內(nèi)在聯(lián)系)

      認(rèn)知心理學(xué)興起于20世紀(jì)50年代中期,后來Neisser于1967年發(fā)表了心理學(xué)史上第一部以《認(rèn)知心理學(xué)》命名的專著。認(rèn)知心理學(xué)是以信息加工觀點為核心的心理學(xué),所謂信息加工觀點就是將人腦與計算機進(jìn)行類比,將人腦看作類似于計算機的信息加工系統(tǒng)。認(rèn)知心理學(xué)的研究范圍主要包括感知覺、注意、表象、學(xué)習(xí)記憶、思維和言語等心理過程或認(rèn)知過程,以及模式識別和知識的組織等;其核心是揭示認(rèn)知過程的內(nèi)部心理機制,即信息是如何獲取、貯存、加工和使用的。在知識發(fā)現(xiàn)系統(tǒng)中,模擬“創(chuàng)建意向”和“心理信息修復(fù)”這兩項認(rèn)知心理特征進(jìn)而提高系統(tǒng)的認(rèn)知自主性,正是我們研究的出發(fā)點。

      數(shù)據(jù)挖掘在很大的程度上受領(lǐng)域知識與背景知識的制約,而這兩種知識如何真正具體地、可實現(xiàn)地參與到數(shù)據(jù)挖掘過程中?長期以來只是原則上與直覺心理上意識到這個問題,但始終沒得到實實在在的解決。我們模擬認(rèn)知心理學(xué)的兩個重要特征,即“創(chuàng)建意向”與“心理信息修復(fù)”,為此用“啟發(fā)型協(xié)調(diào)器”實現(xiàn)前者(利用有向超圖鄰接矩陣發(fā)現(xiàn)知識短缺——產(chǎn)生創(chuàng)建意向——自主聚焦——定向挖掘);用“維護(hù)型協(xié)調(diào)器”實現(xiàn)后者(判定冗余、重復(fù)、矛盾等——定向搜索——實現(xiàn)知識庫的實時維護(hù))。為達(dá)此目的,必通過建立數(shù)據(jù)庫與知識庫間的關(guān)系,產(chǎn)生“定向搜索”與“定向挖掘”機制。我們發(fā)現(xiàn)了在知識發(fā)現(xiàn)過程中,在特定的構(gòu)造下,數(shù)據(jù)庫與知識庫間的對應(yīng)關(guān)系;論證了結(jié)構(gòu)對應(yīng)定理;設(shè)計了啟發(fā)型協(xié)調(diào)器與維護(hù)型協(xié)調(diào)器,解決了“定向搜索”、“定向挖掘”、“自主發(fā)現(xiàn)”、“實時維護(hù)”等難題。該項內(nèi)容已獲國家發(fā)明專利《一種基于雙庫協(xié)同機制的KDD*方法及系統(tǒng)》(ZL  01145080.0)(見附件 )。

      1) 結(jié)構(gòu)對應(yīng)定理:論域X的推理范疇Cr(N)與完全數(shù)據(jù)子類結(jié)構(gòu)可達(dá)范疇Cµ<g,Âc(g)>等價。(我們建立了兩個證明路徑:其一,利用范疇論;其二,利用我們提出的連續(xù)映射的同倫理論的拓廣——泛同論理論)。

      2) 通過結(jié)構(gòu)對應(yīng)定理,可以建立挖掘數(shù)據(jù)庫中數(shù)據(jù)子類結(jié)構(gòu)的“層”與挖掘知識庫中知識“素結(jié)點”的一一對應(yīng)關(guān)系(見圖1),以實現(xiàn)“定向搜索”與“定向挖掘”。提出并實現(xiàn)了兩個協(xié)調(diào)算法:一是對領(lǐng)域固有的知識庫的實時維護(hù)(通過維護(hù)型協(xié)調(diào)算法與構(gòu)件);二是自主發(fā)現(xiàn)知識短缺產(chǎn)生創(chuàng)見意向(通過啟發(fā)型協(xié)調(diào)算法與構(gòu)件)。

       圖1 知識庫中的知識素結(jié)點與數(shù)據(jù)子類結(jié)構(gòu)中的層之間的一一對應(yīng)

      [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17] [18] [19] [20] [21] [22] [23]  下一頁

      文章錄入:zgkjcx    責(zé)任編輯:zgkjcx 
    1. 上一篇文章:

    2. 下一篇文章:
    3.  
      名稱:科技創(chuàng)新網(wǎng) 工信部備案號:京ICP備13040577號-2 京公網(wǎng)安備11010802045251號
      版權(quán)所有:未經(jīng)授權(quán)禁止復(fù)制或建立鏡像 E-Mail:zgkjcx08@126.com
      中文字幕日本视频精品一区,99re66热这里精品7,99精品视频在线观看,亚洲无码潮吹精品视频 96热在这里只有免费精品