3) 關(guān)于雙庫協(xié)同機制具體實現(xiàn)的進一步討論。例如:可達關(guān)系的概率估計定理:設(shè)p>2a+a2/(1-a);對定義的參數(shù)b和B, 令a<b<(1-a)p, 令(1-p+pa)/(1-a)<B<1-a. 則隨著論域X的數(shù)據(jù)庫Â(X)中元組數(shù)目S(R)的增加,本原知識庫中每一條正規(guī)則對應(yīng)的數(shù)據(jù)子類結(jié)構(gòu)庫中的關(guān)系為一個可達關(guān)系的概率均趨于1;每一條反規(guī)則對應(yīng)的關(guān)系為非可達關(guān)系的概率均趨于1。
1.2.2雙基融合機制 (兩個知識發(fā)現(xiàn)過程間的內(nèi)在聯(lián)系)
雙庫協(xié)同機制給出了特定結(jié)構(gòu)下數(shù)據(jù)庫與知識庫的對應(yīng)關(guān)系,那么基于數(shù)據(jù)庫的KDD與基于知識庫的KDK的兩個發(fā)現(xiàn)過程有無內(nèi)在聯(lián)系呢?我們得到了肯定的回答。
我們發(fā)現(xiàn)了表面上毫無關(guān)聯(lián)的兩個知識發(fā)現(xiàn)過程(KDD與KDK)的內(nèi)在聯(lián)系;雙基融合機制將兩者統(tǒng)一在一個知識發(fā)現(xiàn)系統(tǒng)(過程)中,使其相輔相成,是一種機器智能的較高境界。設(shè)計了R型協(xié)調(diào)器、S型協(xié)調(diào)器與T型協(xié)調(diào)器,解決了KDK依賴與部分地轉(zhuǎn)化為KDD的難題。該項內(nèi)容已正式申報國家發(fā)明專利《一種融入R型協(xié)調(diào)器的KDK系統(tǒng)》(200510086965.8)、《一種融入R型與S型協(xié)調(diào)器的KDK系統(tǒng)》(200510086964.3)和《一種基于雙基融合機制的的KDK*系統(tǒng)》(200510086966.2)(見附件 )。
1)(KDD與KDK)過程模型邏輯等價定理:設(shè)KDK的過程模型為M=,KDD的過程模型為N =,在依數(shù)據(jù)子類結(jié)構(gòu)構(gòu)建數(shù)據(jù)庫,依知識結(jié)點網(wǎng)絡(luò)構(gòu)建知識庫的條件下,M與N各要素間建立了一一對應(yīng)關(guān)系,即M與N邏輯等價。其中:Q為結(jié)點集,R為認知通達關(guān)系,f為正則測度函數(shù),g為正則確信度函數(shù);S為數(shù)據(jù)子類集,F(xiàn)為可達性關(guān)系,Sup為數(shù)據(jù)子類的支持度,Vel為F上的挖掘可信度。
依據(jù)該定理,我們可將部分KDK挖掘問題轉(zhuǎn)化為KDD的挖掘問題;同時為規(guī)則驗證提供了轉(zhuǎn)換的根據(jù)。
2) 雙基融合機制的實現(xiàn):構(gòu)造了R型、S型、T型三個協(xié)調(diào)器,并設(shè)計了相應(yīng)的軟件。
1.2.3信息擴張機制 (動態(tài)挖掘進程規(guī)律)
目前的挖掘算法與評價方法的討論基本上是在一個時間剖面上,相對穩(wěn)定的狀態(tài)下進行的,而對于動態(tài)挖掘進程、實時與在線的挖掘進程考慮得較少;擴散、演化與預(yù)測性研究日趨重要。信息擴張機制主要指當(dāng)數(shù)據(jù)挖掘過程從一個抽象級向下一個抽象級、從固有數(shù)據(jù)庫(知識庫)向擴展數(shù)據(jù)庫(知識庫)過渡的時候,所呈現(xiàn)的運行規(guī)律。如:規(guī)則價值的動態(tài)評價、類似于"不動點"的數(shù)據(jù)簇的尋求、"突變"協(xié)調(diào)算法、基于知識信息熵的預(yù)覽算法、數(shù)據(jù)挖掘復(fù)雜性研究等問題。得到的主要結(jié)果如下:
1) 動態(tài)挖掘進程中規(guī)則參數(shù)的演化規(guī)律的研究:
基于認知物理學(xué)的“語言場”與“信息擴散原理”,發(fā)現(xiàn)了關(guān)聯(lián)規(guī)則的特類——意外規(guī)則參數(shù)演化的規(guī)律;
參數(shù)演化定理:在KDD的動態(tài)挖掘進程中的某一時間段內(nèi),在對實時數(shù)據(jù)庫DB實施分庫和每種參數(shù)只考慮上升、平行、下降三種演化情況的前提下,對于意外規(guī)則而言,其組.態(tài)空間可劃歸為S={<0,0,0,0,0>, <0,0,0,1,-1>, <0,0,0,-1,1>, <-1,0,-1,0,0>, <-1,0,-1,1,-1>, <-1,0,-1,-1,1>, <0,1,-1,0,1>, <0,1,-1,-1,1>, <0,1,-1,1,0>, <0,1,-1,1,1>, <0,1,-1,1,-1>, <-1,1,-1,0,1>, <-1,1,-1,-1,1>, <-1,1,-1,1,0>, <-1,1,-1,1,1>, <-1,1,-1,1,-1>}。
該定理將1024種參數(shù)演化的組態(tài)情況化歸為16種(波動型除外,對于波動型利用“信息擴散原理”加以討論),并給出了被認為是知識發(fā)現(xiàn)難點的可理解性討論的5類主題分析。
對于波動型的討論:規(guī)則的參數(shù)波動變化的情況有781種,對參數(shù)波動變化的態(tài)勢可采用下述的方法處理----信息擴散原理是一種在樣本不足的情況下,對樣本應(yīng)遵循的規(guī)律進行認識的模糊數(shù)據(jù)處理方法。我們提出的自動評價方法可在領(lǐng)域?qū)<也唤槿氲那闆r下,利用知識(規(guī)則)的可計算參數(shù)進行評價;并由信息擴散原理彌補參數(shù)相對不足的缺陷,得到規(guī)則參數(shù)的概率分布信息,據(jù)此客觀地展現(xiàn)規(guī)則特征,從而實現(xiàn)規(guī)則評價。
2) 矛盾域分布的研究:
定義 設(shè)在對真實數(shù)據(jù)庫的動態(tài)挖掘時,規(guī)則的兩個參數(shù)(支持度和可信度)的閾值
設(shè)為 和若下列兩參數(shù)聯(lián)立不等式:
① ②
有解。則稱所求的區(qū)間(或點集)為矛盾域。其中、為三維空間中規(guī)則兩參數(shù)對的函數(shù)。、為對應(yīng)矛盾規(guī)則(滿足矛盾規(guī)則概念模型)對的函數(shù)。
定理 研究數(shù)據(jù)挖掘中矛盾規(guī)則的問題,可以抽象為在一個維向量空間中,求解規(guī)則(比如產(chǎn)生式規(guī)則P→Q)與其對應(yīng)的受矛盾規(guī)則概念模型約束的矛盾規(guī)則(P→┒Q)的參數(shù)向量同時落在閾值空間中的問題。
3) 變論域下閾值設(shè)置的研究:
一般方法是先在數(shù)據(jù)屬性論域中,討論實際數(shù)據(jù)庫中數(shù)據(jù)項目屬性的特征,進行模
糊綜合評判,確定各個項目客觀合理的最小支持度閾值(為“點值”類閾值);然后在時空論域中,從數(shù)據(jù)庫本身的動態(tài)變化中尋找變化規(guī)律,使用閾值協(xié)調(diào)器計算規(guī)則的基礎(chǔ)的閾值取值區(qū)間;最后確定變論域下閾值設(shè)置的輸出函數(shù)( )。用戶只需依照該閾值設(shè)置函數(shù)對閾值進行設(shè)置,將可以達到我們客觀合理地設(shè)置閾值的目的確。
4) 知識發(fā)現(xiàn)系統(tǒng)中信息熵方法的應(yīng)用研究:
理論物理研究的成果表明,熱力學(xué)熵適合于研究海量粒子的分布規(guī)律,F(xiàn)代信息論在通訊等領(lǐng)域的成功應(yīng)用表明,信息熵適用于研究人們有效獲取知識或信息的方法。
定理:如果表示任何一個元素在中出現(xiàn)的概率,是對中的任何一個元
素分類所需要的平均信息量,則對樣本空間中任一個元素分類所需要的信息量為:
這個結(jié)論比ID3算法的理論分析結(jié)果多出了一項。
此可克服ID3算法傾向于屬性值較多的屬性的缺陷。
信息熵一般表達式:我們應(yīng)用所建立的關(guān)于概念及其分解的符號體系得到了樹形概念分解之下,基于任何概念粒度的信息熵(信息蘊含量)的一般表達式
上一頁 [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17] [18] [19] [20] [21] [22] [23] 下一頁
|