4.2.3 氣象
在國家氣象局“大城市環(huán)境氣象信息系統(tǒng)研究”課題的子課題“氣象數(shù)據(jù)挖掘與知識發(fā)現(xiàn)軟件系統(tǒng)”的資助下,于2000年1月開始至2002年12月,經(jīng)過三年的努力,將ICCKDSS應(yīng)用于氣象短期預(yù)報與服務(wù)領(lǐng)域(見附件)。通過在北京氣象科學(xué)研究所進行實際運行后,認為:該軟件性能良好,使用方便,人機界面友好,通過在氣象各個部門中的推廣應(yīng)用,可產(chǎn)生很大的經(jīng)濟效益和社會價值,是一個具有很高技術(shù)含量的軟件系統(tǒng)。
1) 功能簡介
(1)氣象云圖數(shù)據(jù)的處理方法。
超圖模型表示、Hilbert空間與小波逼近、矩陣近似、特征提取(小波變換)。
(2)相似模式的知識發(fā)現(xiàn)過程,如下圖(圖27)所示:
圖27 相似模式的知識發(fā)現(xiàn)過程
(3)氣象系統(tǒng)的體系結(jié)構(gòu)。
包括數(shù)據(jù)預(yù)處理模塊、模式構(gòu)造模塊、知識發(fā)現(xiàn)模塊、預(yù)測建模模塊、數(shù)據(jù)管理模塊與相關(guān)的工作平臺。其總體結(jié)構(gòu)圖如下圖(圖28)所示:
圖28 氣象系統(tǒng)的體系結(jié)構(gòu)圖
2) 解決的典型問題
在氣象云圖處理上,過去采用經(jīng)驗的方法或傳統(tǒng)處理方法,而我們采用相似模式的挖掘方法來分析氣象云圖,并給出基于信息挖掘的短期預(yù)測模型。
目前,ICCKDSS已作為關(guān)鍵部分應(yīng)用于北京市氣象局的“大城市氣象預(yù)報服務(wù)信息系統(tǒng)平臺”。ICCKDSS的應(yīng)用,不僅有效地起到了輔助短期氣象預(yù)報的功能,而且可以實現(xiàn)在不同的天氣生成不同的產(chǎn)品和服務(wù),并將有用的存入知識庫,這極大地豐富了北京市氣象局的服務(wù)范圍和功能。
4.2.4 國際商務(wù)
在與國家商務(wù)部國際電子商務(wù)中心的合作中,構(gòu)造了基于我們專利技術(shù)的“面向加工貿(mào)易基于競爭情報的智能決策支持系統(tǒng)”。針對外貿(mào)加工中國內(nèi)采購與供應(yīng)鏈系統(tǒng)進行深入分析,通過數(shù)據(jù)挖掘、WEB挖掘、案例推理與OLAP等技術(shù),挖掘出一些平時很難靠直觀或憑借經(jīng)驗發(fā)現(xiàn)的規(guī)則,而對領(lǐng)導(dǎo)決策管理有一定的參考價值。
1) 功能簡介
(1) 包含的主要功能模塊有: KDD*、OLAP、案例推理、Web挖掘、評估模型等。
(2) 商務(wù)領(lǐng)域網(wǎng)站主頁應(yīng)用窗口(如圖29)
圖29 基于知識發(fā)現(xiàn)的商務(wù)應(yīng)用系統(tǒng)
(3) KDD*挖掘窗口(見圖30)
圖30挖掘結(jié)果
2) 解決的典型問題
挖掘出一些平時很難靠直觀或憑借經(jīng)驗發(fā)現(xiàn)的規(guī)則,而對領(lǐng)導(dǎo)決策管理有一定的參考價值。例如:
(1)提供設(shè)備價款小于10000、可供輔料價款小于100000、那么申請合同類型為進料合同。由此可看出進料合同的基本特征;
(2)進口料件原值1百萬以內(nèi)、加工費小于100000,那么進口料件總值1百萬以內(nèi);
(3)加工貿(mào)易方式為0、可供輔料價款小于100000,那么加工費小于100000。
這個系列性研發(fā)項目的實施,將對我國外貿(mào)出口、進口、順差、逆差、預(yù)警、體制等方面產(chǎn)生重要的影響。
該系統(tǒng)已通過正式驗收(見附件)。驗收委員會一致認為:
① “面向加工貿(mào)易基于競爭情報的企業(yè)經(jīng)營和領(lǐng)導(dǎo)戰(zhàn)略決策支持系統(tǒng)”將一般智能決策支持系統(tǒng)提升到基于信息挖掘的智能決策支持系統(tǒng)水平,進而融入了數(shù)據(jù)倉庫技術(shù)——在線分析處理技術(shù)(OLAP),知識發(fā)現(xiàn)技術(shù)——結(jié)構(gòu)化數(shù)據(jù)關(guān)聯(lián)分析技術(shù)(KDD*),以及專家系統(tǒng)的理念和技術(shù)——知識獲取與案例推理。這種提升與跨領(lǐng)域的融合具有創(chuàng)新性,提出了一種新型實用智能決策支持系統(tǒng)。
②該系統(tǒng)的理論基礎(chǔ)為“基于內(nèi)在認知機理的知識發(fā)現(xiàn)理論KDTICM”,直接開發(fā)工具以基于KDTICM開發(fā)的知識發(fā)現(xiàn)軟件系統(tǒng)ICCKDSS(獲相關(guān)的三項國家發(fā)明專利證書、軟件著作權(quán)證書與軟件產(chǎn)品登記證書)為核心。該系統(tǒng)綜合使用在線分析處理、專家系統(tǒng)和知識發(fā)現(xiàn)技術(shù),對中國商務(wù)部國際電子商務(wù)中心現(xiàn)有加工貿(mào)易數(shù)據(jù)進行多維建模、知識庫構(gòu)建和高層關(guān)聯(lián)分析。
③該系統(tǒng)完成了海量數(shù)據(jù)的多角度、多層面綜合統(tǒng)計分析,提升了現(xiàn)有統(tǒng)計分析水平;通過知識庫的架構(gòu),集中高效的利用了領(lǐng)域?qū)<业闹R經(jīng)驗,為決策者提供了可靠的可資借鑒的歷史經(jīng)驗和相關(guān)背景信息;使用高級數(shù)據(jù)挖掘機制與方法,綜合探究各種數(shù)據(jù)信息間的內(nèi)在邏輯關(guān)聯(lián)結(jié)構(gòu),揭示出平凡方法無法發(fā)現(xiàn)的因果性規(guī)律,為決策提供深層科學(xué)依據(jù)。
④在提升現(xiàn)有統(tǒng)計分析和輔助決策能力的同時,系統(tǒng)建構(gòu)了一個一般加工貿(mào)易業(yè)務(wù)運行平臺;使整個系統(tǒng)以內(nèi)在的多層次功能邏輯結(jié)構(gòu)去覆蓋加工貿(mào)易信息系統(tǒng)的多個層面,為類似于商務(wù)信息系統(tǒng)的一般復(fù)雜信息系統(tǒng)的建設(shè)提供了一個可資借鑒的原型;具有很好的產(chǎn)品化與應(yīng)用前景。
總之,該系統(tǒng)的研發(fā)和運行表明ICCKDSS軟件系統(tǒng)是一個性能良好和功能完備的新型知識發(fā)現(xiàn)系統(tǒng)。此項目研發(fā)的新型智能決策支持系統(tǒng)是集理論、軟件與應(yīng)用于一體的創(chuàng)新性研究成果;深刻地體現(xiàn)了知識發(fā)現(xiàn)創(chuàng)新技術(shù)與前沿智能技術(shù)的融合,在解決國家對外商務(wù)領(lǐng)域輔助決策等重大工程應(yīng)用問題中的極其重要的作用。系統(tǒng)整體上達到國際先進水平。
4.3 有望對科學(xué)發(fā)現(xiàn)產(chǎn)生重要影響的應(yīng)用——蛋白質(zhì)3維結(jié)構(gòu)預(yù)測
蛋白質(zhì)是一個氨基酸的序列(由一定氨基酸的序列形成,具有3維空間結(jié)構(gòu))。在分子生物學(xué)領(lǐng)域,預(yù)測蛋白質(zhì)的3維結(jié)構(gòu)被認為是最難解決的問題之一,也屬國際性重大科研課題的研究。由于形狀(三維構(gòu)象)往往會決定蛋白質(zhì)的功能,因此,進行這種預(yù)測對醫(yī)藥界也同樣具有重大意義。
蛋白質(zhì)中氨基酸的排列被稱為是蛋白質(zhì)的一級結(jié)構(gòu)。從空間角度講,蛋白質(zhì)中的氨基酸通常按照不同的模式進行排列,如α螺旋、β折疊、無規(guī)則卷曲、轉(zhuǎn)角與環(huán)形等。這些不同的蛋白質(zhì)的3維空間形狀稱為蛋白質(zhì)的二級結(jié)構(gòu)。1992年,Muggleton利用廣義歸納邏輯編程(Inductive Logic Programming, ILP)對蛋白質(zhì)次結(jié)構(gòu)中的螺旋形進行了預(yù)測。在訓(xùn)練集和測試集上分別得到了78%和81%的精確率。
如果關(guān)系型學(xué)習(xí)(分類)器的(知識表示)語言是邏輯程序(設(shè)計)語言,那么這種學(xué)習(xí)就被稱為歸納邏輯編程(程序設(shè)計)。實際應(yīng)用的歸納邏輯編程系統(tǒng)主要分為兩類:經(jīng)驗型歸納邏輯編程(程序設(shè)計)系統(tǒng) (Empirical ILP System)和交互式歸納邏輯編程系統(tǒng) (Interactive ILP System)。前者可以從大量例子中(歸納)學(xué)習(xí)單謂詞的序列分析知識,而后者可以從少量例子學(xué)習(xí)多謂詞的知識。Muggleton使用的是經(jīng)驗型歸納邏輯編程系統(tǒng),即主要對單謂詞的知識進行學(xué)習(xí)。目前,國內(nèi)外此項研究均在單一的物化屬性序列分析或單一的氨基酸結(jié)構(gòu)序列分析的層面上,構(gòu)建預(yù)測模型與方法;無一將兩者實施無縫對接。
與Muggleton等當前最新的工作相比,我們的工作具有如下特征:
1) 將生物工程與信息工程密切結(jié)合,深入探究先前未知的內(nèi)在認知機理.如:較為完備的影響蛋白質(zhì)高級結(jié)構(gòu)的因素分析(形成”因素結(jié)構(gòu)圖”);各屬性、屬性值、屬性編碼以及殘基序列中的變換與匹配規(guī)律對3維結(jié)構(gòu)形成的影響;物化屬性對中間點的影響等;
2) 構(gòu)建了隨信息粒度空間由粗到細的、逐步求精的、多層遞階的“金字塔”式結(jié)構(gòu)的預(yù)測模型,即(1層)物化屬性序列分析---(2層)基于1層結(jié)果的(融合所選擇的物理化學(xué)屬性進行)氨基酸結(jié)構(gòu)序列分析---(3層)基于2層結(jié)果,在訓(xùn)練集與測試集上實驗得到的預(yù)測結(jié)果的歸納及其精度計算---(4層)領(lǐng)域知識作參照系,進一步考察其對預(yù)測結(jié)果的影響,進一步精化結(jié)果。
3) 核心層:物化屬性序列分析采用關(guān)聯(lián)分類方法,即用我們首次提出的基于雙庫協(xié)同機制的KDD*過程模型與M算法(國家發(fā)明專利技術(shù))進行關(guān)聯(lián)分析;再用我們改進的分類器進行分類。在此所論的關(guān)聯(lián)分析中,第一我們得到復(fù)合蘊涵的、結(jié)論為α螺旋、β折疊、無規(guī)則卷曲等結(jié)構(gòu)形式的規(guī)則;第二我們得到α螺旋等(二級結(jié)構(gòu))為前件,而其具備的(物化結(jié)構(gòu))屬性為后件的規(guī)則;第三我們得到屬性間的關(guān)聯(lián)關(guān)系。
4) 核心層:氨基酸結(jié)構(gòu)序列分析采用改進了的SVM/NN方法。
5) 利用完備的先導(dǎo)性知識與領(lǐng)域知識精化分類,排除奇異。包括:歸納獲取的知識、位能函數(shù)、傾向性因子、光譜數(shù)據(jù)庫、環(huán)境因素、進化信息、信息熵評價與優(yōu)化等。
因此,我們認為:具有上述特征的研究將有望在蛋白質(zhì)二級結(jié)構(gòu)的預(yù)測中得到更高的精度,并很有可能在其3維結(jié)構(gòu)的預(yù)測中有所突破,進而對制藥業(yè)產(chǎn)生重要影響。目前,該項研究已取得了階段性重要成果。
上一頁 [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17] [18] [19] [20] [21] [22] [23]
|