時間:2023-09-13 17:06:21
引言:易發表網憑借豐富的文秘實踐,為您精心挑選了九篇統計學決策規則范例。如需獲取更多原創內容,可隨時聯系我們的客服老師。
[關鍵詞] 科學決策 市場調查 假設檢驗
假設檢驗是一類重要的統計推斷方法,它是利用樣本統計量并按一種決策規則對零假設H0作出拒絕或接受的推斷,決策規則運用了“小概率”原理。
一、理論基礎
設每次試驗可能出現的結果為,相應的概率分別為,且;進行了次獨立試驗,記出現的次數為。顯然,在次試驗中,事件出現的頻數與期望數有差異,卡爾?皮爾遜提出了這種差異程度的統計量
并證明了如下的定理。
定理當為總體的真實概率時,由上式定義的統計量的漸近分布是自由度為的-分布,即其密度函數為
在上面的定理中,我們假定是已知的,但是在實際問題中,通常依賴于個未知參數,而這個參數需要用樣本估計,這時皮爾遜定理不再成立。不過,1929年費歇證明了在一定條件下,可以先用極大似然估計方法估計這個參數,然后再算出,這時統計量
當時還是漸近服從-分布,不過自由度為。
二、應用實例
石市萬方商城準備在東開發區幾個大中專學校內建連鎖店,商城文化用品專柜銷售經理安娣要為本專柜在各連鎖店內的投資規模提供資料,供決策層參考。于是,對準備建連鎖店的幾個學校的學生進行了抽樣調查,其中某大專學校每月生均消費(本文中專指學生用于購買文化用品的支出)的資料如下:
解:(1)統計假設:
(2)對水平,查自由度為的-分布得臨界值,故拒絕域為[)
(3)計算統計量的觀測值
(4)作判斷:由于,故接受零假設,即此大專學校學生的每月人均消費(本文中專指學生用于購買文化用品的支出)X服從正態分布。據此推斷結論,再綜合其他因素,銷售部經理、商場決策層等最后商討在此校開連鎖店事宜。
參考文獻:
[1]魏宗舒等:概率論與數理統計教程[M].北京:高等教育出版社,2003年6月
[2]吳遠芬:淺析抽樣調查在應用中的局限性[J].商場現代化,2006年8月總第475期
目前,中國除了上海之外,其它城市還沒有專營消費信貸調查業務的報告機構。1999年下半年,建設銀行濟南分行出臺的《個人信用等級評定辦法》在信用評估方面進行了嘗試。該辦法對不同的指標賦予不同的分值,對借款申請人的還款能力、信用狀況等做出綜合評價以決定貸款決策。隨著信貸業務的需要,國內越來越多金融機構以業務對象的個人信用記錄直接作決策參考,或附以一些評分方法,但畢竟以主觀經驗為主。而國外在信用評估方面已經有人做了大量的工作,提出了有FICO評分模型、神經網絡模型、貝葉斯分析模型等等各種評估模型,并采用了各種數學的、統計學的、信息學的方法,取得了一定的效果,特別是FICO評分模型,更是成為西方發達國家信用評分事實上的標準。
二、常用評估方法
1.標準數理統計模型
基于標準數理統計理論的信用評分模型是對大量的個人消費貸款的歷史信用數據進行科學的歸納、總結、計算而得到的量化分析公式。在美國,不同的行業有不同的信用評分模型來幫助專業人士進行信用風險管理,如表1所示:
表1美國不同行業常用信用評分模型表
從概念上講,信用評分就是利用消費者過去的信用表現來預測其未來的信用行為,如圖1所示。
信用評分模型的關鍵是科學合理地選出信用變量,并產生一個公式。信用評分模型的統計方法有線性概率模型、logit模型、probit模型以及線性判別(Discriminant)分析方法。
(1)線性概率模型
線性概率模型假設違約概率Y與信用變量X之間的關系是線性的,用于解釋過去信用行為(違約或不違約)的信用變量及其重要性(系數)被用來預測未來的信用行為。線性概率模型數學表達如下:
根據歷史樣本數據進行優化計算,得出系數βj的估算值。
(2)Logit信用評分模型
Logit信用評分模型是采用數理統計的logit回歸方法建模分析。logit信用評分模型的分析方法如下:
這里,Y∈{0,1}是二元響應變量,表示信貸狀況;為logit概率累積分布函數。當Xj屬于度量變量時,Xj表示為第j個可度量變量;當Xj屬于范疇變量時,Xj表示為啞元變量向量。
(3)Probit信用評分模型
Probit模型同樣能夠把違約概率的預測值限制在0和1之間。它與logit模型的不同在于probit模型假設違約概率服從累積正態分布(cumulativenormaldistribution),即
(4)線性判別模型
判別模型根據過去觀察到的借貸者的信用特征,把他們劃分成高違約風險和低違約風險類別。線性判別模型(LinearDiscriminantModel)假定信用變量對這種劃分的影響是線性的。
2.數據挖掘技術
數據挖掘從大量數據中提取或“挖掘”知識,其任務可以分為描述和預測兩類,用于信用評估,可對客戶進行分類、聚類、關聯規則發現、預測、偏差檢測等。其中多數用分類、關聯規則發現和預測方法進行個人信用評估。
(1)分類
按分析對象的屬性、特征建立不同的組類描述事物。它基于對類標記已知的數據對象的分析,導出描述并區分數據類或概念的模型(或函數),用以預測類標記未知的對象類。導出模式可以用分類規則、判定樹、數學公式或神經網絡等形式表示。
(2)關聯規則發現
某種事物發生時其他事物會發生的一種聯系,這些規則展示屬性-值頻繁地在給定數據集中一起出現的條件,關聯規則形式:X=>Y,即“A1∧...∧Am=>B1∧...∧Bm”。
(3)預測
把握分析對象發展的規律,對未來的趨勢作出預見,其表示形式與分類同。
三、一種基于歷史記錄規則相似性的綜合評估方法
由于國內銀行業現有客戶記錄多數是不完整的,所以使用單一的方法進行評估未必能體現客戶真實的信用歷史狀況。為了將數據挖掘技術和數理統計完全基于記錄本身特征并與能夠體現專家判斷的評分很好地結合起來,本文提出一種基于關聯規則的相似推薦方法,實現如下:
1.應用粗糙集理論對歷史數據記錄進行屬性約簡及規則提取
粗糙集理論是數據表簡化和生成最小決策算法的有效方法,可以實現知識約簡,發現屬性表中的屬性依賴,從而在信息不完全環境下進行知識發現,其定義如下:
S=<U,A,F,V>
其中,S:信息系統(決策表)
U:論域
A:屬性集合
F:UXAV的映射
V:屬性值域集合
采用決策偏好信息的挖掘方法(參見文獻[3]),對S進行屬性約簡并提取規則,形成不同支持度S和信任度C決策規則集合DN{фΨ}(其中N代表提取的規則數量,可根據實際情況確定),且D是S不重復的子集,ф是條件屬性,Ψ是決策屬性,ф、Ψ∈A。
2.對測試記錄與步驟1提取的規則進行相似性計算
相似性是某種關系強度的度量,可以通過數值比較來衡量(參見文獻[4])。因為決策規則集合D不能完全覆蓋所有測試記錄屬性值組合,而且決策表對象結構相同。測試集合SD中的任一組合(規則)Dd對照D中Dn進行相似性計算,得出SIM1、SIM2...SIMn
其中,B:歸一化因子
(B=1/∑Wi)
Wi:屬性i貢獻因子
(體現數據特性或專家經驗,也可通過多種賦權綜合評價求得)
SD(Dd,Dn):已知Dd發生,Dn也在同一組發生的概率
3.多賦權綜合評價
對上述步驟求得參照各個規則的支持度S、信任度C及相似性SIM組成一個N個對象、3個指標的矩陣XN×3。
(1)運用變異系數法對X進行客觀賦權
此時,第j個指標的權重就是這種加權方法是為了突出各指標的相對變化幅度,即變異程度。
(2)對X使用線性插值法進行規范化處理,得到規范化矩形ZN×3,對其使用互補判斷矩陣排序法求屬性權重:
I=1運用綜合賦權法將(1)、(2)兩個權向量進行有機集成,得到綜合權向量W=(W1,W2,......,WN)。傳統的綜合賦權有乘法合成歸一化、線性加權組合法、基于spearman等級相關系數綜合賦權法等,也可采用基于灰色關聯度的客觀權重綜合集成法。
最終求出測試記錄對各個規則的評價值fi=∑wj×zij,(i=1,2,......,N),其中MAX(fi)就是與測試記錄最相似的規則,可將其決策偏好作為測試記錄的預期偏好。
[關鍵詞] 支持向量機投資決策統計學習理論
企業進行項目投資可選用內部收益率來作決策,決策規則:設置基準貼現率Ic,當內部收益率IRR>=Ic時則方案可行,否則不行。用這種方法來進行決策比較合理,但計算過程很復雜一般需要一次或多次測算。
支持向量機是Vapnik等人根據統計學習理論提出的一種機器學習方法.由于支持向量機(SVM)出色的學習性能,已成為國際上機器學習領域的研究熱點.目前在手寫體數字識別、文本分類、人臉檢測等模式識別問題以及函數逼近、信息融合等領域中獲得了應用.但目前在經濟領域的應用還只是嘗試,本了基于支持向量機的銀行客戶信用評估系統研究,可見SVM在經濟上的應用還是很有前途的。我們知道,應用SVM作入侵檢測最好的效果是檢測正確率達到88%左右,但是如果在投資經濟領域的能大到這樣的效果就非常好了,因為這本身就是一個不可確定的結果,即便是經驗豐富的人做出的決策結果也存在不確定性,能有88%的正確率,說明可能性已經很大了。因此用SVM做投資決策時是具有經濟意義的。
一、支持向量機
1.廣義最優分類面假設有一線性可分的樣本集(xi,yi),i=1,…,n,x∈Rd,y∈{+1,-1},為了將yi=1和yi=-1兩類點盡可能正確地區分開,可構造分離超平面x?w+b=0,使得
歸一化得yi[(w?xi+b)]-1≥0,i=1,…,n (1c)
{(xi,yi)}到分類超平面的距離可定義為1/w,若樣本集到該超平面的最小距離最大,則為最優分類面。所以要使x?w+b=0為最優,當且僅當(w,b)是下面優化問題的解:
這個二次規劃問題有惟一的極小點,可以用Lagrang乘子法把(2)化成其對偶形式:
i=1可以證明解中只有小部分ai不為0,稱對應的xi為支持向量。于是最優超平面方程為: (4a)
最優判別函數為: (4b)
對于線性不可分的情況,可以在條件(式2b)中增加一個松弛項ξi≥0,成為:yi[ω?xi+b]-1+ξ≥0,i=1,…,n 5)
目標函數改為求:
最小,其中C>0是個預先給定的常數,它控制對錯分樣本懲罰的程度。最優分類面的對偶問題與線性可分情況下幾乎完全相同,只是條件(式3c)改為0≤ai≤C,i=1,…,n。
2.支持向量機。對于非線性問題,作非線性映射Φ(x):RdF, F是高維內積空間稱為特征空間,Φ(x)稱為特征映射;然后在F中構造(廣義)最優超平面。實際上不用知道Φ(x)的K(xi,xj)滿足Mercer條件,它就對應某一變換空間的內積。因此,采用適當的核函數K(xi,xj)就可以實現某一非線性變換后的線性分類,此時最優分類面中目標函數就變為確切表達式,只需在高維空間進行內積計算。根據泛函的有關理論,只要一種核函數:
相應的判別函數也變為:
這就是支持向量機。
簡單地說,支持向量機就是首先通過內積核函數將輸入空間變換到一個高維空間,然后在這個空間求廣義最優分類面。
SVM中不同的內積核函數形成不同的算法,常用的核函數有:
多項式核函數K(xi?xj)=[(xi?xj)+1]q,q是自然數徑向基核函數(RBF):
兩層神經網絡核函數K(xi?xj)=S(a(xi?xj)+t)其中S是sigmoid函數,a,t為常數。
二、SVM在投資決策中的應用
1.可行性分析。對于獨立的方案的決策,常用的評價指標是凈現值和內部報酬率。一個獨立方案的凈現值如為正值,說明該方案可實現的報酬率大于所用的貼現率,經濟上可行;如凈現值為負值,說明該方案可實現的投資報酬率小于要求達到的最底報酬率,經濟上不可行。內部報酬率是指用它來對投資方案的現金流入量進行貼現,使所得的總現值恰好與現金流出量的總現值相等,從而使凈現值等與零的利率。也就是投資項目本身可以達到的的報酬率。該指標比較合理,但計算很復雜,有時要經過多次的測算。
SVM理論是在統計學習理論的基礎上發展起來的。由于統計學習理論和SVM方法對有限樣本情況下模式識別中的一些根本性的問題進行了系統的理論研究,很大程度上解決了以往的機器學習中模型的選擇與過學習問題、非線性和維數災難問題、局部極小點問題等,所以它們在20世紀90年代以來受到了很大的重視。
2.支持向量機的構造。根據常用的評價指標選取以下特征向量作為SVM輸入向量:輸入向量x的屬性及含義;對應的輸出y為兩類:可行與不可行,用1代表可行,-1代表不可行。
輸入數據根據用內部收益率指標已經算的結果來給定。例如:原始投資為5500元,凈現金量為11000元,殘值為500元,折現年數為10年,通過用測算內部投資收益率為0.157,那么所有基準收益率大于0.157方案為不可行,小于等于0.157的方案為可行。這樣可以得到許多組輸入向量。根據以上方法我用30個數據做實驗,用13個做測試。
3.核函數的選取。支持向量機在實際應用中關于參數選擇的問題還沒有很好的解決,比如多項式學習機器的階數問題,徑向基學習機器中的函數寬度問題,以及Sigmoid機器中函數的寬度和偏移問題等,統計學理論目前對這些問題只是給出了一些建議和解釋。筆者采用徑向基核函數做試驗。
三、訓練和測試
根據數據按內部收益率指標的計算,筆者可以的到一組數據。這樣筆者采用了30個數據來作為訓練數據。部分數據如下圖:
經過訓練后,用13個數據做測試,得到測試結果(部分數據)如下:
根據試驗結果發現用SVM作投資決策,13個測試數據中有11個判斷正確,其正確率達84.6%。
四、結論
1.支持向量機是在統計學理論的基礎上發展起來的一種新的學習算法,解決了實際問題中樣本有限的問題。
2.本文研究了SVM在投資決策的應用,結果表明用支持向量機作投資決策的應用取得了較好的結果。
3.本文的研究的數據雖然具有一定的典型性,但對支持向量機應用于經濟領域的研究提供了依據,有很重要的實際意義。
本文存在的不足之處是試驗數據具有典型性,因為筆者在編程試驗時很難找到真實的數據,只能根據其特征來組合,所以試驗結果還不能完全說明SVM會在所有的投資決策應用中顯示出明顯的效果。但是,此次試驗證明了SVM在經濟領域里有著廣泛的應用前途。
參考文獻:
[1]李麗娜侯朝楨:基于支持向量機(SVM)的工業過程辨識.北京理工大學學報,2003年10月
[2]王小平沈玉娣:支持向量機在軸承故障診斷中的應用.機床與液壓,2003.No.4
[3]姚奕葉中行:基于支持向量機的銀行客戶信用評估系統研究,系統仿真學報,2004年4月
[4]姬水旺姬旺田:支持向量機訓練算法綜述.微機發展,2004年1月
【關鍵詞】粗糙集方法;醫學影像學;診斷準確性
粗糙集理論是一個交叉融合多種學科形成的新學科,已被廣泛用于各個行業包括:市場營銷、衛生、電信、金融、農副產品、互聯網語言的識別以及知識管理系統等等。粗糙集理論在很多的領域已取得令人驕傲的應用效果。在醫學影像學領域中,隨著影像學數據信息不斷的增長,在醫學影像學診斷中運用粗糙集方法,能客觀地展現出海量數據信息以及高維資料的背后的真實情況,更好的幫助醫生做出客觀、準確的判斷,有利于臨床診斷正確性的提高。
1 簡要論述粗糙集方法
1982年波蘭數學家首次提出粗糙集概念,這是以等價關系為基礎的,用于分類問題的研究,用上集合與下集合生成一個相逼近的新集合,新結合的邊界線被定義為上下近似集的差集。是繼概率論、證據論之后有一個不確定性問題的處理工具,是一種新型的軟計算方式。
這種建立在分類機制前提下的粗糙及理論,可以把分類解釋成為一定區域中的等價關系,這個區域正是由等價關系進行劃分的。將知識歸納為數據的劃分,被劃分后的集合定義為概念。充分利用已知的信息庫,對不確定或不精確的知識通過已知的信息庫進行近似刻畫。無須提出數據集合以外的一切知識,因此,對于問題的描述比較客觀、比較具體,再加上粗糙集理論不包含不確定或不精確原始數據機制,與證據理論、概率論等有較強的互補性。
粗糙集合理方法適用于研究不定型問題的工具,作為集合理論的擴展,粗糙集理論主要用來研究不完整的信息數據挖掘技術。它可以在缺乏數據的先驗知識前提下,用考察數據分類的能力解決模糊不定的數據并加以分析處理,與此同時粗糙集算法簡單且容易操作,現在以它為基礎的數據挖掘工具也非常多,粗糙集理論其出發點是假設所有研究對象都涉及一些的信息。隨著粗糙集理論的廣泛應用,其有效性被越來越多的證實,成為了現階段人工智能研究的重點。
2 醫學影像學診斷中粗糙集方法的應用實例分析
收集了2011年1月-2012年1月來我院進行膠質瘤診斷治療的50例患者的臨床資料進行詳細研究,其中,29例男,21例女,患者年齡在23歲-77歲之間,平均年齡為58.7歲。其中,11例WHO I級,25例WHO II級,9例WHO III級,5例WHO IV級。對上述患者進行MRI檢查,平掃TIW1橫斷面與矢狀面得出影像學資料。由放射科專業醫生對上述患者的MRI影像學資料進行分析研究,包括病灶位置、形狀、囊變、TIW1、T2W1、水腫、鈣化、出血、性變等等,按照影像學特征對不同指標進行分類。并通過粗糙集方法、Logistic二元回歸方法與分類回歸樹方法對影像學資料進行研究。具體粗糙集方法:將決策表導入專門的Rosetta軟件,通過軟件對病例進行規則約簡與屬性約簡。在條件屬性核產生的基礎上,得到決策規則庫,通過規則庫過濾,達到知識的精簡。通過10折交叉驗證方式測試膠質瘤數據,通過測試結果的診斷靈敏性、覆蓋率、陽性預測值、特異度、陰性預測值等提取診斷性能,繪制ROC曲線。結果顯示,粗糙集方法的診斷準確性為85.2%,特異度為92.7%;決策樹方法診斷準確性為83.0%,特異度為91.3%;Logistic二元回歸方法診斷準確性為83.2%,特異度為85.6%。充分證實了,在臨床影像學診斷中,粗糙集方法能夠得到更多的確定性規則,進一步提高臨床診斷準確率。
3 醫學影像學診斷中粗糙集方法的應用的優點分析
3.1 粗糙集方法應用便捷、結果準確性高
粗糙集方法不需要預先設計概率、不需要建立相應的因變量函數關系,直接運算集合中的對象,直接獲得不可分辨的矩陣,直接得出結論。通過粗糙集法分析,其結論呈現的方式是以IF….Then…的形式出現,呈現結果不僅具有非常高的價值,而且呈現形式非常明確。
3.2 粗糙集方法能客觀地展現出海量數據信息以及高維資料的背后的真實情
這種基于數據集合的挖掘方法,在臨床影像學診斷中,粗糙集方法能夠發現隱藏在現象背后的知識。例如,在在對膠質瘤影像學資料進行規則提取以及屬性約簡時,整個過程都是客觀的,不受外界因素、人為因素的干擾,獲得的膠質瘤級別診斷比較容易理解、診斷規則比較清晰。Logistic二元回歸方法與分類回歸樹方法,是通過訓練集方式生成一個新的測試函數,通過函數分析方法,計算不同對象的可能發生概率,進而預測對象的分類。Logistic二元回歸方法是基于數理統計基礎上的,通過筆數比篩選具有價值、有統計學意義的不同變量,將這些變量通過模型方程形式進行計算,比較計算前后實際結果與預測結果兩者的差異性,從而進一步確定自變量的入選,同時,還可以計算出自變量的重要價值。決策樹方式是通過地規模與分層模式進行的,也就是根據不同的對象建立不同的樹分支。在不同分支的子集中建立重復的分值和下層節點,從而生成了決策樹。再對決策樹剪枝,再對決策樹進行規則處理。但是,這種基于概率的分類結果,是根據概率進行判定的,對于高級別膠質瘤的診斷率比較低,這種決策樹分析方法很容易受到人為因素的影響,比如說決策樹的修建、決策樹的增長、選擇父節點數以及子節點數等等,都會影響到分析結果的準確性。
4 結語
粗糙集方法是將觀測到的龐大數據集加以分析研究,其目的是找的未知的關系及數據擁有者能夠理解且有價值的新方法來總結數據,經粗糙集方法推導出的準確率較高,在臨床醫學影像診斷中應用價值較高。
【參考文獻】
[1]馬常杰,陳守余.數據庫中模糊關聯規則挖掘研究進展[J].計算機工程與應用,2010,12(11):752-753.
[2]田軍章.基于PACS的結構化報告(SR)模塊的設計與實現研究[D].第一軍醫大學,2011,4(09):141-142.
[3]王小鳳,周明全,耿國華.一種基于模糊粗糙集理論的算法及其在醫學影像中的應用[J].計算機應用研究,2012,11(5):369-371.
[4]王國胤.Rough集理論在不完備信息系統中的擴充[J].計算機研究與發展,2012,5(17):13-15.
關鍵詞:生物統計學;實驗教學;改革探索;實踐
中圖分類號 G642.0 文獻標識碼 A 文章編號 1007-7731(2013)15-148-02
生物統計學是數理統計原理和方法在生物學中的應用,不僅在生命科學領域、而且也在其他學科領域中得到廣泛應用,是一門工具學科[1]。生物統計學的理論性和實踐性均較強,涉及的基本原理、公式和概念較多,需有一定的數學基礎和邏輯推理能力才能學好,相對于其他專業課程,師生普遍反映難教、難學、難記[2]。《生物統計學》不容易理解和掌握,導致學生缺乏學習興趣和動力,考試前通過死記硬背接受理論知識,形成短暫記憶,隨著時間的延長,所學內容逐漸忘記。這門課程講授完之后,學生不會靈活運用其中的方法,也不會設計一個簡單的試驗,更不會將生物統計學的基本理論、技術和常用統計方法應用到本科畢業論文設計中,導致理論教學與實踐應用脫節,顯然未達到教學目的。以往《生物統計學》教學以單純理論教學為主,不設或很少開設實驗課。因此,筆者結合《生物統計學》的基本原理,利用計算機和統計軟件,開設了《生物統計學》實驗課,并嘗試對該課程的實驗教學方法進行改革探索。
實踐教學環節非常有利于提高大學生的培養質量,而《生物統計學》課程教學的實踐環節亟待加強。在《生物統計學》實驗教學過程中,我們利用計算機輔助實驗教學,開設以下實驗課:(1)《生物統計學》某章節理論知識講授完之后,利用計算機和相關統計軟件,開設相應的實驗課。在實驗課上,教師通過統計軟件演示例題的計算和分析過程,并講授統計軟件的使用方法,學生根據所學理論知識,結合實例在計算機上借助統計軟件進行操作,這樣使學生獲得知識更加直接與快速。(2)學生參與試驗設計和科學試驗。學生要在生產實踐或實驗室中設計試驗,親自參與試驗數據的采集,并對試驗數據進行統計和分析,這樣有利于加深學生對所學內容的理解。《生物統計學》教學開設了如下實驗:
1 利用Excel繪制常用統計圖
Excel繪制圖形功能強大,各種版本的Excel軟件均提供了14種標準圖表類型,每種圖表類型中又含有2~7種子圖表類型;還有20種自定義圖表類型可以套用。講授完試驗資料的搜集和整理后,開設利用Excel繪制常用統計圖的實驗課。學生在實驗課上利用Excel繪圖時,可以對圖表區、繪圖區、數據系列、坐標軸、圖例、圖表標題的格式,例如文字的顏色、字體、大小,背景圖案、顏色等進行修改和調整,使修飾后的圖形更加美觀好看,爽心悅目。當圖和數據放在一張工作表上、學生改變繪制圖形的數據時,其圖形將發生相應變化;將鼠標放在圖中某數據點上,在鼠標下方將彈出一個文本框給出數據點的具體數值;用鼠標單擊繪圖區中的“數據系列”標志,其圖所屬數據單元格將被彩色框線圍住,便于用戶查看圖形的數據引用位置。在“數據系列”點擊右鍵可以向散點圖、線圖、條形圖等添加趨勢線,并可給出趨勢線的方程與決定系數。
2 利用Excel進行數據描述統計分析
講授完試驗資料特征數的計算后,開設利用Excel進行數據描述統計分析的實驗課。首先選用與生活聯系緊密的數據資料,讓學生利用Excel計算這些數據的平均數、中位數和眾數,測定和分析這些數據的集中趨勢,然后利用Excel測定樣本標準差、總體標準差和四分位數,讓學生分析這些數據的離散趨勢。另外,讓學生利用Excel分析總體次數的分布形態,計算總體平均值的置信區間,有助于識別總體的數量特征。總體的分布形態可以從兩個角度考慮,一是分布的對稱程度,另一個是分布的高低。前者的測定參數稱為偏度或偏斜度,后者的測定參數稱為峰度。
3 利用Excel進行統計假設檢驗
講授完統計推斷之后,利用Excel進行統計假設檢驗的實驗課。統計假設檢驗是根據隨機樣本中的數據信息來判斷其與總體分布是否具有指定的特征[1]。我們選擇實際案例,讓學生提出假設,利用Excel中適當的統計方法計算檢驗的統計量及其分布,確定顯著性水平和決策規則,最后推斷是否接受假設,得出科學合理的結論,這個過程就稱為假設檢驗或統計假設檢驗。統計假設檢驗的方法多樣,通過比較就會發現它們的基本方法和步驟大同小異,例如t檢驗、u 檢驗、x2檢驗等,可以詳細講述其中1~3種假設檢驗方法,其它假設檢驗方法可以采用啟迪和推導方式讓學生利用統計軟件自行輕松地學習和操作。
4 利用Excel和SAS軟件進行方差分析
講授完方差分析之后,開設利用Excel和SAS軟件進行方差分析的實驗課。利用Excel只能進行單因素或雙因素(包括可重復雙因素和無重復雙因素)方差分析,而涉及雙因素隨機區組試驗、三因素試驗和裂區試驗等試驗數據的方差分析,即讓學生利用SAS軟件進行多重方差分析。另外,Excel中的單因素或雙因素方差分析只能給出方差分析表,不能進行平均數的多重比較,也無法用不同字母標記法表示差異顯著性的結果,這些也都需要利用SAS軟件。
5 利用多種統計軟件進行回歸分析
由一個或一組非隨機變量來估計或預測某一個隨機變量的觀測值時,所建立的數學模型及所進行的統計分析,稱為回歸分析[1]。按變量個數的多少,回歸分析有一元回歸分析與多元回歸分析之分,多元回歸分析的原理與一元回歸分析的原理基本相似。按變量之間的關系,回歸分析可以分為線性回歸分析和非線性回歸分析。利用統計軟件進行回歸分析時,首先讓學生如何確定因變量與自變量之間的回歸模型;如何根據樣本觀測數據,估計并檢驗回歸模型及未知參數;在眾多的自變量中,讓學生判斷哪些變量對因變量的影響是顯著的,哪些變量的影響是不顯著的。在方差分析實驗課上,先讓學生利用Excel進行簡單的線性回歸分析,然后利用SPSS軟件進行相關與回歸分析,最后利用SAS軟件進行多元線性回歸分析和逐步回歸分析,使學生了解不同統計軟件的特點、功能和作用。
6 利用基本原理設計試驗
試驗的精確度高低取決于試驗設計的各個方面,只有通過有效地控制試驗誤差才能提高試驗精確度。因此,教師有必要正確引導大學生在試驗過程中要做到操作仔細,這樣有利于提高學生的科研素質。在試驗工作中,從試驗資料中發現潛在的規律性是極其重要的,這需要科學合理地運用統計學的基本原理和方法。講授完試驗設計之后,要求學生根據試驗設計的基本原理,在生產實踐或實驗室內提出試驗設計的基本思路,制定試驗方案。然后,學生分組討論試驗設計的可行性,并進行糾正和修改。在試驗前期,學生應進行試驗前期準備工作。在試驗過程中,學生要考慮試驗條件的差異對試驗數據的影響,可根據試驗設計的原理和技巧分析試驗出現的問題,使學生獲得的理論知識與實際聯系起來,從而加深對理論知識的理解。試驗結束后,獲得大量的試驗數據,需要選擇正確的統計方法分析試驗資料,得出科學合理的結論,以達到研究目的。最后,教師根據學生設計的試驗思路、方案、步驟及作出的試驗報告給予評價。通過開設試驗設計實踐課,可以使學生明確試驗的目的、試驗設計方法、試驗因素及水平等內容,有利于提高學生設計試驗方案的能力。
實踐證明,開設《生物統計學》實驗教學后,學生能夠在計算機上借助相關統計軟件親自統計試驗數據,利用所學的統計學方法分析和檢驗試驗結果,最后得出可靠的結論。最后畢業時,學生能根據試驗設計的基本原理,可獨立完成畢業論文試驗設計,實施設計的試驗方案,獲得試驗數據資料。由于試驗數據統計分析耗時,而且繁瑣,因而過去畢業生害怕對試驗數據進行統計分析。自從我們結合《生物統計學》的基本原理,利用計算機和計軟件開設了該課程的實驗教學后,學生輕松地掌握了該課程的基本原理和統計分析方法,統計和分析數據的速度、精確度均大幅度提高。現在部分學生還能幫助教師進行科研課題的數據處理和分析,畢業論文水平也大大提高。
《生物統計學》教學實驗課的開設,使學生從被動學習轉變為積極主動地學習,培養了學生進行科學試驗設計的能力,初步掌握開展科學試驗設計的方法;培養學生掌握正確收集、整理試驗資料的方法,能利用生物統計方法對試驗資料進行正確的統計分析;培養學生掌握常見統計軟件的使用方法和統計方法。《生物統計學》實驗課深受學生的歡迎,這也是對該課程實驗教學的嘗試和改革探索的肯定。在該課程實驗教學過程中,筆者深刻體會到要提高《生物統計學》課程的實驗教學效果和質量,教師需要投入時間與精力,鉆研實驗教學內容,提高教學水平,轉變實驗教學理念,不斷探索和優化多元化的實驗教學方法。
參考文獻
[1]李春喜,邵云,姜麗娜.生物統計學[M].4版.北京:科學出版社,2008:1-3.
利用計算機軟件進行仿真模擬教學的目的是通過軟件技術,將企業的經營活動進行高度的提煉,通過模擬經營環境,使學生在接近真實的情境下,體驗如何在競爭的環境下進行企業各項決策,學生可以在親自動手的實踐中鞏固已學知識、探索如何解決管理上的難題與困境、鍛煉綜合運用知識的能力、提高自身的綜合素質。在競爭模擬中,學生們將組建不同的管理團隊進行公司運營,在激烈的市場競爭中盡可能實現公司價值最大化。而團隊成員將分別擔任CEO,COO,總經理、營銷經理、研發經理、生產經理,財務經理、人力資源管理經理等不同的角色,做出相應的戰略決策,盡量使公司在變幻莫測和競爭激烈的市場中得以生存和發展。管理團隊必須結合不斷變化的宏觀經濟環境、各公司的競爭地位以及本企業的各部門之間的協同作用,輔以各種數據模型,制定出自己公司的競爭戰略并按規定的時間提交決策單。通過軟件對各企業的決策數據進行匯總,依據模擬的市場環境和需求決定各企業的主要經營指標,并且按照加權平均計算出各企業的模擬結果。然后,各企業再根據當下的狀況,做出下一輪次的決策,直到整個模擬的周期結束。一般做一期演練需要一個小時,而一般地一個較為完整的模擬過程則需要9期。教師與學生在仿真模擬教學中,角色發生轉換,一改以往傳統授課方式中學生被動充當“聽眾”,把教學活動從關注“教”轉向關注“學”;老師則在模擬實驗中充當“導演”的角色,只起組織、指導的作用,強調學習的主體是學生,學生要成為“roleplayers”,自主地在模擬競爭情景下進行各項活動,要讓學生在實踐中學習知識,應用知識,并提升能力。
二、計算機仿真模擬教學的教學策略
與任何教學一樣,計算機仿真模擬教學也必須在一定的指導原則下充分準備、精心設計、靈活開展;并且相對傳統教學而言,由于計算機仿真模擬教學的活動更豐富、學習主體之個體差異性表現更為明顯,因此,在進行模擬實驗時,教師還應當注意設計與傳統教學相區別的教學策略。
(一)以親歷體驗為手段,著重讓學生掌握工商管理中的“意會性知識”
工商管理本科生在其四年的學習過程中,應當建立起由傳統教學方法和現代教學方法等多種方式組合而成的學習立方體。其中傳統教學方法,即由課堂講授、課外作業、考試三者構成,這是一種“式”學習方法,適合于“言傳性知識”的傳授。現代教學方法主要包括案例教學、畢業設計、經營模擬等“親驗式”學習方法,適合于“意會性知識”的掌握。計算機仿真模擬教學是相關專業教學的手段之一,雖有它的實際意義,但并不能完全代替基本理論的學習。如果參加模擬仿真競爭的學生缺乏最基本的知識,不懂得如何計算成本、利潤、納稅等,所做的決策只是空憑感覺,隨意性太強,這樣勢必難以實現教學之目的。因此,模擬仿真應當也建議在基本的課程(如生產運作管理、市場營銷、財務管理、人力資源管理等)的學習結束后進行,既可以在比較綜合的課上使用,也可以單獨設置實訓課程。眾所周知,管理決策既是一門科學也是一種藝術,管理的層次越高,決策中的藝術性就越高;決策層次越低,決策的科學性就越強。通過仿真模擬教學加深對各學科基礎知識的理解,教師在重視決策科學性訓練的同時,也應培養學生們縱觀全局和高瞻遠矚的能力。選擇的模擬決策層面通常包括各個專業主要課程相關內容,如生產運作管理、市場營銷、財務管理、人力資源管理、戰略管理、目標管理、溝通管理、運籌學、統計學、博弈論等。而與現代教學方式中廣泛運用的案例教學比較起來,計算機仿真模擬教學的對抗性更強,參與者的積極性更高,所設計的知識更全面,是以動態方式進行的案例分析。讓學生站在企業最高決策的位置上來分析、處理所要面對的各項問題,親身體驗企業決策中的“甜酸苦辣”等滋味,使學生深刻領悟作為管理者所應掌握的硬功夫和軟功夫。通過對一系列動態實際情境連續不斷的分析與決策來獲得知識,并且取得及時的反饋,這正是模擬實驗相對于其他教學手段所獨有的特點。
(二)以學生為主體,設計符合學生認知規律的教學方案
實踐性的學習不再是以教師為中心,而是由學生發揮主觀能動性,自由地選擇團隊成員、自主地確定模擬仿真內容、自發地學習相關知識以解決所遇上的難題。在設計教學環節時,要循序漸進,首先讓學生掌握基本的操作規律和決策規則;在之后的實踐過程中要穿針引線,深入講解,啟發學生動手動腦,在仿真模擬教學中運用基本知識和分析方法。模擬實驗結束后要求學生進行總結,口頭發表演講并提交書面報告。在運用軟件進行教學時,教師可以根據課時安排數輪比賽。在介紹了軟件的基本操作和一般規則之后,可以開展熱身賽,學生需要提交前期決策,旨在讓學生盡可能快速熟悉競爭規則,掌握各項職能之間的分工與配合。熱身賽結束后,教師要帶領學生總結并進一步使學生深入掌握各項規則背后所隱含的管理學原理和知識。在此基礎上,學生們進行9期的正式競賽,以比賽的方法考察學生綜合運用知識的能力和戰略決策水平。各輪比賽之間,教師應該注意穿插講解,點評反饋,要適時啟發學生帶著問題主動學習,在模擬仿真中不斷通過想辦法解決問題的方法加深自己對相關知識的理解。當模擬進行到一定階段,就可以適當引入統計方法,利用Excel、SPSS……等計算機統計軟件進行預測。除了此項模型,還可以對生產排班、財務控制等問題建模以輔助決策。當學生們掌握了這些技術并用于改進之前的決策時,他們將更能體會到所學知識的實際用途,“做中學”的方式會將容易遺忘的書本知識轉化為難以磨滅的技能。
(三)以提高學生各項管理技能為目標,采用多元化的方式進行考核
利用計算機模擬企業經營管理的教學目的是多層次的,包括上述對管理學科理論知識的實際運用之外,還將提高學生的團隊協作能力和領導能力。因此,設計課程考核方式時,應當綜合課程自身的特征與大綱要求,建立以基礎概念、基本理論、基本技能為根本,以復合運用能力為重點,以競爭成果為參照的綜合考察體系,注重考評方式的多樣化和考評指標的規范化,以保持對學生學習成績和教師教學效果檢驗的客觀性和公正性。企業競爭模擬軟件可以作為管理學、企業戰略管理等課程的實踐環節展開,也可以針對高職大專高年級學生、本科生,甚至是碩士生和企業員工獨立設課。作為一門單獨的課程,學生最終的成績評定可以由以下三部分構成:1.企業競爭模擬競賽成績,占本課程總成績的20%。2.企業競爭模擬總結演講,占本課程總成績的40%;要求學生以小組為單位發表不超過10分鐘的演講,并回答其他學員和老師的提問。老師將根據小組演講的內容、回答提問以及現場演講的表現對學生進行綜合評價。3.企業競爭模擬書面報告,占本課程總成績的40%;要求學生以小組為單位提交不少于3000字的報告,內容應當包括本企業在模擬中的總體戰略思路、各職能部門制定決策的情況、模擬過程中遇到的問題和解決方案、學習心得體會、團隊合作中的經驗以及對軟件和教學的意見與建議等等方面。
三、小結
關鍵詞: 農業生產;數據挖掘;數據倉庫;決策支持系統
0 引言
我國作為農業大國,三農問題一直是國民經濟和社會發展各項工作中的重中之重,隨著科技的進步以及計算機技術在農業生產中的廣泛應用,農業科技人員在研究過程中積累了大量有價值的農業數據資源,其中包括各種作物的苗情、土情、肥情、病蟲害、氣象、災害和市場行情等諸多方面。但是由于農業生產的復雜性,使得這些農業數據資源具有大量、多維、動態、不完整、不確定等特性,使得從這些海量的數據中抽取模式、找出數據變化的規律和數據之間的相互關系、建立農業決策支持系統等工作變得越來越困難,這產生了所謂的“數據豐富而知識貧乏”的現象。[1]在農業生產決策支持系統中引進數據挖掘技術,從這些海量的農業數據資源中挖掘出一些隨諸因素動態變化而產生的新的指導農業生產的規律,農業科技人員可以根據這些規律確定正確的農業生產策略,從而推動農業生產,產生更大的經濟效益。
1 數據挖掘技術概述
數據挖掘(Data Mining,DM)[2],就是從大量的、不完全的、有噪聲、模糊的、隨機的數據中,提取隱含在其中的、人們事先不知道、但又是潛在有用的信息和知識的過程。數據挖掘是一個融合了數據庫技術、人工智能、機器學習、統計學、知識工程、面向對象方法等新技術的多學科交叉的研究領域。從商業應用的角度看,數據挖掘是一種嶄新的商業信息處理技術。目前,國內外在農業領域數據挖掘的研究涉及面不廣,研究還不夠深入。對于將數據挖掘技術應用到農業生產決策支持系統的中的研究,關注度較小,有些研究還處于探索階段,并且對挖掘算法的研究還是不系統、不全面,分析原因,主要是與農業信息化建設的滯后,有著一定的聯系。
2 數據挖掘技術在農業生產決策支持系統中的應用
決策支持系統(Decision Support System,DSS)是基于計算機的信息系統,其主要目的是為知識工作者提供奠定明智決策的基礎的信息。[3]農業生產決策支持系統主要是指以一個區域的農業經濟為研究對象,以農業可持續發展為決策目標,綜合運用計算機數據挖掘技術、管理科學、農學、農業系統工程以及運籌學等多種科學知識,針對農業生產中的非結構化或半結構化決策問題,通過對以往農業技術人員積累的大量的數據資源進行模型計算、列舉可能方案等方式,為農業生產的管理者做出正確決策提供幫助的計算機管理系統。[4]
2.1 農業生產決策支持系統的總體設計
針對農業數據資源的特點,在農業生產決策支持系統中引入數據倉庫技術,從而建立基于數據倉庫的農業生產決策支持系統,決策支持系統的基本結構如圖1所示。用戶可以通過客戶端子系統登錄系統,提出一些農業生產方面的決策問題,通過人機交互形式輸入到計算機中,由決策支持系統產生決策規則。農業生產決策支持系統的內部結構主要是:由以往農業生產數據庫積累的各種數據資源,經過對數據進行的抽取、清理、轉換、載入等操作建立面向農業生產為主題的數據倉庫,根據決策的需要,確定挖掘的任務和目的,并應用各種數據挖掘算法對數據倉庫中的相關數據進行精簡、提取和預處理,最終挖掘出新的、有效的信息、知識或規則加入到知識庫中,以便決策者進行查詢請求,最后形成決策結果到交互系統中。
2.2 農業生產決策支持系統數據倉庫模型
數據倉庫的邏輯數據模型是多維數據模型,這也正好適合農業生產數據信息的多維性的特性,常見的由星型模型、雪花模型、多主表結構等,操作人員可以根據數據的具體情況選擇適合的數據模型。根據對農作物數據庫的分析,確定數據倉庫的基本主題有:作物生長時間、室外氣候、作物生長狀態、病蟲草害以及田間管理。根據農作物生長的多維數據特點,本文選取星型模型,這種模型建模方便,并且支持用戶從多個維度對數據進行查詢分析。作物生長時間、室外氣候、作物生長狀態、病蟲草害以及田間管理這些關于農作物的數據信息就構成了星型模型中的事實表,維表則是圍繞農作物數據信息的擴展。數據倉庫模型見圖2。
2.3 建立農業生產決策支持系統
首先對于聯機分析處理(OLAP)模塊的建立,本文利用Microsoft OLAP Analysis Services服務端組件,根據星型數據倉庫中的事實表和維表,對數據倉庫中的數據進行切片、切塊、鉆取和旋轉等操作,從而完成對氣候維、生長時間維、生長狀態維、病蟲草害維、田間管理維的建立和處理。OLAP模塊對數據倉庫中的多維數據進行數據分析,并能以圖形、報表等形式展現分析結果。
數據挖掘系統能夠挖掘多種類型的模型,以適應農業生產中農作物星型數據倉庫的需求和應用。使用SQL Server 2005 Analysis Services(SSAS)創建關于農業生產方面的復雜的數據挖掘解決方案。本系統根據農作物的數據倉庫模型的應用需要,對模型進行了決策樹分類分析、關聯分析、聚類分析等類型的挖掘。
2.3.1 決策樹分類分析。決策樹(decision tree)是一個類似流程圖的樹型結構,樹中包含三種節點類型:根節點、內部節點以及葉節點。其中樹中的每個內部節點都代表著對一個屬性的測試,用以區分具有不同特性的記錄。葉節點則代表某個類或者是類的分布,最上面的節點就是根節點。決策樹構造的輸入是一組帶有類別標記的數據,往往構造的結果是一棵二叉樹或多叉樹。在農作物發生病蟲草等方面的分析,可以通過決策樹分類分析對農作物災害數據資料中大量的歷史數據處理、挖掘出蘊含其中的對防治病蟲草害有價值的信息,從而為診斷和防治提供更準確的決策服務。
2.3.2 關聯分析。若兩個或多個數據項的取值之間重復出現且概率很高時,它就存在某種關聯,可以建立起這些數據項的關聯規則。在大型數據庫中,這種關聯規則是很多的,需要進行篩選,一般用“支持度”和“可信度”兩個閾值來淘汰那些無用的關聯規則。在農作物信息數據倉庫中,SSAS提供了關聯算法,可以根據農作物以往發生病蟲草害的疾病和特征分析,挖掘出在一段時間內,氣候環境與特定農作物發病之間的關聯規則。
2.3.3 聚類分析。聚類就是把一組對象按照屬性值劃分成一系列有意義的子集的過程。它所采用的劃分原則是保持最大的組內相似性和最小的組間相似性,即不同的聚類中的數據盡可能地不同,同一聚類中的數據盡可能相似。所以,聚類有助于建立集合的細分。SSAS提供聚類的分段算法,先對農作物數據倉庫模型中的關系進行標識,并根據這些發生病蟲草害的病例數據分組為包含類似特征的分類組。
3 結論
本文對數據挖掘技術在農業生產決策支持系統中的應用進行了研究,構建了基于數據倉庫和數據挖掘的農業生產決策支持系統模型,并對該模型進行了介紹。該系統具有一定的輔助決策功能,用戶可以通過聯機分析處理模塊和數據挖掘模塊從多角度、多側面地分析數據庫中的數據,通過該系統可以挖掘和發現隱含的信息,對信息作出決策樹分類分析、聚類分析以及關聯分析等一系列數據挖掘操作,從而獲得對農業生產有決策作用的信息,指導人們進行農業生產實踐。
參考文獻:
[1]李增祥,數據挖掘技術在農業生產中的應用[J].微計算機信息,2010,6-3:150-151.
[2]Jiawei Han and Micheline Kamber.數據挖掘概念與技術[M].北京:機械工業出版社,2001:23-34.
1 數據挖掘的概念、步驟及常用方法
1.1 數據挖掘概念、步驟 數據挖掘(Data mining,DM)即數據庫中的知識發現,是從大型數據庫的海量數據中提取人們感興趣的知識,這些知識是隱藏的、事先未知的、潛在有用的信息,挖掘的知識表現為概念、規則、規律、模式等形式[1]。數據挖掘的目的在于使用所發現的模式幫助解釋當前的行為或預測未來的結果[2]。挖掘步驟大致有:問題定義、數據提取、數據預處理、數據挖掘、知識評估、結果應用這六步。
1.2 數據挖掘常用方法
1.2.1 描述統計 數據總結的目的是對數據進行從低層次抽象、濃縮到高層次,得出它的緊湊描述。最簡單的數據總結方法是描述統計,它包括平均數、中位數、分位數等,它常和統計圖配合應用。
1.2.2 關聯規則 關聯規則從本質上講是條件概率,即當A發生時、B同時出現的概率有多大?只要B離50%較遠就有意義。數據關聯是數據庫中存在的一類重要的可被發現的知識。若兩個或多個變量的取值之間存在某種規律性,就稱為關聯。關聯包括簡單關聯、時序關聯、因果關聯。關聯分析的目的是找出數據庫中隱藏的關聯網。有時我們并不知道數據庫中數據的關聯函數,即使知道也不確定。因此關聯分析生成的規則帶有可信度。
1.2.3 分類和聚類 這是最常用的技術。分類方法主要有:回歸、決策樹、神經網絡。分類分析在數據挖掘中是一項重要任務。分類器的構造方法有統計方法、機器學習方法、神經網絡方法等。聚類是根據事物本身潛在的特性研究對象分類的方法。通過聚類把一個數據集合中的個體按照相似性歸成若干類別,使其“物以類聚”,將數據庫中的記錄劃分為一系列有意義的子集。聚類要解決的就是實現滿足這種要求的類的聚合。在進行聚類前,這些類別是潛在的,可分割的類的個數(聚類數)也是未知的。聚類大致分為統計方法、機器學習方法、神經網絡方法和面向數據庫的方法等。
1.2.4 偏差檢測 數據庫中的數據可能有一些異常記錄,檢測這些偏差很有意義。偏差檢測的基本方法是尋找觀測結果與參照值之間有意義的差別。
2 中醫病歷中醫學數據挖掘的特點
目前中醫病歷中采集的中醫學信息具有如下特點。
2.1 癥狀的模糊性 中醫學對疾病的診斷是通過望、聞、問、切的四診合參,獲取有用信息,再結合醫生的經驗,對疾病做出診斷。癥狀的模糊性不僅表現在獲得信息的形式多樣,而且因中醫癥狀存在著一癥多名,或多癥一名的現象,因此不同醫生即使對同樣的癥狀,可能會用不同的文字加以描述,比如對“患者不欲進食”的記錄,可能會有納差、食欲不振、納呆等的不同。這種模糊性模式加大了中醫學數據挖掘的難度。
2.2 癥狀的不完整性 病例和病案的有限性使醫學數據庫不可能對任何一種疾病信息都能全面地反映出來,表現為醫學信息的不完全性。同時,許多醫學信息的表達、記錄本身就具有不確定和模糊性的特點[3],這方面在中醫癥狀未做出標準量化方法并推行應用之前,尤為突出。疾病信息體現的客觀不完整和描述疾病的主觀不確切,形成了中醫病歷中醫學信息的不完整性。
2.3 證候的復雜性 著名的王永炎院士指出了證候具有動態時空、內實外虛、多維界面的特點,簡明扼要的描述了證候的復雜性。中醫證候的復雜性給數據挖掘增加了難度,但這也恰好是數據挖掘發揮效力的用武之地。
2.4 治療信息的個體化特性 中醫治病之本是辨證論治,體現在“三因治宜”、“同病異治、異病同治”等方面。即使針對同一疾病相同的證,醫生的處方用藥也可能會有差異。這種個體化的治療,充分體現了中醫治病的精髓,而其中所蘊涵的深奧哲理和規律,用一般的研究方法難以全面發掘。數據挖掘在這方面很可能會有很高的應用價值。
2.5 挖掘過程的復雜性 中醫藥領域中的數據屬性有離散型的,也有連續型和混合型的,對這些數據的噪聲處理等預處理相當復雜,挖掘過程還需要人機交互、多次反復,其中任何一個環節都不能缺少專業人員。只有靠中醫藥專家的引導,針對具體問題,選擇合理的挖掘方法,才能挖掘出真正有價值的知識。
在中醫學數據挖掘中,應針對上述數據特點和挖掘目標,結合運用不同的挖掘方法,對非線性、不完全的信息進行智能處理,發揮各自的技術及其整合優勢。
3 數據挖掘在中醫藥研究中的應用
近年來,數據挖掘技術在中醫藥研究中已得到應用。有學者認為中醫藥數據挖掘是中醫藥現代化研究的重要組成部分[4]。
3.1 中醫藥信息化研究 姚氏等[5]綜合文獻指出對中醫藥理論和實踐進行信息化、數字化、知識化,能夠克服中醫名詞術語過于繁雜造成的中醫發展障礙,對于中醫藥信息進行文本數據挖掘是促進中醫藥信息結構化的途徑之一,該問題的解決,能極大促進中醫藥現代化發展的進程。
3.2 中藥研究 陳凱先等[6]認為對大量中藥化學成分進行藥效基團的建模研究,并對中藥化學成分數據庫進行柔性搜索,能夠為更充分利用中藥化學成分所含的化學信息提供技術支持。馮雪松等[7]對中藥指紋圖譜的特點及數據挖掘技術在其中的應用做了綜述,指出中藥指紋圖譜由于反映了藥用植物的“共有特征”,又由于地域、生長環境、采收等多種因素影響,具有統計數學中多元隨機分布的“模糊性”,利用模糊數學、統計學、計算機技術等建立一種同時反應這兩種特征數據庫,存儲中藥指紋圖譜信息,應用數據挖掘技術發現和解析其中潛在的信息,以評價和控制中藥質量及研究中藥定量組效關系。
3.3 方劑研究 喬延江等[4]綜述了KDD在中藥研究開發中的意義。喬氏等認為中藥(復方)的KDD研究是在中醫理論指導下,以數據挖掘技術作為知識發現的主要環節,對中藥研發、設計、中醫組方理論及規律、中藥作用機制、構效關系、中藥藥效集團群的確認、化學成分及藥理指標的預測等進行多方位、多學科、系統的現代化研究,是一個高度復雜的系統。其目的是建立傳統中醫理論同現代中藥的科學化、系統化、可描述化的關系,是中醫藥現代化的重要組成部分。楊林等[8]闡述了數據庫技術與Web結合實現網上中醫方劑的信息挖掘。將方劑文獻資料進行全方位解析,設計內容詳細的數據庫與Web技術結合,通過Internet開發了網上中醫方劑信息分析處理系統,選擇支持Web-DB的ORACLE數據庫管理系統作為系統開發和運行平臺。經過數據預處理、選擇和篩選數據、確定分析目標、信息挖掘結果顯示等階段,完成對一批方劑數據的信息挖掘。姚美村等[9]應用數據挖掘技術對治療消渴病的中藥復方配伍的內涵進行探索性研究。以文獻收錄的106個治療消渴病的中藥復方為對象,經解析后建立復方特征數據庫;以數據挖掘系統Enterprise Miner為平臺,在單味藥層次上進行消渴病復方組成藥味之間的關聯規則分析研究,結果顯示單味藥、兩味藥組合、三味藥組合的應用規律與歷代中醫在消渴病治療用藥方面的論述一致。挖掘結果的可信度可達到或接近中醫專家的分析能力。秦首科等[10]在構建方劑、中藥和病癥數據倉庫的基礎上,通過對數據倉庫內部各種關聯和映射關系的定義,利用中藥和病癥數據倉庫的聯機分析功能,探討了方劑和其針對癥狀之間的聯系。蔣永光等[11]對從《中醫大辭典·方劑分冊》中篩選出1355首脾胃方中的414種藥物,經用聚類分析、對應分析和頻繁集方法,從功效、歸經、藥性和藥味等方面進行了分類特征分析,并就脾胃方的核心藥物、方劑結構、“藥對藥”組和“方藥證”的對應關聯方面形成了有關技術規則和處理程序。
3.4 中醫證候研究 張世筠等[12]應用流行病學和變量聚類分析的數理統計方法,對2442例中醫肝證患者進行了初步研究。由調查組采集核對中醫四診資料,按肝證辨證記分標準記分,分為11個證型。經過聚類分為實證、風證、虛證3類,解決了中醫各肝證的歸屬問題,本研究還定量地闡明肝的實證、虛證、風證的相互關系。白云靜等[13]在充分闡釋證候系統的非線性、復雜性特征的基礎上,探析了人工神經網絡方法用于證候研究的可行性,并介紹了基于人工神經網絡的證候研究方法。徐蕾等[14]采用boot strap方法對406例樣本進行擴增以滿足數據挖掘對樣本量的要求,采用基于信息熵的決策樹C4.5算法建立中醫辨證模型。通過決策樹C4.5算法篩選出對辨證分型有意義的26個因素,按其重要程度排序;產生出清楚易懂可用于分類的決策規則,建立辨證模型,模型分類符合率為:訓練集83.6%,驗證集80.67%,測試集81.25%;模型區分各類證型的靈敏度和特異度也較高。認為決策樹C4.5算法建立的模型效果較好,可用于慢性胃炎中醫證型的鑒別診斷。吳斌[15]等探討了腎陽虛證的辨證因子分布規律。以腎陽虛證量表為基礎,從定性、定量角度收集資料。以定性評分計算各辨證因子的出現頻率,用定量評分進行分層聚類分析。發現:畏寒、肢冷、夜尿、腰背發冷等辨證因子出現頻率高,聚類分析提示腎陽虛主證、舌象、脈象分布較有規律。認為根據數理統計結果對腎陽虛證的辨證因子進行初篩,為腎陽虛證的量化研究奠定了基礎。
4 小結與展望
利用數據挖掘技術探求中醫藥診治疾病的規律,形成用數字描述和表達的中醫藥內容,能有力推動中醫藥研究的規范化進程。但由于中醫藥信息的復雜性和特殊性,中醫藥數據挖掘在挖掘對象的廣泛性、挖掘算法的高效性和魯棒性、提供知識或決策的準確性方面有更高的要求。目前中醫藥數據庫資源已較豐富。數據挖掘技術將成為中醫藥現代化的重要組成部分。但從目前應用數據挖掘技術進行的中醫藥研究來看,中醫數據挖掘尚處于起步階段,多數是對古文獻數據的整理挖掘,缺乏用于探求中醫診治疾病規律和復方用藥規律的研究。這可能與中醫數據的復雜性所致的數據預處理繁瑣有關;如能通過建立結構化數據庫,采用結構化的臨床信息采集系統收集數據,將能提高中醫學數據挖掘的效率及可信度。有助于發現中醫的診治規律,并創新診治模式,提高診療與科研教學水平。
1 Srikanth R''Agrawal R.Mining Sequential Patterns:Generalizationsand Performance Improvement.In 5th Int’ Extending Database Technology.Avignon France''1996''121-130.
2 翁敬農(譯).數據挖掘教程.北京:清華大學出版社''2003''11.
3 Qu JH''Liao QM''Xu WZ''et al.The construction of medical database and datamining.Journal of the Fourth Military Medical University''2001''22(1):88.
4 喬延江''李澎濤''蘇鋼強''等.中藥(復方)KDD研究開發的意義.北京中醫藥大學學報''1998''21(3):15-17.
5 姚美村''袁月梅''艾路,等.數據挖掘及其在中醫藥現代化研究中的應用.北京中醫藥大學學報''2002''25(3):20-23.
6 陳凱先''蔣華良''嵇汝運.計算機輔助藥物設計—原理、方法及應用.上海:上海科技出版社''2001''1.
7 馮雪松''董鴻曄.中藥指紋圖譜的數據挖掘技術.藥學進展''2002''26(4):198-201.
8 楊林''徐慧''任廷革,等.數據庫技術與Web結合實現網上中醫方劑的信息挖掘.中國中醫藥信息雜志''1999''6(9):71-72.
9 姚美村''艾路''袁月梅''等.消渴病復方配伍規律的關聯規則分析.北京中醫藥大學學報''2002''25(6):48-50.
10 秦首科''牛孺子.利用數據倉庫分析處理中醫方劑評析.中醫藥學刊''2002''20(3):341-342.
11 蔣永光''李力''李認書''等.中醫脾胃方劑配伍規律數據挖掘試驗.世界科學技術—中醫藥現代化''2003''5(3):33-37.
12 張世筠''沈明秀''王先春''等.中醫肝證的變量聚類分析.中國中西醫結合雜志''2004''24 (1):35.
13 白云靜''申洪波''孟慶剛''等.中醫證候研究的人工神經網絡方法探析.中醫藥學刊''2004''22(12):2221-2223.
14 徐蕾''賀佳''孟虹''等.基于信息熵的決策樹在慢性胃炎中醫辨證中的應用.第二軍醫大學學報''2004''25(9):1101-1103.
文獻標識碼:A
文章編號:16723198(2015)17005503
0引言
連鎖零售企業的需求預測是指對消費者所需購買的商品數目進行預測。當實際上需要的商品數目和預測數目有較大差異時,連鎖零售企業供應鏈會受到極大擾動,并且會提高成本,競爭力會降低。如果產品受季節、廣告和特賣活動等其他因素影響較大時,精確快速的物資需求可以高效提示企業產品需求量的變化,這能夠顯著減少零售企業的庫存量,使成本更低,企業在市場中的競爭力有效提高。所以當發生了突發事件時,如何能夠快速精確預測連鎖零售企業應急物資需求量對于企業供應鏈的穩定和優化具有重大意義。
現在國內外對物資需求預測的方法主要包括回歸分析法和時間序列法,對它們的研究已經比較成熟,由于能夠快速得到結果,所以很多研究員都喜歡這種方法,可是由于它們的模型一般不夠復雜,且假定實驗條件相對理想,僅考慮了小部分影響因素,因此預測出來的結果精度不高,效果不夠理想。除此以外,還有部分研究員利用人工神經網絡、專家系統模型等其他方法進行預測,其中通過人工神經網絡建立模型來進行預測,最后的結果更加精確,所以越來越多的學者開始利用人工神經網絡來對物資需求進行預測。但是由概率統計學可得,神經網絡學習算法僅僅是根據經驗風險最小化原理(empirical riskminimization)來進行學習,但沒有有效降低期望風險;除此以外,由于沒有準確的理論知識來對神經網絡結構進行確定,它只能通過多次試驗得出的經驗來確定。
最近貝爾實驗室的Vapnik等提出了支持向量機(support vector machine,SVM),它是一種新的機器學習算法。SVM不僅能將結構風險減至最小,而且還最大化地縮小了VC維和經驗風險之間的界限,與神經網絡學習方法相比較,它的預測效果更好,能更好的代替神經網絡方法,應用前景更加優越。當要處理大規模數據時,由于存在過多的冗余信息,這會極大降低支持向量機算法的運算速度,導致訓練消耗更多的時間。為了將SVM算法應用于對實時性要求較高的連鎖零售企業應急需求預測這個課題上,由于粗糙集算法具有屬性約簡的特點,本文引入粗糙集算法用于對與連鎖超市應急物資需求量相關的各種歷史數據進行約簡,把和決策信息關系不大的屬性消除,極大地減少了SVM的輸入變量,因此使得SVM算法速度更快,預測結果更準確。
1基于粗糙集與支持向量機的預測模型
1.1粗糙集屬性約簡
由粗糙集理論可得,把客觀世界簡化成一個信息系統,用A=〈W,Q,V,f〉來表示它,其中:W=x1,x2,…,xn是論域;Q=S∪D是屬性有限集,上式中S=s1,s2,…,sm是條件屬性集;V=v1,v2,…,vm是屬性的值域集,上式中vi是屬性ci的值域:f:W×SV為信息函數,由上式可得出論域W與條件屬性集S到值域集V的映射。一個決策屬性的決策表的一般表達形式如表1所示,下表中f(xi,sj)=uj,i,fxi,d=vi,并且uj,i的值和對象xi和條件屬性si相對應,vi的值和對象xi與決策屬性d相對應。
表1決策表的一般表達形式
假定B是Q的隨便一個屬性子集,可得下式的等價關系I(B)={(x,y)∈W×W:f(x,a)=f(y,a),a∈B}。假定(x,y)∈I(B),那么x,y相對于B是不可分辨的;假定R為等價關系族,如果I(R)=I(R-{r}),那么在R中r能夠被消除;如果P=R-{r}相互獨立,那么P是R中的一個約簡。對于R中無法消除的關系,我們把它稱為核,核所組成的集合稱為R的核集。
由上可得,粗糙集屬性約簡過程如下所示:
(1)通過論域中的決策屬性和條件屬性建立決策表。
(2)找出決策表中的條件屬性和決策屬性,然后根據粗糙集算法離散化這些變量。
(3)求出新決策表,然后對它屬性簡約,最終得到約簡的決策規則。
1.2支持向量機的基本原理
支持向量機(Support Vector Machines,簡稱SVM)是一種新的機器學習算法,由Vapnik等人提出,在時間序列預測和優化控制等領域得到廣泛的應用。SVM先分解非線性函數樣本集,然后把它們轉化成向量形式,與高維空間相映射,經過線性回歸后再映射回原空間。由上可得,它就是一個對非線性數據進行線性回歸變換,最開始一般用來解決尋優分類問題。
通過下圖1詳細說明了SVM的計算原理,假設有實心點和空心點這兩類樣本,H是最優分類線,它兩邊的H1、H2分別代表2類中離分類線H最近且平行于分類線的直線,H1與H的距離和H2與H的距離都被稱作分類間隔,用margin表示。假定分類線H不但可以準確分開2類樣本,還要使margin最大,那么距離最優分類線H最近的樣本向量就稱為支持向量。此外如果要使H能保證經驗風險最小,要求margin最大也就是要保證推廣性的界中的置信區間最小,這樣也就能夠最小化真實風險。
圖1支持向量機原理圖
1.3支持向量機的基本算法
SVM的原理就是找到一個非線性映射j,它能將數據x映射到高維特征空間并進行線性回歸。現在給定訓練數據xi,yi,i=1,2,…,l,其中xi∈Rn是第i個樣本點的n維輸入值,yi∈R為對應的目標值,l為訓練樣本輸目。SVM算法的目標就是求出函數fx,它可以盡量逼近全部樣本點。由上可得,支持向量機的估計函數即:
fx=+b
(1)
式中:fx是目標函數;w,b是目標函數的法向量及偏移量;jx是特征映射函數。
那么標準支持向量回歸算法就能描述成下面的問題,即
式中:b是通過支持向量計算求出;核函數Kxi,x是滿足Mercer條件的任何對稱的核函數對應于特征空間的點積。一般支持向量機使用的核函數包括多項式核函數,線性核函數和徑向基核函數(RBF)等,本文采用徑向基核函數。
2基于粗糙集和SVM的短期應急需求預測
首先找出歷史數據,然后構建屬性值決策表A=〈W,Q,V,f〉,其中Q=S∪D。條件屬性S指歷史負荷和影響因素信息,決策集D指預測日的應急需求值。因為粗糙集算法是對離散數據進行分析,所以首先要離散化原有數據,構造一個新的信息決策表,然后再采用增量約簡算法進行屬性約簡,最后可求出推理規則集。
由于支持向量機算采用了RBF核函數,它的參數c值可以極大影響SVM計算結果,所以c值通常大于10小于100,如果c值超過100時,就會產生欠學習現象,所以本文假定c=95。
圖2是基于RS預處理的SVM預測系統。
圖2基于RS預處理的SVM預測系統
3應急物資需求量預測的仿真實驗
在進行連鎖零售企業應急物資需求預測的分析中,主要利用北京城區應急物資需求的數據進行預測。
3.1模型參數選擇
粗糙集理論是一種刻畫不完備、不確定信息的數學工具,在保留關鍵信息的前提下,對數據進行化簡,使其屬性達到最小約簡,求得知識的最小表達。
影響應急物資需求的因素有很多,所以首先要采用粗糙集屬性約簡法約減這些影響因素。首先將原始數據制成決策表,然后離散化樣本數據,同時不降低數據的原始分類能力。本文采用等頻率離散化方法,首先把連續屬性值分成k個區間內數值相等的離散區間。現在假定有l個數值,可以求出每個區間有l/k個數值,本文中k=3。在保證決策表決策屬性和條件屬性間不變化依賴關系前提下,消除多余的條件屬性,約減后求出的核屬性為x1,x2,x3,x4,x5,x6,此時約減后求出的指標就是支持向量機模型的輸入數據。
本文將數據進行粗糙集算法屬性約簡后,得到最優屬性集,如表2所示。
表2應急物資需求量與影響因素數據統計
其中①為受災程度,②為受災時間,③為零售企業門店位置,④為商品消耗周期,⑤為門店商品庫存,⑥為應急物資需求量。將表2中1~13組樣本作為訓練樣本,14~18組樣本作為檢驗樣本。
3.2應急物資需求預測
要建立應急物資需求預測模型,必須求出適當的核函數基寬γ和懲罰參數C等,這樣可以有效提高模型預測精確度,使模型更有效。本文采用交叉驗證網格搜索方法來確定優化參數。首先把訓練樣本集隨機分成K個集合,然后訓練它里面的K-1個集合,求出一個決策函數,再利用決策函數測試余下的那個集合,循環測試K次后,當預測完全部子集后把測試錯誤的平均值定位推廣誤差,這樣就能避免人為選取C和γ所產生的主觀誤差。
對參數優化后再根據已定的輸入和輸出參數構建建模數據Xi,Yii=1,2,…,K,求出輸入參數X和輸出參數Y之間的非線性映射關系:Yi=fXif:RnR。根據支持向量機預測理論通過求解一個二次規劃問題即可求出αi、α*i和b,即可求出所需要的預測模型。最后把檢驗樣本代入進行預測,其結果見表3所示。
表3預測結果
基于粗糙集-支持向量機的應急物資需求預測結果如圖3所示。由表3和圖3可見,采用基于粗糙集與支持向量機的預測模型對連鎖零售企業應急物資需求進行預測,達到了很高的預測精度,其最大誤差為5.71%,最小誤差為0.60%,平均誤差分別為2.84%。
圖3基于粗糙集-支持向量機的應急物資需求預測結果