時間:2023-03-07 15:19:21
引言:易發(fā)表網(wǎng)憑借豐富的文秘實踐,為您精心挑選了九篇數(shù)據(jù)挖掘課程范例。如需獲取更多原創(chuàng)內(nèi)容,可隨時聯(lián)系我們的客服老師。
國外很多大學(xué)都開設(shè)了數(shù)據(jù)挖掘類課程,波士頓大學(xué)的“數(shù)據(jù)管理與商務(wù)智能”課程主要包括基礎(chǔ)、核心技術(shù)、應(yīng)用三部分。授課方式包括理論內(nèi)容講授、案例教學(xué),以及學(xué)生以團隊合作方式完成項目并進行課堂演講。從麻省理工學(xué)院開放性課程資料(斯隆管理學(xué)院)中可以看出,在每章講解一種算法之后都盡可能地安排了商務(wù)實例的分析,并在課程后期安排了客座講座的形式。國內(nèi)對于數(shù)據(jù)挖掘的教學(xué)類研究成果也很多,主要集中在三類問題的研究上,較為普遍的是根據(jù)專業(yè)建立大綱的研究,例如針對電子商務(wù)專業(yè)進行大綱設(shè)計;另外也有專注研究某一種或多種適合數(shù)據(jù)挖掘或商務(wù)智能的教學(xué)方法,如專題研討法;還有的討論算法理解與程序設(shè)計、軟件應(yīng)用的關(guān)系。
2、基于模塊化方法的課程內(nèi)容分析
模塊化教學(xué)模式是按照程序模塊化的構(gòu)想和原則來設(shè)計教學(xué)內(nèi)容的一整套教學(xué)體系,它是在既定的培養(yǎng)目標(biāo)指導(dǎo)下,將全部教學(xué)內(nèi)容按照一定標(biāo)準(zhǔn)或規(guī)則進行分解,使其成為多個相對獨立的教學(xué)模塊,且各教學(xué)模塊之間可以按照一定的規(guī)則有選擇性的重新組合。該方法在20世紀(jì)70年代,由國際勞工組織引入教學(xué)之中,開發(fā)出以現(xiàn)場教學(xué)為主,以技能培訓(xùn)為核心的模塊化教學(xué)模式,在很多國家得到廣泛應(yīng)用。由于該教學(xué)法具有針對性、靈活性、現(xiàn)實性等特點,越來越受到教育界的關(guān)注。模塊化教學(xué)本質(zhì)上是以知識點與實踐的細化為出發(fā)點研究,本課程的知識點細化分為兩個層次:一是從宏觀角度,參考ACM的SIGKDD的數(shù)據(jù)挖掘課程建設(shè)建議,設(shè)計課程的基礎(chǔ)內(nèi)容模塊和高級主題模塊;二是從微觀角度,針對較為復(fù)雜的算法進行的知識點劃分。課程內(nèi)容的一至五章屬于基礎(chǔ)內(nèi)容模塊,介紹本課程的基礎(chǔ)理論和入門的數(shù)據(jù)挖掘技術(shù);六至第八章介于基礎(chǔ)內(nèi)容與高級主題之間,介紹數(shù)據(jù)挖掘的核心算法,可以根據(jù)學(xué)生情況進行靈活處理,可強調(diào)應(yīng)用,也可深化算法介紹;第九、十章為高級主題模塊,可以作為擴展材料介紹應(yīng)用,或為感興趣同學(xué)提供算法介紹;課程實踐模塊包含數(shù)據(jù)倉庫建設(shè)與數(shù)據(jù)挖掘算法的應(yīng)用,難度居中,可以在引導(dǎo)學(xué)生思考的前提下給出實驗步驟,并引導(dǎo)學(xué)生使用類似的方法處理不同的數(shù)據(jù)。
3、基于模塊化方法進行重要知識點的模塊化分析
重要知識點內(nèi)涵較為豐富,一般體現(xiàn)在經(jīng)典數(shù)據(jù)挖掘算法上,通常一大類算法下還分有多個算法,不同算法的在難度上有漸進層次,同一種算法也有很大改進研究空間,講授彈性比較大。因此,適合使用模塊化方法進行處理,并且需要在課程設(shè)計中明確一定課時量所要達到的內(nèi)容和難度。基礎(chǔ)部分為必選內(nèi)容,介紹基本概念和基本原理;決策樹作為數(shù)據(jù)挖掘分類算法的最基礎(chǔ)算法也是必選內(nèi)容,決策樹算法有多種分類,需要進行按照難易程度進行選擇;最后要根據(jù)難度選擇其他分類算法進行介紹。
4、結(jié)論
關(guān)鍵詞:數(shù)據(jù)挖掘;成績分析;決策樹算法
一、引言
成績作為考試的結(jié)果,不僅是對學(xué)生學(xué)業(yè)和教師教學(xué)效果的檢查和評定,進而激勵學(xué)生學(xué)習(xí)及教師工作;更是一種信息,具有反饋于教學(xué)活動、服務(wù)于教學(xué)決策、為教育科研提供資料等作用。為充分發(fā)揮考試的效能,綜合評價命題質(zhì)量,及時反饋教學(xué)效果,溝通教學(xué)信息,教學(xué)部門對考試成績進行統(tǒng)計分析和總結(jié)是非常必要的。
二、問題提出
我們以軟件技術(shù)系軟件開發(fā)專業(yè)為例進行分析。在眾多專業(yè)課程中,很多科目之間是相互聯(lián)系相互影響的,例如《Java初級程序設(shè)計》是《Java高級程序設(shè)計》的前置課程,《J2EE企業(yè)級應(yīng)用開發(fā)》則是《Java高級程序設(shè)計》的后續(xù)課程,《網(wǎng)頁制作―HTML、CSS》的學(xué)習(xí)效果將會影響《網(wǎng)頁制作―JavaScript》,而這些課程之間又是相互滲透相互聯(lián)系的。有時候有的教師在上一門課時會抱怨這個班的基礎(chǔ)不好,后續(xù)課程很難上,那么究竟是什么哪些前置課程對后續(xù)課程造成了影響呢?這里我們以軟件開發(fā)專業(yè)核心課程《J2EE企業(yè)級應(yīng)用開發(fā)》為例,分析研究影響這門課成績的前置課程對其的影響。
三、數(shù)據(jù)預(yù)處理
07級軟件開發(fā)專業(yè)一共9個班,前4個學(xué)期一共開設(shè)23門課程,在教學(xué)管理的數(shù)據(jù)庫中保存著大量屬性繁多,定義復(fù)雜,冗余多,不完整的數(shù)據(jù)。我們首先要從大量的數(shù)據(jù)中篩選出適合分析的數(shù)據(jù)。
在課程的選擇中,我們選取《計算機基礎(chǔ)》、《計算機網(wǎng)絡(luò)基礎(chǔ)》、《計算機數(shù)學(xué)基礎(chǔ)》、《Java程序設(shè)計基礎(chǔ)》、《數(shù)據(jù)結(jié)構(gòu)》、《數(shù)據(jù)庫原理與SQL Server》、《Java高級程序設(shè)計》、《網(wǎng)頁制作技術(shù)》以及《J2EE企業(yè)級應(yīng)用開發(fā)》這幾門有關(guān)聯(lián)的課程進行分析。并且在分析之前把《計算機基礎(chǔ)》、《計算機網(wǎng)絡(luò)基礎(chǔ)》、《計算機數(shù)學(xué)基礎(chǔ)》這3門基礎(chǔ)課取平均值合并成一個《計算機基礎(chǔ)》。
這是在軟件技術(shù)專業(yè)9個班400多人中隨機抽樣選取91個學(xué)生的記錄作為樣本集。
表1 采樣成績表
經(jīng)統(tǒng)計,91個學(xué)生記錄中,各門課程及格和不及格人數(shù)如表5.2所示。
表2 樣本集中各門課及格不及格人數(shù)統(tǒng)計
四、建立模型
1. 決策樹方法介紹
決策樹是一個類似流程圖的樹型結(jié)構(gòu),其中樹的每個內(nèi)部結(jié)點代表對一個屬性(取值)的測試,其分支就代表了測試的每個結(jié)果;而樹的每個葉結(jié)點就代表一個類別,可以根據(jù)決策樹的結(jié)構(gòu)對數(shù)據(jù)集中的屬性值進行測試,從決策樹的根結(jié)點到葉結(jié)點的一條路徑就形成了對相應(yīng)對象的類別預(yù)測。
2. ID3算法的基本思想及原理
ID3算法是R.Quinlan于1986年提出的,其前身是CLS。CLS的工作過程為:首先找出最有判別力的因素,把數(shù)據(jù)分成多個子集,每個子集又選擇最有判別力的因素進行劃分,一直進行到所有子集僅包含同一類型的數(shù)據(jù)為止,最后得到一棵決策樹,可以用它來對新的樣例進行分類。
3. 構(gòu)建決策樹
成績結(jié)果分為正例和反例兩類:及格(P)和不及格(N)。
下面用ID3算法,建立決策樹,對課程成績分類。
具體計算過程如下:
首先計算J2EE課程所含有的信息量。J2EE及格人數(shù)P=81,不及格人數(shù)N=10,則可得到:
0.4493
然后計算當(dāng)J2EE及格和不及格時,其他課程所包含的總信息量。經(jīng)統(tǒng)計,其他6門課程和J2EE有如表3所示的統(tǒng)計數(shù)據(jù):
計算機基礎(chǔ):
0.4421
從而得到計算機基礎(chǔ)的信息增益度為:
Gain(計算機基礎(chǔ))=0.4493-0.4421=0.0072
同樣的方式,得到其他課程的信息增益度,結(jié)果如表4所示:
表4 各門課程的信息增益度
可以看出所有課程當(dāng)中JAVA高級程序設(shè)計是最能區(qū)別訓(xùn)練集中決定J2EE成績與否的課程。根據(jù)各個課程的信息增益度,應(yīng)該選擇JAVA高級程序設(shè)計作為所建決策樹的根結(jié)點。由于JAVA高級的屬性值只有兩個:1(及格)和0(不及格),所以在JAVA高級下可以建立兩個分支。此時,將訓(xùn)練實例集分為二個子集,生成包含二個葉結(jié)點的決策樹。如圖1所示。
圖1 根節(jié)點分類決策樹
經(jīng)統(tǒng)計,JAVA高級程序設(shè)計及格且J2EE也及格的人數(shù)為73,其準(zhǔn)確率為73/79=92.4%。因此對JAVA高級程序設(shè)計及格這個分支(結(jié)點一)停止分割。經(jīng)統(tǒng)計,JAVA高級程序設(shè)計不及格的12人中有5人J2EE及格,7人J2EE不及格,所以對高級程序設(shè)計不及格這個分支(結(jié)點二)進行再次分割。
對圖1中的葉結(jié)點二進行分類。經(jīng)過計算,此刻正例為4,反例為8,所以此時的熵值為:
0.9799
采用上面同樣的方法計算各門課程的信息熵,得到
計算機基礎(chǔ):
0.9799
得到Gain(計算機基礎(chǔ))= 0.9799-0.9799=0.0000
同理,得到:
Gain(JAVA基礎(chǔ))= 0.9799-0.9371=0.0482
Gain(數(shù)據(jù)結(jié)構(gòu))= 0.9799-0.8669=0.1130
Gain(數(shù)據(jù)庫)= 0.9799-0.9799=0.0000
Gain(網(wǎng)頁設(shè)計)= 0.9799-0.9371=0.0482
選擇數(shù)據(jù)結(jié)構(gòu)為分裂點,將結(jié)點二分為兩個子集。JAVA高級不及格且數(shù)據(jù)結(jié)構(gòu)及格的人數(shù)為1人,該結(jié)點停止分割,JAVA高級不及格且數(shù)據(jù)結(jié)構(gòu)不及格的11人中有4人J2EE及格,7人不及格,因此對該節(jié)點需要再次分割。
采用上述同樣的方式劃分,最后得到如圖2所示的最終決策樹。
圖2最終決策樹
五、結(jié)果分析
分析圖2所示的決策樹,我們可以得到:對于軟件專業(yè)后期的核心課程《J2EE企業(yè)級應(yīng)用開發(fā)》來說,《Java高級程序設(shè)計》的學(xué)習(xí)程度直接影響其學(xué)習(xí)效果,《數(shù)據(jù)結(jié)構(gòu)》和《JAVA初級程序設(shè)計》也會對《J2EE企業(yè)級應(yīng)用開發(fā)》的成績帶來影響,如果學(xué)生《JAVA高級程序設(shè)計》學(xué)習(xí)一般但是《數(shù)據(jù)結(jié)構(gòu)》和《JAVA初級程序設(shè)計》基礎(chǔ)較好的話,依然能夠在學(xué)習(xí)《J2EE企業(yè)級應(yīng)用開發(fā)》時取得好的成績。這比較符合專業(yè)課程學(xué)習(xí)過程的實際情況。決策樹得出的結(jié)果反映了實際情況,這也充分說明了數(shù)據(jù)挖掘是一個強有力的輔助決策工具。
六、結(jié)束語
回顧一下這個案例,驗證數(shù)據(jù)挖掘技術(shù)解決這個問題的效果。在分析過程中,我們利用相關(guān)的數(shù)據(jù),通過橫向比較《計算機基礎(chǔ)》、《Java程序設(shè)計基礎(chǔ)》、《數(shù)據(jù)結(jié)構(gòu)》、《數(shù)據(jù)庫原理與SQL Server》、《Java高級程序設(shè)計》、《網(wǎng)頁制作技術(shù)》以及《J2EE企業(yè)級應(yīng)用開發(fā)》等課程成績,經(jīng)過數(shù)據(jù)收集、數(shù)據(jù)選擇、數(shù)據(jù)清理、數(shù)據(jù)歸納、數(shù)據(jù)轉(zhuǎn)換等過程,運用決策樹中的ID3算法課程之間知識結(jié)構(gòu)相互支撐的模型,發(fā)現(xiàn)專業(yè)核心課程之間的內(nèi)在聯(lián)系。輔助教學(xué)管理人員根據(jù)該模型對現(xiàn)有教學(xué)計劃做出調(diào)整,對師資資源合理利用,將優(yōu)質(zhì)師資用在主干課程上。
參考文獻:
1.李小映,數(shù)據(jù)挖掘在高職院校學(xué)校綜合信息中的應(yīng)用,計算技術(shù)與自動化,2006.12
2.陳松、盧繼萍,教學(xué)管理系統(tǒng)中的數(shù)據(jù)挖掘技術(shù)的應(yīng)用研究,中國教育技術(shù)裝備,2007.12
3.李雪真、陳燕國 ,基于數(shù)據(jù)挖掘的高校課程設(shè)置評價方法,科技資訊,2008.8
關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)挖掘課程;教學(xué)方法;人才培養(yǎng)
近年來,在社會發(fā)展和科學(xué)進步的過程中,以信息技術(shù)為中心的各領(lǐng)域產(chǎn)生了豐富的數(shù)據(jù),引起了社會各界人員的高度關(guān)注。體量大、速度快、模態(tài)多和價值密度低是大數(shù)據(jù)具有的特點,其能夠促進科學(xué)和社會經(jīng)濟的進一步發(fā)展,對國家安全也具有重要的影響。然而從大量數(shù)據(jù)中挖掘出有價值的信息和知識是需要專業(yè)的數(shù)據(jù)挖掘人才來實現(xiàn)的,因此,在高校數(shù)據(jù)挖掘課程教學(xué)過程中,教師要創(chuàng)新教學(xué)方法,運用科學(xué)的教學(xué)理論培養(yǎng)學(xué)生對數(shù)據(jù)的意識,從而促進教學(xué)質(zhì)量的提高和大量數(shù)據(jù)人才的培養(yǎng)。
一、科學(xué)引導(dǎo),培養(yǎng)數(shù)據(jù)意識
在我國的各大高校中,數(shù)據(jù)挖掘課程是理科和工科都開設(shè)的一門課程,其專業(yè)性質(zhì)較強,最初開設(shè)這門課程的主要目的是在于讓學(xué)生了解數(shù)據(jù)的相關(guān)概念和挖掘數(shù)據(jù)的相關(guān)技術(shù)手段,并能夠在以后的社會實踐中應(yīng)用到數(shù)據(jù)挖掘技術(shù)。但社會經(jīng)濟的發(fā)展和科學(xué)技術(shù)的進步,給數(shù)據(jù)挖掘課程帶來了較大的挑戰(zhàn),僅僅是了解數(shù)據(jù)的相關(guān)知識和掌握淺層次的數(shù)據(jù)挖掘技術(shù)是不能適應(yīng)時展需求的。因此,需要開設(shè)數(shù)據(jù)挖掘課程的高校教師在教學(xué)過程中對學(xué)生要進行科學(xué)的引導(dǎo),注重培養(yǎng)學(xué)生的數(shù)據(jù)意識,提高學(xué)生對數(shù)據(jù)挖掘課程的積極性。
數(shù)據(jù)驅(qū)動的理論分析和應(yīng)用是數(shù)據(jù)挖掘課程的重點,具體性和抽象性是其具有的兩個特點。數(shù)據(jù)挖掘課程的主要研究對象是具體的數(shù)據(jù),并從數(shù)據(jù)中挖掘出有價值的信息和知識,能夠?qū)?shù)據(jù)進行解釋和理解,這主要體現(xiàn)出數(shù)據(jù)挖掘課程的具體性特點;而在進行數(shù)據(jù)挖掘過程中使用的理論、方法和技術(shù)等概念,體現(xiàn)的是數(shù)據(jù)挖掘課程的抽象性,其在課堂學(xué)習(xí)過程中的消化和理解的難度是較大的,因為時間較短。由于種種因素對數(shù)據(jù)挖掘課程造成影響,因此在設(shè)計數(shù)據(jù)挖掘課程的教學(xué)之前,首先要做的就是讓學(xué)生對數(shù)據(jù)挖掘課程感興趣,并在發(fā)展過程中使學(xué)生的數(shù)據(jù)意識得以培養(yǎng)和提高。
在設(shè)計數(shù)據(jù)挖掘課程的教學(xué)過程中,可以增加講解什么是數(shù)據(jù)、數(shù)據(jù)有什么作用、所具有的重要性等的學(xué)時,加強學(xué)生對數(shù)據(jù)的認(rèn)識和重視。處在大數(shù)據(jù)的時代環(huán)境下,要讓學(xué)生了解什么是“大數(shù)據(jù)”,而生活中的哪些方面存在大數(shù)據(jù)、大數(shù)據(jù)是以何種增長方式在哪些領(lǐng)域進行發(fā)展的大數(shù)據(jù)能夠發(fā)揮作用等。教師在教學(xué)過程中可以使用多媒體教學(xué)的方法,通過實例和聲像的展示,讓學(xué)生了解生活中存在的數(shù)量,并清楚的掌握數(shù)據(jù)挖掘的技術(shù)方法,并從大量的數(shù)據(jù)中挖掘出有價值的信息和知識,為社會發(fā)展和企業(yè)進步提供服務(wù),讓學(xué)生了解在企業(yè)的發(fā)展過程中,數(shù)據(jù)挖掘的重要性。為了增加學(xué)生對數(shù)據(jù)挖掘課程的興趣和重視程度,在教學(xué)過程中,教師還可以將數(shù)據(jù)分析和數(shù)據(jù)挖掘的相關(guān)招聘案例融入到教學(xué)過程中,從數(shù)據(jù)挖掘課程以往的就業(yè)率、職位性質(zhì)、工資待遇及未來的職業(yè)發(fā)展前景等方面來增加學(xué)生對數(shù)據(jù)挖掘課程的興趣,有利于在以后的學(xué)習(xí)生活中更好地掌握數(shù)據(jù)挖掘技術(shù)和應(yīng)用數(shù)據(jù)知識。
二、深化基礎(chǔ),加強理論體系
現(xiàn)有的數(shù)據(jù)中心技術(shù)因大數(shù)據(jù)的特征而很難滿足數(shù)據(jù)分析的需求,去噪降維技術(shù)、數(shù)據(jù)儲存、數(shù)據(jù)整合、數(shù)據(jù)特征表示、數(shù)據(jù)通信傳輸和處理,以及非結(jié)構(gòu)化和半結(jié)構(gòu)化處理等方面是其主要表現(xiàn)。基于此,數(shù)據(jù)挖掘技術(shù)面臨的局勢較為嚴(yán)峻,并且數(shù)據(jù)挖掘課程是一門綜合性較強的學(xué)科,涉及的內(nèi)容較為廣泛、復(fù)雜,主要包括數(shù)據(jù)庫技術(shù)、統(tǒng)計學(xué)知識、機器設(shè)備知識、信息檢索技術(shù)和智能計算等學(xué)科內(nèi)容。然而現(xiàn)階段的高校在教學(xué)設(shè)計過程中難以在有限的時間里將這些學(xué)科全部開設(shè),即使是將這些學(xué)科全部開設(shè)了,每個學(xué)科的課時就會較少,不利于各學(xué)科的深入學(xué)習(xí),從而對數(shù)據(jù)挖掘技術(shù)的掌握造成不同程度的阻礙。為了解決這個問題,在高校進行教學(xué)設(shè)計的過程中,可以把大三或大四的學(xué)生作為數(shù)據(jù)挖掘課程的主要教學(xué)對象,因為這部分學(xué)生對自己的職業(yè)生涯有清晰的認(rèn)識,并且在大一、大二的學(xué)習(xí)過程中有一定的知識基礎(chǔ)。在大一學(xué)年和大二學(xué)年開設(shè)高等數(shù)學(xué)、統(tǒng)計學(xué)、算法分析、智能計算、數(shù)據(jù)庫原理和計算機系統(tǒng)原理等學(xué)科,為數(shù)據(jù)挖掘課程的學(xué)習(xí)做好基礎(chǔ)性的工作。在教學(xué)過程中,教師也可以向?qū)W生推薦數(shù)據(jù)挖掘課程相關(guān)的數(shù)據(jù),最好的專業(yè)領(lǐng)域較為著名的案例,有利于鼓勵學(xué)生學(xué)習(xí)數(shù)據(jù)挖掘課程的自信心。外語水平也是數(shù)據(jù)挖掘課程對學(xué)生的一個要求,因為只有掌握了高水平的外語,才能夠了解國外的數(shù)據(jù)挖掘技術(shù)的發(fā)展水平,全面的掌握國內(nèi)外的數(shù)據(jù)挖掘發(fā)展情況。所以在設(shè)計高校數(shù)據(jù)挖掘課程的教學(xué)過程中,要推進基礎(chǔ)知識的深化以及理論體系的完善,為日后的數(shù)據(jù)挖掘課程的學(xué)習(xí)奠定知識基礎(chǔ)。
三、聯(lián)系實際,創(chuàng)新教學(xué)方法
實踐是理論來源的基礎(chǔ),對于理論的檢驗,實踐是最有效的途徑。由于數(shù)據(jù)挖掘技術(shù)具有強烈的抽象性,以至于學(xué)生對大數(shù)據(jù)的認(rèn)識較為模糊,讓學(xué)生了解數(shù)據(jù)挖掘課程的內(nèi)容和在實際生活中的應(yīng)用所采取的方式就是教師的教學(xué)方法。案列教學(xué)法是教學(xué)過程中最好的教學(xué)方法,有利于學(xué)生對數(shù)據(jù)挖掘知識的了解和掌握,還有利于學(xué)生掌握良好的數(shù)據(jù)挖掘技術(shù)方法。通過案例教學(xué)法,讓學(xué)生了解數(shù)據(jù)挖掘在生活中的重要作用,在處理大數(shù)據(jù)時具有很大的作用。
教師在積極轉(zhuǎn)變教學(xué)內(nèi)容和教學(xué)方法的同時,學(xué)生也應(yīng)該積極探索提高學(xué)習(xí)質(zhì)量的方法,在課堂教學(xué)過程中,雖然教師起主導(dǎo)作用,但是課堂的主體仍然是學(xué)生。對于教學(xué)內(nèi)容,學(xué)生應(yīng)該主動接受,與被動接受相比,會獲得較好的學(xué)習(xí)效果,因此要讓學(xué)生欣然地接受教師教學(xué)過程中的新內(nèi)容和新方法。此外,在上機實驗課程的教學(xué)過程中,對于案例中的具體案例需要學(xué)生親自來演算,而教師在這個過程中主要是引導(dǎo)和指導(dǎo),啟發(fā)學(xué)生對深層次內(nèi)容的創(chuàng)新思考。還可以在每次采集和試驗案例之后,要求學(xué)生提交相應(yīng)的分析研究報告,這樣一來,學(xué)生對于大數(shù)據(jù)挖掘課程的接受程度能夠被教師很好地掌握,從而完善教師的教學(xué)方法,提高教學(xué)質(zhì)量。
四、增強興趣,深入科學(xué)研究
數(shù)據(jù)挖掘在大數(shù)據(jù)下面臨著巨大的挑戰(zhàn),數(shù)據(jù)挖掘?qū)W科是一門綜合性的學(xué)科,其中涉及的其他學(xué)科較多,所以學(xué)習(xí)難度和教學(xué)難度較大。因此在教學(xué)過程中要充分發(fā)揮教師的主導(dǎo)作用,引導(dǎo)學(xué)生對數(shù)據(jù)挖掘課程的深入學(xué)習(xí)。例如,讓學(xué)生間隔性地去了解大數(shù)據(jù)環(huán)境下數(shù)據(jù)挖掘技術(shù)解決了什么問題,甚至讓他們調(diào)查如今各大型招聘網(wǎng)中有關(guān)大數(shù)據(jù)分析和數(shù)據(jù)挖掘等職位的情況,進而增強學(xué)生對數(shù)據(jù)挖掘的興趣。此外,對于年級較高的學(xué)生來說,深造是其主要選擇的方式,也可以通過出國或是考研等渠道進行知識資源的深入學(xué)習(xí),從而掌握更多的知識,提升自身的綜合素養(yǎng)。對于這樣的學(xué)生,教師應(yīng)該通過鼓勵的方式使其選擇研究數(shù)據(jù)挖掘方向的科學(xué),為了充分有效地提高這部分學(xué)生的研究水平,教師可以給學(xué)生布置一些具體的課題任務(wù),課題任務(wù)的研究內(nèi)容一定要保證精細程度,甚至可以精細到數(shù)據(jù)挖掘過程中使用的一個方法的研究,這有利于學(xué)生深刻認(rèn)識課題任務(wù)重要性的培養(yǎng),同時還有利于學(xué)生較為準(zhǔn)確地把握問題研究的方法和內(nèi)容。提高學(xué)生對新型研究技術(shù)和研究方法的掌握,可以增加學(xué)生的經(jīng)典文獻的閱讀量,在這個過程中,學(xué)生的創(chuàng)新性思維得到了有效培養(yǎng),教師還要采取有效的措施引導(dǎo)學(xué)生進行學(xué)術(shù)性的創(chuàng)作研究。在實際的教學(xué)過程中,將科學(xué)研究引入到其中,有利于促進學(xué)生對新知識的理解和吸收,還能夠使學(xué)生解決問題的能力得到有效提升,為學(xué)生研究大數(shù)據(jù)的挖掘提供有利保證,并且打下一個堅實的基礎(chǔ)。
五、結(jié)語
在大數(shù)據(jù)環(huán)境下,數(shù)據(jù)挖掘課程是各大高校急需開設(shè)的一門課程,教師在教學(xué)過程中,要使用創(chuàng)新的教學(xué)方法,讓學(xué)生真正地了解到數(shù)據(jù)挖掘技術(shù)對社會進步和企業(yè)發(fā)展的重大作用。教師還要結(jié)合教學(xué)經(jīng)驗,重點從培養(yǎng)學(xué)生的數(shù)據(jù)意識、加強理論體系、創(chuàng)新教學(xué)方法和深入科學(xué)研究等方面進行數(shù)據(jù)挖掘課程教學(xué)設(shè)計,為提高大數(shù)據(jù)環(huán)境下挖掘課程的教學(xué)質(zhì)量提供參考依據(jù)。
參考文獻:
[1]劉建偉.數(shù)據(jù)挖掘課程設(shè)計的教學(xué)探索[J].科技信息,2013,(23).
[2]黃美麗.“數(shù)據(jù)倉庫與數(shù)據(jù)挖掘”研討型教學(xué)實踐探析[J].計算機時代,2012,(12).
[3]周森鑫,盛鵬飛,王夫芹.數(shù)據(jù)挖掘課程案例教學(xué)研究[J].計算機技術(shù)與發(fā)展,2012,(11).
近年來,數(shù)據(jù)挖掘與商務(wù)智能技術(shù)發(fā)展迅速,充分借鑒國外相關(guān)研究,尤其是ACMSIGKDD課程委員會對數(shù)據(jù)挖據(jù)課程建設(shè)建議,對進行數(shù)據(jù)挖掘類課程的教學(xué)建設(shè)研究有重要意義。ACM(美國計算機協(xié)會)于1998年成立了SIGKDD(知識發(fā)現(xiàn)興趣小組),致力于知識發(fā)現(xiàn)與數(shù)據(jù)挖掘的相關(guān)研究,ACMSIGKDD課程委員會連續(xù)多年多次更新其主要課程———數(shù)據(jù)挖據(jù)課程的建議,其中委員會將數(shù)據(jù)挖掘課程分為基礎(chǔ)部分與高級主題,基礎(chǔ)部分覆蓋了數(shù)據(jù)挖掘的基本方法,高級主題既有數(shù)據(jù)挖掘基本方法的深入研究,又有更高級算法的介紹。國外很多大學(xué)的計算機科學(xué)學(xué)院、商學(xué)院都開設(shè)了數(shù)據(jù)挖掘類課程并同時進行相關(guān)研究。波士頓大學(xué)開設(shè)了“數(shù)據(jù)管理與商務(wù)智能”課程,課程主要包括基礎(chǔ)、核心技術(shù)、應(yīng)用三部分。許多國外著名大學(xué)建立了教學(xué)管理系統(tǒng),提供大量的案例、在線討論和在線輔導(dǎo)功能。國內(nèi)很多學(xué)校都開設(shè)了數(shù)據(jù)挖掘的相關(guān)課程,我國大多數(shù)高校的課程大綱內(nèi)容與國外大致相同,只是在實踐部分選用了不同的商務(wù)案例。數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域廣泛,因此可以根據(jù)開課學(xué)院和專業(yè)選擇合適的實例。
二、根據(jù)信息管理專業(yè)本科生培養(yǎng)要求確定課程目標(biāo)
數(shù)據(jù)挖掘課程是一門綜合性很強的前沿學(xué)科,對計算機軟硬件、數(shù)據(jù)庫、人工智能技術(shù)、統(tǒng)計學(xué)算法、優(yōu)化算法等基礎(chǔ)知識都有較高的要求。因此該門課程開設(shè)在學(xué)生大三下學(xué)期,既有相關(guān)知識的基礎(chǔ),又為大四做畢業(yè)設(shè)計提供了一種思路。信息管理專業(yè)是計算機與管理相結(jié)合的專業(yè),旨在培養(yǎng)具備信息系統(tǒng)開發(fā)能力與信息資源分析與處理能力的綜合應(yīng)用型人才。對信息管理專業(yè)的學(xué)生而言,本課程主要的目標(biāo)是數(shù)據(jù)挖掘算法原理理解、數(shù)據(jù)挖掘算法在商務(wù)管理問題中的應(yīng)用以及常用數(shù)據(jù)倉庫與數(shù)據(jù)挖掘軟件的熟練應(yīng)用和二次開發(fā)。
三、基于模塊化方法的課程內(nèi)容分析
模塊化教學(xué)模式是按照程序模塊化的構(gòu)想和原則來設(shè)計教學(xué)內(nèi)容的一整套教學(xué)體系,它是在既定的培養(yǎng)目標(biāo)指導(dǎo)下,將全部教學(xué)內(nèi)容按照一定標(biāo)準(zhǔn)或規(guī)則進行分解,使其成為多個相對獨立的教學(xué)模塊,且各教學(xué)模塊之間可以按照一定的規(guī)則有選擇性的重新組合。學(xué)生可以根據(jù)個人興趣和職業(yè)取向在不同模塊之間進行選擇和搭配,從而實現(xiàn)不同的教學(xué)目標(biāo)和人才培養(yǎng)要求。模塊化教學(xué)本質(zhì)上是以知識點與實踐的細化為出發(fā)點研究的。商務(wù)智能方法本身非常豐富,實踐應(yīng)用也是課程的主要特點之一,因此十分適合使用模塊化的知識分解方式。本課程的知識點模塊管理分為兩個層次,一是從宏觀角度設(shè)計課程的基礎(chǔ)內(nèi)容模塊和高級主題模塊;二是從微觀角度針對較為復(fù)雜的教學(xué)內(nèi)容進行的知識點劃分。
1.課程主要內(nèi)容模塊化分析。目前該課程包括十章理論內(nèi)容,分別為數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的基本知識、數(shù)據(jù)倉庫的OLAP技術(shù)、數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘系統(tǒng)的結(jié)構(gòu)、概念描述:特征化與比較、挖掘大型數(shù)據(jù)庫中的關(guān)聯(lián)規(guī)則、分類與預(yù)測、聚類分析、復(fù)雜類型數(shù)據(jù)挖掘和序列模式挖掘。根據(jù)模塊化管理的宏觀角度分類,課程內(nèi)容的第一至五章屬于基礎(chǔ)理論部分和簡單數(shù)據(jù)挖掘技術(shù)的介紹,可以作為基礎(chǔ)內(nèi)容模塊;第六至八章為數(shù)據(jù)挖掘的核心算法,其中既有基礎(chǔ)理論與技術(shù)方法,又可深入到較難的方法和復(fù)雜的應(yīng)用,因此介于基礎(chǔ)內(nèi)容與高級主題之間;第九、十章可以算做課程的高級主題模塊;另外,課程的實踐模塊既包含數(shù)據(jù)倉庫的建設(shè)又包含數(shù)據(jù)挖掘算法的應(yīng)用,難度也介于基礎(chǔ)內(nèi)容與高級主題之間。
2.復(fù)雜知識點的模塊化管理。從微觀角度對知識點進行設(shè)計主要針對的是上述的高級主題、以及難度介于基礎(chǔ)內(nèi)容與高級主題之間的章節(jié),由于這些章節(jié)知識點在難度上有一定層次,講授內(nèi)容彈性比較大,因此需要在課程設(shè)計中明確一定課時量所要達到的難度。以商務(wù)智能技術(shù)中的分類算法為例:首先一般的入門課程都會介紹分類算法的概念和基本原理;接著開始介紹分類算法的基礎(chǔ)算法———決策樹,而決策樹算法中又包含ID3等多種算法,并且除了決策樹外,還有其他更高級的分類算法;在真正使用分類法進行預(yù)測時,還要分析預(yù)測準(zhǔn)確度;最終要將所學(xué)知識加以應(yīng)用。這樣就形成了一個結(jié)構(gòu)清晰、難度循序漸進的知識點模塊的層次關(guān)系。在宏觀角度、微觀角度對教學(xué)內(nèi)容進行分類的前提下進行相應(yīng)的授課方法與考查方法的研究,才能真正有助于學(xué)生的學(xué)習(xí)。
四、授課與考核方法設(shè)計
對不同層次學(xué)生要求不同,這種不同既體現(xiàn)在知識點的要求上,又直接體現(xiàn)在任務(wù)的難易性程度上,這都需要教師在課程設(shè)計時充分考慮不同要求情況下的不同的授課方式,并使學(xué)生清楚自己需要掌握的程度。對于高級算法和實現(xiàn)部分,通常可以選擇一到兩章內(nèi)容采用專題探討式的教學(xué)方法。這種方法是指在教師啟發(fā)和引導(dǎo)下,以學(xué)生為主體,選擇某個基本教學(xué)單元為專題,學(xué)生自主研究作為知識傳遞的基本形式,將多種靈活的教學(xué)方式綜合運用到教學(xué)環(huán)節(jié)的教學(xué)方法。根據(jù)信管專業(yè)培養(yǎng)方案的培養(yǎng)目標(biāo)、以及對學(xué)生調(diào)研的情況,實踐環(huán)節(jié)比較適合選擇成熟的商務(wù)智能工具進行數(shù)據(jù)的整合和多維數(shù)據(jù)建模,也就是直接使用現(xiàn)成的;或者使用數(shù)據(jù)挖掘軟件進行數(shù)據(jù)建模,完善數(shù)據(jù)挖掘算法。可以針對學(xué)生管理基礎(chǔ)課與IT基礎(chǔ)課知識的掌握情況,選擇合適的工具為學(xué)生設(shè)計綜合性實驗。實驗中給出部分操作步驟,并在實驗后期僅給出數(shù)據(jù)與工具,讓學(xué)生自己設(shè)計數(shù)據(jù)倉庫、進行數(shù)據(jù)挖掘、并對挖掘結(jié)果進行多種形式的展示。
五、結(jié)論
課程相關(guān)性分析數(shù)據(jù)挖掘相關(guān)分析典型相關(guān)分析關(guān)聯(lián)規(guī)則一、引言
課程是實現(xiàn)教學(xué)內(nèi)容傳遞的集中體現(xiàn),是學(xué)校教育的目的性、計劃性和組織性的集中體現(xiàn)。課程設(shè)置規(guī)定著課程類型、課程性質(zhì)、課程排序和學(xué)時分配,還規(guī)定各類各科課程的學(xué)習(xí)目標(biāo)、學(xué)習(xí)內(nèi)容和學(xué)習(xí)要求等,其合理與否將直接影響到所培養(yǎng)人才的質(zhì)量,關(guān)系到學(xué)生知識面的寬度、深度、動手實踐和研究能力的高低,同時也已經(jīng)成為了影響大學(xué)生就業(yè)的主要因素之一。因此,課程結(jié)構(gòu)和課程內(nèi)容的合理設(shè)置尤為重要。
課程相關(guān)性分析可定量描述課程之間的相關(guān)性,可根據(jù)相關(guān)系數(shù)值的大小確定課程間關(guān)系的緊密程度,然后從順序性、整體性、關(guān)聯(lián)性和連續(xù)性四個方面為優(yōu)化課程設(shè)置提供參考信息,優(yōu)化課程結(jié)構(gòu)和課程內(nèi)容。近年來,國內(nèi)外教育工作研究人員開展了大量的課程相關(guān)性方面的研究,國內(nèi)外多所著名高校已將課程相關(guān)性研究成果作為課程設(shè)置的基本依據(jù)。
目前課程相關(guān)性分析研究所采用的方法均基于數(shù)據(jù)分析,其方法主要包括傳統(tǒng)數(shù)據(jù)分析法和數(shù)據(jù)挖掘分析法兩種,而兩者又有著本質(zhì)的區(qū)別。在探索數(shù)據(jù)關(guān)系時,傳統(tǒng)的分析方法一般是基于驗證的方法,即用戶首先對數(shù)據(jù)之間的關(guān)系做出一定的假設(shè),然后通過數(shù)據(jù)分析來驗證假設(shè)是否正確來得出相應(yīng)結(jié)論,其分析過程是基于假設(shè)驅(qū)動的演繹型分析;數(shù)據(jù)挖掘不是用于驗證某個假定的模式(模型)的正確性,而是在數(shù)據(jù)庫中自己尋找模型,數(shù)據(jù)挖掘在本質(zhì)上是一個完全基于發(fā)現(xiàn)驅(qū)動的歸納型分析過程。
本文對課程相關(guān)性分析中的數(shù)據(jù)挖掘過程及基于數(shù)據(jù)挖掘技術(shù)的課程相關(guān)分析方法進行介紹,以期為我國高校課程的優(yōu)化設(shè)置研究提供理論指導(dǎo)和方法借鑒。
二、數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘(Data Mining,DM)又稱數(shù)據(jù)庫中的知識發(fā)現(xiàn),是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應(yīng)用數(shù)據(jù)中,通過使用成熟的數(shù)據(jù)挖掘模型,提取出隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識,得到數(shù)據(jù)中反映出來的數(shù)據(jù)內(nèi)在的關(guān)系,從而進一步應(yīng)用到具體的數(shù)據(jù)分析研究中去。數(shù)據(jù)挖掘得到的信息具有先前未知、有效和實用三個特征。
目前,數(shù)據(jù)挖掘技術(shù)的已被應(yīng)用于關(guān)聯(lián)分析(Association Analysis)、概念/類別描述(Concept/Class Description)、分類與估值(Classification and Estimation)、聚類分析(Clustering Analysis)、時間序列分析(Time-Series Analysis)、偏差分析(Deviation Analysis)、孤立點分析(Outlier Analysis)等方面,隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展,可能還會繼續(xù)出現(xiàn)新的數(shù)據(jù)挖掘功能。課程相關(guān)性分析為其關(guān)聯(lián)分析功能中的一部分,所采用的分析方法主要有相關(guān)分析法、典型相關(guān)分析法和關(guān)聯(lián)規(guī)則分析法等。
數(shù)據(jù)挖掘分析過程各步驟之間互相影響、反復(fù)調(diào)整,形成一種螺旋式上升過程,具體分析流程見圖1所示。目前已建立的數(shù)據(jù)挖掘模型有CRISP-DM模型(Cross Industry Standard Process for Data Mining)、ODDM模型(OLE DB for Data Mining)、Oracle9i數(shù)據(jù)挖掘模型等多種,對于課程相關(guān)性分析來說,具有直觀、簡單和可靠等特點的CRISP-DM模型最為適用,其模型見圖2所示。
三、基于數(shù)據(jù)挖掘的課程相關(guān)性分析方法
基于數(shù)據(jù)挖掘的課程相關(guān)性分析方法主要有相關(guān)分析法、典型相關(guān)分析法和關(guān)聯(lián)規(guī)則分析法,三種方法各具優(yōu)缺點,互不可取代。
1.相關(guān)分析法
相關(guān)分析法又稱單因子相關(guān)分析法,主要用于研究兩個變量因子間的相關(guān)關(guān)系。作為教育信息多元統(tǒng)計分析方法的一種,相關(guān)分析法主要用于測定現(xiàn)象之間相關(guān)關(guān)系的規(guī)律性,據(jù)此進行預(yù)測和控制。將其用于課程相關(guān)性的探討研究,可直接量化兩門課程間的相關(guān)性,分析過程簡單、快捷,顯示方式直觀,數(shù)據(jù)可信度高。
相關(guān)分析法在課程相關(guān)性分析研究中應(yīng)用,主要有以下幾個步驟:
關(guān)鍵詞:數(shù)據(jù)挖掘原理與算法;實例;教學(xué)探索
0.引言
隨著經(jīng)濟、科技和信息技術(shù)的飛速發(fā)展,特別是網(wǎng)絡(luò)技術(shù)的發(fā)展,數(shù)據(jù)的產(chǎn)生和存儲能力有了很大程度的提高。數(shù)據(jù)挖掘的出現(xiàn),為人們提供了一條解決“數(shù)據(jù)豐富而知識貧乏”困境的有效途徑Ⅲ。所以很多高校,包括世界上一些著名高校都開設(shè)了數(shù)據(jù)挖掘課程。課程的基礎(chǔ)理論部分一般包括數(shù)據(jù)預(yù)處理、關(guān)聯(lián)規(guī)則、分類、聚類、時間序列挖掘、Web挖掘等內(nèi)容。該課程使學(xué)生學(xué)會分析研究數(shù)據(jù)挖掘中數(shù)據(jù)預(yù)處理、常用算法、結(jié)果的可視化等技術(shù),并培養(yǎng)學(xué)生的數(shù)據(jù)抽象能力,幫助學(xué)生形成科學(xué)思維和專業(yè)素養(yǎng),使他們畢業(yè)后在就業(yè)上有更多的選擇。
筆者將探討基于實例教學(xué)的數(shù)據(jù)挖掘課程的教學(xué)內(nèi)容安排,強調(diào)淡化學(xué)科背景,加強算法的應(yīng)用性訓(xùn)練,將實際的例子貫穿于教學(xué)中,并重新組織授課內(nèi)容、安排實踐環(huán)節(jié),教會學(xué)生學(xué)以致用。
1.教學(xué)現(xiàn)狀分析
1.1課程本質(zhì)
數(shù)據(jù)挖掘原理與算法涉及的學(xué)科領(lǐng)域很寬泛。其最終目的是在數(shù)據(jù)中挖掘出可供人們利用的知識和信息,因此數(shù)據(jù)挖掘技術(shù)要從數(shù)據(jù)庫技術(shù)、統(tǒng)計學(xué)、機器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、知識系統(tǒng)、信息檢索、高性能計算和可視化等領(lǐng)域汲取營養(yǎng)。另外,每個學(xué)科都在進行著日新月異的發(fā)展變化,數(shù)據(jù)挖掘技術(shù)遇到的挑戰(zhàn)也為相關(guān)學(xué)科領(lǐng)域的深入研究提供了新的契機。由于課程難度較大,很多高校把這門課程作為研究生的專業(yè)課程,也有院校將此課作為本科生高年級選修課開設(shè)腳。但是本科生開設(shè)這門課程的普通院校較少,我們能借鑒的教學(xué)經(jīng)驗有限。
1.2數(shù)據(jù)挖掘課程教學(xué)環(huán)節(jié)的弊端
①某些學(xué)校對本科生開設(shè)的數(shù)據(jù)挖掘課程,其教學(xué)過程對理論的探討過多,與應(yīng)用存在距離,沒有體現(xiàn)出這門課程面向應(yīng)用的特質(zhì),缺少對學(xué)生工程能力的訓(xùn)練,存在學(xué)生在學(xué)了這門課程后不知道能干什么的現(xiàn)象。
②教學(xué)形式呆板單一。傳統(tǒng)的教師講、學(xué)生聽的教學(xué)模式,很難引起學(xué)生的探究興趣,不利于發(fā)揮他們自身的能動性和創(chuàng)新動機。
2.選擇恰當(dāng)實例貫穿數(shù)據(jù)挖掘課程的教學(xué)過程
煙臺大學(xué)計算機學(xué)院所開設(shè)的數(shù)據(jù)挖掘課程在教學(xué)上安排了6章內(nèi)容,涉及3個實例(其中兩個是實際生活中的項目課題):第1個是用于房產(chǎn)信息調(diào)查的房產(chǎn)客戶關(guān)系管理系統(tǒng);第2個是用于煙臺大學(xué)督評中心評教文本分類的中文文本數(shù)據(jù)挖掘系統(tǒng);第3個是用于國家葡萄酒檢測中心的數(shù)據(jù)分析的葡萄酒成分?jǐn)?shù)據(jù)挖掘系統(tǒng)。
2.1房產(chǎn)客戶關(guān)系管理系統(tǒng)
在講述房產(chǎn)客戶關(guān)系管理系統(tǒng)時內(nèi)容涵蓋緒論、知識發(fā)現(xiàn)過程和關(guān)聯(lián)規(guī)則3章,重點講授內(nèi)容包括:
(1)數(shù)據(jù)倉庫。住房管理數(shù)據(jù)倉庫中的數(shù)據(jù)是按主題組織的,可從歷史觀點提供信息。數(shù)據(jù)挖掘技術(shù)能按知識工程的方法完成高層次需求,可以發(fā)現(xiàn)蘊藏在數(shù)據(jù)內(nèi)部的知識模式。挖掘后形成的知識表示模式可為企業(yè)決策提供支持。
(2)通過對客戶信息進行分析,闡述關(guān)聯(lián)規(guī)則的參數(shù):support、confidence、expected confidence,并簡單介紹關(guān)聯(lián)規(guī)則中的多維、多層次等拓展知識。
(3)關(guān)聯(lián)規(guī)則挖掘。①講授關(guān)聯(lián)規(guī)則挖掘的Apriori算法;②講述布爾關(guān)聯(lián)規(guī)則的概念,對處理后形成的交易數(shù)據(jù)庫進行布爾關(guān)聯(lián)規(guī)則挖掘,將問題轉(zhuǎn)化為尋找以決策屬性為結(jié)果的規(guī)則;③將關(guān)聯(lián)規(guī)則挖掘應(yīng)用于客戶關(guān)系管理的最終目的是努力將潛在客戶轉(zhuǎn)變?yōu)楝F(xiàn)實客戶,將滿意客戶轉(zhuǎn)變?yōu)橹艺\的終生客戶,提高客戶滿意程度,降低市場銷售及宣傳成本,增加利潤率。
(4)設(shè)minsup=10%,minconf=70%。在統(tǒng)計的各類人群中獵取咨詢的渠道主要是雜志、報紙、互聯(lián)網(wǎng)和電視。經(jīng)試驗統(tǒng)計后得到以下有關(guān)知識:①滿足age>50 AND職業(yè)=“工人”的客戶占所統(tǒng)計總?cè)藬?shù)的9.7%;其中滿足age>50 AND職業(yè)=“工人”AND渠道=“TV”的客戶占92%。②符合學(xué)歷=“大專”AND職業(yè)=“工人”的客戶占所統(tǒng)計總?cè)藬?shù)的24.8%,其中滿足學(xué)歷=“大專”AND職業(yè)=“工人”AND渠道=“newspaper”的客戶占82%。③被統(tǒng)計人群中滿足income=“5000-9000”AND職業(yè)=“教師、醫(yī)生、公務(wù)員”的客戶占所統(tǒng)計總?cè)藬?shù)的32.7%;其中滿足income=“4000-6000”AND職業(yè)=“教師、醫(yī)生、公務(wù)員”AND渠道=“雜志”的客戶占83%。④被統(tǒng)計人群中滿足學(xué)歷=“本科”AND income≥“10000”的客戶占所統(tǒng)計總?cè)藬?shù)的占11.6%;其中符合學(xué)歷=“本科”ANDincome≥“8000”AND職業(yè)=“公司經(jīng)理”AND渠道=“雜志”的客戶占86.5%。
(5)教師要分析Apriori算法的瓶頸和改進,介紹Close算法和FP-樹算法,并且要求學(xué)生們掌握這3種經(jīng)典算法。
2.2中文文本數(shù)據(jù)挖掘系統(tǒng)
中文文本數(shù)據(jù)挖掘系統(tǒng)圍繞評教分類模型的建立講述特征選擇和主要分類算法。根據(jù)煙臺大學(xué)教學(xué)督評中心提供的學(xué)生對教師的中文評教文本,利用分類的方法找出其評價的傾向性,結(jié)合教材,重點講授了以下內(nèi)容:
1)特征選擇。
①介紹有監(jiān)督、無監(jiān)督和半監(jiān)督的特征選擇方法。②介紹使用分詞軟件后,統(tǒng)計詞頻,去掉小于閾值的低頻詞。③對比詞頻率、IG值(信息增益)、期望值差異對分類結(jié)果的影響留取特征詞。
部分?jǐn)?shù)據(jù)示例如下:用特征選擇的方法對重要的屬性進行抽取,略去對分類影響不大的屬性,達到降維的目的,把特征選擇作為預(yù)處理。我們選用517條主觀評價作為訓(xùn)練樣本,其中233條留言是一般評價,采用以下3種方式進行特征選擇:詞頻率、IG值(信息增益)、期望值差異。不同方式特征選擇對分類準(zhǔn)確性的影響如表1所示。
2)分類。
在介紹常用的分類基礎(chǔ)知識和決策樹、ID3、樸素貝葉斯分類、最近鄰分類算法之后,又介紹了基于潛在語義分析的降維技術(shù),講授了支持向量機(SVM)適用于文本分類的原因。布置給學(xué)生的任務(wù)是用爬蟲獲取網(wǎng)評,作傾向性分析。
評教文本分類統(tǒng)計后的結(jié)論是:將降維技術(shù)和支持向量機算法結(jié)合在評教模型的建立過程中,研究討論的主要內(nèi)容有:①各個指標(biāo)取不同值對分類的影響,這些指標(biāo)主要集中在特征抽取和選擇、保留詞性和降維維數(shù)等幾方面;②對分詞后的文本進行特征選擇,篩去了詞頻數(shù)小于4的文本;③降維至30維,并適當(dāng)設(shè)置SVM中的可變參數(shù),找到合適的訓(xùn)練一測試樣本的比例,最后綜合出一個現(xiàn)有條件下的最佳分類模型。
2.3葡萄酒成份數(shù)據(jù)挖掘系統(tǒng)
葡萄酒成份數(shù)據(jù)挖掘系統(tǒng)介紹數(shù)值數(shù)據(jù)的預(yù)處理和聚類2章內(nèi)容。對葡萄酒成份的分析是根據(jù)所提供的酒中各成份的含量數(shù)據(jù),采用聚類或分類的方法確定某種葡萄酒的種類,比如是紅葡萄酒、白葡萄酒還是甜葡萄酒。圍繞這個問題我們介紹了如下內(nèi)容:
1)數(shù)值數(shù)據(jù)的預(yù)處理。
①介紹葡萄酒中各個屬性的含義和取值范圍;②講授數(shù)據(jù)的離散化技術(shù),如等深、等寬、聚類技術(shù);③講授本例中使用的m一估值計算對數(shù)值屬,1生的離散化技術(shù);④講述本例中如何避免0值出現(xiàn)及去噪聲技術(shù)。
葡萄酒中各成份的含量數(shù)據(jù)如表2所示。
2)聚類。
在介紹聚類的基本知識和常用算法(如k均值、k中心點、DBSCAN技術(shù))之后,講解了:①本課題使用的層次聚類算法。在測試結(jié)果時通過測試樣本和分類樣本的不同比例,對結(jié)果進行了對比。②講述了用樸素貝葉斯分類計數(shù)對這一問題的分類處理,同時對比了聚類和分類算法在同一問題上的結(jié)論差異。利用樸素的貝葉斯分類器可以完成預(yù)測目標(biāo),根據(jù)訓(xùn)練樣本建立分類器,對待測樣本進行預(yù)測,準(zhǔn)確率可達到90%以上。③引導(dǎo)學(xué)生思考對問題的處理可以聯(lián)合使用各種算法,并分析各種算法對結(jié)果的影響,從而找出解決問題的最佳方案。
2.4利用已知算法和實例講授Web挖掘技術(shù)
因特網(wǎng)規(guī)模龐大、結(jié)構(gòu)復(fù)雜、動態(tài)變化性大,蘊含大量的信息。將Web上豐富的信息轉(zhuǎn)變成有用的知識正是Web挖掘的意義所在。用之前中文文本分類的方法引導(dǎo)學(xué)生在一些購物網(wǎng)站中下載對商品評論的中文文本,抽取特征詞,進行傾向性分析,使學(xué)生熟悉支持向量機的分類方法,分詞軟件的使用及文本挖掘的整個過程。
3.結(jié)語
文章在前期制定應(yīng)用型本科生數(shù)據(jù)挖掘課程教學(xué)大綱的基礎(chǔ)上,針對數(shù)據(jù)挖掘課程內(nèi)容多學(xué)科交叉的特點,在教學(xué)中提出淡化學(xué)科背景,注重算法應(yīng)用與實踐,以客戶關(guān)系管理、葡萄酒數(shù)據(jù)分析、中文評教文本分類等實例作為授課內(nèi)容主線,讓實例教學(xué)始終圍繞著典型的算法和前沿知識展開的教學(xué)方式。在今后的教學(xué)工作中,我們還應(yīng)該不斷站在學(xué)科發(fā)展的前列,經(jīng)常更新實例,使其更好地融入教學(xué),將教與學(xué)有機統(tǒng)一,取得更好的教學(xué)效果。因此我們還有大量的工作需要探索研究。
參考文獻:
[1]宋成,李晉宏,項目驅(qū)動的數(shù)據(jù)挖掘教學(xué)模式探討[J],中國電力教育,2011(27):116-177.
[2]劉云霞,統(tǒng)計學(xué)專業(yè)本科生開設(shè)“數(shù)據(jù)挖掘”課程的探討[J],吉林工程技術(shù)師范學(xué)院學(xué)報,2010(6),20-22.
[3]徐金寶,對應(yīng)用型本科生開設(shè)數(shù)據(jù)挖掘課程的嘗試[J],計算機教育,2007(7):27-29.
[4]高園園,呂慶文,數(shù)據(jù)挖掘課程的教學(xué)思考[J],醫(yī)學(xué)信息,2009,22(11):23-24.
(武漢科技大學(xué)城市學(xué)院信息工程學(xué)部 湖北 武漢 430083)
摘 要:數(shù)據(jù)倉庫與數(shù)據(jù)挖掘是大數(shù)據(jù)時代產(chǎn)生的一門新興交叉的課程。針對該課程的特點,將CDIO工程教學(xué)理念融合到教學(xué)過程,重新設(shè)置了教學(xué)目標(biāo)與大綱、調(diào)整了教學(xué)內(nèi)容、改進了教學(xué)方法,總結(jié)了數(shù)據(jù)挖掘課程教學(xué)實踐的一般流程并給出具體的實驗教學(xué)設(shè)計方案。
關(guān)鍵詞 :教學(xué)改革;數(shù)據(jù)倉庫;數(shù)據(jù)挖掘;CDIO
中圖分類號:G642 文獻標(biāo)識碼:A doi:10.3969/j.issn.1665-2272.2015.09.040
收稿日期:2015-03-15
1 CDIO簡介
CDIO工程教育模式是基于項目的學(xué)習(xí)的一種模式。CDIO中,C(Conceive)構(gòu)思,根據(jù)工程實踐,讓學(xué)生掌握專業(yè)知識的基本原理,確定未來發(fā)展方向;D(Design)設(shè)計,以產(chǎn)品設(shè)計與規(guī)劃為核心,解決具體問題;I(Implement)執(zhí)行,以制造為核心,組織一體化的課程實踐,其中包括學(xué)生必須掌握的理論知識與實踐能力;O(Operate)運作,即產(chǎn)品應(yīng)用的各個環(huán)節(jié)。它以產(chǎn)品的研發(fā)到運行的生命周期為載體,通過系統(tǒng)的產(chǎn)品設(shè)計讓學(xué)生以主動的、實踐的、課程有機聯(lián)系的方式學(xué)習(xí)。CDIO代表工程項目生命全周期,是產(chǎn)業(yè)轉(zhuǎn)型升級對創(chuàng)新人才需求的形勢。
CDIO培養(yǎng)大綱將工程畢業(yè)生的能力分為技術(shù)知識與推理、個人專業(yè)能力和素質(zhì)、團隊合作與溝通能力、在企業(yè)和社會環(huán)境下CDIO系統(tǒng)四個層面,大綱要求以綜合的培養(yǎng)方式達到這四個層面的預(yù)定目標(biāo)。其精髓在于:以工程項目設(shè)計為導(dǎo)向、工程能力培養(yǎng)為目標(biāo)的工程教育模式。
2 “數(shù)據(jù)倉庫與數(shù)據(jù)挖掘”課程概況
當(dāng)今的大數(shù)據(jù)時代,人們處理數(shù)據(jù)的能力大大增強,快速增長的海量數(shù)據(jù)已經(jīng)遠遠超出人們的理解能力,因此數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)得到了廣泛關(guān)注,有效地挖掘和運用海量數(shù)據(jù),獲得有價值的知識和信息,從而幫助人們制定正確的決策。很多高校為工程類專業(yè)本科生開設(shè)這門專業(yè)課,研究如何將信息處理技術(shù)運用于企業(yè)管理決策的具體實際。
本工程課程涉及到數(shù)據(jù)倉庫的設(shè)計與構(gòu)建技術(shù)、聯(lián)機分析處理OLAP技術(shù)、分類與預(yù)測、聚類、關(guān)聯(lián)規(guī)則算法、數(shù)據(jù)挖掘應(yīng)用綜合項目技術(shù)等多方面的知識和技能。通過課程的學(xué)習(xí),不僅要求學(xué)生掌握在數(shù)據(jù)倉庫與數(shù)據(jù)挖掘方面的知識,還要求培養(yǎng)學(xué)生的工程CDIO能力。
但是目前許多高校在工程教育采用的教學(xué)方式存在以下問題:培養(yǎng)目標(biāo)不清楚,學(xué)術(shù)化傾向嚴(yán)重;人才培養(yǎng)模式單一,缺乏多樣性和適應(yīng)性;工程性缺失和實踐環(huán)節(jié)薄弱;課程體系與產(chǎn)業(yè)結(jié)構(gòu)調(diào)整不適應(yīng)等。在教學(xué)過程中,強調(diào)教師的主導(dǎo)作用,卻忽視了學(xué)生的主體作用,忽視了學(xué)生的工程意識、工程素質(zhì)和工程實踐能力的培養(yǎng)。這與高校培養(yǎng)創(chuàng)新性應(yīng)用型人才的目標(biāo)相悖。因此,改革勢在必行。
3 “數(shù)據(jù)倉庫與數(shù)據(jù)挖掘”課程改革實踐
3.1 基于CDIO理念的教學(xué)目標(biāo)與大綱
CDIO教育理念所提倡的工程畢業(yè)生的能力分為技術(shù)知識與推理、個人專業(yè)能力和素質(zhì)、團隊合作與溝通能力、在企業(yè)和社會環(huán)境下CDIO系統(tǒng)四個層面,四個層面上進行綜合培養(yǎng)的教學(xué)模式。在CDIO能力培養(yǎng)目標(biāo)方面,課程在四個能力層面上建立培養(yǎng)目標(biāo)。
針對“數(shù)據(jù)倉庫與數(shù)據(jù)挖掘概述”內(nèi)容,知識點是數(shù)據(jù)倉庫的含義與特征、數(shù)據(jù)挖掘的任務(wù)、多維數(shù)據(jù)模型。講授數(shù)據(jù)倉庫的概念、特點、構(gòu)成以及數(shù)據(jù)挖掘和數(shù)據(jù)處理的基本知識,使學(xué)生有一個初步的理解。培養(yǎng)學(xué)生技術(shù)知識與推理能力。
針對“聯(lián)機分析處理OLAP”內(nèi)容,知識點是數(shù)據(jù)倉庫的數(shù)據(jù)組織、數(shù)據(jù)預(yù)處理、數(shù)據(jù)存儲、基于多維數(shù)據(jù)模型的數(shù)據(jù)分析。本階段如果不結(jié)合直觀的舉例講解,學(xué)生就失去了興趣,因此筆者要布置一些思考題,教會學(xué)生自主學(xué)習(xí),自己查閱教材、網(wǎng)絡(luò)等資源資料,從中提煉出結(jié)論。培養(yǎng)個人分析問題、解決問題的能力、所學(xué)知識的靈活應(yīng)用能力;
針對“分類與預(yù)測、聚類、關(guān)聯(lián)規(guī)則”內(nèi)容,知識點是數(shù)據(jù)采集、關(guān)聯(lián)規(guī)則算法的設(shè)計、結(jié)果分析。在這個階段經(jīng)常會是“數(shù)據(jù)的堆砌”,講了很廣泛的算法知識卻沒有足夠的時間進行深入理解。因此應(yīng)抓住關(guān)鍵的概念、能力,引導(dǎo)學(xué)生提出問題,并學(xué)會調(diào)查研究,為學(xué)生提供深層學(xué)習(xí)的機會,并把在第一層面所學(xué)的知識運用到對問題的解決之中去。這樣,學(xué)習(xí)的焦點就從“覆蓋”的方式過渡到以學(xué)生為中心的學(xué)習(xí)方式。培養(yǎng)數(shù)據(jù)獲取能力、程序設(shè)計能力、問題表達能力;
針對“數(shù)據(jù)挖掘應(yīng)用綜合項目”內(nèi)容,知識點是項目的準(zhǔn)備、進度管理、文檔管理和項目設(shè)計和實現(xiàn)。實際工作牽涉到企業(yè)或者組織的各個部門多類人員,所有團隊成員之間協(xié)同、合作,會有分工、溝通、協(xié)調(diào),甚至?xí)型讌f(xié),這就要求在運用實例的過程中一定要具有團隊合作精神。培養(yǎng)工程系統(tǒng)能力和人際團隊能力。
3.2 改革教學(xué)內(nèi)容
在教學(xué)內(nèi)容中安排了兩級項目:多種初級項目和一個高級項目。初級項目是將課程內(nèi)容分成各種項目,數(shù)據(jù)主要來源于SQL Server 2008的示例數(shù)據(jù)倉庫Adventure Works DW,以項目實現(xiàn)促進理論學(xué)習(xí);高級項目是綜合性項目:“卷煙產(chǎn)品銷售規(guī)律挖掘”,利用卷煙產(chǎn)品歷史銷售數(shù)據(jù)中蘊含的信息,采用數(shù)據(jù)挖掘技術(shù)對各個卷煙品種銷售的關(guān)聯(lián)關(guān)系進行分析并預(yù)測,以制定更加合理的卷煙產(chǎn)品營銷策略。具體項目設(shè)置如下:
項目一:基于SQL Server 2008的數(shù)據(jù)倉庫數(shù)據(jù)庫及多維數(shù)據(jù)模型設(shè)計。步驟如下:分析組織的業(yè)務(wù)狀況及數(shù)據(jù)源結(jié)構(gòu)組織需求調(diào)研,收集分析需求采用信息包圖法設(shè)計數(shù)據(jù)倉庫的概念模型利用星型圖設(shè)計邏輯模型物理模型設(shè)計構(gòu)建多維數(shù)據(jù)模型。本項目旨在個人能力的培養(yǎng)(分析問題、解決問題的能力、所學(xué)知識的靈活運用能力等)。
項目二:關(guān)聯(lián)規(guī)則挖掘。使用商業(yè)智能開發(fā)工具進行購物籃分析,以達到重新設(shè)計網(wǎng)站功能,提高產(chǎn)品的零售量。
項目三:潛在客戶分析即分類及預(yù)測。使用商業(yè)智能開發(fā)工具分析購買自行車的潛在客戶。
項目四:K-Means聚類分析。使用商業(yè)智能開發(fā)工具分析客戶購買自行車情況分析。
項目五:貝葉斯網(wǎng)絡(luò)應(yīng)用。使用商業(yè)智能開發(fā)工具解決一個簡單的預(yù)測和診斷問題。
項目二至五旨在培養(yǎng)學(xué)生個人能力(數(shù)據(jù)獲取能力、程序設(shè)計能力等)和人際團隊能力(問題表達能力、人際交流能力),倡導(dǎo)學(xué)生樂于探究、勤于動手。
高級項目:數(shù)據(jù)挖掘應(yīng)用綜合項目“卷煙產(chǎn)品銷售規(guī)律挖掘”。將一個相對獨立的項目交由學(xué)生自己處理,從信息的收集,方案的設(shè)計,到項目實施及最終評價,都由學(xué)生自己負責(zé),學(xué)生通過該項目的進行,了解并把握整個過程及每一個環(huán)節(jié)中的基本要求。通過綜合項目,學(xué)生完成了CDIO的四個階段,提升CDIO所提倡的四大能力,具體體現(xiàn)如表1所示。
3.3 改革教學(xué)方法
在課程教學(xué)方法是項目教學(xué)法為主,任務(wù)驅(qū)動法和案例教學(xué)法為輔的教學(xué)模式,起到很好的教學(xué)效果。
4 結(jié)語
CDIO工程教育模式由麻省理工學(xué)院和瑞典皇家工程學(xué)院提出,包括構(gòu)思、設(shè)計、實現(xiàn)和運作四個環(huán)節(jié),是國際流行的工程人才培養(yǎng)理念,強調(diào)對學(xué)生創(chuàng)新思維、實踐能力和團隊協(xié)作精神的培養(yǎng)。本文體現(xiàn)了CDIO理念的能力培養(yǎng)要求,將數(shù)據(jù)倉庫設(shè)計開發(fā)方法和數(shù)據(jù)挖掘技術(shù)融入具有較強工程背景與應(yīng)用價值的項目設(shè)計與開發(fā)中,理論與實踐緊密結(jié)合,推動課程建設(shè)和課程教學(xué)改革。
參考文獻
1 顧佩華,沈民奮,陸小華譯.重新認(rèn)識工程教育—國際CDIO培養(yǎng)模式與方法[M].北京:高等教育出版社,2009
2 郭長虹. 重構(gòu)CDIO特色的工程圖學(xué)課程體系[J].圖文學(xué)報,2013(3)
3 王麗麗. CDIO視角下項目驅(qū)動法在“數(shù)據(jù)倉庫與數(shù)據(jù)挖掘”教學(xué)中的應(yīng)用[J].電子商務(wù),2013(9)
關(guān)鍵詞:數(shù)據(jù)挖掘技術(shù);應(yīng)用型本科;理論教學(xué);實驗教學(xué)
中圖分類號:G642 文獻標(biāo)識碼:A 文章編號:1009-3044(2016)22-0148-02
1 引言
數(shù)據(jù)挖掘總是讓人覺得就是“高大上”、“深不可測”,而該領(lǐng)域當(dāng)前主要是博士生、碩士生所研究的,另外,也只在一些研究生或重點大學(xué)的高年級的本科生中開設(shè)數(shù)據(jù)挖掘課程,在應(yīng)用型本科院校中很少開設(shè) [1]。
數(shù)據(jù)挖掘技術(shù)應(yīng)用很廣,應(yīng)用較好的領(lǐng)域、行業(yè)有:金融保險業(yè)、電信、市場營銷分析、醫(yī)學(xué)、體育、生物信息學(xué)(Bioinformatics)等方面[2]。在商業(yè)領(lǐng)域中,主要應(yīng)用如:客戶細分、客戶獲得、公司風(fēng)險管理、企業(yè)危機管理、欺詐行為檢測和異常模式的發(fā)現(xiàn)等;在計算機領(lǐng)域中,主要應(yīng)用如:信息安全(入侵檢測,垃圾郵件的過濾)、互聯(lián)網(wǎng)信息挖掘、自動問答系統(tǒng)、網(wǎng)絡(luò)游戲(網(wǎng)絡(luò)游戲外掛檢測、免費用戶到付費用戶的轉(zhuǎn)化)等[3]。這一技術(shù)的廣泛應(yīng)用,必然在相關(guān)的企業(yè)中迫切需求掌握這一技術(shù)的人才。所以,開設(shè)數(shù)據(jù)挖掘技術(shù)課程對于應(yīng)用型本科來說是很有必要的。
但對于應(yīng)用型本科來說,若是像重點本科院校或研究生課程那樣,在教學(xué)中以研究型為主,會導(dǎo)致學(xué)生的培養(yǎng)要求與教學(xué)內(nèi)容的深度和廣度不適應(yīng),學(xué)生會感覺到學(xué)習(xí)得很吃力,而且他們今后工作中的需求與所學(xué)到的知識相差也較大。對于應(yīng)用型本科的數(shù)據(jù)挖掘技術(shù)課程的內(nèi)容的安排,不僅要反映出數(shù)據(jù)挖掘技術(shù)的特點及前沿,還應(yīng)該結(jié)合學(xué)生的學(xué)習(xí)能力及興趣,也還需要綜合考慮本校該課程的學(xué)時分配、教學(xué)條件等,要具針對性,突出應(yīng)用這一重點,目的是使學(xué)生能夠“學(xué)以致用”。
本文從應(yīng)用型本科的實際出發(fā),討論了數(shù)據(jù)挖掘課程的理論教學(xué)內(nèi)容及方法、實驗教學(xué)內(nèi)容及方法,使學(xué)生能夠掌握和應(yīng)用所學(xué)的知識。
2 先導(dǎo)課程及課程的基本要求
先導(dǎo)課程有:程序設(shè)計語言、數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)庫技術(shù)、Web技術(shù)、概率論等[4]。必須深入學(xué)習(xí)一門程序設(shè)計語言,從計算機發(fā)展和應(yīng)用角度,推薦學(xué)習(xí)C/C++和Java;對于“數(shù)據(jù)結(jié)構(gòu)”課程,掌握樹的知識,數(shù)據(jù)挖掘中的很多算法都涉及樹的應(yīng)用;對于“數(shù)據(jù)庫技術(shù)”課程,掌握數(shù)據(jù)庫操作和應(yīng)用,因為數(shù)據(jù)挖掘的主要對象是數(shù)據(jù)庫中的數(shù)據(jù);對于“Web技術(shù)”,因為Web已經(jīng)存在于我們生活方方面面,對于Web挖掘相當(dāng)重要,而且還具有巨大的應(yīng)用價值;對于“概率統(tǒng)計”課程,要能夠熟練掌握其中的思維方式、條件概率以及各種分布,在數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則、分類預(yù)測等,都會涉及概率統(tǒng)計中的思維和方法。
課程的基本要求:①了解數(shù)據(jù)挖掘的重要性,了解國內(nèi)外的發(fā)展的狀況及未來發(fā)展的方向;②掌握數(shù)據(jù)挖掘中的一些基本概念、經(jīng)典算法及相關(guān)技術(shù);③對于實際應(yīng)用問題,能熟練地運用數(shù)據(jù)挖掘技術(shù)及工具解決;④為以后進一步深造或進行高級應(yīng)用開發(fā)打下基礎(chǔ)。[5,6]
3 理論教學(xué)及方法
對于應(yīng)用型本科生數(shù)據(jù)挖掘技術(shù)課程的教學(xué),本人認(rèn)為重要的是普及經(jīng)典算法,若有多余時間,可以補充一些較難的算法。對于經(jīng)典算法原理的講解,采取的是一步步地對小數(shù)據(jù)集案例進行算法演練,以具體化比較抽象的算法,對于算法的優(yōu)缺點,采取課堂討論的方式,可以加深學(xué)生對算法的理解和吸收。本校的數(shù)據(jù)挖掘技術(shù)課程的理論教學(xué)是32個學(xué)時,課程的理論教學(xué)內(nèi)容主要包括:
(1)緒論(4學(xué)時):①先舉幾個數(shù)據(jù)挖掘中有意思的例子。第一個:超市貨架的組織―“啤酒與尿布”;第二個:基于拐點變化的股票趨勢預(yù)測;第三個:網(wǎng)上購物―“定向營銷”;第四個:農(nóng)夫山泉用大數(shù)據(jù)賣礦泉水;第五個:阿迪達斯的“黃金羅盤”;第六個:網(wǎng)易的“花田”―定制愛情。通過例子讓學(xué)生對數(shù)據(jù)挖掘有一個大致的認(rèn)識,可以提起學(xué)生對學(xué)習(xí)本課程的興趣,也讓學(xué)生了解到目前的數(shù)據(jù)挖掘已經(jīng)發(fā)展到何種程度。②講解KDD與數(shù)據(jù)挖掘相關(guān)概念。③數(shù)據(jù)挖掘?qū)ο螅宏P(guān)系數(shù)據(jù)庫、數(shù)據(jù)倉庫、事務(wù)數(shù)據(jù)庫、空間數(shù)據(jù)庫、時態(tài)和時間序列數(shù)據(jù)庫、文本數(shù)據(jù)、萬維網(wǎng)數(shù)據(jù)、流數(shù)據(jù)等等。④數(shù)據(jù)挖掘的方法與相關(guān)領(lǐng)域:分類預(yù)測型和描述型,通過例子簡單介紹聚類、關(guān)聯(lián)規(guī)則、分類算法的概念、應(yīng)用領(lǐng)域等,使學(xué)生對要學(xué)習(xí)的算法有大致的認(rèn)識。⑤數(shù)據(jù)挖掘軟件與應(yīng)用系統(tǒng):介紹數(shù)據(jù)挖掘軟件:IBM Intelligent Miner、SPSS Clementine、Microsoft SQL Server 2008 Data Mining、Weka;數(shù)據(jù)挖掘應(yīng)用系統(tǒng):介紹在商業(yè)領(lǐng)域和計算機領(lǐng)域的應(yīng)用。
(2)數(shù)據(jù)預(yù)處理(2學(xué)時):先對數(shù)據(jù)進行概述,包括:數(shù)據(jù)集的三個特性:維度、稀疏性和分辨率,它們對數(shù)據(jù)挖掘技術(shù)具有重要影響;數(shù)據(jù)挖掘中一些很常見的數(shù)據(jù)集的類型:記錄數(shù)據(jù)、基于圖形的數(shù)據(jù)和有序的數(shù)據(jù)。然后分別詳細介紹數(shù)據(jù)預(yù)處理的主要任務(wù):①數(shù)據(jù)清理;②數(shù)據(jù)集成;③數(shù)據(jù)變換;④數(shù)據(jù)歸約;⑤數(shù)據(jù)概念分層與離散化。每一項任務(wù)舉例講解。
(3)關(guān)聯(lián)規(guī)則(6學(xué)時):主要介紹關(guān)聯(lián)規(guī)則的相關(guān)概念、關(guān)聯(lián)規(guī)則的經(jīng)典算法Apriori及它的改進算法FP_Tree、規(guī)則的產(chǎn)生,簡單介紹多級關(guān)聯(lián)規(guī)則和多維關(guān)聯(lián)規(guī)則、非二元屬性的關(guān)聯(lián)規(guī)則、關(guān)聯(lián)規(guī)則的評估(提升度(lift) /興趣因子的計算)等。
(4)聚類(6學(xué)時):主要介紹聚類的概念及距離的計算(歐氏距離、曼哈頓距離、明可夫斯基距離)、基于劃分的聚類算法(基本K-means聚類算法及其拓展、PAM算法)、層次聚類算法(凝聚的層次聚類算法AGNES、分裂的層次聚類算法DIANA)、基于密度的聚類算法(DBSCAN);簡單介紹層次聚類方法的改進―BIRCH算法、CURE算法以及聚類算法評價。
(5)分類和預(yù)測(10學(xué)時):①決策樹(4學(xué)時):主要講解決策樹的概念、信息論、ID3算法和C4.5算法。②貝葉斯分類(2學(xué)時):主要講解貝葉斯定理及樸素貝葉斯分類算法。③人工神經(jīng)網(wǎng)絡(luò)(4學(xué)時):主要介紹人工神經(jīng)網(wǎng)絡(luò)的概念及單感知器模型,簡單介紹BP神經(jīng)網(wǎng)絡(luò)。
(6)數(shù)據(jù)挖掘模型的評估(2學(xué)時):簡單介紹模型的過擬合、沒有天生優(yōu)越的分類器、模型選擇和模型評估、評估分類器或預(yù)測器的準(zhǔn)確率――簡單劃分和交叉驗證、數(shù)據(jù)挖掘模型評估的錯誤觀念。
對于9個需主要介紹的經(jīng)典算法的講解,如Apriori算法,先介紹算法的流程,然后通過超市購物籃的一個小數(shù)據(jù)集一步步地進行算法的演練,得出頻繁項集,如下圖所示:
又如決策樹算法和樸素貝葉斯分類算法,通過如下所示的關(guān)于動物的數(shù)據(jù)集,一步步地進行相關(guān)算法的演練,通過建立決策樹或計算概率問題,判斷一個未知的動物X={1,0,0,1,?}是否會生蛋。
對于算法的優(yōu)缺點,在講解完算法的過程之后,采取課堂討論的方式,與學(xué)生共同分析總結(jié)算法好在哪里,不足又在哪里,學(xué)生通過參與,可以加深對算法的理解與掌握。
4 實驗教學(xué)及方法
對于應(yīng)用型本科的學(xué)生來說,采用Weka進行算法編寫是不切實際的,實驗教學(xué)工具建議采用目前一些主流的數(shù)據(jù)挖掘軟件,如 SPSS Clementine或 Microsoft SQL Server 2008 Data Mining等[7]。這些軟件都具有必需的數(shù)據(jù)預(yù)處理工具及預(yù)設(shè)的挖掘算法,學(xué)生可以把注意力放在要挖掘的數(shù)據(jù)及要相關(guān)需求上,設(shè)定挖掘的主題,然后采用這些軟件完成相關(guān)主題的數(shù)據(jù)挖掘過程,這樣也可以積累一定的處理實際挖掘問題的實戰(zhàn)經(jīng)驗,今后碰到項目時也可知道從何處下手。
本校的數(shù)據(jù)挖掘技術(shù)課程的實驗教學(xué)是8個學(xué)時,共兩次上機,采用Microsoft SQL Server 2008 Data Mining對Adventure Works DW 2008R2 示例數(shù)據(jù)庫進行數(shù)據(jù)挖掘。課程的實驗教學(xué)內(nèi)容主要包括:
實驗一:SQL Server 2008 數(shù)據(jù)多維分析環(huán)境的建立;
實驗二:關(guān)聯(lián)規(guī)則挖掘方法;
實驗三:決策樹挖掘方法;
實驗四:聚類挖掘方法。
為了讓學(xué)生更好地進行實踐動手,在教學(xué)中分兩步:第一步,具體的操作步驟的講解,由老師進行;第二步,學(xué)生上機并詳細的分析挖掘結(jié)果,要求學(xué)生熟悉使用Microsoft SQL Server 2008進行數(shù)據(jù)挖掘的步驟,以及幾種常用的算法的挖掘過程:包括創(chuàng)建數(shù)據(jù)源、創(chuàng)建數(shù)據(jù)源視圖、創(chuàng)建挖掘結(jié)構(gòu)(主要參數(shù)的設(shè)置)、處理和瀏覽挖掘模型。如關(guān)聯(lián)規(guī)則,要求學(xué)生分析挖掘的模型,找出有價值的規(guī)則出來。
5 結(jié)論
為迎接大數(shù)據(jù)時代帶來的互聯(lián)網(wǎng)經(jīng)濟機遇,很有必要同時也是時代迫使在應(yīng)用型本科中開設(shè)數(shù)據(jù)挖掘課程。對這一類學(xué)校的教學(xué)也是一個挑戰(zhàn),需要老師們在教學(xué)過程中不斷摸索和改進。在教學(xué)過程中,需要針對應(yīng)用型本科生的學(xué)習(xí)能力、知識結(jié)構(gòu),設(shè)計好教學(xué)內(nèi)容并采用適當(dāng)?shù)慕虒W(xué)方法,從而使學(xué)生對學(xué)習(xí)的內(nèi)容感興趣,改進課堂教學(xué)效果,以提高學(xué)生實際動手能力,使學(xué)生對數(shù)據(jù)挖掘課程的整體結(jié)構(gòu)、基本概念、經(jīng)典算法有較深入理解和掌握,最終達到教學(xué)目的。
參考文獻:
[1] 徐金寶.對應(yīng)用型本科生開設(shè)數(shù)據(jù)挖掘課程的嘗試[J].計算機教育,2007(14):27-29,57.
[2] 李姍姍,李忠. 就業(yè)需求驅(qū)動下的本科院校數(shù)據(jù)挖掘課程內(nèi)容體系探討[J].計算機時代,2015(1):60-61,64.
[3] 張艷.大數(shù)據(jù)背景下的數(shù)據(jù)挖掘課程教學(xué)新思考[J].計算機時代,2014(4):59-61.
[4] 李忠,李姍姍. 應(yīng)用型本科院校IT專業(yè)數(shù)據(jù)挖掘課程建設(shè)[J].計算機時代,2014(11):65-69.
[5] 張增平,喬曉華. 針對應(yīng)用型本科生數(shù)據(jù)挖掘課程的教學(xué)實踐[J].內(nèi)蒙古財經(jīng)大學(xué)學(xué)報,2015,13(4):132-137.
[關(guān)鍵詞] 經(jīng)濟與管理;本科生;數(shù)據(jù)挖掘;教學(xué)探索
[中圖分類號] G642.3 [文獻標(biāo)識碼] A [文章編號] 1005-4634(2013)04-0082-03
0 引言
數(shù)據(jù)挖掘技術(shù)能從大量數(shù)據(jù)中發(fā)現(xiàn)和學(xué)習(xí)有價值的和隱藏的知識,因而近年來在國內(nèi)外受到極大重視,在電信業(yè)、零售業(yè)和銀行業(yè)等生產(chǎn)大數(shù)據(jù)的行業(yè)中正獲得越來越廣泛的應(yīng)用[1]。因此,近幾年數(shù)據(jù)挖掘這門課程已越來越多的走進了高校課堂。但是,數(shù)據(jù)挖掘又是一門綜合性較強的交叉學(xué)科,它涉及到統(tǒng)計學(xué)、數(shù)據(jù)庫技術(shù)、數(shù)據(jù)倉庫、人工智能、機器學(xué)習(xí)和數(shù)據(jù)可視化等學(xué)科知識,對學(xué)生的專業(yè)知識背景和前期所學(xué)課程有較高的要求,這在一定程度上限制了數(shù)據(jù)挖掘作為一門既有理論價值又有實踐價值的學(xué)科的應(yīng)用和推廣。筆者結(jié)合自己的教學(xué)實踐研究經(jīng)管類專業(yè)本科生開設(shè)數(shù)據(jù)挖掘課程的教學(xué)探索。
1 經(jīng)管類專業(yè)本科生開設(shè)數(shù)據(jù)挖掘課程的必要性和可行性分析
從經(jīng)管類各專業(yè)的培養(yǎng)目標(biāo)角度分析。以南京郵電大學(xué)經(jīng)管類專業(yè)為例,該專業(yè)包含信息管理與信息系統(tǒng)、電子商務(wù)、市場營銷、經(jīng)濟學(xué)和工商管理等專業(yè),這些專業(yè)的培養(yǎng)計劃都把培養(yǎng)學(xué)生具備市場分析、經(jīng)營和管理決策能力作為專業(yè)的基本培養(yǎng)要求之一。數(shù)據(jù)挖掘作為商務(wù)智能的核心技術(shù),是輔助管理者進行決策分析的有效工具,在激烈的商業(yè)競爭中發(fā)揮的作用越來越大。因此,為經(jīng)管類專業(yè)本科生開設(shè)數(shù)據(jù)挖掘課程可以更好地實現(xiàn)專業(yè)培養(yǎng)目標(biāo)。
從經(jīng)管類專業(yè)本科生的就業(yè)角度分析。經(jīng)管類專業(yè)本科生畢業(yè)后,有相當(dāng)一部分同學(xué)會從事營銷崗位或者信息管理、網(wǎng)站設(shè)計與維護等技術(shù)崗位。對于從事營銷崗位的同學(xué)來說,由于現(xiàn)在的市場營銷概念已經(jīng)發(fā)展到精細營銷理念,即企業(yè)恰當(dāng)而貼切地對自己的市場進行細分,對各種客戶群進行深入的分析和定位,并根據(jù)不同的客戶群特點,采取精耕細作式的營銷操作方式,將市場做深做透,進而獲得預(yù)期效益。數(shù)據(jù)挖掘技術(shù)是實現(xiàn)精細營銷的重要工具;對于從事技術(shù)崗位的同學(xué)來說,學(xué)習(xí)數(shù)據(jù)挖掘課程,掌握數(shù)據(jù)挖掘的思想和方法對培養(yǎng)學(xué)生的系統(tǒng)思維和解決實際問題的能力、提高學(xué)生的信息素養(yǎng)很有必要。因此,學(xué)習(xí)數(shù)據(jù)挖掘課程對學(xué)生未來的工作也是非常有幫助的。
數(shù)據(jù)挖掘是一門交叉學(xué)科,課程理論性強,且對學(xué)生的計算機基礎(chǔ)要求較高。經(jīng)管類專業(yè)只有信息管理與信息系統(tǒng)、電子商務(wù)兩個專業(yè)開設(shè)了較多的計算機課程。但是所有經(jīng)管類專業(yè)都開設(shè)了統(tǒng)計學(xué)必修課程和數(shù)據(jù)庫原理與應(yīng)用必修或選修課程,這兩門課程是數(shù)據(jù)挖掘的核心。因此,適當(dāng)?shù)卣{(diào)整教學(xué)目標(biāo),將數(shù)據(jù)挖掘作為一門選修課程為經(jīng)管類專業(yè)本科學(xué)生開設(shè)是完全可行的。
2 教學(xué)過程中存在的問題
筆者在為經(jīng)管類專業(yè)本科生開設(shè)數(shù)據(jù)挖掘課程的過程中,往往遇到兩個問題。
1)課程較強的理論性與學(xué)生知識結(jié)構(gòu)缺陷之間的矛盾問題。數(shù)據(jù)挖掘這門課程涵蓋了統(tǒng)計學(xué)、數(shù)據(jù)庫原理、機器學(xué)習(xí)、信息論和時間序列等眾多內(nèi)容,課程教材中有較多的公式推導(dǎo)和算法分析,因此課程的理論性較強。然而,經(jīng)管類專業(yè)本科生之前只是學(xué)習(xí)了統(tǒng)計學(xué)和數(shù)據(jù)庫原理與應(yīng)用兩門課程,機器學(xué)習(xí)等其他課程知識均沒有涉及到,因此在學(xué)習(xí)數(shù)據(jù)挖掘課程時會感到內(nèi)容難度較大,障礙較多[2]。
2)理論教學(xué)與實驗教學(xué)學(xué)時合理分配的問題。由于數(shù)據(jù)挖掘課程通常是作為選修課安排在經(jīng)管類專業(yè)本科生培養(yǎng)計劃中,總學(xué)時數(shù)相比學(xué)位課程要少,只有32學(xué)時。正如前文所述,這門課程包含的內(nèi)容多、難度大,因此必須要保證足夠的理論教學(xué)學(xué)時數(shù)量。同時,數(shù)據(jù)挖掘又是一門應(yīng)用性較強的課程,特別是對于經(jīng)管類專業(yè)本科生來說,一定要安排足夠的實驗教學(xué)學(xué)時,讓學(xué)生在實踐中提高分析問題和解決問題的能力。在較少的總學(xué)時約束條件下,如何合理地分配理論教學(xué)學(xué)時和實驗教學(xué)學(xué)時是課程教學(xué)遇到的又一個問題。
針對經(jīng)管類專業(yè)本科生開設(shè)數(shù)據(jù)挖掘課程時遇到的矛盾問題,將這門課程的教學(xué)目標(biāo)確定為:掌握數(shù)據(jù)挖掘基本流程和經(jīng)典算法的基本原理,熟練運用數(shù)據(jù)挖掘軟件工具,分析和解決商業(yè)應(yīng)用問題。課程教學(xué)目標(biāo)指出,為經(jīng)管類專業(yè)本科生開設(shè)數(shù)據(jù)挖掘課程的目的是培養(yǎng)學(xué)生利用數(shù)據(jù)挖掘這種工具去分析和解決商業(yè)應(yīng)用問題的能力,而不是要求學(xué)生具備數(shù)據(jù)挖掘算法設(shè)計能力。因此,對于經(jīng)管類專業(yè)本科生來說,實驗教學(xué)和理論教學(xué)同等重要。在課程教學(xué)大綱中應(yīng)將理論教學(xué)學(xué)時和實驗教學(xué)學(xué)時設(shè)置為各16個學(xué)時。
3 教學(xué)內(nèi)容設(shè)計
用16個學(xué)時來介紹數(shù)據(jù)挖掘課程的理論知識點,這就要求教師能夠為經(jīng)管類專業(yè)本科生精心挑選知識點,“量身定做”教學(xué)內(nèi)容。
1)以應(yīng)用為目的設(shè)計教學(xué)內(nèi)容。根據(jù)經(jīng)管類專業(yè)本科生數(shù)據(jù)挖掘課程的教學(xué)目標(biāo),本門課程在教學(xué)過程中應(yīng)注重培養(yǎng)學(xué)生應(yīng)用數(shù)據(jù)挖掘分析問題和解決問題的能力,這就要求教師能夠圍繞數(shù)據(jù)挖掘的整個應(yīng)用過程來安排教學(xué)內(nèi)容。數(shù)據(jù)挖掘的應(yīng)用過程包括數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、模型構(gòu)建和知識評價四個主要步驟。數(shù)據(jù)收集步驟是指準(zhǔn)備數(shù)據(jù)挖掘的對象——數(shù)據(jù)源,有的數(shù)據(jù)源是一個數(shù)據(jù)文件或者是數(shù)據(jù)庫中的一張關(guān)系表,但對于具體的商業(yè)應(yīng)用來說,數(shù)據(jù)源往往是來源于同一個或不同數(shù)據(jù)庫中的多張關(guān)系表,或者是多個數(shù)據(jù)文件,這時需要對數(shù)據(jù)源進行集成,甚至是構(gòu)建數(shù)據(jù)倉庫;數(shù)據(jù)預(yù)處理步驟是指通過數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)歸約等操作為數(shù)據(jù)挖掘任務(wù)提供干凈、準(zhǔn)確和簡潔的數(shù)據(jù),提高數(shù)據(jù)挖掘效率和挖掘結(jié)果的質(zhì)量,它是數(shù)據(jù)挖掘中非常重要的環(huán)節(jié);模型構(gòu)建步驟是指選用數(shù)據(jù)挖掘算法在預(yù)處理后的數(shù)據(jù)集上構(gòu)建挖掘模型的過程,關(guān)聯(lián)、分類、聚類和回歸分析是數(shù)據(jù)挖掘中四個主要的挖掘任務(wù),每個挖掘任務(wù)又對應(yīng)了多個挖掘算法;知識評價步驟是指采用各種統(tǒng)計指標(biāo)對挖掘結(jié)果進行評價,以發(fā)現(xiàn)有價值的知識。由于不同挖掘算法得出的挖掘結(jié)果表現(xiàn)形式不同,知識評價應(yīng)針對具體挖掘算法進行,因此知識評價步驟要安排在每個挖掘算法介紹完之后。
2)重點介紹經(jīng)典算法。針對經(jīng)管類專業(yè)本科生在學(xué)習(xí)數(shù)據(jù)挖掘課程時感到內(nèi)容難度較大這一問題,且考慮到課程的理論授課學(xué)時有限,筆者對原有的數(shù)據(jù)挖掘內(nèi)容進行了適當(dāng)?shù)木啞?shù)據(jù)挖掘包含數(shù)十種挖掘算法,刪除復(fù)雜和難度大的數(shù)據(jù)挖掘算法,針對每種挖掘任務(wù)重點介紹其經(jīng)典算法。例如,關(guān)聯(lián)挖掘中的Apriori算法,實現(xiàn)分類挖掘的決策樹算法,實現(xiàn)回歸分析的最小二乘法以及聚類分析的k-means算法。對于神經(jīng)網(wǎng)絡(luò)、貝葉斯分類、時間序列挖掘和Web數(shù)據(jù)挖掘等難度較大或內(nèi)容拓展性算法,在介紹相關(guān)章節(jié)時略提一下,并鼓勵有興趣的學(xué)生在課余時間自學(xué)。
3)增加商業(yè)案例。數(shù)據(jù)挖掘是一門技術(shù)性較強的課程,一般的教材往往注重理論,相關(guān)案例較少,因而不容易激發(fā)學(xué)生的學(xué)習(xí)熱情[3]。為了幫助經(jīng)管類專業(yè)本科生增加對課程中各種挖掘任務(wù)的感性認(rèn)識,同時也是為了激發(fā)學(xué)生對本門課程的學(xué)習(xí)興趣,筆者在講授過程中增加了若干關(guān)于數(shù)據(jù)挖掘的幽默故事、經(jīng)典案例和在各行業(yè)中的應(yīng)用案例,通過分析案例加深學(xué)生對算法應(yīng)用的理解。例如,在介紹關(guān)聯(lián)挖掘任務(wù)時給學(xué)生們引入“啤酒與尿布”的故事;在介紹分類挖掘任務(wù)時講解客戶流失分析的應(yīng)用案例;在介紹聚類挖掘任務(wù)時分析客戶細分的應(yīng)用案例。
基于上述分析,筆者為經(jīng)管類專業(yè)本科生開設(shè)的數(shù)據(jù)挖掘課程教學(xué)內(nèi)容具體如下。
第一章為緒論,主要是對數(shù)據(jù)挖掘技術(shù)作概括性描述,讓學(xué)生對數(shù)據(jù)挖掘定義、與數(shù)據(jù)倉庫的關(guān)系、研究熱點以及發(fā)展趨勢形成感性認(rèn)識。本章內(nèi)容分配2個理論教學(xué)學(xué)時。
第二章為數(shù)據(jù)倉庫,主要內(nèi)容包括數(shù)據(jù)倉庫的定義與特征、數(shù)據(jù)倉庫的數(shù)據(jù)組織、數(shù)據(jù)模型、總體結(jié)構(gòu)和設(shè)計等原理性知識點,以及聯(lián)機分析處理(OLAP)的基本概念和分析操作等基本知識。本章內(nèi)容分配2個理論教學(xué)學(xué)時。
第三章為數(shù)據(jù)預(yù)處理,主要介紹數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換以及數(shù)據(jù)歸約等數(shù)據(jù)預(yù)處理的基本步驟和常見方法。本章分配3個理論教學(xué)學(xué)時。
第四章至第七章圍繞數(shù)據(jù)挖掘的4個重要任務(wù)——關(guān)聯(lián)、分類、聚類和回歸分析,在介紹每種挖掘任務(wù)基本概念的基礎(chǔ)上,重點介紹經(jīng)典算法的基本原理和挖掘結(jié)果評價方法,以及每個挖掘任務(wù)在具體行業(yè)的應(yīng)用案例。第四章至第六章每章內(nèi)容分別分配3個理論教學(xué)學(xué)時,第七章內(nèi)容分配2個學(xué)時。
4 實驗項目設(shè)計
數(shù)據(jù)挖掘是一門與實際應(yīng)用結(jié)合緊密、實踐性較強的課程。為了加深學(xué)生對數(shù)據(jù)挖掘理論知識點的理解,鍛煉和提高學(xué)生的實際動手能力,必須結(jié)合實驗進行教學(xué)。數(shù)據(jù)挖掘課程的理論教學(xué)和實驗教學(xué)構(gòu)成一個完整的整體,缺一不可[4]。實驗教學(xué)要充分調(diào)動學(xué)生的主動積極性,而不是簡單地讓學(xué)生進行驗證式的操作實驗或僅僅局限于機械地使用、熟悉某種軟件工具。
筆者針對課程知識點設(shè)計了4個實驗項目,每個實驗項目分配4個實驗學(xué)時。
第一個實驗項目為數(shù)據(jù)倉庫構(gòu)建,實驗軟件是SQL Server 2000,它提供了一套完全的數(shù)據(jù)庫和數(shù)據(jù)分析解決方案,其中的Analysis Service 組件支持?jǐn)?shù)據(jù)倉庫的創(chuàng)建和應(yīng)用,并提供OLAP聯(lián)機分析操作。構(gòu)建數(shù)據(jù)倉庫的數(shù)據(jù)源來自SQL Server 2000的樣例數(shù)據(jù)庫Northwind,Northwind是一家虛構(gòu)的公司,從事世界各地的特產(chǎn)食品進出口貿(mào)易。Northwind數(shù)據(jù)庫包含有這家公司的銷售數(shù)據(jù),數(shù)據(jù)內(nèi)容多,數(shù)據(jù)量大,數(shù)據(jù)結(jié)構(gòu)貼近企業(yè)的真實數(shù)據(jù),符合實驗要求[5]。實驗包含4個步驟:(1)理解業(yè)務(wù)數(shù)據(jù),確定分析主題。Northwind數(shù)據(jù)庫中的表非常多,需要理清各關(guān)系表的內(nèi)容及其相互間的關(guān)聯(lián),在此基礎(chǔ)上確定感興趣的主題;(2)圍繞分析主題,將主題相關(guān)的關(guān)系表通過企業(yè)管理器中的DTS進行清洗和轉(zhuǎn)換,為數(shù)據(jù)倉庫提供合適的數(shù)據(jù);(3)使用Analysis Server向?qū)В⒍嗑S數(shù)據(jù)集;(4)基于構(gòu)建好的多維數(shù)據(jù)集,對數(shù)據(jù)進行切片、切塊、鉆取、聚合和旋轉(zhuǎn)等各種OLAP分析操作。
第二至第四個實驗項目均是基于Clementine12.0等數(shù)據(jù)挖掘工具,通過構(gòu)建數(shù)據(jù)挖掘模型分析具體商業(yè)問題。其中,第二個實驗項目為關(guān)聯(lián)挖掘的綜合實踐,要求學(xué)生運用關(guān)聯(lián)挖掘經(jīng)典算法Apriori分析移動產(chǎn)品交叉銷售;第三個實驗項目為分類挖掘的綜合實踐,要求運用決策樹算法進行電信客戶流失分析;第四個實驗項目為聚類挖掘的綜合實踐,要求運用聚類經(jīng)典算法K-means進行電信客戶細分分析。上述三個綜合實驗項目都要求學(xué)生首先能夠分析具體應(yīng)用問題,然后進行數(shù)據(jù)預(yù)處理、構(gòu)建數(shù)據(jù)挖掘模型,并對挖掘結(jié)果進行分析和討論,以鍛煉學(xué)生數(shù)據(jù)挖掘的思維體系和數(shù)據(jù)分析能力。
5 教學(xué)方案實施
在教學(xué)方案實施過程中,著重營造活躍的課堂教學(xué)氛圍,重視對課后作業(yè)的指導(dǎo),以期提高課堂教學(xué)效果。考慮到經(jīng)管類專業(yè)本科生的知識背景和本門課程的特點,在每次課堂上都會拋出一個思考題,要求學(xué)生們運用所學(xué)理論聯(lián)系身邊實際展開討論。例如,在介紹完第一章后設(shè)計了一個討論題:如何運用數(shù)據(jù)挖掘幫助電信企業(yè)提高競爭優(yōu)勢?學(xué)生討論得很熱烈,也得出了多個答案。由于本門課程課堂講授學(xué)時較少,為了幫助學(xué)生復(fù)習(xí)、鞏固及應(yīng)用所學(xué)內(nèi)容,課程每章節(jié)后都安排了課外作業(yè),并就其中的難點進行指導(dǎo)和講解。實驗過程中,著重培養(yǎng)學(xué)生的獨立性和數(shù)據(jù)分析能力。首先向?qū)W生講授清楚實驗具體要求和注意事項,然后放手讓學(xué)生自己去做,遇到問題先鼓勵學(xué)生自己思考解決,實在有困難再稍加指點。實驗結(jié)束后,要認(rèn)真分析實驗結(jié)果,完成實驗報告。選擇實驗數(shù)據(jù)時要考慮到數(shù)據(jù)是否符合現(xiàn)實情況且能夠突出所分析的問題。除實驗以外,其它實驗項目均采用SPSS產(chǎn)品培訓(xùn)過程中所用的相關(guān)數(shù)據(jù),數(shù)據(jù)量大小適中,適合在實驗課上使用,而且這些數(shù)據(jù)與真實數(shù)據(jù)的差異小,有助于提高學(xué)生解決現(xiàn)實問題的能力。數(shù)據(jù)挖掘課程的教學(xué)方案已實踐了5年,其間不斷進行經(jīng)驗總結(jié)和探索,無論從近幾年選修本門課程的學(xué)生人數(shù)還是從課堂上學(xué)生的反映和學(xué)習(xí)氣氛看,本門課程都取得了很好的課堂教學(xué)效果。
6 結(jié)束語
數(shù)據(jù)挖掘作為一門技術(shù)性和應(yīng)用性較強的課程,對優(yōu)化經(jīng)管類專業(yè)本科學(xué)生的知識結(jié)構(gòu)、擴展學(xué)生的專業(yè)應(yīng)用領(lǐng)域有著重要的作用。筆者結(jié)合自己的教學(xué)經(jīng)驗,對經(jīng)管類專業(yè)本科生數(shù)據(jù)挖掘課程的教學(xué)內(nèi)容和實驗環(huán)節(jié)等方面進行了積極的教學(xué)探討和實踐,學(xué)生反映非常好。在今后的教學(xué)工作中,要不斷實踐,不斷總結(jié),進而不斷改進和提高數(shù)據(jù)挖掘課程的教學(xué)質(zhì)量。
參考文獻
[1]劉云霞.統(tǒng)計學(xué)專業(yè)本科生開設(shè)“數(shù)據(jù)挖掘”課程的探討[J].吉林工程技術(shù)師范學(xué)院學(xué)報,2010,26(6):20-22.
[2]李志勇,王翔,喻軍.信息管理專業(yè)數(shù)據(jù)挖掘課程教學(xué)探討[J].管理工程師,2012,(4):66-68.
[3]劉昆宏.淺談本科階段數(shù)據(jù)挖掘課程設(shè)置[C]//In Proceedings of 2010 Third International Conference on Education Technology and Trainning,Wuhan,2010:4-5.
預(yù)計1個月內(nèi)審稿 省級期刊
北京市統(tǒng)計局主辦
預(yù)計1個月內(nèi)審稿 統(tǒng)計源期刊
工業(yè)和信息化部主辦
預(yù)計1個月內(nèi)審稿 省級期刊
貴州出版集團公司主辦
預(yù)計1個月內(nèi)審稿 部級期刊
中國人民公安大學(xué)法學(xué)院主辦
預(yù)計1個月內(nèi)審稿 部級期刊
中國社會科學(xué)院主辦
預(yù)計1個月內(nèi)審稿 部級期刊
信息產(chǎn)業(yè)部主辦