時間:2023-03-13 11:24:15
引言:易發(fā)表網(wǎng)憑借豐富的文秘實踐,為您精心挑選了九篇數(shù)據(jù)挖掘技術(shù)論文范例。如需獲取更多原創(chuàng)內(nèi)容,可隨時聯(lián)系我們的客服老師。
[關(guān)鍵詞]數(shù)據(jù)挖掘數(shù)據(jù)挖掘方法
隨著信息技術(shù)迅速發(fā)展,數(shù)據(jù)庫的規(guī)模不斷擴大,產(chǎn)生了大量的數(shù)據(jù)。但大量的數(shù)據(jù)往往無法辨別隱藏在其中的能對決策提供支持的信息,而傳統(tǒng)的查詢、報表工具無法滿足挖掘這些信息的需求。因此,需要一種新的數(shù)據(jù)分析技術(shù)處理大量數(shù)據(jù),并從中抽取有價值的潛在知識,數(shù)據(jù)挖掘(DataMining)技術(shù)由此應(yīng)運而生。
一、數(shù)據(jù)挖掘的定義
數(shù)據(jù)挖掘是指從數(shù)據(jù)集合中自動抽取隱藏在數(shù)據(jù)中的那些有用信息的非平凡過程,這些信息的表現(xiàn)形式為:規(guī)則、概念、規(guī)律及模式等。它可幫助決策者分析歷史數(shù)據(jù)及當前數(shù)據(jù),并從中發(fā)現(xiàn)隱藏的關(guān)系和模式,進而預(yù)測未來可能發(fā)生的行為。數(shù)據(jù)挖掘的過程也叫知識發(fā)現(xiàn)的過程。
二、數(shù)據(jù)挖掘的方法
1.統(tǒng)計方法。傳統(tǒng)的統(tǒng)計學(xué)為數(shù)據(jù)挖掘提供了許多判別和回歸分析方法,常用的有貝葉斯推理、回歸分析、方差分析等技術(shù)。貝葉斯推理是在知道新的信息后修正數(shù)據(jù)集概率分布的基本工具,處理數(shù)據(jù)挖掘中的分類問題,回歸分析用來找到一個輸入變量和輸出變量關(guān)系的最佳模型,在回歸分析中有用來描述一個變量的變化趨勢和別的變量值的關(guān)系的線性回歸,還有用來為某些事件發(fā)生的概率建模為預(yù)測變量集的對數(shù)回歸、統(tǒng)計方法中的方差分析一般用于分析估計回歸直線的性能和自變量對最終回歸的影響,是許多挖掘應(yīng)用中有力的工具之一。
2.關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則是一種簡單,實用的分析規(guī)則,它描述了一個事物中某些屬性同時出現(xiàn)的規(guī)律和模式,是數(shù)據(jù)挖掘中最成熟的主要技術(shù)之一。關(guān)聯(lián)規(guī)則在數(shù)據(jù)挖掘領(lǐng)域應(yīng)用很廣泛適合于在大型數(shù)據(jù)集中發(fā)現(xiàn)數(shù)據(jù)之間的有意義關(guān)系,原因之一是它不受只選擇一個因變量的限制。大多數(shù)關(guān)聯(lián)規(guī)則挖掘算法能夠無遺漏發(fā)現(xiàn)隱藏在所挖掘數(shù)據(jù)中的所有關(guān)聯(lián)關(guān)系,但是,并不是所有通過關(guān)聯(lián)得到的屬性之間的關(guān)系都有實際應(yīng)用價值,要對這些規(guī)則要進行有效的評價,篩選有意義的關(guān)聯(lián)規(guī)則。
3.聚類分析。聚類分析是根據(jù)所選樣本間關(guān)聯(lián)的標準將其劃分成幾個組,同組內(nèi)的樣本具有較高的相似度,不同組的則相異,常用的技術(shù)有分裂算法,凝聚算法,劃分聚類和增量聚類。聚類方法適合于探討樣本間的內(nèi)部關(guān)系,從而對樣本結(jié)構(gòu)做出合理的評價,此外,聚類分析還用于對孤立點的檢測。并非由聚類分析算法得到的類對決策都有效,在運用某一個算法之前,一般要先對數(shù)據(jù)的聚類趨勢進行檢驗。
4.決策樹方法。決策樹學(xué)習是一種通過逼近離散值目標函數(shù)的方法,通過把實例從根結(jié)點排列到某個葉子結(jié)點來分類實例,葉子結(jié)點即為實例所屬的分類。樹上的每個結(jié)點說明了對實例的某個屬性的測試,該結(jié)點的每一個后繼分支對應(yīng)于該屬性的一個可能值,分類實例的方法是從這棵樹的根結(jié)點開始,測試這個結(jié)點指定的屬性,然后按照給定實例的該屬性值對應(yīng)的樹枝向下移動。決策樹方法是要應(yīng)用于數(shù)據(jù)挖掘的分類方面。
5.神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)建立在自學(xué)習的數(shù)學(xué)模型基礎(chǔ)之上,能夠?qū)Υ罅繌?fù)雜的數(shù)據(jù)進行分析,并可以完成對人腦或其他計算機來說極為復(fù)雜的模式抽取及趨勢分析,神經(jīng)網(wǎng)絡(luò)既可以表現(xiàn)為有指導(dǎo)的學(xué)習也可以是無指導(dǎo)聚類,無論哪種,輸入到神經(jīng)網(wǎng)絡(luò)中的值都是數(shù)值型的。人工神經(jīng)元網(wǎng)絡(luò)模擬人腦神經(jīng)元結(jié)構(gòu),建立三大類多種神經(jīng)元網(wǎng)絡(luò),具有非線形映射特性、信息的分布存儲、并行處理和全局集體的作用、高度的自學(xué)習、自組織和自適應(yīng)能力的種種優(yōu)點。
6.遺傳算法。遺傳算法是一種受生物進化啟發(fā)的學(xué)習方法,通過變異和重組當前己知的最好假設(shè)來生成后續(xù)的假設(shè)。每一步,通過使用目前適應(yīng)性最高的假設(shè)的后代替代群體的某個部分,來更新當前群體的一組假設(shè),來實現(xiàn)各個個體的適應(yīng)性的提高。遺傳算法由三個基本過程組成:繁殖(選擇)是從一個舊種群(父代)選出生命力強的個體,產(chǎn)生新種群(后代)的過程;交叉〔重組)選擇兩個不同個體〔染色體)的部分(基因)進行交換,形成新個體的過程;變異(突變)是對某些個體的某些基因進行變異的過程。在數(shù)據(jù)挖掘中,可以被用作評估其他算法的適合度。
7.粗糙集。粗糙集能夠在缺少關(guān)于數(shù)據(jù)先驗知識的情況下,只以考察數(shù)據(jù)的分類能力為基礎(chǔ),解決模糊或不確定數(shù)據(jù)的分析和處理問題。粗糙集用于從數(shù)據(jù)庫中發(fā)現(xiàn)分類規(guī)則的基本思想是將數(shù)據(jù)庫中的屬性分為條件屬性和結(jié)論屬性,對數(shù)據(jù)庫中的元組根據(jù)各個屬性不同的屬性值分成相應(yīng)的子集,然后對條件屬性劃分的子集與結(jié)論屬性劃分的子集之間上下近似關(guān)系生成判定規(guī)則。所有相似對象的集合稱為初等集合,形成知識的基本成分。任何初等集合的并集稱為精確集,否則,一個集合就是粗糙的(不精確的)。每個粗糙集都具有邊界元素,也就是那些既不能確定為集合元素,也不能確定為集合補集元素的元素。粗糙集理論可以應(yīng)用于數(shù)據(jù)挖掘中的分類、發(fā)現(xiàn)不準確數(shù)據(jù)或噪聲數(shù)據(jù)內(nèi)在的結(jié)構(gòu)聯(lián)系。
8.支持向量機。支持向量機(SVM)是在統(tǒng)計學(xué)習理論的基礎(chǔ)上發(fā)展出來的一種新的機器學(xué)習方法。它基于結(jié)構(gòu)風險最小化原則上的,盡量提高學(xué)習機的泛化能力,具有良好的推廣性能和較好的分類精確性,能有效的解決過學(xué)習問題,現(xiàn)已成為訓(xùn)練多層感知器、RBF神經(jīng)網(wǎng)絡(luò)和多項式神經(jīng)元網(wǎng)絡(luò)的替代性方法。另外,支持向量機算法是一個凸優(yōu)化問題,局部最優(yōu)解一定是全局最優(yōu)解,這些特點都是包括神經(jīng)元網(wǎng)絡(luò)在內(nèi)的其他算法所不能及的。支持向量機可以應(yīng)用于數(shù)據(jù)挖掘的分類、回歸、對未知事物的探索等方面。
事實上,任何一種挖掘工具往往是根據(jù)具體問題來選擇合適挖掘方法,很難說哪種方法好,那種方法劣,而是視具體問題而定。
三、結(jié)束語
目前,數(shù)據(jù)挖掘技術(shù)雖然得到了一定程度的應(yīng)用,并取得了顯著成效,但仍存在著許多尚未解決的問題。隨著人們對數(shù)據(jù)挖掘技術(shù)的深人研究,數(shù)據(jù)挖掘技術(shù)必將在更加廣泛的領(lǐng)域得到應(yīng)用,并取得更加顯著的效果。
數(shù)據(jù)挖掘技術(shù)是一種新型的技術(shù),在現(xiàn)代數(shù)據(jù)存儲以及測量技術(shù)的迅猛發(fā)展過程中,人們可以進行信息的大量測量并進行存儲。但是,在大量的信息背后卻沒有一種有效的手段和技術(shù)進行直觀的表達和分析。而數(shù)據(jù)挖掘技術(shù)的出現(xiàn),是對目前大數(shù)據(jù)時代的一種應(yīng)急手段,使得有關(guān)計算機數(shù)據(jù)處理技術(shù)得到加快發(fā)展。數(shù)據(jù)挖掘技術(shù)最早是從機器學(xué)習的概念中而產(chǎn)生的,在對機器的學(xué)習過程中,一般不采用歸納或者較少使用這種方法,這是一種非常機械的操作辦法。而沒有指導(dǎo)性學(xué)習的辦法一般不從這些環(huán)境得出反饋,而是通過沒有干預(yù)的情況下進行歸納和學(xué)習,并建立一種理論模型。數(shù)據(jù)挖掘技術(shù)是屬于例子歸納學(xué)習的一種方式,這種從例子中進行歸納學(xué)習的方式是介于上述無指導(dǎo)性學(xué)習以及較少使用歸納學(xué)習這兩種方式之間的一種方式。因此,可以說,數(shù)據(jù)挖掘技術(shù)的特征在出自于機器學(xué)習的背景下,與其相比機器主要關(guān)心的是如何才能有效提高機器的學(xué)習能力,但數(shù)據(jù)挖掘技術(shù)主要關(guān)心如何才能找到有用、有價值的信息。其第二個特征是,與機器學(xué)習特點相比較而言,機器關(guān)心的是小數(shù)據(jù),而數(shù)據(jù)挖掘技術(shù)所面臨的對象則是現(xiàn)實中海量規(guī)模的數(shù)據(jù)庫,其作用主要是用來處理一些異常現(xiàn)象,特別是處理殘缺的、有噪音以及維數(shù)很高的數(shù)據(jù)項,甚至是一些不同類型數(shù)據(jù)。以往的數(shù)據(jù)處理方法和現(xiàn)代的數(shù)據(jù)挖掘技術(shù)相比較而言,其不同點是以往的傳統(tǒng)數(shù)據(jù)處理方法前提是把理論作為一種指導(dǎo)數(shù)據(jù)來進行處理,在現(xiàn)代數(shù)據(jù)挖掘技術(shù)的出發(fā)角度不同,主要運用啟發(fā)式的歸納學(xué)習進行理論以及假設(shè)來處理的。
2、數(shù)據(jù)挖掘技術(shù)主要步驟
數(shù)據(jù)挖掘技術(shù)首先要建立數(shù)據(jù)倉庫,要根據(jù)實際情況而定,在易出現(xiàn)問題的有關(guān)領(lǐng)域建立有效的數(shù)據(jù)庫。主要是用來把數(shù)據(jù)庫中的所有的存儲數(shù)據(jù)進行分析,而目前的一些數(shù)據(jù)庫雖然可以進行大量的存儲數(shù)據(jù),同時也進行了一系列的技術(shù)發(fā)展。比如,系統(tǒng)中的在線分析處理,主要是為用戶查詢,但是卻沒有查詢結(jié)果的分析能力,而查詢的結(jié)果仍舊由人工進行操作,依賴于對手工方式進行數(shù)據(jù)測試并建模。其次,在數(shù)據(jù)庫中存儲的數(shù)據(jù)選一數(shù)據(jù)集,作為對數(shù)據(jù)挖掘算法原始輸入。此數(shù)據(jù)集所涉及到數(shù)據(jù)的時變性以及統(tǒng)一性等情況。然后,再進行數(shù)據(jù)的預(yù)處理,在處理中主要對一些缺損數(shù)據(jù)進行補齊,并消除噪聲,此外還應(yīng)對數(shù)據(jù)進行標準化的處理。隨后,再對數(shù)據(jù)進行降維和變換。如果數(shù)據(jù)的維數(shù)比較高,還應(yīng)找出維分量高的數(shù)據(jù),對高維數(shù)數(shù)據(jù)空間能夠容易轉(zhuǎn)化為檢點的低維數(shù)數(shù)據(jù)空間進行處理。下一步驟就是確定任務(wù),要根據(jù)現(xiàn)實的需要,對數(shù)據(jù)挖掘目標進行確定,并建立預(yù)測性的模型、數(shù)據(jù)的摘要等。隨后再決定數(shù)據(jù)挖掘的算法,這一步驟中,主要是對當前的數(shù)據(jù)類型選擇有效的處理方法,此過程非常重要,在所有數(shù)據(jù)挖掘技術(shù)中起到較大作用。隨后再對數(shù)據(jù)挖掘進行具體的處理和結(jié)果檢驗,在處理過程中,要按照不同的目的,選擇不同的算法,是運用決策樹還是分類等的算法,是運用聚類算法還是使用回歸算法,都要認真處理,得出科學(xué)的結(jié)論。在數(shù)據(jù)挖掘結(jié)果檢驗時,要注意幾個問題,要充分利用結(jié)論對照其他的信息進行校核,可對圖表等一些直觀的信息和手段進行輔助分析,使結(jié)論能夠更加科學(xué)合理。需要注意的是要根據(jù)用戶來決定結(jié)論有用的程度。最后一項步驟是把所得出的結(jié)論進行應(yīng)用到實際,要對數(shù)據(jù)挖掘的結(jié)果進行仔細的校驗,重點是解決好以前的觀點和看法有無差錯,使目前的結(jié)論和原先看法的矛盾有效解除。
3、數(shù)據(jù)挖掘技術(shù)的方法以及在電力營銷系統(tǒng)中的應(yīng)用和發(fā)展
數(shù)控挖掘技術(shù)得到了非常廣泛的應(yīng)用,按照技術(shù)本身的發(fā)展出現(xiàn)了較多方法。例如,建立預(yù)測性建模方法,也就是對歷史數(shù)據(jù)進行分析并歸納總結(jié),從而建立成預(yù)測性模型。根據(jù)此模型以及當前的其他數(shù)據(jù)進行推斷相關(guān)聯(lián)的數(shù)據(jù)。如果推斷的對象屬于連續(xù)型的變量,那么此類的推斷問題可屬回歸問題。根據(jù)歷史數(shù)據(jù)來進行分析和檢測,再做出科學(xué)的架設(shè)和推定。在常用的回歸算法以及非線性變換進行有效的結(jié)合,能夠使許多問題得到解決。電力營銷系統(tǒng)中的數(shù)據(jù)挖掘技術(shù)應(yīng)用中關(guān)聯(lián)規(guī)則是最為關(guān)鍵的技術(shù)應(yīng)用之一。這種應(yīng)用可以有效地幫助決策人員進行當前有關(guān)數(shù)據(jù)以及歷史數(shù)據(jù)的規(guī)律分析,最后預(yù)測出未來情況。把關(guān)聯(lián)規(guī)則成功引入電力營銷分析,通過FP-Growth算法對電力營銷的有關(guān)數(shù)據(jù)進行關(guān)聯(lián)規(guī)則分析,從中得出各種電量銷售的影響因素以及外部因素、手電水平等的關(guān)聯(lián)信息,以便更好地為電力的市場營銷策略提供參謀和決策。對電力營銷系統(tǒng)的應(yīng)用中,時間序列挖掘以及序列挖掘非常經(jīng)典、系統(tǒng),是應(yīng)用最為廣泛的一種預(yù)測方法。這種方法的應(yīng)用中,對神經(jīng)網(wǎng)絡(luò)的研究非常之多。因此,在現(xiàn)實中應(yīng)用主要把時間序列挖掘以及神經(jīng)網(wǎng)絡(luò)兩者進行有效地結(jié)合,然后再分析有關(guān)電力營銷數(shù)據(jù)。此外,有關(guān)專家還提出應(yīng)用一種時間窗的序列挖掘算法,這種方式可以進行有效地報警處理,使電力系統(tǒng)中的故障能夠準確的定位并診斷事故。此算法對電力系統(tǒng)的分析和挖掘能力的提高非常有效,還可判定電力系統(tǒng)的運行是否穩(wěn)定,對錯誤模型的分析精度達到一定的精確度。
4、結(jié)語
執(zhí)行記錄屬于軟件工程中的挖掘領(lǐng)域,其主要任務(wù)是針對執(zhí)行記錄的挖掘主要針對程序執(zhí)行路徑進行分析,進而找出與程序代碼所具有的必然聯(lián)系,以實現(xiàn)軟件系統(tǒng)程序與模塊代碼相結(jié)合共同發(fā)生作用的目的,對程序的整體起到維護、驗證和了解的作用[2]。究其工作的實質(zhì),就是以執(zhí)行路徑為線索實現(xiàn)逆向建模,有助于軟件工程系統(tǒng)各個環(huán)節(jié)的理解、維護、跟蹤以及驗證。
2檢測軟件漏洞
作為軟件工程領(lǐng)域需要協(xié)助的軟件工程目標之一,針對軟件漏洞的檢測固然是挖掘數(shù)據(jù)技術(shù)系統(tǒng)中不可或缺的一環(huán)。檢測的對象和任務(wù)主要包括:軟件測試的具體項目,對軟件系統(tǒng)漏洞庫數(shù)據(jù)信息的收集、轉(zhuǎn)換和清理,信息系統(tǒng)數(shù)據(jù)的采集與抽取,選擇合適的軟件系統(tǒng)數(shù)據(jù)挖掘信息并對其展開驗證、整合與訓(xùn)練,對軟件數(shù)據(jù)系統(tǒng)中存在的缺陷漏洞進行整體的分類、定位與具體描述,以及廣泛應(yīng)用于軟件測試項目中的各種工程活動。究其最終目的,就是找出軟件系統(tǒng)在開發(fā)與應(yīng)用的具體過程中存在的問題、謬誤與漏洞,對業(yè)已搜索出的問題和漏洞進行及時的矯正與修復(fù)。確保軟件系統(tǒng)的有效運作與安然運行。
3版本控制信息
版本控制的挖掘?qū)儆谲浖こ填I(lǐng)域中的挖掘?qū)ο蠹夹g(shù)之一,這種軟件系統(tǒng)的駕馭手段具有與上述兩種應(yīng)用截然不同的獨特作用:有效確保軟件工程項目編程人員所編輯與制作的檔案得到十分有效的管理,進而對系統(tǒng)全局的更新提供穩(wěn)定的基礎(chǔ)與平臺。版本控制信息的技能價值看似“默默無聞”,地位實則非常重要,是所有軟件工程項目開發(fā)必須采用的一門技術(shù),否則任何軟件工程項目的開發(fā)都無從談及與運作。這門技術(shù)功能經(jīng)過不斷的發(fā)展更新,多以應(yīng)用版本控制系統(tǒng)實施軟件開發(fā)工作的保護或者管理的方式著稱于世。
4開源軟件挖掘
開源軟件的挖掘,其項目的開發(fā)環(huán)境優(yōu)勢可謂得天獨厚,主要體現(xiàn)在開放性、全局性、動態(tài)性三個特征層面上。既然具有別具一格的開放手段與應(yīng)用方式,所以對該類軟件的開發(fā)管理,也要采取與與其他傳統(tǒng)軟件和異類軟件截然不同的原則與策略,形成“具體問題具體分析”的思想實踐思路。針對其開放性的特征,需要工作人員的頻繁流動與變更;針對其動態(tài)性的特征,開源項目必須達到優(yōu)質(zhì)管理的水平;針對其全局性的特征,有需要開發(fā)人員在開發(fā)活動與應(yīng)用軟件的過程中保持一個比較完整的記錄,以便于廣泛的社會網(wǎng)絡(luò)的生成。
5結(jié)語
(1)確定業(yè)務(wù)對象:做好業(yè)務(wù)對象的明確是數(shù)據(jù)域挖掘的首要步驟,挖掘的最后結(jié)構(gòu)是不可預(yù)測的,但是探索的問題必須是有預(yù)見的,明確業(yè)務(wù)對象可以避免數(shù)據(jù)挖掘的盲目性,從而大大提高成功率。
(2)數(shù)據(jù)準備:首先,對于業(yè)務(wù)目標相關(guān)的內(nèi)部和外部數(shù)據(jù)信息進行查找,從中找出可以用于數(shù)據(jù)挖掘的信息;其次,要對數(shù)據(jù)信息的內(nèi)容進行全面細致分析,確定需要進行挖掘操作的類型;然后,結(jié)合相應(yīng)的挖掘算法,將數(shù)據(jù)轉(zhuǎn)化稱為相應(yīng)的分析模型,以保證數(shù)據(jù)挖掘的順利進行。
(3)數(shù)據(jù)挖掘:在對數(shù)據(jù)進行轉(zhuǎn)化后,就可以結(jié)合相應(yīng)的挖掘算法,自動完成相應(yīng)的數(shù)據(jù)分析工作。
(4)結(jié)果分析:對得到的數(shù)據(jù)分析結(jié)果進行評價,結(jié)合數(shù)據(jù)挖掘操作明確分析方法,一般情況下,會用到可視化技術(shù)。
(5)知識同化:對分析得到的數(shù)據(jù)信息進行整理,統(tǒng)一到業(yè)務(wù)信息系統(tǒng)的組成結(jié)構(gòu)中。這個步驟不一定能夠一次完成,而且其中部分步驟可能需要重復(fù)進行。
二、數(shù)據(jù)挖掘技術(shù)在水利工程管理中的實施要點
水利工程在經(jīng)濟和社會發(fā)展中是非常重要的基礎(chǔ)設(shè)施,做好水利工程管理工作,確保其功能的有效發(fā)揮,是相關(guān)管理人員需要重點考慮的問題。最近幾年,隨著社會經(jīng)濟的飛速發(fā)展,水利工程項目的數(shù)量和規(guī)模不斷擴大,產(chǎn)生的水利科學(xué)數(shù)據(jù)也在不斷增加,這些數(shù)據(jù)雖然繁瑣,但是在許多科研生產(chǎn)活動和日常生活中都是不可或缺的。例如,在對洪澇、干旱的預(yù)防以及對生態(tài)環(huán)境問題的處理方面,獲取完整的水利科學(xué)數(shù)據(jù)是首要任務(wù)。那么,針對日益繁雜的海量水利科學(xué)數(shù)據(jù),如何對有用的信息知識進行提取呢?數(shù)據(jù)挖掘技術(shù)的應(yīng)用有效的解決了這個問題,可以從海量的數(shù)據(jù)信息中,挖掘出潛在的、有利用價值的知識,為相關(guān)決策提供必要的支持。
1.強化數(shù)據(jù)庫建設(shè)
要想對各類數(shù)據(jù)進行科學(xué)有效的收集和整理,就必須建立合理完善的數(shù)據(jù)庫。對于水利工程而言,應(yīng)該建立分類數(shù)據(jù)庫,如水文、河道河情、水量調(diào)度、防洪、汛情等,確保數(shù)據(jù)的合理性、全面性和準確性,選擇合適的方法,對有用數(shù)據(jù)進行挖掘。
2.合理選擇數(shù)據(jù)挖掘算法
(1)關(guān)聯(lián)規(guī)則挖掘算法:關(guān)聯(lián)規(guī)則挖掘問題最早提出于1993年,在當前數(shù)據(jù)挖掘領(lǐng)域,從事務(wù)數(shù)據(jù)庫中發(fā)現(xiàn)關(guān)聯(lián)規(guī)則,已經(jīng)成為一個極其重要的研究課題。關(guān)聯(lián)規(guī)則挖掘的主要目的,是尋找和挖掘隱藏在各種數(shù)據(jù)之間的相互關(guān)系,通過量化的數(shù)據(jù),來描述事務(wù)A的出現(xiàn)對于事務(wù)B出現(xiàn)可能產(chǎn)生的影響,關(guān)聯(lián)規(guī)則挖掘就是給定一組Item以及相應(yīng)的記錄組合,通過對記錄組合的分析,推導(dǎo)出Item間存在的相關(guān)性。當前對于關(guān)聯(lián)規(guī)則的描述,一般是利用支持度和置信度,支出度是指產(chǎn)品集A、B同時出現(xiàn)的概率,置信度則是在事務(wù)集A出現(xiàn)的前提下,B出現(xiàn)的概率。通過相應(yīng)的關(guān)聯(lián)分析,可以得出事務(wù)A、B同時出現(xiàn)的簡單規(guī)則,以及每一條規(guī)則的支持度和置信度,支持度高則表明規(guī)則被經(jīng)常使用,置信度高則表明規(guī)則相對可靠,通過關(guān)聯(lián)分析,可以明確事務(wù)A、B的關(guān)聯(lián)程度,決定兩種事務(wù)同時出現(xiàn)的情況。
(2)自頂而下頻繁項挖掘算法:對于長頻繁項,如果采用關(guān)聯(lián)規(guī)則挖掘算法,需要進行大量的計算分析,不僅耗時耗力,而且影響計算的精準度,這時,就可以采用自頂而下頻繁項挖掘算法,這種算法是一種相對優(yōu)秀的長頻繁項挖掘算法,利用了事務(wù)項目關(guān)聯(lián)信息表、項目約簡、關(guān)鍵項目以及投影數(shù)據(jù)庫等新概念與投影、約簡等新方法,在對候選集進行生成的過程中,應(yīng)該對重復(fù)分支進行及時修剪,提升算法的實際效率,從而有效解決了長頻繁項的挖掘問題。結(jié)合計算機實驗以及算法分析,可以看出,這種方法是相對完善的,同時也是十分有效的。不過需要注意的是,當支持度較大、頻繁項相對較短時,利用關(guān)聯(lián)規(guī)則挖掘中典型的Apriori方法,可以起到更好的效果。
(3)頻繁項雙向挖掘算法:這種算法是一種融合了自頂向下以及自底向上的雙向挖掘算法,可以較好的解決長頻繁項以及段頻繁項的挖掘問題,主挖掘方向是利用自頂向下挖掘策略,但是結(jié)合自底向上方法生成的非頻繁項集,可以對候選集進行及時修剪,提升算法的實際效率。
三、結(jié)語
關(guān)鍵詞:數(shù)據(jù)挖掘;決策樹;C4.5算法;教學(xué)管理;高校教學(xué)
中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2012)30-7150-04
隨著數(shù)字信息化社會的飛速發(fā)展,計算機技術(shù)和數(shù)據(jù)庫管理系統(tǒng)被廣泛應(yīng)用于科學(xué)探索、商業(yè)、金融業(yè)、電子商務(wù)、企業(yè)生產(chǎn)等各種行業(yè),已逐漸發(fā)展成為一種智能管理過程。數(shù)據(jù)挖掘作為一種新興的數(shù)據(jù)分析技術(shù),它的研究成果取得了令人矚目的成就[1]。利用數(shù)據(jù)庫技術(shù),通過對教務(wù)管理的大量數(shù)據(jù)進行多層次、多維度的加工處理,從而實現(xiàn)人性化管理,為科學(xué)決策提供支持。
畢業(yè)論文在教學(xué)體系中占有十分重要的位置,是本科生培養(yǎng)計劃中衡量教學(xué)質(zhì)量的重要指標。提高畢業(yè)論文教學(xué)質(zhì)量是一項系統(tǒng)工程,為研究在當前的教學(xué)條件下如何提高畢業(yè)論文教學(xué)質(zhì)量,本文采用數(shù)據(jù)挖掘技術(shù)對影響畢業(yè)論文成績管理的多方面因素進行了深入分析和挖掘,以期發(fā)現(xiàn)對學(xué)校畢業(yè)論文教學(xué)管理有用的知識,將這些知識應(yīng)用于本科學(xué)生畢業(yè)論文教學(xué)實踐中,為學(xué)校管理者提供有用的信息,進而獲得更好的管理效益,為學(xué)校未來的發(fā)展提供更廣闊的空間,發(fā)揮重要的作用。
1 數(shù)據(jù)挖掘簡介
數(shù)據(jù)挖掘(Data Mining),又稱數(shù)據(jù)庫中的知識發(fā)現(xiàn)(Knowledge discovery in Database. KDD)[2],是通過分析每一個具體數(shù)據(jù),從大量的、有噪聲的、模糊的、隨機的海量數(shù)據(jù)中尋找其規(guī)律的技術(shù),它是數(shù)據(jù)庫研究中的一個很有應(yīng)用價值的新領(lǐng)域。
1.1 數(shù)據(jù)挖掘的定義
H包含如下功能:
綜上所述,數(shù)據(jù)挖掘具有三大特點:其一是處理大型數(shù)據(jù);其二應(yīng)用數(shù)據(jù)挖掘的目的是發(fā)現(xiàn)未知的、有意義的模式或規(guī)律;其三是一個對大量數(shù)據(jù)處理的過程,有特定的步驟[3]。
1.2 數(shù)據(jù)挖掘的主要方法
數(shù)據(jù)挖掘是一個多學(xué)科交叉領(lǐng)域,它由人工智能、機器學(xué)習的方法起步,并與統(tǒng)計分析方法、模糊數(shù)學(xué)和可視化技術(shù)相融合,以數(shù)據(jù)庫為研究對象,圍繞面對應(yīng)用,為決策者提供服務(wù)。
數(shù)據(jù)挖掘的方法主要可分為六大類:統(tǒng)計分析方法、歸納學(xué)習方法、仿生物技術(shù)、可視化技術(shù)、聚類方法和模糊數(shù)學(xué)方法。歸納學(xué)習法是目前重點研究的方向,本文根據(jù)給定的訓(xùn)練樣本數(shù)據(jù)集,采用歸納學(xué)習法中的決策樹技術(shù)構(gòu)造分類模型,將事例分類成不同的類別。
2 決策樹算法基本理論
2.1 決策樹方法介紹
決策樹[4]方法是以事例學(xué)習為基礎(chǔ)的歸納推算法,著眼于從一組無序的,無規(guī)則的事例中推斷出類似條件下會得到什么值這類規(guī)則的方法,它是一種逼近離散值函數(shù)的方法,也可以看作一個布爾函數(shù)[5]。決策樹歸納方法是目前許多數(shù)據(jù)挖掘商用系統(tǒng)的基礎(chǔ),可以應(yīng)用于分析數(shù)據(jù),同樣也可以用來作預(yù)測。建模過程中,即樹的生長過程是不斷的把數(shù)據(jù)進行切分,采用“自頂向下,分而治之”的方法將問題的搜索空間劃分為若干個互不交叉的子集,通常用來形成分類器和預(yù)測模型。如圖1所示,為決策樹的示意圖。
決策樹一種類似流程圖的樹形結(jié)構(gòu),是一種知識的表現(xiàn)形式。為了對未知樣本進行分類,生成具體的分類規(guī)則,信息樣本的各個屬性值要在決策樹上進行測試。主要分為兩個階段:在第一階段中生成樹。決策樹最上面的節(jié)點為根節(jié)點,是整個決策樹的開始,然后遞歸的進行數(shù)據(jù)分區(qū),每次切分對應(yīng)一個問題,也對應(yīng)著一個節(jié)點;在第二階段中對樹進行修剪,此過程中去掉一些可能是噪音或異常的數(shù)據(jù),防止決策樹的過匹配,進而保證生成決策樹的有效性和合理性。當一個節(jié)點中的所有數(shù)據(jù)都屬于同一類別,或者沒有屬性可以再用于數(shù)據(jù)進行分割時,分割工作停止。具體的工作流程如圖2所示。
2.2 C4.5算法
1986年Ross Quinlan首次提出了ID3決策樹算法,它是最早的決策樹算法之一。ID3算法運用信息熵理論,選擇當前樣本中具有信息增益值的屬性作為測試屬性,對樣本的劃分則依據(jù)測試屬性的取值[6]。C4.5算法是在ID3算法基礎(chǔ)上發(fā)展起來的,它繼承了ID3算法的全部優(yōu)點,并增加了新的功能改進了ID3算法中的不足,可以進行連續(xù)值屬性處理并處理未知值的訓(xùn)練樣本。在應(yīng)用單機的決策樹算法中,C4.5算法不僅分類準確而且執(zhí)行速度快。
C4.5通過兩個步驟來建立決策樹:第一階段樹的生成,第二階段樹的剪枝。C4.5算法采用信息增益率來記錄字段不同取值的選擇,首先計算各個屬性的信息增益率,尋找到規(guī)則信息的優(yōu)劣,選出信息增益率最大的屬性作為結(jié)點,自頂向下生成決策樹。C4.5算法構(gòu)造決策樹的基本策略如下:
首先計算出給定樣本所需的期望信息,設(shè)S為一個包含s個數(shù)據(jù)樣本的集合,對于類別屬性,可以取m個不同取值,分別對應(yīng)于m個不同的類別[Ci(i∈1,2,...,m)]。假設(shè)類別[Ci]中的樣本個數(shù)為[si],期望信息為:
其中,[Pi]是任意樣本屬于[Ci]的概率,并用[sis]估計。
接著,計算當前樣本集合所需用的信息熵,設(shè)一個屬性A具有n個不同的值[(a1,a2,...an)],利用屬性A可以將集合S劃分為n個子集[S1,S2,...Sn],其中[Sj]包含了S集合中屬性A取[aj]值的樣本數(shù)據(jù)。如果屬性A被選作測試屬性,設(shè)[Sij]為[Sj]中屬于[Ci]類別的樣本集,根據(jù)A劃分計算的熵為:
然后利用屬性A對當前分支結(jié)點進行相應(yīng)樣本集合劃分計算信息增益:
最后,求信息增益率,表達式為:
C4.5算法的偽代碼如下:
輸入:訓(xùn)練樣本Samples;目標屬性Target—attribute;候選屬性的集合Attributes
輸出:一棵決策樹
1)創(chuàng)建根節(jié)點root;
2)If Samples都在同一類C Then;
3)返回label=類C的單結(jié)點樹root;
4)If Attributes為空Then;
5)返回單結(jié)點樹root,[label=Samples]中最普遍的Target-Atribute值;
6)Else;
7)For each測試屬性列表Attributes中的屬性;
8)IF測試屬性是連續(xù)的Then;
9)對測試屬性進行離散化處理,找出使其信息增益比率最大的分割閾值;
10)Else;
11)計算測試屬性的信息增益比率;
20)添加子樹Generate Tree C4.5;
21)對已建立的決策樹計算每個結(jié)點的分類錯誤,進行剪枝,并返回根結(jié)點Root。
3 畢業(yè)論文成績管理系統(tǒng)的設(shè)計和實現(xiàn)
利用數(shù)據(jù)挖掘技術(shù)對學(xué)生的成績數(shù)據(jù)進行提煉,所產(chǎn)生的結(jié)果和信息會對以后的教學(xué)管理工作提供有用的信息,進而獲得更好的管理效益。解決問題的重點在于怎樣對學(xué)生的畢業(yè)論文成績進行全面且深度的分析,從而挖掘出成績與其他因素之間隱藏的內(nèi)在聯(lián)系。本文采用決策樹技術(shù)挖掘信息時,主要操作步驟如下:
1)確定挖掘來源:清晰地定義挖掘?qū)ο螅鞔_挖掘目標是數(shù)據(jù)挖掘所有工作中重要的一步。本文中應(yīng)用于挖掘的數(shù)據(jù)信息是畢業(yè)生的畢業(yè)論文成績,旨在通過對大量成績數(shù)據(jù)進行各層次的挖掘,全面了解具體影響學(xué)生畢業(yè)論文成績的各方面因素,正確的針對問題擬定分析過程。
2)獲取相關(guān)知識:數(shù)據(jù)是挖掘知識最原始的資料,根據(jù)確定的數(shù)據(jù)分析對象,抽象出數(shù)據(jù)分析中所需要的特征信息模型。領(lǐng)域問題的數(shù)據(jù)收集完成之后,與目標信息相關(guān)的屬性也隨之確定。這些數(shù)據(jù)有些是可以直接獲得的,有些則需要對學(xué)生進行調(diào)查才能的得到。
3)數(shù)據(jù)預(yù)處理:此過程中是對已收集的大量數(shù)據(jù)進行整合與檢查。因為存放在數(shù)據(jù)庫中的數(shù)據(jù)一般是不完整的、不一致的,通常還含有噪聲的存在。因此就需要對數(shù)據(jù)庫中數(shù)據(jù)進行清理、整理和歸并,以提高挖掘過程的精度和性能。
4)數(shù)據(jù)轉(zhuǎn)換:對預(yù)處理后的數(shù)據(jù)建立分析模型,對于特定的任務(wù),需要選擇合適的算法來建立一個準確的適合挖掘算法的分析模型。本文采用決策樹技術(shù)進行分類建模來解決相應(yīng)的問題。
5)分類挖掘知識和信息:此階段的工作目的是根據(jù)系統(tǒng)最終要實現(xiàn)的功能和任務(wù)來確定挖掘的分類模型。選擇合適的數(shù)據(jù)挖掘技術(shù)及算法,并采用恰當?shù)某绦蛟O(shè)計語言來實現(xiàn)該算法,對凈化和轉(zhuǎn)換過得數(shù)據(jù)訓(xùn)練集進行挖掘,獲得有價值的分析信息。
6)知識表示:將數(shù)據(jù)挖掘得到的分析信息進一步的解釋和評價,生成可用的、正確的、可理解的分類規(guī)則呈現(xiàn)給管理者,應(yīng)用于實踐。
7)知識應(yīng)用:將分析得到的規(guī)則應(yīng)用到教學(xué)管理中,教師可以利用所得到的知識針對性的開展畢業(yè)設(shè)計的教學(xué)活動,進一步指導(dǎo)教學(xué)工作,提高教學(xué)水平和學(xué)生的畢業(yè)論文質(zhì)量。
4 結(jié)論
最終發(fā)現(xiàn)影響學(xué)生畢業(yè)論文成績主要的因素不是指導(dǎo)教師的職稱,學(xué)生的基礎(chǔ)及感興趣程度,而是指導(dǎo)教師的學(xué)歷高低。根據(jù)具體分類規(guī)則的結(jié)論,學(xué)校教學(xué)管理工作應(yīng)加重對教師的素質(zhì)及能力培養(yǎng),合理的分配每個教師的畢業(yè)論文指導(dǎo)工作,不僅能夠有效的完成畢業(yè)課題指導(dǎo)工作,更有助于學(xué)生整體論文質(zhì)量的提高。
在高校教學(xué)數(shù)字化的時代趨勢下,利用數(shù)據(jù)挖掘技術(shù)來挖掘提取教學(xué)工作中的全面而有價值信息,可以為教育管理者的教學(xué)工作提供有效的參考信息,改進教學(xué)管理方法,提高教學(xué)質(zhì)量和學(xué)生的綜合素質(zhì),是高校保持良好的可持續(xù)發(fā)展的有力工具。
參考文獻:
[1] 劉玉文.數(shù)據(jù)挖掘在高校招生中的研究與應(yīng)用[D].上海:上海師范大學(xué),2008.
[2] 魏萍萍,王翠茹,王保義,張振興.數(shù)據(jù)挖掘技術(shù)及其在高校教學(xué)系統(tǒng)中的應(yīng)用[J].計算機工程,2003.29(11):87-89.
[3] 劉林東. Web挖掘在考試系統(tǒng)中的應(yīng)用[J].計算機應(yīng)用研究,2005(2):150-154.
[4] Tom M Mitchell.(美)卡內(nèi)基梅隆大學(xué).機器學(xué)習[D].曾華軍,張銀奎,譯,北京:機械工業(yè)出版社,2003.
1.1結(jié)果優(yōu)化中遺傳算法的應(yīng)用遺傳算法由達爾文進化論與孟德爾遺傳變異論進行模擬后得到,該算法所采用的算法因子具有隨機性,故設(shè)備故障的出現(xiàn)往往不會受到常規(guī)故障規(guī)則的限制,但是遺傳算法在實際應(yīng)用過程中,其對故障的整合分析,并不是盲目式的,而是針對機械設(shè)備狀態(tài)運行情況,以設(shè)備最優(yōu)化為基本原則進行不斷完善計算進行的。若設(shè)備狀態(tài)監(jiān)測和故障診斷當中,直接采用了與設(shè)備情況相應(yīng)的參數(shù)進行適值計算,但又不需要對優(yōu)化參數(shù)進行明確計算,在針對部分無法明確計算得到的設(shè)備參數(shù)時,即可采用遺傳算法對結(jié)果進行優(yōu)化。遺傳算法的智能性與并行性較強,利用該方法,可以對設(shè)備故障當中還未得到有效解決的部分復(fù)雜問題進行妥善處理。目前,遺傳算法在設(shè)備運行函數(shù)的優(yōu)化、設(shè)備模式的識別以及設(shè)備運行信號的整合處理等相關(guān)工作當中有著較為全面的應(yīng)用,在將復(fù)雜的運行數(shù)據(jù)進行優(yōu)化時,遺傳算法具有較為良好的性能。綜合其相關(guān)特點,在建立設(shè)備狀態(tài)監(jiān)測和故障診斷的模型時,可采用該技術(shù)使得模型更為合理化,使得設(shè)備狀態(tài)監(jiān)測與故障診斷的結(jié)果更為準確。以滾動軸承的狀態(tài)監(jiān)測與故障診斷為例。在實際工作當中,運用各類運算符集,對滾動軸承的原始性特征向量進行測量后,采取最優(yōu)的組合方式獲得新型向量,配合采用遺傳算法得到最終的滾動軸承參數(shù),并利用分類法,對各項間距進行了調(diào)整,使得滾動軸承的診斷參數(shù)更為準確。此外,利用該方法,還有效區(qū)分了滾動軸承的不同工作狀態(tài),測量結(jié)果較為全面,效果顯著。
1.2模糊集理論的應(yīng)用要點該方法通過模糊集合與模糊推理兩種方法,其研究測試的對象是各類不確定性因素,屬于傳統(tǒng)集合理論的創(chuàng)新。模糊集理論在設(shè)備狀態(tài)監(jiān)測和故障診斷中的應(yīng)用,主要包含了兩個方面。一方面,是在相關(guān)數(shù)據(jù)概念的形成時,采用不準確和較為模糊的語言變量,根據(jù)人們習慣,對設(shè)備狀態(tài)的變化及變量變化狀態(tài)進行描述。具有較強的直觀性,且相關(guān)人員在接受該類概念時,也可以更方便的理解接受;另一方面,該方法通過提煉模糊性規(guī)則,在建模時模糊化,使得機械設(shè)備的控制、預(yù)測以及故障診斷等過程擁有更為廣闊的空間。
1.3基于實例分析的方案優(yōu)化及調(diào)整該種方法擁有較為簡單的思路,在對設(shè)備未來運行情況進行預(yù)測時,系統(tǒng)會匹配與設(shè)備目前情況相似的實際案例,并從以往的解決方法中選出最佳的解決方案,再結(jié)合設(shè)備實際情況進行相應(yīng)調(diào)整。此類方法的應(yīng)用范圍較廣,且得到的計算結(jié)果也相對準確,但同時也具有一定缺陷,即無法全面整合以往設(shè)備數(shù)據(jù)及解決規(guī)律,缺乏充足的繼承性。該方法進行故障診斷的基本理念是,在選紅棗解決方法的過程中,利用歷史診斷方法成功案例為奠基,進行全面的推理工作,并采用類比和聯(lián)想法,較為全面的對故障進行診斷。
1.4多種數(shù)據(jù)挖掘法的聯(lián)合應(yīng)用除上述幾種數(shù)據(jù)挖掘技術(shù)外,實際工作中還涵蓋了以傳統(tǒng)數(shù)據(jù)統(tǒng)計為基礎(chǔ)的統(tǒng)計分析方法、人工神經(jīng)網(wǎng)絡(luò)元技術(shù)、等多種方法,考慮到每一種方法或多或少具有局限性,故為了有效提高各類方法的應(yīng)用效果,可以將各類方法進行配合使用,代表性的算法組合類型如表1所示。
以遺傳算法和模糊集理論的配合采用為例。由于模糊算法,主要是利用了最大隸屬原理和閥值原理,故可以按照不同故障的發(fā)生原因以及故障征兆的相互聯(lián)系,在綜合考慮的基礎(chǔ)上對機械設(shè)備故障的可能原因進行全面分析。而該方法在運用的過程中,會對各類故障征兆進行約簡化從而得到較為普遍的規(guī)律,但是所得到的規(guī)律也可能存在不可靠問題。故在實際應(yīng)用模糊集理論的同時,配合采用遺傳算法,通過對模糊集理論所得到的結(jié)論及規(guī)則進行全面優(yōu)化,使得診斷的結(jié)果更為準確與高效。上述案例方法在渦輪機故障診斷過程中進行應(yīng)用時,可先建立完善的渦輪機故障集,在此基礎(chǔ)上采用模糊集理論對渦輪機故障進行診斷,配合遺傳算法對渦輪機故障規(guī)律進行優(yōu)化,使得最終故障診斷結(jié)果更為準確。除遺傳算法與模糊集理論課進行配合使用外,其他各類方法也可以根據(jù)設(shè)備實際情況進行搭配,使得最終診斷結(jié)果更為準確有效。
2結(jié)束語
近年來,我國的部隊管理體系已經(jīng)逐漸向著自動化方向發(fā)展,部隊中各個部門都建立了一定的管理體系,也逐漸脫離了人工管理模式,實現(xiàn)信息現(xiàn)代化模式,很大程度提高了部隊工作的效率,但是由于外界因素與經(jīng)濟發(fā)展的多樣化以及人們的思維模式也在不斷改變,從而出現(xiàn)了一些新問題,使得部隊管理體系存在著一定問題:第一、關(guān)聯(lián)性小、系統(tǒng)比較獨立。現(xiàn)階段,部隊采購食品系統(tǒng)的作用以及目的比較簡單,思維面也比較窄,也就是說按照清單進行食品采購時,不能充分考慮到采購人員的健康、效率等問題,不能達到最優(yōu)化采購方式,因此就變得比較獨立;第二,數(shù)據(jù)功能簡單,可靠性不高。現(xiàn)階段,部隊食品采購數(shù)據(jù)只是對采購的種類與過程進行簡單記錄,時間一久,就會被損壞或者丟失;第三,數(shù)據(jù)分散不集中。現(xiàn)階段與部隊人員健康、起居飲食、訓(xùn)練相關(guān)的數(shù)據(jù)分散在不同系統(tǒng)中,使得數(shù)據(jù)變得不一致、不完整,僅僅只能進行簡單查詢、匯總、統(tǒng)計等工作,不能對數(shù)據(jù)進行多角度分析、關(guān)聯(lián)等,不能為采購食品提供很好的政策支持。針對部隊采購存在的問題,可以利用數(shù)據(jù)倉庫以及數(shù)據(jù)挖掘技術(shù)建立多為數(shù)據(jù)庫,利用數(shù)據(jù)挖掘進技術(shù)對食品采購數(shù)據(jù)進行挖掘。依據(jù)現(xiàn)階段部隊的實際發(fā)展情況,建立一套新數(shù)據(jù)庫的成本代價比較高,因此,選用了目前社會上通用方法,對已經(jīng)存在的數(shù)據(jù)進行一定改革與拓展,合理優(yōu)化系統(tǒng)數(shù)據(jù),成為新的數(shù)據(jù)庫。并且選取對數(shù)據(jù)挖掘影響比較大的系統(tǒng)性分析,包括訓(xùn)練系統(tǒng),食品采購系統(tǒng)、人員管理系統(tǒng)以及醫(yī)療衛(wèi)生系統(tǒng)。針對食品采購采購系統(tǒng)建立數(shù)據(jù)模型。
二、在部隊食品采購系統(tǒng)中的應(yīng)用以及其價值評價
在部隊食品采購系統(tǒng)實際應(yīng)用工程中,其實可以運用MicrosoftSQLServerAnalysisServices來對數(shù)據(jù)進行分析,并且在數(shù)據(jù)挖掘過程中對多維數(shù)據(jù)進行描述與查找起到一定作用。因為多維數(shù)據(jù)比較復(fù)雜,增長的也比較快,因此,進行手動查找是很困難的,數(shù)據(jù)挖掘技術(shù)提供的計算模式可以很好的對數(shù)據(jù)進行分析與查找。在建設(shè)部隊食品采購倉庫數(shù)據(jù)的時候,數(shù)據(jù)內(nèi)容主要包括了人員的健康、兵員的飲食以及訓(xùn)練等,進行數(shù)據(jù)挖掘主要包括以下內(nèi)容:第一,把每個主題信息數(shù)據(jù)進行收集、匯總、分析等,對人員情況、健康、飲食、訓(xùn)練等進行合理分析;第二,多維分析數(shù)據(jù)信息。根據(jù)部隊的實際情況,利用數(shù)據(jù)挖掘技術(shù)對部隊人員健康、飲食、訓(xùn)練等數(shù)據(jù)信息進行多維分析,其中包含上鉆、切片、下鉆等;第三,挖掘健康與飲食之間的內(nèi)在關(guān)系。根據(jù)數(shù)據(jù)庫中許多面向主題的歷史數(shù)據(jù),采用數(shù)據(jù)挖掘技術(shù)進行分析與演算得到部隊人員的訓(xùn)練和健康情況與部隊飲食之間內(nèi)在關(guān)系,以便于為部隊食品采購提供合理的、有效的保障,從而提高部隊整體人員的健康水平、身體素質(zhì)以及訓(xùn)練質(zhì)量,對提高我國部隊戰(zhàn)斗力有著深遠的意義。
三、結(jié)束語
檔案管理對象的數(shù)量隨著社會的發(fā)展而不斷增加,僅僅通過傳統(tǒng)的管理方式已不能高效管理檔案,這就需要充分利用計算機網(wǎng)絡(luò)技術(shù)。在檔案管理系統(tǒng)中應(yīng)用計算機數(shù)據(jù)挖掘技術(shù)可以確保檔案信息的安全性,提高管理檔案的效率,還能優(yōu)化檔案數(shù)據(jù)的檢索。總之,基于大數(shù)據(jù)的計算機數(shù)據(jù)挖掘技術(shù)對完善檔案管理系統(tǒng)發(fā)揮著十分重要的作用。
2基于大數(shù)據(jù)的計算機數(shù)據(jù)挖掘技術(shù)概述
基于大數(shù)據(jù)的計算機數(shù)據(jù)挖掘技術(shù)是當代新開發(fā)的一種數(shù)據(jù)處理技術(shù),它可以從大數(shù)據(jù)中挑選出人們需要的數(shù)據(jù)。計算機數(shù)據(jù)挖掘是一個循環(huán)往復(fù)的過程,如果沒有取得預(yù)期的效果,計算機數(shù)據(jù)挖掘信息處理系統(tǒng)就會返回上一層重新工作,直到完成目標任務(wù)為止,這種對目標的細化過程可以滿足檔案數(shù)據(jù)檢索的需要。
3基于大數(shù)據(jù)的計算機挖掘技術(shù)在檔案管理系統(tǒng)中的作用
3.1提高檔案信息的安全性。無論是文字檔案、圖片檔案還是其他形式的檔案,都是一種寶貴的資料。越是意義重大的檔案,檔案管理人員就越要想方設(shè)法將其保存起來。檔案的價值隨著其保存時間的不斷推移而增加,價值越高的檔案,被使用的頻率就越高,但是如果使用過于頻繁的話,就會縮短檔案資料的壽命,加大保存難度。除此之外,有的檔案信息是保密的,在應(yīng)用時如果監(jiān)管不力就會導(dǎo)致機密泄露。由以上可見,檔案的保存與使用儼然已互為對立面了。將計算機挖掘技術(shù)應(yīng)用到檔案管理中則對檔案資料的完整性毫無影響,并且還可以提高檔案信息的安全性。3.2提高檔案信息管理的效率。在檔案管理工作中應(yīng)用計算機數(shù)據(jù)挖掘技術(shù),可以極大改變傳統(tǒng)檔案管理模式低效率的弊端。使用計算機數(shù)據(jù)挖掘技術(shù),大大提高了工作人員處理檔案信息的速度,同樣的工作使用的時間極大減少。鑒定檔案是檔案管理工作中的重要組成部分,傳統(tǒng)的鑒定方式是由管理人員根據(jù)自己的經(jīng)驗進行主觀鑒定,有時會存在有價值的檔案丟失的現(xiàn)象。應(yīng)用計算機數(shù)據(jù)挖掘技術(shù),檔案管理人員就可以利用計算機系統(tǒng)分析檔案使用和保存的情況,促進了檔案鑒定工作的發(fā)展。3.3提高了檔案信息的使用效率。大部分檔案信息具有一定的機密性,所以檔案的借閱并不是向全社會公開的,而是有范圍限制的,但是由于檔案管理人員和借閱者對檔案信息不熟悉,導(dǎo)致雙方的溝通存在一定的問題,在借閱者提出申請之后,檔案管理人員會將檔案資料調(diào)出來,有時調(diào)出來的資料不是借閱者所需要的,還得重新調(diào)閱,類似的過程就嚴重浪費了雙方的時間。應(yīng)用計算機數(shù)據(jù)挖掘技術(shù)可以促進檔案管理人員和借閱者之間的交流,讓檔案管理者明確借閱者需要的具體檔案信息,從而形成專門的檔案提供渠道,這就大大提高了檔案信息的使用效率。3.4增強檔案信息的服務(wù)性。加密檔案信息會嚴重縮小它的適用范圍,受當代信息化的影響,很多檔案信息自身會出現(xiàn)一些問題,并且只能為一小部分人服務(wù)。將計算機數(shù)據(jù)挖掘技術(shù)應(yīng)用到檔案信息管理中,可以具體分析檔案的使用情況,通過研究發(fā)現(xiàn)未來使用檔案信息的人群,在此基礎(chǔ)上提高檔案信息的服務(wù)性。
4基于大數(shù)據(jù)的計算機數(shù)據(jù)挖掘技術(shù)在檔案管理中的實際應(yīng)用
4.1在檔案分類管理中的應(yīng)用。檔案管理的基礎(chǔ)工作就是將檔案進行分類。傳統(tǒng)的分類方法既費時又費力,工作效率極低。計算機數(shù)據(jù)挖掘技術(shù)中有一種決策樹算法,它可以在最短的時間內(nèi)按照一定的規(guī)則將不同屬性的檔案信息進行分類和整理,大大提高了檔案分類工作的效率。計算機數(shù)據(jù)挖掘技術(shù)在檔案分類工作中的具體流程是:從大量不同種類的數(shù)據(jù)集中選擇一些數(shù)據(jù)組合成訓(xùn)練集,然后應(yīng)用到?jīng)]有進行分類的檔案管理中,這樣可以幫助管理者根據(jù)借閱者對檔案信息的需求來對檔案進行分類,同時還可以根據(jù)借閱者的需求為其推薦其他檔案信息。通過這些針對性強的數(shù)據(jù)分析,可以極大縮短借閱者獲取檔案信息的時間,檔案數(shù)據(jù)的利用價值就能充分發(fā)揮出來。4.2在檔案收集管理中的應(yīng)用。計算機數(shù)據(jù)挖掘技術(shù)可以根據(jù)數(shù)據(jù)庫內(nèi)部的數(shù)據(jù)信息描述來構(gòu)建一個相應(yīng)的數(shù)據(jù)模型,然后比較計算機數(shù)據(jù)樣本和數(shù)據(jù)模型之間的差異,如果這二者互相吻合,就需要檔案管理人員使用測試樣本模型來對檔案信息進行分類處理。計算機數(shù)據(jù)挖掘技術(shù)需要全面分析檔案數(shù)據(jù)信息庫中的數(shù)據(jù),建立一個對已知數(shù)據(jù)有詳細描述的概念模型,并與測試樣本進行對比,如果一個模型測試通過,就證明這個模型可以應(yīng)用在檔案收集管理中。
5結(jié)語
綜上所述,在科技技術(shù)不斷進步的時代背景下,在檔案信息管理中應(yīng)用基于大數(shù)據(jù)的計算機數(shù)據(jù)挖掘技術(shù)已成為一種必然趨勢,它可以極大提高檔案信息管理的工作效率,促進檔案管理的高效發(fā)展。除了在檔案信息存儲和利用上確保基本的信息查詢服務(wù)外,還需要應(yīng)用計算機數(shù)據(jù)挖掘技術(shù)整合檔案信息,建立眾多檔案管理服務(wù)數(shù)據(jù)之間的關(guān)聯(lián),這樣才能為檔案信息管理提供更好的服務(wù)。
作者:陳皓穎 單位:昆明理工大學(xué)津橋?qū)W院
參考文獻
[1]高燕飛,陳俊杰.試析計算機數(shù)據(jù)挖掘技術(shù)在檔案信息管理系統(tǒng)中的運用[J].內(nèi)蒙古師范大學(xué)學(xué)報:哲學(xué)社會科學(xué)版,2012(4):44-46.
[2]曾雪峰.計算機數(shù)據(jù)挖掘技術(shù)開發(fā)及其在檔案信息管理中的運用研究[J].科技創(chuàng)新與應(yīng)用,2016(9):285.
[3]李國強,曹巧蓮,辛正宇,等.淺談數(shù)據(jù)處理的新技術(shù)———數(shù)據(jù)挖掘[J].科技創(chuàng)新與生產(chǎn)力,2010(6).
[4]周碧珍.淺析計算機數(shù)據(jù)挖掘技術(shù)在檔案信息管理系統(tǒng)中的應(yīng)用[J].黑龍江科技信息,2009(1).
1分類。分類技術(shù)可解決事件的歸類問題,在應(yīng)用時,不僅可以完成數(shù)據(jù)分析的任務(wù),還能對未來的數(shù)據(jù)類型進行必要的預(yù)測,比如,充分運用分類技術(shù)對客戶的具體傾向進行預(yù)測,確定客戶是否對相關(guān)研究感興趣,該技術(shù)方法也可應(yīng)用在醫(yī)療領(lǐng)域,針對患者的病情,通過分類技術(shù)選取適宜的藥物。
2回歸。回歸技術(shù)的核心為已知變量的數(shù)值,在此基礎(chǔ)上,對其他種類的變量實施必要的預(yù)測。在一般條件下,回歸技術(shù)充分發(fā)揮了線性回歸的實際效果,但從現(xiàn)實的角度講,并不是所有問題都能用基本的線性回歸進行分析和解決的,為了更好的適應(yīng)這些實際的問題,相關(guān)人員對此也正在著手研究全新的方法,并已取得了顯著的效果,許多新型分析方法應(yīng)運而生,比如邏輯回歸以及神經(jīng)網(wǎng)絡(luò)等。
3時間序列。時間序列技術(shù)實際上就是以過去的變量為基礎(chǔ),分析和預(yù)測下一階段變量的方法。與回歸技術(shù)相同,同樣都是運用現(xiàn)有的組員完成預(yù)測任務(wù)的,但資源的時間序列是存在一定差異的。時間序列技術(shù)通常是在完整的時間流中截選一個時間區(qū)間,對應(yīng)數(shù)據(jù)形成一整套單元,最后將此單元在時間流上進行滑動,從而獲取訓(xùn)練集。
4描述型。圖形與可視化工具是十分重要的,是相關(guān)人員完成快速分析任務(wù)的重要手段之一,改善了傳統(tǒng)數(shù)據(jù)的枯燥與乏味,不僅實現(xiàn)了數(shù)據(jù)整體的分析,還能對其中的每一個細節(jié)實施細致的觀察與分析,在圖形模式的支持下,人們可以更容易的了解到數(shù)據(jù)信息中潛在的相互關(guān)系和模式。
5關(guān)聯(lián)分析。關(guān)聯(lián)分析技術(shù)是指在數(shù)據(jù)庫中快速獲取數(shù)據(jù)的相關(guān)性。較為常用的技術(shù)方法主要有兩種,分別為關(guān)聯(lián)規(guī)則與序列模式,其中關(guān)聯(lián)規(guī)則是在相同時間中存在的不同項之間的相關(guān)性,而序列模式的研究對象主要為具體的事件。
6聚類。聚類技術(shù)實質(zhì)上就是數(shù)據(jù)庫的分類,組間差別盡可能的明顯,而同一組內(nèi)的數(shù)據(jù)要盡可能的相似或相同。聚類技術(shù)與分類技術(shù)存在很大的區(qū)別,在實施聚類以前,并不了解數(shù)據(jù)組的具體數(shù)量,分組的方法和依據(jù)也不知曉,所以在聚類完成以后,需要得到專業(yè)人士的分析和解釋。
二、經(jīng)濟普查的根本目的與重要意義
1.根本目的。經(jīng)濟普查是為了充分了解我國產(chǎn)業(yè)現(xiàn)階段發(fā)展的具體規(guī)模和實際效益,并創(chuàng)建完善的基本單位數(shù)據(jù)庫和對應(yīng)的管理系統(tǒng),為社會可持續(xù)發(fā)展方針的落實奠定堅實的基礎(chǔ),同時也為國民經(jīng)濟的快速發(fā)展獻計獻策。經(jīng)濟普查的基本目標是了解情況,建立相應(yīng)數(shù)據(jù)庫則是必要的手段,最終目的是促進我國國民經(jīng)濟的快速發(fā)展與壯大。
2.重要意義。經(jīng)濟普查數(shù)據(jù)信息屬公共產(chǎn)品范疇,既是黨和政府認識我國基本國情的重要依據(jù),也是判斷各行業(yè)發(fā)展與走向的有效方法。經(jīng)濟普查的全面開展與落實,可以為廣大人民群眾開創(chuàng)更多的就業(yè)渠道,改善人們的生活質(zhì)量,使國民經(jīng)濟的改革與建設(shè)更加完善與全面。
三、經(jīng)濟普查數(shù)據(jù)挖掘方法的應(yīng)用
1.注冊服務(wù)器。在經(jīng)濟普查中運用書庫挖掘方法,首先應(yīng)注冊服務(wù)器。分析服務(wù)器是數(shù)據(jù)分析的主體,有著不可取代的作用,因此分析服務(wù)器一般為首要的注冊對象,其他種類的注冊對象都是它的一部分。通常情況下,分析服務(wù)器名稱要與對應(yīng)網(wǎng)絡(luò)名稱保持一致。
2.創(chuàng)建數(shù)據(jù)倉庫。在分析服務(wù)器注冊完成以后,即可在該服務(wù)器的基礎(chǔ)上建立各類數(shù)據(jù)庫,由于數(shù)據(jù)庫中還缺乏具體的對象,因此可認定該數(shù)據(jù)庫為空。為了使其發(fā)揮出更好的挖掘效果,還需充分考慮實際情況,創(chuàng)建適宜的研究對象。在計算機硬盤中尋找對應(yīng)的安裝目錄,并在下分的子文件找到并觀察經(jīng)濟普查工作的數(shù)據(jù)庫,確定文件的實際大小,在文件中存在數(shù)據(jù)庫操作方面所需的文件,這些文件主要以事件日志及數(shù)據(jù)的方式存在,且初始物理大小均為1M,在運行時一般以10%的速度增長。
3.建立索引。在上述操作完成以后,即可建立經(jīng)濟普查相關(guān)的數(shù)據(jù)庫,但數(shù)據(jù)庫本身只是一種數(shù)據(jù)信息的存儲單元,想要使其發(fā)揮出最佳的效果,還需在數(shù)據(jù)庫的基礎(chǔ)上建立數(shù)據(jù)表,并建立與SQL操作所對應(yīng)數(shù)據(jù)源,實際情況中滿足選取條件的數(shù)據(jù)源有很多種,由于該操作事先已經(jīng)完成了數(shù)據(jù)表的建立,所以該數(shù)據(jù)庫中的數(shù)據(jù)類型僅有SQL這一種形式。
4.連接數(shù)據(jù)源。一般而言,數(shù)據(jù)庫創(chuàng)建完成以后的首要建立目標為數(shù)據(jù)源,數(shù)據(jù)源在數(shù)據(jù)庫中具有指定源數(shù)據(jù)的作用,數(shù)據(jù)庫的基本數(shù)據(jù)類型有很多種形式,為了滿足數(shù)據(jù)庫使用的基本需求,可在同一種數(shù)據(jù)庫中設(shè)置多種數(shù)據(jù)源。連接數(shù)據(jù)源是為了讓數(shù)據(jù)挖掘更好的進行,在數(shù)據(jù)源連接完成以后,可在相關(guān)軟件的支持下,完成數(shù)據(jù)挖掘的各項操作。
四、結(jié)語
預(yù)計1個月內(nèi)審稿 省級期刊
北京市統(tǒng)計局主辦
預(yù)計1個月內(nèi)審稿 統(tǒng)計源期刊
工業(yè)和信息化部主辦
預(yù)計1個月內(nèi)審稿 省級期刊
貴州出版集團公司主辦
預(yù)計1個月內(nèi)審稿 部級期刊
中國人民公安大學(xué)法學(xué)院主辦
預(yù)計1個月內(nèi)審稿 部級期刊
中國社會科學(xué)院主辦
預(yù)計1-3個月審稿 CSCD期刊
中國科學(xué)院主辦