五月激情开心网,五月天激情社区,国产a级域名,婷婷激情综合,深爱五月激情网,第四色网址

數(shù)據(jù)分析的方法優(yōu)選九篇

時間:2023-07-24 16:25:59

引言:易發(fā)表網(wǎng)憑借豐富的文秘實踐,為您精心挑選了九篇數(shù)據(jù)分析的方法范例。如需獲取更多原創(chuàng)內(nèi)容,可隨時聯(lián)系我們的客服老師。

數(shù)據(jù)分析的方法

第1篇

關鍵詞:數(shù)據(jù)分析應用率;分析應用點;四個層次;數(shù)據(jù)中心;儀表盤

中圖分類號:N37 文獻標識碼:B 文章編號:1009-9166(2009)02(c)-0063-02

現(xiàn)代企業(yè)的決策往往是在整合大量信息資料的基礎上制定出來的,對數(shù)據(jù)的理解和應用將是企業(yè)決策的基石。與傳統(tǒng)的操作型應用相比,數(shù)據(jù)利用的應用建設難度更大,它是隨著管理水平而發(fā)展,同時又取決于業(yè)務人員的主觀意識,這就決定了以數(shù)據(jù)利用為核心的應用建設不可能一蹴而就,而是一個長期迭展的建設過程。從2003年起工廠開始全面推進數(shù)據(jù)分析應用工作,經(jīng)歷過曲折,同時也有收獲。經(jīng)過多年的努力,工廠的數(shù)據(jù)分析應用工作開始進入良性發(fā)展階段,筆者認為有必要對工廠目前數(shù)據(jù)分析應用工作作一總結和思考。

一、工廠數(shù)據(jù)分析應用工作開展現(xiàn)狀

工廠數(shù)據(jù)分析應用工作推進至今已有四五年的時間,從最初全面調(diào)研工廠數(shù)據(jù)量和數(shù)據(jù)分析應用狀況,將數(shù)據(jù)分析應用率指標作為方針目標定量指標來考核,到后來將數(shù)據(jù)分析應用工作的推進重心從量向質(zhì)轉移,采用以項目為載體進行管理,著重體現(xiàn)數(shù)據(jù)分析應用的實效性,再到目前以分析應用的需求為導向,以分析應用點為載體,分層次進行策劃。經(jīng)過上述三個階段,工廠數(shù)據(jù)分析應用工作推進機制得到了逐步的完善,形成了廣度深度協(xié)同發(fā)展的信息資源利用管理框架。截止到目前,工廠數(shù)據(jù)分析應用率達到96%,四個層次的分析應用點共計100多個,數(shù)據(jù)分析應用工作在生產(chǎn)、質(zhì)量、成本、物耗、能源等條線得到廣泛開展,有效推動了工廠管理數(shù)字化和精細化。2007年,工廠開始探索細化四個應用層次的推進脈絡,進一步豐富工廠信息資源利用框架,形成層次清晰、脈絡鮮明、職責分明的信息資源利用立體化的推進思路。

1、第一層次現(xiàn)場監(jiān)控層。第一層次現(xiàn)場監(jiān)控層,應用主體是一線工人和三班管理干部,應用對象是生產(chǎn)過程實時數(shù)據(jù),應用目標是通過加強生產(chǎn)過程控制,輔助一線及時發(fā)現(xiàn)生產(chǎn)過程中的異常情況,提高生產(chǎn)穩(wěn)定性。例如制絲車間摻配工段的生產(chǎn)報警,通過對生產(chǎn)過程中葉絲配比、膨絲配比、梗絲配比、薄片配比、加香配比等信息進行判異操作,對異常情況通過語音報警方式提醒擋車工進行異常處理;例如卷包車間通過在機臺電腦上對各生產(chǎn)機組的工藝、設備參數(shù)、實時產(chǎn)量、質(zhì)量、損耗數(shù)據(jù)的監(jiān)控,提高對產(chǎn)品質(zhì)量的過程控制能力。第一層次應用以上位機和機臺電腦上固化的監(jiān)控模型為主,制絲車間每個工序、卷包車間每種機型的應用點都有所不同,為此我們建立了制絲車間以工序為脈絡,卷包車間以機種為脈絡的應用點列表,圍繞脈絡對第一層次應用點進行梳理,形成第一層次應用的規(guī)范化模板。制絲車間第一層次應用點模板包括工序名稱、應用點名稱、應用模型描述、應用對象、應用平臺、異常處置路徑等基本要素。卷包車間應用點模板橫向根據(jù)機種分,縱向按上班及交接班、上班生產(chǎn)過程中、下班及交接班三個時間段分,通過調(diào)研分別列出擋車工針對每個機種在三個時間段分別要查看的數(shù)據(jù)和進行的操作。隨著模板的擴充和完善,一線職工的知識、經(jīng)驗不斷充實其中,第一層次應用點模板將成為一線工人和三班管理干部日常應用監(jiān)控的標準,同時可以規(guī)避人員退休或調(diào)動帶來的經(jīng)驗、知識流失的風險。2、第二層次日常管理分析層。第二層次日常管理分析層,應用主體是一般管理干部,應用對象是產(chǎn)質(zhì)損、設備、動能等指標,應用目標是通過加強對各類考核指標的監(jiān)控和分析,提高工廠整體的關鍵績效指標水平。例如制絲車間的劣質(zhì)成本數(shù)據(jù)匯總和分析,通過對車間內(nèi)各類廢物料、劣質(zhì)成本的數(shù)據(jù)進行匯總、對比和分析,尋找其中規(guī)律及薄弱環(huán)節(jié),并尋根溯源,采取措施,降低劣質(zhì)成本。例如卷包車間的產(chǎn)量分析,通過對產(chǎn)量數(shù)據(jù)、工作日安排、計劃產(chǎn)量進行統(tǒng)計和匯總,結合車間定額計劃、作業(yè)計劃和實際產(chǎn)量進行分析,尋找實際生產(chǎn)情況與計劃間的差異,并分析原因。第二層次應用以管理人員個性化的分析為主,呈現(xiàn)出分析方法多樣化、應用工具多樣化的特點。但是萬變不離其中的是每個管理崗位的管理目標以及圍繞管理目標開展的分析應用是相對固定的,至少在短期內(nèi)不會有太大的變化。為此我們建立了一份以重點崗位為脈絡的應用點列表,圍繞脈絡對第二層次應用點進行梳理,形成第二層次應用的規(guī)范化模板。模板包括崗位名稱、管理目標、應用點名稱、應用描述、涉及主要考核指標、應用平臺、應用頻次、分析去向等基本要素。通過構建第二層次應用點模板,明確了每個管理崗位應用信息資源支撐管理目標的內(nèi)容和職責。隨著新的管理目標的不斷提出以及應用的逐步深入,模板每年都會有更新和擴充。3、第三層次針對性分析應用層。第三層次針對性分析應用層,應用主體是項目實施者,應用對象是各類項目的實施過程,例如QC項目、六西格瑪項目、質(zhì)量改進項目,或針對生產(chǎn)中的特定事件進行的分析和研究。應用目標是通過應用數(shù)據(jù)資源和統(tǒng)計方法開展現(xiàn)狀調(diào)查、因果分析、效果驗證等工作,提高各類項目實施的嚴密性和科學性。第三層次的應用工具在使用初級統(tǒng)計方法的基礎上會大量應用包括方差分析、回歸分析、正交試驗、假設檢驗、流程圖等在內(nèi)的中級統(tǒng)計方法。以QC活動為例,我們可以看出其實施過程無一不與數(shù)據(jù)應用之間有密切的聯(lián)系[1]。近年來,在質(zhì)量改進項目和QC項目的評審工作中已逐步將“應用數(shù)據(jù)說話、運用用正確合理的統(tǒng)計方法,提高解決問題的科學性”作為項目質(zhì)量考核標準之一。而六西格瑪項目實施的核心思想更是強調(diào)“以數(shù)據(jù)和事實驅(qū)動管理”,其五個階段[2]D(定義)、M(測量)、A(分析)、I(改善)、C(控制),每個階段都要求結合如FMEA(失效模式后果分析),SPC(統(tǒng)計流程控制),MSA(測量系統(tǒng)分析),ANOVE(方差分析),DOE(實驗設計)等統(tǒng)計方法和統(tǒng)計工具的應用。4、第四層次主題性應用層。第四層次主題性應用層,應用主體是中層管理者,應用對象是專業(yè)性或綜合性的分析主題,應用目標是通過專業(yè)科室設計的專題性分析模型或綜合性分析模型,為中層管理層提供決策依據(jù)。工廠在實施了業(yè)務流程“自動化”之后,產(chǎn)生了大量的數(shù)據(jù)和報表。如何將工廠的業(yè)務信息及時、精煉、明確地陳述給中層管理層,以此來正確地判斷工廠的生產(chǎn)經(jīng)營狀況,是擺在我們眼前的一個突出問題。大家都有開車的經(jīng)驗,司機在駕駛車輛的時候,他所掌握的車況基本上是來自汽車的儀表盤,在車輛行使的過程中,儀表盤指針的變化,告知汽車的車速、油料、水溫等的狀況,駕駛員只要有效地控制這些指標在安全范圍之內(nèi),車子就能正常地運行。我們不妨將儀表盤的理念移植于工廠,建立工廠關鍵指標及運行管理儀表盤,將工廠的關鍵信息直觀地列在上面,及時提醒各級管理人員工廠生產(chǎn)運營是否正常。

⑴關鍵績效指標監(jiān)控系統(tǒng)。對分布在各處的當前及歷史數(shù)據(jù)進行統(tǒng)一展示,以工廠關鍵績效指標為中心,支持統(tǒng)計分析和挖掘,可為中層管理者提供工廠關鍵績效指標一門式的查詢服務,使各業(yè)務部門尋找、闡釋問題產(chǎn)生的原因,以有效監(jiān)控各類關鍵績效指標,及時采取改進措施,提高生產(chǎn)經(jīng)營目標完成質(zhì)量。⑵系統(tǒng)運行狀態(tài)監(jiān)控系統(tǒng)。通過數(shù)據(jù)采集、手工錄入等各種渠道收集各類系統(tǒng)的運行狀態(tài),及時掌握故障情況,采取措施加以閉環(huán),將因系統(tǒng)故障造成對用戶的影響減至最小,確保各類系統(tǒng)的穩(wěn)定運行和有效應用。通過建立系統(tǒng)運行狀態(tài)監(jiān)控系統(tǒng),中層管理人員上班一打開電腦進入系統(tǒng),就能了解到當天及上一天各類系統(tǒng)的運轉情況,發(fā)生了什么異常,哪些故障已經(jīng)得到解決,哪些故障還未解決。⑶第四層次主題性分析應用。在展示關鍵績效指標和系統(tǒng)運行狀態(tài)的基礎上,由各專業(yè)科室思考專業(yè)條線上的分析主題,采用先進科學的理念和方法對數(shù)據(jù)進行分析和挖掘。近兩年來,工廠充分發(fā)揮專業(yè)科室的優(yōu)勢和力量,相繼設計和開發(fā)了工藝質(zhì)量條線的六西格瑪測評系統(tǒng),設備條線的設備效能分析系統(tǒng),還有質(zhì)量成本核算與分析系統(tǒng)。通過這些分析主題的支持,工廠管理人員可以更方便快捷地了解質(zhì)量、設備、成本等條線上的關鍵信息,及時采取相應措施,從而提升管理效率。

二、數(shù)據(jù)分析應用工作存在的不足及思考

工廠數(shù)據(jù)分析應用工作的推進方法從最初的采用數(shù)據(jù)分析應用率單個指標進行推進發(fā)展到目前按上文所述的四個層次進行推進,每個層次的推進脈絡已經(jīng)逐步清晰和明朗,但事物發(fā)展到一定的階段總會達到一個瓶頸口,目前工廠數(shù)據(jù)分析應用工作存在的問題及措施思考如下:

1、從推進手段上要突破信息條線,充分發(fā)揮專業(yè)條線的力量。信息條線作為推進工廠數(shù)據(jù)分析應用的主管條線,其作用往往局限在技術層面上的支撐。雖然信息條線每年都會規(guī)劃形成工廠數(shù)據(jù)分析應用整體的工作思路和具體的實施計劃,但是無論從工廠層面還是從車間層面來講,單純依靠信息條線從側面加以引導和推進,使得數(shù)據(jù)分析應用工作始終在業(yè)務條線的邊緣徘徊,與產(chǎn)量、質(zhì)量、設備、消耗、成本、動能等各個條線本身工作的結合度有一定的距離。所以工廠要進一步推進數(shù)據(jù)分析應用工作,調(diào)動起業(yè)務人員的積極性和主動性,突破現(xiàn)有的瓶頸,應該考慮如何調(diào)動起專業(yè)條線的力量。一是可以在年初策劃應用點的時候要加強專業(yè)條線對車間業(yè)務自上而下的指導,引導管理人員加強對缺少數(shù)據(jù)分析支撐的工序、崗位/管理目標的思考;二是建立平臺加強各車間同性質(zhì)崗位之間的溝通與交流,均衡各個車間的數(shù)據(jù)分析應用水平和能力;三是對車間提交的分析報告給出專業(yè)性的指導意見。2、要加強對數(shù)據(jù)中心的應用。數(shù)據(jù)中心的建立可以使業(yè)務系統(tǒng)從報表制作、數(shù)據(jù)導出等功能中解放出來,專注于事務處理,將數(shù)據(jù)應用方面的功能完全交給數(shù)據(jù)中心來解決。目前,數(shù)據(jù)中心已建立了涉及產(chǎn)量、質(zhì)量、消耗等各個條線的Universe模型,并對全廠管理干部進行了普及性的培訓。但是從目前應用情況來看,還比較局限于個別管理人員,追尋原因如下:一是業(yè)務系統(tǒng)開發(fā)根據(jù)用戶需求定制開發(fā)報表,業(yè)務人員通常習慣于從現(xiàn)成的報表中獲取信息。如果要求業(yè)務人員使用數(shù)據(jù)中心工具自行制作報表模板,甚至可能需要將其導出再作二次處理,那么業(yè)務人員一定更傾向于選擇第一種方式。二是近幾年來人員更替較多,新進管理人員不熟悉數(shù)據(jù)中心應用,導致數(shù)據(jù)中心應用面受到限制。隨著今后MES的建設,業(yè)務系統(tǒng)中的數(shù)據(jù)、報表、臺帳和分析功能將有可能由業(yè)務用戶自行通過集成在MES中的數(shù)據(jù)中心前端開發(fā)工具來訪問和靈活定制。因此,要盡快培養(yǎng)工廠業(yè)務人員數(shù)據(jù)中心的應用能力,包括數(shù)據(jù)獲取以及報表定制方面的技能。筆者認為應對方法如下:一是對于崗位人員變更做好新老人員之間一傳一的交接和培訓;二是適時針對新進管理人員開展集中培訓;三是通過采用一定的考核方法。3、提高新增應用點的質(zhì)量。工廠每年都會組織各部門審視第一、第二層次應用點列表,圍繞重點工序和重點管理崗位調(diào)研有哪些應用上的空白點是需要重點思考的,以新增分析應用點的方式進行申報和實施。同時針對第三層次針對性分析應用,工廠也會要求部門以新增分析應用點的方式將需要數(shù)據(jù)支撐的項目進行申報。作為一項常規(guī)性工作,工廠每年都會組織部門進行應用點的申報,并按項目管理的思想和方法實施,事先確立各個應用點的應用層次、數(shù)據(jù)獲取方式、實現(xiàn)平臺,并對其實施計劃進行事先的思考和分解,確定每一個階段的活動目標、時間節(jié)點以及負責人員,每個季度對實施情況予以總結,并動態(tài)更新下一階段的實施計劃。該項工作從2005年起已經(jīng)連續(xù)開展了三年,部門可供挖掘的應用點越來越少,如何調(diào)動部門的積極性,保持并提高應用點的實效性,我們有必要對新增分析應用點的質(zhì)量和實施情況進行考評,考評標準為:一是新增分析應用點是否能體現(xiàn)數(shù)據(jù)應用開展的進取性、開拓性和創(chuàng)新性;二是新增分析應用點是否能切實提高管理的精細化和科學化水平;三是新增分析應用點是否能采用項目管理的思想和方法實施,按時間節(jié)點完成各項預定計劃。

三、結束語。隨著近幾年來技術平臺的相繼成熟以及管理手段的逐步推進,工廠業(yè)務人員用數(shù)據(jù)說話的意識已經(jīng)越來越強,但是要真正使工廠管理達到“三分技術、七分管理、十二分數(shù)據(jù)”的水平,還有很長的路要走,這既需要我們的業(yè)務人員從自身出發(fā)提高應用數(shù)據(jù)的水平和能力,同時也需要工廠從管理手段和管理方法上不斷拓寬思路、創(chuàng)新手段,真正實現(xiàn)數(shù)據(jù)分析應用成為工廠管理的重要支撐手段。

作者單位:上海卷煙廠

參考文獻:

第2篇

關鍵詞:粗糙集理論;數(shù)據(jù)分析方法;信息系統(tǒng);決策表;屬性約簡

中圖分類號:TP18 文獻標識碼:A文章編號:1009-3044(2007)06-11651-01

1 引言

粗糙集(Rough Set)理論[1]是波蘭數(shù)學家Z.Pawlak于1982年提出的,它建立在完善的數(shù)學基礎之上,是一種新的處理含糊性和不確定性問題的數(shù)學工具。其主要思想是在保持分類能力不變的前提下,通過知識約簡,導出問題的決策或分類規(guī)則[2]。由于粗糙集理論不需要任何預備或額外的有關數(shù)據(jù)信息,使得粗糙集理論成為研究熱點之一,被廣泛應用與知識發(fā)現(xiàn)、機器學習、決策分析、模式識別、專家系統(tǒng)和數(shù)據(jù)挖掘等領域。

屬性約簡是粗糙集理論中核心研究內(nèi)容之一[3]。在眾多的屬性約簡算法中,大致可以分為兩類:一類是基于信息熵的啟發(fā)式算法[4],這類算法往往不能得到系統(tǒng)的所有約簡.另一類是基于區(qū)分矩陣和區(qū)分函數(shù)構造的算法[5],這種算法直觀,易于理解,能夠計算出所有約簡。但在區(qū)分矩陣中會出現(xiàn)大量的重復元素,造成時間和空間的浪費,從而降低了屬性約簡算法的效率。

本文基于數(shù)據(jù)分析方法[6]的屬性簡約算法是在保持分類能力不變的前提下,逐個約去冗余的屬性,直到不再有冗余的屬性,此時得到的屬性集是最小屬性集,即為約簡。該算法簡單,能夠求出所有約簡,不會出現(xiàn)區(qū)分矩陣中大

量的重復元素,從而提高了屬性約簡的效率。

2 粗糙集概念

定義2.1設U為所討論對象的非空有限集合,稱為論域;R為建立在U上的一個等價關系族,稱二元有序組S=(U,R)為近似空間。

定義2.2令R為等價關系族,設P?哿R,且P≠?I,則P中所有等價關系的交集稱為P上的不可分辨關系,記作IND(P),即有:[x] IND(P)= ∩ [x]R,顯然IND(P)也是等價關系。

定義2.3稱4元有序組K=(U,A,V,f)為信息系統(tǒng),其中U為所考慮對象的非空有限集合,稱為論域;A為屬性的非空有限集合;V=∪Va,Va為屬性a的值域;f:U×AV是一個信息函數(shù),?坌x∈U,a∈A,f(x,a)∈Va。對于給定對象x,f(x,a)賦予對象x在屬性a下的屬性值。信息系統(tǒng)也可簡記為K=(U,A)。若A=C∪D且C∩D=?I,則S稱,為決策表,其中C為條件屬性集,D為決策屬性集。

顯然,信息系統(tǒng)中的屬性與近似空間中的等價關系相對應。

定義2.4設K=(U,A,V,f)為信息系統(tǒng),P?哿A且P≠?I,定義由屬性子集P導出的二元關系如下:

IND(P)={(x,y)|(x,y)∈U×U且?坌a∈P有f(x,a)=f(y,a)}

則IND(P)也是等價關系,稱其為由屬性集P導出的不可分辨關系。

定義2.5稱決策表是一致的當且僅當D依賴于C,即IND(C)?哿IND(D),否則決策表是不一致的。一致決策表說明:在不同個體的條件屬性值相同時,他們的決策屬性值也相同。

定義2.6設K=(U,A)為一個信息系統(tǒng)。若P?哿A是滿足IND(P)=IND(A)的極小屬性子集,則稱P為A的一個約簡,或稱為信息系統(tǒng)的一個約簡。

定義2.7設K=(U,CUD)為一個決策表,其中C為條件屬性集,D為決策屬性,若P?哿C為滿足POSC(D)=POSP(D)的極小屬性子集,則稱P為決策表K的一個約簡。其中POSC(D)表示決策D關于屬性集C的正域。

定義2.8數(shù)據(jù)分析方法對于信息系統(tǒng)K=(U,A),逐個移去A中的屬性,每移去一個屬性即刻檢查新得到的屬性子集的不可分辨關系,如果等于IND(A),則該屬性可被約去,否則該屬性不可被約去;對于決策表K=(U,CUD),逐個移去C中的屬性,每移去一個屬性即刻檢其決策表,如果不出現(xiàn)新的不一致,則該屬性可被約去,否則該屬性不可被約去。

3 基于數(shù)據(jù)分析方法的屬性簡約算法

3.1 算法思路

利用函數(shù)的遞歸調(diào)用,逐個判定信息系K=(U,A)中屬性a(a∈A),若IND(A)=ND(A-{a}),則a可以約去,A‘=A-{a},否則a不可以約去,繼續(xù)檢查A‘中的每個屬性是否能被約去,此過程一直進行下去,直到出現(xiàn)某一屬性子集中的每個屬性都不可約去為止,此時該屬性子集即為所求的屬性簡約。對于決策表,每次檢查是否增加了不一致的決策規(guī)則,作為是否約去屬性的依據(jù)。

算法如下:

輸入:信息系統(tǒng)K=(U,A)。

輸出:K的屬性約簡。

Match(A') // A’=A-{a}//

begin

for i=1to|U|-1 //|U|表示U的基數(shù)//

for j=i+1to|U|

begin

r=|R|//|R|表示屬性個數(shù)//

if((f(ui,a1)= f(uj,a1))∧(f(ui,a2)= f(uj,a2))∧….∧(f(ui,ar)= f(uj,ar)))

then a不可被約去,return0

end

a可以被約去return1

end

Reduce (A)

begin

flag=1

for i=1 to |R|//|R|表示屬性個數(shù)//

begin

a=ai

A'=A-{ai}

if match(A')thenflag =0 , reduce (A’)

if (flag且A未被輸出)then

輸出A中所有元素//flag≠0,說明A中所有元素不可移去,且不會被重復輸出//

End

end

以上給出的函數(shù)是求解信息系統(tǒng)的屬性約簡算法;對于決策表,只要將Match(A’)函數(shù)中的if語句的條件換成(f(ui,a1)= f(uj,a1))∧(f(ui,a2)= f(uj,a2))∧….∧(f(ui,ar)= f(uj,ar))∧(f(ui,ag)≠f(uj,ag)),r=|C|是條件屬性個數(shù),ag是決策屬性。Reduce (A)函數(shù)中|R|換成|C|即可。該算法適用于一致決策表,對非一致決策表,算法類似,也就是逐個移去屬性并檢查決策表是否出現(xiàn)新的不一致,作為約去此屬性的依據(jù)。

4 舉例

文獻[7]中決策表1,a,b,c,d,e是條件屬性,g是決策屬性,求出的約簡是{a,b,d}

應用本算法,求得的屬性約簡為{a,e}和{a,b,d},得到?jīng)Q策簡化表2和表3。

表1 決策表表2簡化表表3簡化表

如果將決策表表1看作一信息系統(tǒng),運用本算法,求得的屬性約簡有{c,d,e,g}, {b,e,g}, {a,c,d,g}, {a,c,d,e}, {a,b,g}, {a,b,e}h和{a,b,d}

5 結束語

本文通過數(shù)據(jù)分析方法討論了屬性約簡問題。該算法是基于不可分辨關系的,具有直觀、易于理解和完備性的特點。當屬性和對象都較少時,效率較高,但當屬性和對象較多時,計算的復雜度較高。實例表明,該算法是有效的。

參考文獻:

[1]PAWLAK z.Rough set[J].International jom:ua ofcomputer and information science,1982,(11):341―356.

[2]張文修,吳偉志,梁吉業(yè)等.粗糙集理論與方法[M].北京:科學出版社,2001.

[3]Pawlak Z.Slowinski R.Rough set approach to muhiattribute decision analysis.Ivited Review[J].European Journal of Operational Research.1994,72:443-459

[4]王國胤,于洪,楊大春.基于條件信息熵的決策表約簡[J].計算機學報,2002(7):760―765.

[5]Skowron A,Rauszer C.The Discernibility Matrices and Functions in Information Systems[A].I Slowinsk R.ntelligent Decision Support― Handbook of Applications and Advances of the Rough Sets Theory[c].1991,331-362.

[6]劉請.Rough集及Rough推理[M].北京:科學出版社,2001.

第3篇

關鍵詞:大數(shù)據(jù);數(shù)據(jù)分析;數(shù)據(jù)挖掘

中圖分類號:TP311 文獻標識碼:A 文章編號:1007-9416(2017)03-0104-02

1 綜述

1.1 簡介

在數(shù)字化時代,需要新一代系統(tǒng)架構提升業(yè)務創(chuàng)新能力。在新一代系統(tǒng)架構中,大數(shù)據(jù)是核心要素。業(yè)務應用能否自主發(fā)現(xiàn)與自助獲得高質(zhì)量的大數(shù)據(jù),就成為業(yè)務創(chuàng)新成敗的關鍵。這就要在搭建大數(shù)據(jù)平臺時,就著手大數(shù)據(jù)治理相關建設。

1.2 需求和意義

從某種意義上說大數(shù)據(jù)治理架構需要以元數(shù)據(jù)為核心、提高大數(shù)據(jù)質(zhì)量、透明化大數(shù)據(jù)資產(chǎn)、自助化數(shù)據(jù)開發(fā)、自動化數(shù)據(jù)、智能化數(shù)據(jù)安全,提升大數(shù)據(jù)平臺服務能力,讓大數(shù)據(jù)平臺變得易使用、易獲得、高質(zhì)量。

但是,目前很多技術解決方案存在諸多安全和效率隱患:業(yè)務系統(tǒng)多,監(jiān)管力度大;數(shù)據(jù)量龐大且呈碎片化分布,急需提升大數(shù)據(jù)質(zhì)量;數(shù)據(jù)格式不規(guī)范、難以在短時間內(nèi)找到所需數(shù)據(jù);數(shù)據(jù)在各階段的應用角度不同,需要降低系統(tǒng)間的集成復雜度。

2 功能設計

2.1 總體架構

本文講述的數(shù)據(jù)分析方法及實現(xiàn)技術是建立在Hadoop/Spark技術生態(tài)圈的基礎之上,以實現(xiàn)用戶集成處理、、清理、分析的一個統(tǒng)一的數(shù)據(jù)處理平臺;按數(shù)據(jù)類別分為線數(shù)據(jù)、歸檔數(shù)據(jù);按數(shù)據(jù)格式分為非結構化數(shù)據(jù)、結構化數(shù)據(jù);按數(shù)據(jù)模型分類為范式化模型數(shù)據(jù)、維度模型數(shù)據(jù);按數(shù)據(jù)采集頻度分為非實時數(shù)據(jù)、準實時數(shù)據(jù)處理架構;并提供數(shù)據(jù)中心平臺與安全管理方案,為企業(yè)級用戶建立一個通用數(shù)據(jù)處理和分析中心。如圖1所示。

2.2 在線數(shù)據(jù)

在線數(shù)據(jù)在線通過接口去獲得的數(shù)據(jù),一般要求為秒級或速度更快。首先應當將數(shù)據(jù)進行區(qū)分:在線數(shù)據(jù)、或歸檔數(shù)據(jù)。本平臺中采用:Storm或Spark Streaming框架進行實現(xiàn)。Spark Streaming將數(shù)據(jù)切分成片段,變成小批量時間間隔處理,Spark抽象一個持續(xù)的數(shù)據(jù)流稱為DStream(離散流),一個DStream是RDD彈性分布式數(shù)據(jù)集的micro-batch微批次,RDD是分布式集合能夠并行地被任何函數(shù)操作,也可以通過一個滑動窗口的數(shù)據(jù)進行變換。

2.3 歸檔數(shù)據(jù)

歸檔數(shù)據(jù)是在線存儲周期超過數(shù)據(jù)生命周期規(guī)劃的數(shù)據(jù),處理的要求一般在分鐘級或速度更慢。通常歸檔數(shù)據(jù)的計算量、數(shù)據(jù)量、數(shù)據(jù)復雜度均超過試試數(shù)據(jù)處理。本平臺中采用:Hadoop、Spark技術生態(tài)體系內(nèi)的框架進行計算,這里不詳細闡述。

2.4 非結構化數(shù)據(jù)

通常非結構化的數(shù)據(jù)不一定具備字段,即使具備字段其長度也不固定,并且字段的又可是由可不可重復和重復的子字段組成,不僅可以包含結構化數(shù)據(jù),更適合處理非結構化數(shù)據(jù)。常見的非結構化數(shù)據(jù)包括XML、文本、圖象、聲音、影音、各類應用軟件產(chǎn)生的文件。

針對包含文字、數(shù)據(jù)的為結構化數(shù)據(jù)應當先利用數(shù)據(jù)清洗、數(shù)據(jù)治理工具進行提取,這項工作目前仍依賴技術員進行操作,由于格式的復雜性所以難以使用自動化方式進行較為高效的批處理。在治理數(shù)據(jù)的過程中,需要根據(jù)情況對數(shù)據(jù)本身額外建立描述數(shù)據(jù)結構的元數(shù)據(jù)、以及檢索數(shù)據(jù)的索引服務,以便后續(xù)更佳深度利用數(shù)據(jù)。

2.5 結構化數(shù)據(jù)

結構化數(shù)據(jù)具備特定的數(shù)據(jù)結構,通常可以轉換后最終用二維的結構的數(shù)據(jù),并且其字段的含義明確,是挖掘數(shù)據(jù)價值的主要對象。

本平臺中主要使用Hadoop Impala和Spark SQL來進行結構化數(shù)據(jù)的處理。Impale底層采用C++實現(xiàn),而非Hadoop的基于Java的Map-Reduce機制,將性能提高了1-2個數(shù)量級。而Spark SQL提供很好的性能并且與Shark、Hive兼容。提供了對結構化數(shù)據(jù)的簡便的narrow-waist操作,為高級的數(shù)據(jù)分析統(tǒng)一了SQL結構化查詢語言與命令式語言的混合使用。

結構化數(shù)據(jù)根據(jù)采集頻度可以繼續(xù)分類為:非實時數(shù)據(jù)、準實時數(shù)據(jù)。

2.6 準實時數(shù)據(jù)

通常準實時數(shù)據(jù)是指數(shù)據(jù)存儲在平臺本身,但更新頻率接近于接口調(diào)用數(shù)據(jù)源的數(shù)據(jù)。適合用于支持數(shù)據(jù)和信息的查詢,但數(shù)據(jù)的再處理度不高,具有計算并發(fā)度高、數(shù)據(jù)規(guī)模大、結果可靠性較高的特點。通常使用分布式數(shù)據(jù)處理提高數(shù)據(jù)規(guī)模、使用內(nèi)存數(shù)據(jù)進行計算過程緩沖和優(yōu)化。本平臺主要采用Spark SQL結合高速緩存Redis的技術來實現(xiàn)。Spark SQL作為大數(shù)據(jù)的基本查詢框架,Redis作為高速緩存去緩存數(shù)據(jù)熱區(qū),減小高并發(fā)下的系統(tǒng)負載。

2.7 非實時數(shù)據(jù)

非實時數(shù)據(jù)主要應用于支持分析型應用,時效性較低。通常用于數(shù)據(jù)的深度利用和挖掘,例如:因素分析、信息分類、語義網(wǎng)絡、圖計算、數(shù)值擬合等。

非實時數(shù)據(jù)根據(jù)數(shù)據(jù)模型可繼續(xù)分類為:范式化模型數(shù)據(jù)、維度模型數(shù)據(jù)。

2.8 范式化模型

范式化模型主要是針對關系型數(shù)據(jù)庫設計范式,通常稻菔遣捎玫諶范式3NF或更高范式。面向近源數(shù)據(jù)查詢、數(shù)據(jù)主題的整合。范式化模型數(shù)據(jù)的數(shù)據(jù)存儲區(qū),建議使用并行MPP數(shù)據(jù)庫集群,既具備關系型數(shù)據(jù)庫的優(yōu)點,又兼顧了大數(shù)據(jù)下的處理。

2.9 基于維度模型

維度模型數(shù)據(jù)主要應用于業(yè)務系統(tǒng)的數(shù)據(jù)挖掘和分析。過去多維度數(shù)據(jù)處理主要依賴OLAP、BI等中間件技術,而在大數(shù)據(jù)和開源框架的時代下,本技術平臺采用Hadoop Impala來進行實現(xiàn)。Impala并沒有使用MapReduce這種不太適合做SQL查詢的范式,而是參考了MPP并行數(shù)據(jù)庫的思想另起爐灶,省掉不必要的shuffle、sort等開銷,使運算得到優(yōu)化。

3 應用效果

本系統(tǒng)在不同的業(yè)務領域上都可以應用,以2016年在某銀行的應用案例為例:該銀行已完成數(shù)據(jù)倉庫建設,但眾多數(shù)據(jù)質(zhì)量問題嚴重影響了數(shù)據(jù)應用的效果,以不同的數(shù)據(jù)存儲方式,以更高的要求去進行數(shù)據(jù)的統(tǒng)一管理。通過組織、制度、流程三個方面的實施,以元數(shù)據(jù)、數(shù)據(jù)標準、數(shù)據(jù)質(zhì)量平臺為支撐,實現(xiàn)了數(shù)據(jù)管控在50多個分支,60個局,1000余處的全面推廣,實現(xiàn)了全行的覆蓋;管理了120個系統(tǒng)和數(shù)據(jù)倉庫,顯著提升了新系統(tǒng)的快速接入能力;通過14個數(shù)據(jù)規(guī)范和流程明確了數(shù)據(jù)管控的分工;數(shù)據(jù)考核機制的實施,使其在數(shù)據(jù)質(zhì)量評比中名列前茅。

4 結語

本文介紹了大數(shù)據(jù)下數(shù)據(jù)分析方法及實現(xiàn)技術的大體設計和思路,從需求分析、總體架構和數(shù)據(jù)處理以及數(shù)據(jù)分析這幾個方面來介紹。文章在最后介紹出了這種平臺的應用效果。筆者相信這些思路和技術能夠在業(yè)務中能得到很好的應用。

參考文獻

第4篇

[關鍵詞]財政收入;GDP;面板數(shù)據(jù)

中圖分類號:F01 文獻標識碼:A 文章編號:1006-0278(2013)02-024-01

在計量經(jīng)濟學中,我們一般應用的最多的數(shù)據(jù)分析是截面數(shù)據(jù)回歸分析和時間序列分析,但截面數(shù)據(jù)分析和時間序列分析都有著一定的局限性。在實際經(jīng)濟研究當中,截面數(shù)據(jù)回歸分析會遺漏掉數(shù)據(jù)的時間序列特征,例如在分析某年中國各省的GDP增長數(shù)據(jù)時,單純的截面數(shù)據(jù)回歸分析無法找出各省GDP隨時間變化的特征,使得分析結果沒有深度。而如果只用時間序列分析,則會遺漏掉不同截面間的聯(lián)系與區(qū)別,例如在分析中國單個省市的GDP隨時間增長的數(shù)據(jù)時,無法找出各個省市之間經(jīng)濟增長的聯(lián)系與區(qū)別,因而同樣無法滿足我們的需要。而面板數(shù)據(jù),是一種既包括了時間序列數(shù)據(jù),也包括了相關截面數(shù)據(jù)的復合數(shù)據(jù),是近年來用得較多的一種數(shù)據(jù)類型。

下面我們將基于2000-2009年中國各省GDP和財政收入的面板數(shù)據(jù)的實例來詳細闡述面板數(shù)據(jù)的分析方法。

一、GDP與財政收入關系的經(jīng)濟學模型

財政收入是保證國家有效運轉的經(jīng)濟基礎,在一國經(jīng)濟建設中發(fā)揮著重要作用。隨著中國經(jīng)濟發(fā)展速度的日益加快,財政收入不斷擴大,而擴大的財政收入又以政府支出來調(diào)節(jié)和推動國民經(jīng)濟發(fā)展。正確認識財政收入與經(jīng)濟增長之間的長期關系,把握財政收入與經(jīng)濟增長之間的相互影響,發(fā)揮財政收入對經(jīng)濟發(fā)展的調(diào)節(jié)和促進功能,對于完善財稅政策,深化財稅體制改革,實現(xiàn)財政與經(jīng)濟之間的良性互動,具有重要的現(xiàn)實意義。文章就將從中國各省的面板數(shù)據(jù)出發(fā)研究,中國不同地域間財政收入和GDP之間的關系。

二、實證分析

(一)單位根檢驗

Eviews有兩種單位根檢驗方法,一種在相同根的假設下的檢驗,包括LLC、Breintung、Hadri。另一種則是在不同根下的假設前提下,包括IPS,ADF-Fisher和PP-Fisher5。檢驗結果表明所有檢驗都拒絕原假設,因此序列GDP和CZSR均為一個2階單整序列。

(二)協(xié)整檢驗

如果基于單位根檢驗的結果發(fā)現(xiàn)變量之間是同階單整的,那么我們可以進行協(xié)整檢驗。協(xié)整檢驗是考察變量間長期均衡關系的方法。所謂的協(xié)整是指若兩個或多個非平穩(wěn)的變量序列,其某個線性組合后的序列呈平穩(wěn)性。此時我們稱這些變量序列間有協(xié)整關系存在。

在最終的結果中,Pedroni方法中除了rho-Statistic、PP-Statistic項目外都拒絕GDP和CZSR不存在協(xié)整關系的原假設,同樣Kao和Johansen檢驗方法也都拒絕原假設,因此,上述檢驗結果表明,我國各省2000-20009年的GDP和財政收入面板數(shù)據(jù)間存在著協(xié)整關系。既然通過了協(xié)整檢驗,說明變量之間存在著長期穩(wěn)定的均衡關系,其方程回歸殘差是平穩(wěn)的,因此可以在此基礎上直接對進行回歸分析,此時假設方程的回歸結果是較精確的。

三、建立模型

混合模型:如果從時間上看,不同個體之間不存在顯著性差異;從截面上看,不同截面之間也不存在顯著性差異,那么就可以直接把面板數(shù)據(jù)混合在一起用普通最小二乘法(OLS)估計參數(shù)。

我們根據(jù)混合模型的回歸結果,得到財政收入和GDP之間的回歸方程為:

CZSR=227.3123+0.103224*GDP

(26.47637)(0.002839)

R2=0.810995 F=1321.587

顯然從模型的回歸結構來看,R2的值達到了0.81,有了比較好的回歸解釋力,同時,GDP的回歸系數(shù)為0.103224,表明各省的財政收入平均占到了國民收入的10.3%左右。

變系數(shù)模型:顯然,在中國各省之間由于處在不同的地區(qū),因而擁有不同的區(qū)位優(yōu)勢,那么各省的發(fā)展水平顯然就不一樣。正是由于這種不同的地方政策、管理水平、文化差異等會導致經(jīng)濟變量間出現(xiàn)一些關聯(lián)性的變化,此時在進行模型回歸的時候,我們就有必要考慮變系數(shù)模型。

在回歸結果中,R2的值達到了0.97,比混合模型擁有更好的回歸解釋力,而在變系數(shù)模型回歸結果中,GDP的回歸系數(shù)大于0.5的只有、青海、寧夏三個省份,也就是說這三個省份的財政收入占到了GDP的50%以上,他們同處于經(jīng)濟并不是很發(fā)達的西部地區(qū),由此可以看出,處在經(jīng)濟發(fā)達地區(qū)的財政收入占GDP的比重要低,而不發(fā)達地區(qū)則要高。

四、結論

通過以上的分析檢驗,我們發(fā)現(xiàn)針對于中國財政收入和GDP的面板數(shù)據(jù),我們應建立起變系數(shù)模型,并通過模型分析,我們可以得出這樣的結論,中國各省間由于存在著地域經(jīng)濟發(fā)展水平不同、管理水平不同以及國家的相關政策等諸多不同,造成了各省之間在財政收入以及國民收入上面存在著一定的差異。而回歸結果也告訴我們,我國西部地區(qū)的財政收入占GDP的比例要明顯高于東部地區(qū),地區(qū)發(fā)展落后地區(qū)的財政收入占GDP的比例也要明顯高于東部地區(qū)。因此,這為我們改善我國落后地區(qū)的經(jīng)濟發(fā)展提供了一定的新思路,就是對一地區(qū)的稅收征收可以適當放緩,而將GDP中以前政府占用的部分歸還于民眾和企業(yè),因為,按照發(fā)達地區(qū)的經(jīng)驗表明,財政收入所占比重過高,經(jīng)濟發(fā)展的活力或者就不會很高,對于進一步刺激財政收入的增加也沒有任何幫助。因此,我們應該適度降低財政收入占GDP的比重,從而增加經(jīng)濟活力,使西部地區(qū)以及落后地區(qū)及早的跟上東部發(fā)達地區(qū)的發(fā)展步伐,從而消除我國經(jīng)濟發(fā)展的地域不平衡。

參考文獻:

[1]謝識予,朱洪鑫.高級計量經(jīng)濟學[M].復旦大學出版社,2005.

[2]張曉峒.Eviews使用指南(第二版)[M].南開大學出版社,2004.

第5篇

關鍵詞 自組織映射 組織特異性基因 管家基因 基因表達譜

一、SOM算法介紹

由Kohonen提出的自組織映射(SOM)的神經(jīng)網(wǎng)絡是神經(jīng)網(wǎng)絡中適合用于對數(shù)據(jù)進行分類的有效方法。SOM神經(jīng)網(wǎng)絡包含一個輸入層和一個輸出層,組織成一個二維的網(wǎng)格結構(圖1.1)。該網(wǎng)絡能夠從任意一個隨機選擇輸入的結點開始最終形成一個拓撲結構的映射,這個映射反映了輸入模式的內(nèi)在的關系。但是運用SOM有一些參數(shù)的限制,首先需要指定類別數(shù)目,對映射空間結點進行權值的初始化等。如(圖1.1)所示,SOM網(wǎng)絡是一個的映射,如果這個神經(jīng)元被安排在一個平面網(wǎng)格上面的話,這個神經(jīng)網(wǎng)絡就稱為二維神經(jīng)網(wǎng)絡,因為這個網(wǎng)絡將一個高維的輸入向量映射到一個二維的平面上面。給定一個網(wǎng)絡,輸入向量是一個維的向量,相應的第個突觸向量的第個元素與輸入向量的第個元素相連,這樣,一個維的突觸向量就和第個神經(jīng)元實行連接。

圖1.1 SOM網(wǎng)絡的基本結構

SOM算法描述如下:

(1)令網(wǎng)絡學習次數(shù),賦予初始化權值向量一個小的隨機向量值,對拓撲鄰域()、學習率()進行初始化,設置網(wǎng)絡總的學習次數(shù)()。

(2)當學習次數(shù)()小于總的學習次數(shù)()時,重復步驟3至步驟6。

(3)隨機選一個輸入向量進入網(wǎng)絡進行訓練。

(4)確定獲勝神經(jīng)元,相應的權值向量為與輸入向量距離最短的向量,成為獲勝神經(jīng)元,輸入向量與獲勝神經(jīng)元的最短距離為,定義如下:

(1.1)

(5)按照下式更新獲勝神經(jīng)元及其鄰域內(nèi)神經(jīng)元權值向量:

(1.2)

與函數(shù)定義如下:(1.3)

(6)令,如果,回到第(3)步繼續(xù)訓練,否則結束訓練。

二、數(shù)值模擬計算

本文以HUGEindex數(shù)據(jù)庫中人7000多條基因在19個正常組織中的表達情況這19個組織中表達的基因為樣本對其進行分析。不同組織下的全基因表達數(shù)據(jù)構成了一個7070x59的數(shù)據(jù)矩陣,其中每一個元素表示第個基因在第個組織中的表達水平值,行向量代表基因在19個人組織中的表達水平,成為基因的表達譜,列向量代表某一組織的各基因的表達水平。

(1.4)

本文運用SOM方法對人基因19個組織的59個樣本進行聚類,SOM網(wǎng)絡的拓撲結構見(圖1.2)及參數(shù)選擇見表(表1.1)。

圖1.2 樣本聚類SOM網(wǎng)絡結構圖

上圖中,根據(jù)Genechip得到的人體19個組織的59個微陣列數(shù)據(jù)所得到的信息,我們采用4x5的二維拓撲結構的SOM網(wǎng)絡對人體組織樣本進行分類(其中第(4,5)個結點為空),圖中每個結點的位置(結點位置用與輸入模式維數(shù)相同的向權值向量表示,初始權值由系統(tǒng)自動產(chǎn)生)為各個結點權值尺度化之后所得到的位置。

三、結論

通過分類可以將芯片實驗的59個樣本按照人體組織類別分為19個類別,并且與采用層次聚類法所得結果進行比較,可以看出自組織映射的聚類方法與層次聚類方法比較,可以看出采用SOM網(wǎng)絡聚類方法比層次聚類得到的結果更為明確,其分類正確率達到了92.2%,證明了SOM方法是有效的。

參考文獻:

[1]孫嘯,陸祖宏,謝建明.生物信息學基礎[M].北京:清華大學出版社,2005:282-285.

[2]許東,吳錚.基于matlab6.x的神經(jīng)網(wǎng)絡系統(tǒng)分析與設計[M].西安電了科技大學出版社,2002.

[3]閻凡平,張長水.人工神經(jīng)網(wǎng)絡與模擬進化計算[M].北京:清華大學出版社,2005.:11-34,360-395.

作者簡介:

第6篇

一、以認知沖突,引發(fā)學生產(chǎn)生數(shù)據(jù)收集與整理的強烈愿望

學生每一個學習行為的背后,都是有目的、有價值、有意義的。簡言之,學生自己要真正認識到這種學習是有用的,哪怕僅僅是因為有趣、好玩,才能激發(fā)學生進行相關學習的愿望和興趣。對于數(shù)據(jù)分析觀念的培養(yǎng),教師有必要替學生問一個“為什么”,問題不必明確提出,但一定要把相關信息告訴學生,引發(fā)學生強烈的認知沖突,才會產(chǎn)生進行數(shù)據(jù)收集、整理與分析的欲望,才會使他們認識到學習數(shù)據(jù)分析的必要性,產(chǎn)生興趣,從而建立與培養(yǎng)其初步的數(shù)據(jù)分析觀念。

以二年級上冊“統(tǒng)計”一課的學習為例,學生首次接觸“統(tǒng)計”的相關內(nèi)容。在學生尚不真正知道與理解該詞的確切含義的情況下,教材提供的課例是“統(tǒng)計最喜歡的動物”,以統(tǒng)計圖形式呈現(xiàn)出喜歡四種動物(小貓、小狗、小兔、烏龜)的學生的人數(shù),并提供了3道題目,但教材始終沒有告訴學生,“為什么我要學習這個知識”、“為什么我要進行數(shù)據(jù)分析”。此時,對這一問題的提出與引導學生思考,只能由教師在不動聲色中完成。所以,教學時,利用學生愛吃零食的特點,我調(diào)整了教學思路,首先,我征得學生同意,打算用班上賣廢品的錢給學生買糖吃。此舉得到學生們的一致歡迎;其次,我要求5個小組長提前去學校門口的超市,了解糖塊的種類與價格,并告知其他同學;再次,我要求班委成員負責了解班上每一名同學的需求并進行分類、計算總量。每人限一塊,以便于合理安排買糖的數(shù)量與花費;再次,將買來的糖帶入教室,上課,進行相關的數(shù)據(jù)整理與分析;最后,完成全部教學任務后,吃糖。

當我將此想法與實際的授課過程講給其他老師聽時,有老師笑談“孩子們學習的動力就是吃糖”。我不否認這是學生們積極參與教學活動的動力之一,因為事先我有告訴學生全部的活動過程與“完不成就不會有糖吃”的話。但不可否認的是,對于二年級的學生來說,為了達成“每個同學都能吃到自己想吃的糖”這一目標,要在活動的每一個步驟都進行相關數(shù)據(jù)的收集、整理與分析,才能正確且順利地完成任務。簡言之,等于我們告訴學生,“為什么要進行數(shù)據(jù)分析”、“只因為我們需要達成一定的目的”,并且,活動的每一步驟的數(shù)據(jù)分析都有學生親自進行,并明確知曉這樣做的原因——當然不是教師的程式化的要求,這就使得學生的數(shù)據(jù)分析工作是主動的,各成員之間是相互合作的,既使學生愉快地接受了數(shù)據(jù)分析的內(nèi)容與過程,也在增強學生數(shù)據(jù)分析觀念的同時,培養(yǎng)了學生主動學習與合作的精神。

二、挖掘數(shù)據(jù)中蘊藏的深層信息,體驗數(shù)據(jù)分析的應用價值

統(tǒng)計教學的一個重要目標,是鼓勵學生通過分析從統(tǒng)計圖表中獲取盡可能多的信息,為后續(xù)的某項工作或?qū)W習做出合理的決策。表現(xiàn)在教材中,數(shù)據(jù)分析觀念的首次引入即是一個簡單的“最喜歡的動物”的統(tǒng)計圖,接下來的每一個問題的答案無不需要從該統(tǒng)計圖進行尋找。這樣的例子,在學生生活中也是有接觸的。但是,教學過程中,也存在一個常見現(xiàn)象,學生通過統(tǒng)計圖表獲取的信息,多是一些最基本的、一眼即可看出的直接信息,而很少能夠?qū)D表上的數(shù)據(jù)信息進行更為深入的整理與分析,挖掘出更多有價值和有意義的信息來做出合理的決策。

第7篇

相關熱搜:統(tǒng)計學  統(tǒng)計學原理

一、數(shù)據(jù)統(tǒng)計分析的內(nèi)涵

數(shù)據(jù)分析是指運用一定的分析方法對數(shù)據(jù)進行處理,從而獲得解決管理決策或營銷研究問題所需信息的過程。所謂的數(shù)據(jù)統(tǒng)計分析就是運用統(tǒng)計學的方法對數(shù)據(jù)進行處理。在實際的市場調(diào)研工作中,數(shù)據(jù)統(tǒng)計分析能使我們挖掘出數(shù)據(jù)中隱藏的信息,并以恰當?shù)男问奖憩F(xiàn)出來,并最終指導決策的制定。

二、數(shù)據(jù)統(tǒng)計分析的原則

(1)科學性。科學方法的顯著特征是數(shù)據(jù)的收集、分析和解釋的客觀性,數(shù)據(jù)統(tǒng)計分析作為市場調(diào)研的重要組成部分也要具有同其他科學方法一樣的客觀標準。(2)系統(tǒng)性。市場調(diào)研是一個周密策劃、精心組織、科學實施,并由一系列工作環(huán)節(jié)、步驟、活動和成果組成的過程,而不是單個資料的記錄、整理或分析活動。(3)針對性。就不同的數(shù)據(jù)統(tǒng)計分析方法而言,無論是基礎的分析方法還是高級的分析方法,都會有它的適用領域和局限性。(4)趨勢性。市場所處的環(huán)境是在不斷的變化過程中的,我們要以一種發(fā)展的眼光看待問題。(5)實用性。市場調(diào)研說到底是為企業(yè)決策服務的,而數(shù)據(jù)統(tǒng)計分析也同樣服務于此,在保證其專業(yè)性和科學性的同時也不能忽略其現(xiàn)實意義。

三、推論性統(tǒng)計分析方法

(1)方差分析。方差分析是檢驗多個總體均值是否相等的一種統(tǒng)計方法,它可以看作是t檢驗的一種擴展。它所研究的是分類型自變量對數(shù)值型因變量的影響,比如它們之間有沒有關聯(lián)性、關聯(lián)性的程度等,所采用的方法就是通過檢驗各個總體的均值是否相等來判斷分類型自變量對數(shù)值型因變量是否有顯著影響。(2)回歸分析。在數(shù)據(jù)統(tǒng)計分析中,存在著大量的一種變量隨著另一種變量的變化而變化的情況,這種對應的因果變化往往無法用精確的數(shù)學公式來描述,只有通過大量觀察數(shù)據(jù)的統(tǒng)計工作才能找到他們之間的關系和規(guī)律,解決這一問題的常用方法是回歸分析。回歸分析是從定量的角度對觀察數(shù)據(jù)進行分析、計算和歸納。

四、多元統(tǒng)計分析方法

第8篇

【關鍵詞】大數(shù)據(jù)分析;電網(wǎng)調(diào)度能力;方法;應用

0.引言

為了評測區(qū)域內(nèi)電網(wǎng)調(diào)度能力,根據(jù)調(diào)度能力評測結果,調(diào)整輸變電調(diào)度方案,提高變壓器等主要設備的可靠運行,合理利用電網(wǎng)中各項資源和設備。本發(fā)明的目的是提供一種基于計算機實現(xiàn)的評測電網(wǎng)調(diào)度能力的方法,該方法通過對電壓、有功功率、無功功率的分析,保持各個變壓器都處于最佳工作狀態(tài),提高設備使用壽命,降低設備故障率,降低設備運行的電能損耗,提高電網(wǎng)運行的可靠性,提升電網(wǎng)調(diào)度水平。

1.大數(shù)據(jù)分析評測電網(wǎng)的現(xiàn)狀

隨著我國城市化的發(fā)展逐漸加快,我國對電力的需求也在逐漸的增多,未來十幾甚至幾十年,電力需求的增長主要集中在城市地區(qū)。這也就對我國的電網(wǎng)帶來很大的挑戰(zhàn),城市電網(wǎng)是城市的重要基礎設施,也是電力網(wǎng)的重要組成部分。建設好城市電網(wǎng)對滿足城市經(jīng)濟發(fā)展、人民生活水平提高具有重大意義。但是,由于我國長期以來收著“重主網(wǎng)、輕配網(wǎng)”的思想,導致我國很長一段時間內(nèi),對電網(wǎng)的投資非常的少,城市的電網(wǎng)發(fā)展普遍落后于高壓電網(wǎng)[1]。導致我國在很長一段時間內(nèi),處于用電不平衡的情況,很多的地方在年前或者重大節(jié)日之前就會出現(xiàn)的停電的現(xiàn)象。

2.大數(shù)據(jù)分析評測電網(wǎng)調(diào)度能力的具體方法

2.1獲取兩卷變或三卷變高低壓側的監(jiān)控數(shù)據(jù)

該方法主要是用根據(jù)變壓器端的終端設備,來獲取的,首先通過各地市部署的調(diào)度EMS系統(tǒng),將變電站中各變壓器的運行情況準確的監(jiān)控,通過變壓器內(nèi)的監(jiān)控元件,對變壓器的的運行情況、采集電壓、有功負荷、無功負荷等檢測數(shù)據(jù),按指定頻率采集。然后將采集的數(shù)據(jù)通過生產(chǎn)區(qū)的專用網(wǎng)絡進行傳輸,通過生產(chǎn)區(qū)的安全交換機制放置到電力系統(tǒng)信息內(nèi)網(wǎng),開始清洗、篩選,去除設備檢測的異常數(shù)據(jù),保留有效數(shù)據(jù)用于負載率分析該評測電網(wǎng)調(diào)度能力工具通過在信息內(nèi)網(wǎng)中載入電網(wǎng)運行的監(jiān)控數(shù)據(jù)[2]。

2.2得到變壓器實際功率與額定功率的比值

通過對變壓器內(nèi)高低壓側的檢測數(shù)據(jù),計算變壓器實際功率與額定功率的比值,負責率分析,接下來對采集的調(diào)度EMS系統(tǒng)的電網(wǎng)運行數(shù)據(jù)進行計算,負載率有兩種計算方法,一是根據(jù)選定的地區(qū)、時間段,使用公式二“有功負荷與無功負荷平方根/容量”計算每個時點該地區(qū)各個變壓器的負載率;二是根據(jù)選定的地區(qū)、時間段,使用公式“有功負荷/(容量*0.95)”計算每個時點該地區(qū)各個變壓器的負載率[3]。

2.3計算各個變壓器的平均負載率以及平均負載率的平均值

首先要通過選定的地區(qū)、時間段,得到該地區(qū)在本時間段內(nèi)各個變壓器的平均負載率以及平均負載率的平均值。然后再計算各個變壓器平均負載率的均方差,由變壓器的均方差,判斷選定區(qū)域在該時間段的調(diào)度運行能力。主變不均衡度分析,根據(jù)選定地區(qū)和時間段,統(tǒng)計負載率分析結果,得出平均負載率[4]。根據(jù)平均負載率計算各個變壓器平均負載率的均方差,作為變壓器的不均衡度,將結果逐級放大,能夠得出變壓器、變電站、縣公司、市公司乃至網(wǎng)省公司在該時間段的調(diào)度健康情況,從而有效的調(diào)整調(diào)度策略和計劃,改善電網(wǎng)運行情況。

3.大數(shù)據(jù)分析評測電網(wǎng)調(diào)度能力的應用

3.1調(diào)度EMS數(shù)據(jù)采集

要對EMS數(shù)據(jù)采集,首先要制定EMS系統(tǒng)監(jiān)控數(shù)據(jù)的格式,然后加載指定格式的調(diào)度數(shù)據(jù),其中指定數(shù)據(jù)額格式要求主要為:(1)按“變電站+地區(qū)+變電站電壓等級+主變名稱+時間”的順序排序,每小時記錄一次,主要記錄每個整點、時點的有功、無功負荷該數(shù)據(jù)容量的單位是MVA,負荷的單位是MW。(2)時間,變電站,地區(qū),變電站電壓等級,主變名稱,繞組電壓,容量,有功負荷值,無功負荷值。(3)變電站的數(shù)據(jù)采集按照一定的順序進行,不可以同時多個變電站的數(shù)據(jù)進行采集。

在這個過程中還要對數(shù)據(jù)進行“清洗”。清洗的流程為:(1)使用8個逗號作為數(shù)據(jù)的分隔符,分別隔開不同字段的數(shù)據(jù)。如果有多余逗號或缺逗號或兩個逗號中間為空的行,則該行數(shù)據(jù)無效。(2)在計算的過程中除了容量、有功負荷值及無功負荷值外,其他各字段如數(shù)據(jù)超長,則頁面拋出提示錯誤,結束導入。(3)廠站電壓等級為110kV的變壓器容量小于等于100MVA(系統(tǒng)用戶可以在管理端修改此值大小),否則該行數(shù)據(jù)無效。

3.2負載率計算

負載率計算有兩種情況,分別是近似計算和精確計算,其中近似計算效率高,能夠很快得到近似結果。但是在常規(guī)檢查時可使用本公式計算;精確計算算法相對復雜、比較耗時,但是計算準確,通常用于分析調(diào)度情況時使用。

簡便公式為:

計算要求:

1、選定地區(qū)、場站或主變和時間段;

2、根據(jù)選定的地區(qū)、時間段,使用公式計算每個時點該地區(qū)各個變壓器的負載率;

3、使用意義在于根據(jù)負載率大小得出各變壓器負載率的最高或最低時點,從而判斷當前電網(wǎng)的負荷情況。

精確公式:

計算方法:

1、選定地區(qū)、場站或主變和時間段;

2、根據(jù)選定的地區(qū)、時間段,使用公式二計算每個時點該地區(qū)各個變壓器的負載率;

3、使用意義在于根據(jù)負載率大小得出各變壓器負載率的最高或最低時點,從而判斷當前電網(wǎng)的負荷情況。

4.結語

該發(fā)明可及時調(diào)整調(diào)度方案,從而均衡電網(wǎng)的運行負荷,保持各個變壓器都處于最佳工作狀態(tài),提高設備使用壽命,降低設備故障率,降低設備運行的電能損耗,提高電網(wǎng)運行的可靠性,提升電網(wǎng)調(diào)度水平,對提高大數(shù)據(jù)分析電網(wǎng)調(diào)度能力具有顯著的作用。

參考文獻

[1]李庚銀,羅艷,周明,等.基于數(shù)學形態(tài)學和網(wǎng)格分形的電能質(zhì)量擾動檢測及定位[J].中國電機工程學報,2012,26(03):25-30.

[2]賀仁睦,王衛(wèi)國,蔣德斌,等.廣東電網(wǎng)動態(tài)負荷實測建模及模型有效性研究[J].中國電機工程學報,2015,22(03):78-82.

第9篇

關鍵詞:Matlab軟件;制流與分壓電路實驗;特性研究

一、分壓電路特性研究及參數(shù)的變化

首先,用1000Ω滑線變阻作分壓器,負載電阻用1000Ω(K=1),測出滑線電阻滑動端的位置參數(shù)X和U/Umax分壓比,并作出U/Umax的關系曲線。其次,同上,用1000Ω滑線電阻和500Ω的負載電阻(K=0.1),測出X和U/Umax,記錄不同的K值。在Matlab軟件中編寫下列程序?qū)崿F(xiàn)分壓電路實驗數(shù)據(jù)的處理和圖像的擬合:

x0=0:0.1:1.0;

y1=[0 0.24 0.48 0.58 0.72 0.92 1.12 1.58 2.18 3.42 4.46];

z1=max(y1);

y2=[0 0.38 0.72 0.98 1.32 1.72 2.02 2.48 3.26 4.18 4.64];

z2=max(y2);

y3=[0 0.40 0.82 1.18 1.58 2.02 2.40 2.98 3.62 4.32 4.52];

z3=max(y3);

y4=[0 0.18 0.28 0.34 0.48 0.58 0.78 1.02 1.66 2.98 4.48];

z4=max(y4);

n=3;

p1=polyfit(x0,y1,n)

p2=polyfit(x0,y2,n)

p3=polyfit(x0,y3,n)

p4=polyfit(x0,y4,n)

xx=0:0.01:1.0;

yy1=polyval(p1,xx);

yy2=polyval(p2,xx);

yy3=polyval(p3,xx);

yy4=polyval(p4,xx);

plot(xx,yy1/z1,'r',x0,y1/z1,'.r')

hold on;

plot(xx,yy2/z2,'k',x0,y2/z2,'.k')

hold on;

plot(xx,yy3/z3,'b',x0,y2/z2,'.b')

hold on;

plot(xx,yy4/z4,'g',x0,y4/z4,'.g')

hold off;

由實驗可得不同K值的分壓特性曲線,如圖1所示。從曲線可以清楚看出分壓電路有如下幾個特點:第一,不論R0的大小,負載RZ的電壓調(diào)節(jié)范圍均可從0■E;第二,K越小電壓調(diào)節(jié)越不均勻,曲線線性程度越差,細調(diào)程度較差;第三,K越大電壓調(diào)節(jié)越均勻,因此要電壓U在0到Umax整個范圍內(nèi)均勻變化,則取K>1比較合適。

圖1 不同K值的分壓特性曲線

二、制流電路特性研究及參數(shù)的變化

首先,用1000Ω滑線變阻作制流器,負載電阻用100Ω(K=0.1),測出滑線電阻滑動端的位置參數(shù)X和分壓比I/Imax,并作出I/Imax-x的關系曲線。其次,同上,用10000Ω滑線電阻和20Ω的負載電阻(K=0.02),測出X和I/Imax,記錄不同的K值,并作出關系曲線,在Matlab軟件中編寫下列程序?qū)崿F(xiàn)制流電路實驗數(shù)據(jù)的處理和圖像的擬合:

x0=0:0.1:1.0;

y1=[0.04 0.04 0.08 0.12 0.18 0.22 0.30 0.52 1.02 3.58 4.18];

z1=max(y1);

y2=[0.04 0.04 0.08 0.12 0.18 0.24 0.30 0.52 0.92 2.38 4.98];

z2=max(y2);

y3=[0.02 0.02 0.02 0.04 0.12 0.18 0.28 0.40 0.70 2.98 3.52];

z3=max(y3);

y4=[0.01 0.01 0.01 0.01 0.02 0.08 0.20 0.30 0.60 1.20 2.0];

z4=max(y4);

n=3;

p1=polyfit(x0,y1,n)

p2=polyfit(x0,y2,n)

p3=polyfit(x0,y3,n)

p4=polyfit(x0,y4,n)

xx=0:0.01:1.0;

yy1=polyval(p1,xx);

yy2=polyval(p2,xx);

yy3=polyval(p3,xx);

yy4=polyval(p4,xx);

plot(xx,yy1/z1,'r',x0,y1/z1,'.r')

hold on;

plot(xx,yy2/z2,'k',x0,y2/z2,'.k')

hold on;

plot(xx,yy3/z3,'b',x0,y2/z2,'.b')

hold on;

plot(xx,yy4/z4,'g',x0,y4/z4,'.g')

hold off;

(上接第47頁)

圖2 不同值的制流特性曲線

圖2表示不同K值的制流特性曲線,從曲線可以清楚地看到制流電路有以下幾個特點:第一,K越大電流調(diào)節(jié)范圍越小;電流調(diào)節(jié)越均勻,曲線線性程度較好;第二,K(K≥1)時調(diào)節(jié)的線性較好;第三,K較小時(即R0>RZ),電流調(diào)節(jié)范圍大,電流調(diào)節(jié)越不均勻,曲線線性程度越差,細調(diào)程度較差;第四,不論R0大小如何,負載RZ上通過的電流都不可能為零。第五,制流電路適用于負載電阻較小,功耗較大,電壓調(diào)節(jié)范圍較小的場合。

綜上所述,當負載電阻較大時,要求調(diào)節(jié)范圍較寬時宜采用分壓電路。相反,在負載電阻較小,功耗較大且調(diào)節(jié)范圍不太大時,選用制流電路較好。

參考文獻:

[1]陳玉林,李傳起.大學物理實驗[M].北京:科學出版社,2007:186-190.

[2]穆曉東.制流與分壓電路實驗參數(shù)的選擇與確定[J].大學物理實驗,2004,(01).

相關文章
相關期刊
主站蜘蛛池模板: 六月丁香婷婷色狠狠久久 | 国产日韩欧美视频 | 色男人的天堂 | 久久国产精品免费专区 | 女兵人3未删减版在线观看 暖暖喜欢你电视剧免费观看完整版高清 | 久久99国产精品免费观看 | 狠狠亚洲狠狠欧洲2019 | 亚洲天堂国产精品 | 一级毛片完整免费版 | 久久深夜福利 | 日韩精品在线观看视频 | 国产中文字幕第一页 | 开心婷婷色 | 99久久婷婷免费国产综合精品 | 国产一区二区免费 | 97视频在线免费观看 | 99热这里只有精品第一页 | 五月天激情婷婷大综合 | 欧美日韩专区国产精品 | 三级韩国一区久久二区综合 | 婷婷六月色 | 日韩欧美视频一区 | 久久国产午夜精品理论篇小说 | 九九国产在线视频 | www亚洲视频 | 美女福利视频网站 | 成人精品视频在线观看 | 奇米色网 | 国内自拍偷拍视频 | 哪里可以看 | 国产一区二区福利 | 99精品久久久久中文字幕 | 久久深夜福利 | 2021中文字幕亚洲精品 | 欧美精品第1页www劲爆 | 色婷婷丁香 | 三上悠亚免费一区二区在线 | 国产精品日韩在线观看 | 日本成人久久 | 日韩精品小视频 | 成人无遮挡毛片免费看 |