五月激情开心网,五月天激情社区,国产a级域名,婷婷激情综合,深爱五月激情网,第四色网址

大數(shù)據(jù)技術(shù)優(yōu)選九篇

時間:2022-12-17 12:44:36

引言:易發(fā)表網(wǎng)憑借豐富的文秘實踐,為您精心挑選了九篇大數(shù)據(jù)技術(shù)范例。如需獲取更多原創(chuàng)內(nèi)容,可隨時聯(lián)系我們的客服老師。

大數(shù)據(jù)技術(shù)

第1篇

關(guān)鍵詞: 大數(shù)據(jù); 4V特征; Hadoop; 云計算

中圖分類號:TP391 文獻標志碼:A 文章編號:1006-8228(2015)01-13-02

Overview on big data technology

Yang Jing

(Department of Computer Science, Yunyang Teachers' College, Shiyan, Hubei 442000, China)

Abstract: Big data is a new technical wave after the network of things and cloud computing. To understand big data technology, the definition and 4V characteristics, the key technologies and main application fields are systematically analyzed in the paper. Through the introduction of the basic conception, characteristics, the main application fields with typical cases are summarized. The core technologies, key strategies of cloud computing, hadoop and data backup are analyzed. The potential information safety risks are pointed out. The countermeasures are given to provide some suggestions and references for wider application and study in the future.

Key words: big data; 4V characteristics; Hadoop; cloud computing

0 引言

物聯(lián)網(wǎng)、云計算等新興技術(shù)的迅速發(fā)展開啟了大數(shù)據(jù)時代的帷幕。大數(shù)據(jù)技術(shù)是指從各種各樣的海量數(shù)據(jù)中,快速獲取有價值信息的技術(shù),大數(shù)據(jù)的核心問題就是大數(shù)據(jù)技術(shù)。目前所說的“大數(shù)據(jù)”不僅指數(shù)據(jù)本身的規(guī)模大,還包括采集數(shù)據(jù)的工具、平臺和數(shù)據(jù)分析系統(tǒng)復雜程度大。大數(shù)據(jù)的研發(fā)目的是發(fā)展大數(shù)據(jù)技術(shù)并將其應(yīng)用到相關(guān)領(lǐng)域,解決實際生產(chǎn)、生活中的各種問題,從而推動信息技術(shù)健康地可持續(xù)發(fā)展。

1 大數(shù)據(jù)的定義及主要特征

與其他新興學科一樣,目前大數(shù)據(jù)沒有一個統(tǒng)一的標準和定義。一般認為:大數(shù)據(jù)是由大量異構(gòu)數(shù)據(jù)組成的數(shù)據(jù)集合,可以應(yīng)用合理的數(shù)學算法或工具從中找出有價值的信息,并為人們帶來經(jīng)濟及社會效益的一門新興學科。大數(shù)據(jù)又被稱為海量數(shù)據(jù)、大資料、巨量數(shù)據(jù)等,指的是所涉及的數(shù)據(jù)量規(guī)模巨大,以至于無法在合理時間內(nèi)通過人工攫取、管理、處理并整理成為人類所能解讀的信息。這些數(shù)據(jù)來自方方面面,比如社交網(wǎng)絡(luò)、傳感器采集、安防監(jiān)控視頻、購物交易記錄等。盡管尚無統(tǒng)一定義,但這些無比龐大的數(shù)據(jù)被稱為大數(shù)據(jù)。大數(shù)據(jù)具有如下4V特性[1]:

⑴ 體量Volume,是指數(shù)據(jù)存儲量大,計算量大;

⑵ 多樣Variety,是指大數(shù)據(jù)的異構(gòu)和多樣性,比如數(shù)據(jù)來源豐富,數(shù)據(jù)格式包括多種不同形式,如網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等等;

⑶ 價值Value,是指大數(shù)據(jù)價值密度相對較低,信息海量,但是要挖掘出真正有價值的數(shù)據(jù)難度較大,浪里淘沙卻又彌足珍貴;

⑷ 速度Velocity,是指數(shù)據(jù)增長速度快,處理速度要求快。

2 大數(shù)據(jù)技術(shù)的應(yīng)用領(lǐng)域

通過對海量數(shù)據(jù)進行采集、分析與處理,挖掘出潛藏在數(shù)據(jù)海洋里的稀疏但卻彌足珍貴的信息,大數(shù)據(jù)技術(shù)正在對經(jīng)濟建設(shè)、醫(yī)療教育、科學研究等領(lǐng)域產(chǎn)生著革命性的影響,其所帶來的巨大使用價值正逐漸被各行各業(yè)的人們所感知。

2.1 金融領(lǐng)域

大數(shù)據(jù)的火熱應(yīng)用突出體現(xiàn)在金融業(yè),各大互聯(lián)網(wǎng)企業(yè)(谷歌、阿里巴巴等)紛紛掘金大數(shù)據(jù),開創(chuàng)了新的互聯(lián)網(wǎng)金融模式。目前阿里巴巴的互聯(lián)網(wǎng)金融做得如火如荼:基金、小額信貸、余額寶和理財保險產(chǎn)品等等,阿里巴巴之所以能夠做火金融服務(wù),其主要原因就在于阿里的大數(shù)據(jù),阿里巴巴的電商平臺存儲了大量微小企業(yè)客戶及數(shù)以億計的個人用戶行為信息、交易記錄、身份數(shù)據(jù)等,擁有最好、最全的數(shù)據(jù)以及最完整的產(chǎn)業(yè)鏈,做P2P及個人小額信貸,具有最大優(yōu)勢[2]。相反,傳統(tǒng)商業(yè)銀行早期就已推出的小額信貸業(yè)務(wù),開展得并不十分順利。

2.2 市場營銷

今天的數(shù)字化營銷與傳統(tǒng)市場營銷最大的區(qū)別就在于精準定位及個性化。如今企業(yè)與客戶的交流渠道發(fā)生了革命性的變化,從過去的電話及郵件,發(fā)展到今天的博客、論壇、社交媒體賬戶等,從這些五花八門的渠道里跟蹤客戶,將他們的每一次點擊、加好友、收藏、轉(zhuǎn)發(fā)、分享等行為納入到企業(yè)的銷售漏斗中并轉(zhuǎn)化成一項巨大的潛在價值,就是所謂的360度客戶視角。例如谷歌的銷售策略主要著眼于在線的免費軟件,用戶使用這些軟件時,無形中就把個人的喜好、消費習慣等重要信息提交給了谷歌,因此谷歌的產(chǎn)品線越豐富,他們對用戶的理解就越深入,其廣告定位就越精準,廣告所攫取的價值就越高,這是正向的循環(huán)。

2.3 公眾服務(wù)

大數(shù)據(jù)的另一大應(yīng)用領(lǐng)域是公眾服務(wù)。如今數(shù)據(jù)挖掘已經(jīng)能夠預測海嘯、地震、疾病暴發(fā),理解交通模型并改善醫(yī)療和教育等。例如,可采用神經(jīng)網(wǎng)絡(luò)和基于地震時間序列的支持向量機方法來預測地震的大概方位、時間、震級大小等重要信息,為通用地震模擬程序提供關(guān)鍵的數(shù)據(jù),從而對地震進行早期預警,以使防震抗災(zāi)部門可以提前做好應(yīng)對措施,避免大量的人員傷亡及財產(chǎn)損失;再如,將各個省市的城鎮(zhèn)醫(yī)療系統(tǒng)、新農(nóng)村合作醫(yī)療系統(tǒng)等全部整合起來,建立通用的電子病歷等基礎(chǔ)數(shù)據(jù)庫,實現(xiàn)醫(yī)院之間對病患信息的共享,提高患者就醫(yī)效率[3];電力管理系統(tǒng)通過記錄人們的用電行為信息(做飯、照明、取暖等),大數(shù)據(jù)智能電網(wǎng)就能實現(xiàn)優(yōu)化電的生產(chǎn)、分配及電網(wǎng)安全檢測與控制,包括大災(zāi)難預警與處理、供電與電力調(diào)度決策支持和更準確的用電量預測等,并通過數(shù)據(jù)挖掘技術(shù)找出可行的節(jié)能降耗措施,以實現(xiàn)更科學的電力需求分配管理。

2.4 安防領(lǐng)域

安防領(lǐng)域中最重要的就是視頻監(jiān)控系統(tǒng),從早期看得見到現(xiàn)在看得遠、看得清,視頻監(jiān)控是典型的數(shù)據(jù)依賴型業(yè)務(wù),依賴數(shù)據(jù)說話。尤其是高清、超高清監(jiān)控時代的到來,會產(chǎn)生巨量的視頻數(shù)據(jù)。這些巨量視頻監(jiān)控數(shù)據(jù)中,多數(shù)是冗余無用的,只有少數(shù)是關(guān)鍵數(shù)據(jù),如何剔除這些無用數(shù)據(jù),一直是人們研究問題的焦點。在大數(shù)據(jù)技術(shù)的支撐下,通過對巨量視頻數(shù)據(jù)的分析與處理,可實現(xiàn)模糊查詢、精準定位、快速檢索等,能夠?qū)Ω咔灞O(jiān)控視頻畫質(zhì)進行細節(jié)分析,智能挖掘出類似行為及特征的數(shù)據(jù),從而為業(yè)務(wù)分析和事件決策判斷提供精準依據(jù)。

3 大數(shù)據(jù)處理關(guān)鍵技術(shù)

3.1 數(shù)據(jù)備份技術(shù)

在大數(shù)據(jù)時代,如何做好數(shù)據(jù)的安全備份至關(guān)重要。數(shù)據(jù)備份是數(shù)據(jù)容災(zāi)的前提,具體是指當出現(xiàn)某種突發(fā)狀況導致存儲系統(tǒng)中的文件、數(shù)據(jù)、片段丟失或者嚴重損壞時,系統(tǒng)可準確而快速地將數(shù)據(jù)進行恢復的技術(shù)。數(shù)據(jù)容災(zāi)備份是為防止偶發(fā)事件而采取的一種數(shù)據(jù)保護手段,其核心工作是數(shù)據(jù)恢復,根本目的是數(shù)據(jù)資源再利用。

3.2 Hadoop

大數(shù)據(jù)時代對于數(shù)據(jù)分析、管理等都提出了更高層次的要求,傳統(tǒng)的關(guān)系型數(shù)據(jù)庫和數(shù)據(jù)分析處理技術(shù)已經(jīng)不能滿足大數(shù)據(jù)橫向擴展的需求。為了給大數(shù)據(jù)處理、分析提供一個性能更好、可靠性更高的平臺,Apache基金會開發(fā)了一個開源平臺Hadoop[4],該平臺用Java語言編寫,可移植性強,現(xiàn)在Hadoop已經(jīng)發(fā)展為一個包括HDFS(分布式文件系統(tǒng) )、HBase(分布式數(shù)據(jù)庫)等功能模塊在內(nèi)的完整生態(tài)系統(tǒng),成為目前主流的大數(shù)據(jù)應(yīng)用平臺。

3.3 云計算

如果把各種各樣的大數(shù)據(jù)應(yīng)用比作在公路上行駛的各種汽車,那么支撐這些汽車快速運行的高速公路就是云計算,云計算是大數(shù)據(jù)分析處理技術(shù)的核心。正是由于云計算在海量信息存儲、分析及管理方面的技術(shù)支持,大數(shù)據(jù)才有了如此廣闊的用武之地。谷歌的各種大數(shù)據(jù)處理技術(shù)和應(yīng)用平臺都是基于云計算,最典型的就是以UFS(UIT云存儲系統(tǒng))、MapReduce(批處理技術(shù))、BigTable(分布式數(shù)據(jù)庫)為代表的大數(shù)據(jù)處理技術(shù)以及在此基礎(chǔ)上產(chǎn)生的開源數(shù)據(jù)處理平臺Hadoop[5]。

4 大數(shù)據(jù)應(yīng)用帶來的信息安全隱患及應(yīng)對策略

大數(shù)據(jù)時代,海量數(shù)據(jù)通常存儲在大規(guī)模分布式的網(wǎng)絡(luò)節(jié)點中,管理相對分散,而且系統(tǒng)也無法控制用戶進行數(shù)據(jù)交易的場所,因此很難辨別用戶的身份(合法及非法用戶),容易導致不合法用戶篡改或竊取信息;此外,大數(shù)據(jù)存儲系統(tǒng)中包含了海量的個人用戶隱私數(shù)據(jù)及各種行為的記錄信息,如何在大數(shù)據(jù)的挖掘利用中確定一個信息保護和開放的尺度, 是大數(shù)據(jù)面臨的又一難題。為了合理利用大數(shù)據(jù)并有效規(guī)避風險,我們提出以下四點建議:

⑴ 國家出臺相關(guān)政策,加強頂層設(shè)計,保障數(shù)據(jù)存儲安全;

⑵ 增強網(wǎng)絡(luò)安全防護能力,抵御網(wǎng)絡(luò)犯罪,確保網(wǎng)絡(luò)信息安全;

⑶ 提高警惕積極探索,加大個人隱私數(shù)據(jù)保護力度;

⑷ 深化云計算安全領(lǐng)域研究,保障云端數(shù)據(jù)安全。

5 結(jié)束語

在當今信息知識爆炸的時代,大數(shù)據(jù)技術(shù)已經(jīng)被廣泛應(yīng)用于商業(yè)金融、電力醫(yī)療、教育科研等領(lǐng)域。隨著數(shù)據(jù)挖掘技術(shù)的不斷進步,相關(guān)信息行業(yè)競相從規(guī)模龐大、結(jié)構(gòu)復雜的大數(shù)據(jù)海洋中攫取更多有價值的數(shù)據(jù)信息用于分析、解決現(xiàn)實生活中的各種實際問題,從而實現(xiàn)信息技術(shù)的快速健康發(fā)展。本文梳理了大數(shù)據(jù)的基本概念及4V特征,總結(jié)歸納了大數(shù)據(jù)技術(shù)的四大熱門應(yīng)用領(lǐng)域及三大核心處理技術(shù),分析了大數(shù)據(jù)技術(shù)帶來的諸如信息竊取及篡改、個人隱私數(shù)據(jù)泄露等信息安全隱患,并提出了相應(yīng)的解決措施及建議。當然,目前大數(shù)據(jù)技術(shù)的研究尚處在起步階段,還有許多深層次的問題亟待解決,如大數(shù)據(jù)的存儲管理是通過硬件的簡單升級還是通過系統(tǒng)的重新設(shè)計來解決,大數(shù)據(jù)4V特征中起關(guān)鍵作用的是什么,大數(shù)據(jù)技術(shù)的應(yīng)用前景是什么,等等。就目前來看,未來大數(shù)據(jù)技術(shù)的研究之路還很長,需要我們用更加敏銳的洞察力來分析和研究。

參考文獻:

[1] BARWICK H. The "four Vs" of big data. Implementing Information

Infrastructure Symposium[EB/OL]. [2012-10-02]. http://.au/article/396198/iiis_four_vs_big_data/.

[2] 韋雪瓊,楊嘩,史超.大數(shù)據(jù)發(fā)展下的金融市場新生態(tài)[Jl.時代金融,

2012.7:173-174

[3] 張敬誼,佘盼,肖筱華.基于云計算的區(qū)域醫(yī)療信息化服務(wù)平臺的研

究[J].計算機科學,2013.40(10):360-365

第2篇

關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)庫集群技術(shù);分布集群

一、分布集群數(shù)據(jù)庫在大數(shù)據(jù)中的應(yīng)用

目前,許多數(shù)據(jù)增長率很高的大型數(shù)據(jù)庫系統(tǒng)正被用于改善全球人類活動,如通信、社交網(wǎng)絡(luò)、交易、銀行等,分布集群數(shù)據(jù)庫已成為提高數(shù)據(jù)訪問速度的解決方案之一。為多種類型的用戶在多個存儲中組織數(shù)據(jù)訪問,分布集群數(shù)據(jù)庫的問題不僅在于如何管理大量的數(shù)據(jù),而且在于如何組織分布式存儲中的數(shù)據(jù)模式。智能數(shù)據(jù)組織是提高檢索速度、減少磁盤I/O數(shù)量、縮短查詢響應(yīng)時間的最佳方法之一。基于規(guī)則的聚類是提供數(shù)據(jù)庫自動聚類和數(shù)據(jù)存儲模式解釋的解決方案之一,基于規(guī)則的集群通過分析屬性和記錄上的數(shù)據(jù)庫結(jié)構(gòu),將數(shù)據(jù)模式表示為規(guī)則。使用不同規(guī)則池分區(qū)的每個集群,每個規(guī)則與內(nèi)部集群中的規(guī)則相似,與外部集群中的規(guī)則不同。分布集群數(shù)據(jù)庫是一種有向圖結(jié)構(gòu)的進化優(yōu)化技術(shù),用于數(shù)據(jù)分類,在緊湊的程序中具有顯著的表示能力,這源于節(jié)點的可重用性,而節(jié)點本身就是圖形結(jié)構(gòu)的功能。為了實現(xiàn)基于規(guī)則的集群,分布集群數(shù)據(jù)庫可以通過分析記錄來處理數(shù)據(jù)集的規(guī)則提取。分布集群數(shù)據(jù)庫的圖形結(jié)構(gòu)由三種節(jié)點組成:起始節(jié)點、判斷節(jié)點和處理節(jié)點。開始節(jié)點表示節(jié)點轉(zhuǎn)換的開始位置;判斷節(jié)點表示要在數(shù)據(jù)庫中檢查的屬性。分布集群數(shù)據(jù)庫規(guī)則提取的節(jié)點準備包括兩個階段:節(jié)點定義和節(jié)點排列。節(jié)點定義的目的是準備創(chuàng)建規(guī)則,節(jié)點排列是選擇重要的節(jié)點,以便高效地提取大量規(guī)則。節(jié)點排列由以下兩個順序過程執(zhí)行,第一個過程是查找模板規(guī)則,第二個過程是結(jié)合第一個過程中創(chuàng)建的模板生成規(guī)則。提取模板以獲得數(shù)據(jù)集中經(jīng)常發(fā)生的屬性組合。在模板提取過程中,分布集群數(shù)據(jù)庫規(guī)則提取中只使用了少數(shù)幾個屬性,它旨在增加獲得高支持模板的可能性。與沒有模板規(guī)則的方法相比,該節(jié)點排列方法具有更好的聚類結(jié)果,這兩個過程中的規(guī)則生成都是通過圖結(jié)構(gòu)的演化來實現(xiàn)。

二、在線規(guī)則更新系統(tǒng)的應(yīng)用

在線規(guī)則更新系統(tǒng)用于通過分析所有記錄從數(shù)據(jù)集中提取規(guī)則,在大數(shù)據(jù)應(yīng)用中,每個節(jié)點都有自己的節(jié)點號,描述每個節(jié)點號的節(jié)點信息。程序大小取決于節(jié)點的數(shù)量,這會影響程序創(chuàng)建的規(guī)則的數(shù)量。起始節(jié)點表示根據(jù)連接順序執(zhí)行的判斷節(jié)點序列的起始點,開始節(jié)點的多個位置將允許一個人提取各種規(guī)則。判斷節(jié)點表示數(shù)據(jù)集的屬性,顯示屬性索引。在大數(shù)據(jù)應(yīng)用環(huán)節(jié),從每個起始節(jié)點開始的節(jié)點序列用虛線a、b和c表示,節(jié)點序列流動,直到支持判斷節(jié)點的下一個組合不滿足閾值。在節(jié)點序列中,如果具有已出現(xiàn)在上一個節(jié)點序列,將跳過這些節(jié)點。在更新每個集群中的規(guī)則時,重要的是要找到與最新數(shù)據(jù)不匹配的屬性。因此,規(guī)則更新中要考慮的屬性由以下過程確定。當計算集群中每個屬性和數(shù)據(jù)之間的輪廓值時,閾值設(shè)置為0.85,只有輪廓值低于0.85的屬性。將為規(guī)則更新過程中的判斷節(jié)點的屬性選擇。一些數(shù)據(jù)的庫存值和權(quán)重值低于0.85,因此這些值不包括在國民生產(chǎn)總值的規(guī)則更新中。在線規(guī)則更新系統(tǒng)中包含用于更新規(guī)則的屬性,每個集群都具有屬性的主要值,這些屬性是集群質(zhì)量的錨定點,進而影響輪廓值。在線規(guī)則更新系統(tǒng)應(yīng)用中,完成主要的規(guī)則提取過程,這是一個標準的規(guī)則提取,在線規(guī)則更新系統(tǒng)考慮到數(shù)據(jù)集中的所有屬性。執(zhí)行該過程,對初始數(shù)據(jù)集進行初始集群;改善規(guī)則更新過程,僅對輪廓值低于閾值的數(shù)據(jù)執(zhí)行。

三、大規(guī)模并行處理技術(shù)的應(yīng)用

大規(guī)模并行處理技術(shù)主要用于編寫和調(diào)試現(xiàn)代處理器的程序,而不是本地匯編程序,所有的書面代碼都是從C/C++語言翻譯成一個低級的核心匯編程序。在大數(shù)據(jù)應(yīng)用中,會產(chǎn)生很多數(shù)據(jù),在數(shù)據(jù)的分析和計算中,應(yīng)該結(jié)合編程技術(shù),標準語言是面向傳統(tǒng)體系結(jié)構(gòu)的,這就是為什么編譯器不能使用所有可能的DSP體系結(jié)構(gòu)以最佳效率生成代碼的原因。為了獲得一個良好的優(yōu)化代碼,有必要直接在低級匯編語言上編寫代碼。為了簡化編寫程序的任務(wù),可以在某個處理器上使用面向代碼生成器。使用一個專門的匯編代碼生成器,使用并行結(jié)構(gòu)化的編程語言可以獲得比在C/C++中翻譯的應(yīng)用程序更高效的代碼,生成高效的匯編代碼,該代碼積極利用DSP內(nèi)核的并行性和其他特性。低級匯編代碼是由所有編譯器生成的,但是它們與傳統(tǒng)的基于文本的語言(如C/C++)一起工作。大數(shù)據(jù)應(yīng)用環(huán)節(jié),在數(shù)據(jù)分類和計算中,當兩個計算操作在不同的操作單元上執(zhí)行時,才能在一個dsp核心的vliw命令中并行執(zhí)行兩個計算操作。根據(jù)運算執(zhí)行單元的不同,計算運算可分為op1和op2兩種類型。屬于不同組使得在一個命令中執(zhí)行兩個操作成為可能。第一種類型包括由算術(shù)和邏輯單元執(zhí)行的操作,第二種類型包括由乘法器、移位器ms執(zhí)行的操作。在模板中,標記“1”表示第一種類型的標識,標記“2”分別表示第二種類型。如果兩個操作具有不同的類型并且沒有數(shù)據(jù)依賴關(guān)系,則可以進行并行化,DSP核心的并行性是通過在一個核心中存在多個操作單元來保證的。在大數(shù)據(jù)計算和分析中,如果有足夠多的通用寄存器來執(zhí)行這兩個操作,并且它們可以并行執(zhí)行,代碼就會并行化,提升數(shù)據(jù)計算的效率。

第3篇

本文首先對大數(shù)據(jù)時代的特點進行了介紹,其次對常用的數(shù)據(jù)挖掘方法進行了闡述,最后提出了展望。

【關(guān)鍵詞】大數(shù)據(jù) 數(shù)據(jù)挖掘 分類 聚類

大數(shù)據(jù)(Big Data),也稱為海量數(shù)據(jù),是隨著計算機技術(shù)及互聯(lián)網(wǎng)技術(shù)的高速發(fā)展而產(chǎn)生的獨特數(shù)據(jù)現(xiàn)象。現(xiàn)代社會正以不可想象的速度產(chǎn)生大量數(shù)據(jù),如網(wǎng)絡(luò)訪問,微博微信,視頻圖片,手機通信,網(wǎng)上購物……等等都在不斷產(chǎn)生大量的數(shù)據(jù)。如何更好的利用和分析產(chǎn)生的數(shù)據(jù),從而為人類使用,這是非常重要的科學研究。在大數(shù)據(jù)時代,更好的利用云計算以及數(shù)據(jù)挖掘,顯得尤為重要。

1 大數(shù)據(jù)的概念

大數(shù)據(jù),是指無法在一定時間內(nèi)用常規(guī)機器和軟硬件對其進行感知、獲取、管理、處理和服務(wù)的數(shù)據(jù)集合。IBM將大數(shù)據(jù)的特點總結(jié)為三個V,即大量化(Volume)、多樣化(Variety)和快速化(Velocity)。

即產(chǎn)生的數(shù)據(jù)容量大。數(shù)據(jù)主要來源如:E-mail、搜索引擎的搜索、圖片、音頻、視頻、社交網(wǎng)站、微博微信、各種應(yīng)用軟件和app、電子商務(wù)以及電子通信等等。在實際生活中,電子商務(wù)的購物平臺數(shù)量和種類越來越多,社交網(wǎng)站的典型facebook的數(shù)據(jù)量大的驚人,以PB計量都不夠。數(shù)據(jù)存儲的單位不僅僅是MB、GB等,而是使用了表示更大容量的TB、PB、EB、ZB和YB等,每個單位的關(guān)系為后者是前者的1024倍,如1PB=1024TB。同時大數(shù)據(jù)的增長速度是越來越快,如手機相機的像素數(shù)隨著新款手機的出現(xiàn)而成倍的增長。

1.2 多樣化

從數(shù)據(jù)組織形式的角度將數(shù)據(jù)分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù),具有一定的規(guī)律,可以使用二維表結(jié)構(gòu)來表示,并存儲在數(shù)據(jù)庫中,如高校的教務(wù)管理系統(tǒng)的數(shù)據(jù)、銀行交易產(chǎn)生的數(shù)據(jù)。而非結(jié)構(gòu)化數(shù)據(jù)是無法通過預先定義的數(shù)據(jù)模型表達并存儲在數(shù)據(jù)庫中的數(shù)據(jù),如聲音、視頻和圖片等等。當前非結(jié)構(gòu)化數(shù)據(jù)的增長速度遠遠超過結(jié)構(gòu)化數(shù)據(jù)。

1.3 快速化

在當前商業(yè)競爭激烈的時代,對實時的數(shù)據(jù)進行分析和處理,挖掘有用的數(shù)據(jù)信息,并用于商業(yè)運作,對于企業(yè)和組織來說非常重要。如現(xiàn)在網(wǎng)絡(luò)購物會依據(jù)多數(shù)人的購物組合,分析出大部分人在購買一件物品的同時會同時購買其他的物品,從而在購物選擇時給予方便,提高網(wǎng)購的效率,提高效益。

隨著互聯(lián)網(wǎng)技術(shù)和計算機技術(shù)的快速發(fā)展,在產(chǎn)生大數(shù)據(jù)的同時,人們要能夠?qū)@些數(shù)據(jù)加以利用,得到有用的信息,才是最重要的。為了讓海量規(guī)模的數(shù)據(jù)能夠真正發(fā)揮巨大的作用,需要將這些數(shù)據(jù)轉(zhuǎn)換為有用的信息和知識,即從傳統(tǒng)的數(shù)據(jù)統(tǒng)計向數(shù)據(jù)挖掘和分析進行轉(zhuǎn)換。比如沃爾瑪超市能夠從男人購物時買啤酒的同時會購買小孩的紙尿褲這種關(guān)聯(lián),并在實際物品擺放時將這兩種物品放置在一起,方便用戶購物。

2 數(shù)據(jù)挖掘

隨著信息技術(shù)應(yīng)用的廣泛,大量的數(shù)據(jù)產(chǎn)生并存儲各個領(lǐng)域的信息系統(tǒng)中,數(shù)據(jù)呈現(xiàn)了爆炸式的增長。數(shù)據(jù)挖掘在這種“數(shù)據(jù)爆炸,知識匱乏”的情況下出現(xiàn)的。數(shù)據(jù)挖掘(Data mining)是一個多學科交叉的研究領(lǐng)域,它融合了數(shù)據(jù)庫技術(shù)、機器學習、人工智能、知識工程和統(tǒng)計學等學科領(lǐng)域。數(shù)據(jù)挖掘在很多領(lǐng)域尤其是電信、銀行、交通、保險和零售等商業(yè)領(lǐng)域得到廣泛的應(yīng)用。

數(shù)據(jù)挖掘也稱為從數(shù)據(jù)中發(fā)現(xiàn)知識,具體來講就是從大規(guī)模海量數(shù)據(jù)中抽取人們所感興趣的非平凡的、隱含的、事先未知的和具有潛在用途的模式或者知識。

3 數(shù)據(jù)挖掘的主要研究內(nèi)容

數(shù)據(jù)挖掘的任務(wù)是發(fā)現(xiàn)隱藏在數(shù)據(jù)中的模式,其模式分為兩大類:描述型模式和預測型模式。描述型模式是對當前數(shù)據(jù)中存在的事實做規(guī)范描述,刻畫當前數(shù)據(jù)的一般特性。預測型模式則是以時間為主要關(guān)鍵參數(shù),對于時間序列型數(shù)據(jù),根據(jù)其歷史和當前的值去預測其未來的值。常使用的算法有:

3.1 聚類分析

聚類是將數(shù)據(jù)劃分成群組的過程,根據(jù)數(shù)量本身的自然分布性質(zhì),數(shù)據(jù)變量之間存在的程度不同的相似性(親疏關(guān)系),按照一定的準則將最相似的數(shù)據(jù)聚集成簇。主要包括劃分聚類算法,層次聚類算法和密度聚類算法等。經(jīng)典算法有K-Means、K-Medoids。

3.2 特性選擇

特性選擇是指為特定的應(yīng)用在不失去數(shù)據(jù)原有價值的基礎(chǔ)上選擇最小的屬性子集,去除不相關(guān)和冗余的屬性。特性選擇用于在建立分類模型前,或者預測模型之前,對原始數(shù)據(jù)庫進行預處理。常用的算法有最小描述長度法。

3.3 特征抽取

特征抽取式數(shù)據(jù)挖掘技術(shù)的常用方法,是一個屬性降維的過程,實際為變換屬性,經(jīng)變換了的屬性或者特性,是原來屬性集的線性合并,出現(xiàn)更小更精的一組屬性。常用算法如主成分分析法、因子分析法和非負矩陣因子法等。

3.4 關(guān)聯(lián)規(guī)則

關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘領(lǐng)域中研究最為廣泛和和活躍的方法之一。最初的研究動機是針對購物籃分析問題提出的,目的是為了解決發(fā)現(xiàn)交易數(shù)據(jù)庫中不同商品之間的聯(lián)系規(guī)則。關(guān)聯(lián)規(guī)則是指大量數(shù)據(jù)中項集之間的有趣關(guān)聯(lián)或相關(guān)關(guān)系。常用的算法有Apriori算法。

3.5 分類和預測

分類是應(yīng)用已知的一些屬性數(shù)據(jù)去推測一個未知的離散型的屬性數(shù)據(jù),而這個被推測的屬性數(shù)據(jù)的可取值是預先定義的。要很好的實現(xiàn)推測,需要事先定義一個分類模型。可用于分類的算法有決策樹、樸素貝葉斯分類、神經(jīng)網(wǎng)絡(luò)、logistic回歸和支持向量機等。

4 結(jié)論

隨著時代的進步,數(shù)據(jù)也發(fā)生變化,具有各種各樣的復雜形式。很多研究機構(gòu)和個人在對結(jié)構(gòu)化數(shù)據(jù)進行數(shù)據(jù)挖掘的同時,也展開了對空間數(shù)據(jù)、多媒體數(shù)據(jù)、時序數(shù)據(jù)和序列數(shù)據(jù)、文本和Web等數(shù)據(jù)進行數(shù)據(jù)挖掘和分析。同時大數(shù)據(jù)的發(fā)展促進了云計算的產(chǎn)生,基于云計算的數(shù)據(jù)挖掘也在迅速崛起。

參考文獻

[1]劉軍.大數(shù)據(jù)處理[M].北京:人民郵電出版社,2013(09).

[2]王元卓等.網(wǎng)絡(luò)大數(shù)據(jù):現(xiàn)狀與展望[J].計算機學報,2013(06).

[3]申彥.大規(guī)模數(shù)據(jù)集高效數(shù)據(jù)挖掘算法研究[D].江蘇大學,2013(06).

[4](加)洪松林.數(shù)據(jù)挖掘技術(shù)與工程實踐[M].北京:機械工業(yè)出版社,2014.

[5]賀瑤等.基于云計算的海量數(shù)據(jù)挖掘研究[J].計算機技術(shù)與發(fā)展,2013(02).

作者簡介

許凡(1996-),男,江蘇省南京市人。現(xiàn)就讀三江學院計算機科學與工程學院計算機軟件工程專業(yè)本科。

孫勤紅(1979-),女,山東省臨沂市人。碩士研究生學歷。現(xiàn)為三江學院計算機科學與工程學院講師、指導教師。主要研究領(lǐng)域為數(shù)據(jù)挖掘。

第4篇

1、大數(shù)據(jù)技術(shù)是指大數(shù)據(jù)的應(yīng)用技術(shù),涵蓋各類大數(shù)據(jù)平臺、大數(shù)據(jù)指數(shù)體系等大數(shù)據(jù)應(yīng)用技術(shù)。

2、大數(shù)據(jù)是指無法在一定時間范圍內(nèi)用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合。是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。

3、隨著云時代的來臨,大數(shù)據(jù)也吸引了越來越多的關(guān)注。分析師團隊認為,大數(shù)據(jù)通常用來形容一個公司創(chuàng)造的大量非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)在下載到關(guān)系型數(shù)據(jù)庫用于分析時會花費過多時間和金錢。

4、大數(shù)據(jù)分析常和云計算聯(lián)系到一起,因為實時的大型數(shù)據(jù)集分析需要像MapReduce一樣的框架來向數(shù)十、數(shù)百或甚至數(shù)千的電腦分配工作。

(來源:文章屋網(wǎng) )

第5篇

“大數(shù)據(jù)時代的預言家”維克托近日在北京面對一萬多名技術(shù)信徒再次預言。

顯然,這三大經(jīng)典的技術(shù)信條在大數(shù)據(jù)時代面臨動搖,

技術(shù)信徒的思維模式也即將發(fā)生顛覆。

那么,大數(shù)據(jù)對技術(shù)信徒意味著什么?

他們又將如何面對這一顛覆性的變革?

“技術(shù)匯成一條大河,一波推動另外一波。”IBM中國開發(fā)中心首席技術(shù)官兼新技術(shù)研發(fā)中心總經(jīng)理毛新生帶著對技術(shù)的滿腔癡迷這樣形容道。

一波未平一波又起,移動、社交商務(wù)、云計算、大數(shù)據(jù)等先后涌現(xiàn)的新趨勢正在融合成一股巨大的潮流,將所有的行業(yè)IT化,進而推動商業(yè)和社會的演進。這也就意味著“科技是第一生產(chǎn)力”在當下有了更深層次的涵義——“IBM認為,在由新一代技術(shù)組成的智慧運算時代,中國的企業(yè)家們需要更為戰(zhàn)略地思考信息科技的定位,將其運用到自身的變革轉(zhuǎn)型之中。” IBM全球副總裁兼大中華區(qū)軟件集團總經(jīng)理胡世忠為企業(yè)新發(fā)展出謀獻策。

由2012年的“軟件技術(shù)峰會”改名為2013年的“技術(shù)峰會”,在這么一個盛會上,IBM試圖展示的內(nèi)容涵蓋范圍更為廣泛——移動應(yīng)用、大數(shù)據(jù)、云計算、DevOps軟件持續(xù)交付、應(yīng)用整合、社交商務(wù)、專家集成系統(tǒng)等熱議話題,上百場技術(shù)主題演講、28場分論壇、22場動手實驗室和80個未來產(chǎn)品的現(xiàn)場演示,再加上被譽為“大數(shù)據(jù)時代的預言家”的《大數(shù)據(jù)時代》作者維克托·邁爾-舍恩伯格以及數(shù)十位來自IBM的院士、杰出工程師、相關(guān)領(lǐng)域的全球首席技術(shù)官和首席架構(gòu)師的現(xiàn)場分享,IBM 2013技術(shù)峰會再次成為技術(shù)精英們關(guān)注的焦點。 大數(shù)據(jù)的新信條

《大數(shù)據(jù)時代》作者、牛津大學網(wǎng)絡(luò)學院互聯(lián)網(wǎng)治理與監(jiān)管專業(yè)教授維克托·邁爾-舍恩伯格的出現(xiàn)著實讓場內(nèi)數(shù)以萬計的技術(shù)信徒激動了一把。作為深刻洞察大數(shù)據(jù)給人類生活、工作和思維帶來的大變革的第一人,維克托以價格預測網(wǎng)站的例子作為開場白,論證了大數(shù)據(jù)已經(jīng)悄然在大眾的身邊出現(xiàn)并給他們的生活帶來改變。

“全體性、混雜性和相關(guān)性是大數(shù)據(jù)的三個主要特點,而且這三個特點是互相加強的。”維克托歸納出了大數(shù)據(jù)對應(yīng)的思維變革。收集和分析更多的數(shù)據(jù)才能獲取足夠的數(shù)據(jù)隱含的細節(jié),這些細節(jié)恰恰是隨機抽樣所錯失的。“干凈”的、高質(zhì)量的數(shù)據(jù)不再是標的,大數(shù)據(jù)需要我們摒棄對宏觀上精確性的追求,轉(zhuǎn)而獲得微觀上的準確性,即接受混雜的數(shù)據(jù)。最重要的是,人們不再沉迷于追尋數(shù)據(jù)之間的因果關(guān)系,即不再糾結(jié)于為什么,而是直接獲得“是什么”的答案,并通過應(yīng)用相關(guān)關(guān)系,更好地捕捉現(xiàn)在和預測未來——抽樣因錯失細節(jié)得不償失,盲目追求精確性已經(jīng)過時,執(zhí)著于因果關(guān)系喪失機遇。

如何在大數(shù)據(jù)時代生存?維克托指出了兩個關(guān)鍵點:一是意識到技術(shù)或者規(guī)模并不是成功的充分條件。遺忘規(guī)模經(jīng)濟,因為它的效益會逐漸淡化。20年前,一個公司只有擁有上十萬臺的服務(wù)器才能提供搜索服務(wù),但在大數(shù)據(jù)時代,由于云計算的便利性,不擁有實體服務(wù)器的公司,如前文提到的,它只有30個員工,但它有能力為其上10億的用戶提供數(shù)據(jù)分析。二是為了在大數(shù)據(jù)時代獲得勝利,大數(shù)據(jù)的思維模式不可或缺,工具的力量不容小視,分析能力是必要的。藍色被谷歌選為搜索窗口的色彩,但藍色實際上有51種,而且這51種藍色人依靠裸眼無法明確區(qū)分,卻能在心理層面給人帶來不同的感受。經(jīng)過大數(shù)據(jù)分析,谷歌發(fā)現(xiàn)原本由人工選出來的藍色會導致谷歌損失200億~300億美元的收入,因為這一種藍色并不最具備誘惑力,無法激起人們點擊的欲望。

大數(shù)據(jù)的力量需要具備大數(shù)據(jù)的思維模式,并有效利用大數(shù)據(jù)的工具去發(fā)掘。IBM杰出工程師、InfoSphere Stream高級開發(fā)經(jīng)理James R Giles闡述了IBM對大數(shù)據(jù)的看法:“我們正一步步走到了一個新紀元——大數(shù)據(jù)時代。如同對待自然資源一樣,我們需要開掘、轉(zhuǎn)變、銷售、保護大數(shù)據(jù)資源;不同的是,大數(shù)據(jù)資源是無窮無盡的,我們不能任由大數(shù)據(jù)淹沒自己,而應(yīng)該在獲得洞察需求的驅(qū)使下獲得價值。”

大數(shù)據(jù)的類型廣義而言有移動數(shù)據(jù)和靜態(tài)數(shù)據(jù),還有結(jié)構(gòu)性數(shù)據(jù)和非結(jié)構(gòu)性數(shù)據(jù),這對應(yīng)著不同的處理方式。“技術(shù)人員的責任是,能夠去管理這些數(shù)據(jù),能夠理解這些從不同的數(shù)據(jù)源而來、不同類型的數(shù)據(jù),能夠分析這些數(shù)據(jù),得出結(jié)論,讓其提供決策支持,為企業(yè)擁抱新的大數(shù)據(jù)時代提供技術(shù)支撐,以保證管理、安全、商業(yè)的持續(xù)性。” James R Giles號召技術(shù)人員積極行動,以大數(shù)據(jù)的思維模式展現(xiàn)技術(shù)的價值和魅力。

找到內(nèi)在聯(lián)系

技術(shù)的趨勢總是融合,也只有有機融合才能形成合力,發(fā)揮更大的威力,而實現(xiàn)這一合力的前提是明確各個趨勢之間的內(nèi)在聯(lián)系。

“實際上,社交商務(wù)、移動、大數(shù)據(jù)、云計算是一體化的。”毛新生建議技術(shù)人員用一個全面的、融合的范式來沉著看待和應(yīng)對紛繁的熱點技術(shù),理解這些熱點會如何影響整個IT的走向,進而明晰IT如何可以很好地支持各行各業(yè)的業(yè)務(wù)轉(zhuǎn)型和創(chuàng)新,“讓每個行業(yè)都可以從新的技術(shù)轉(zhuǎn)型當中獲得足夠的原動力”。

從貼近最終用戶的角度來看,移動技術(shù)、社交技術(shù)改變了商業(yè)機構(gòu)與其雇員、客戶進行互動的方式。“就我個人的經(jīng)歷而言,航空公司的移動應(yīng)用可以提供更好的客戶交互。我是西北航空公司的粉絲,因為它家的移動應(yīng)用服務(wù)很貼心,比如查詢航班信息、根據(jù)我的喜好預留位置、定制化地進行社交推薦等。”毛新生以一個普通消費者的感受證明了企業(yè)通過移動應(yīng)用收集并利用用戶行為數(shù)據(jù)所帶來的服務(wù)質(zhì)量的提升。

移動催生了“一種嶄新的服務(wù)交付端點”,即為用戶提供了更多樣化的服務(wù)體驗點,讓用戶隨時隨地可以利用碎片化的時間去獲得業(yè)務(wù)服務(wù),也為企業(yè)帶來了全新的服務(wù)交付渠道。移動這個渠道提供了更為豐富的全樣性數(shù)據(jù),在此基礎(chǔ)上,大數(shù)據(jù)分析就更可信。“移動所具備的碎片化特點會帶來更大量的用戶行為信息。當把所有的人的行為結(jié)合在一起,就可以做群體的社會性分析。社會性分析會得到比較準確的群體特征。而群體特征足以獲得很好的交叉銷售與線上銷售機會。”毛新生認為移動與大數(shù)據(jù)結(jié)合給企業(yè)提供了新的商業(yè)機會。

移動的設(shè)備無處不在。人、汽車,甚至建筑物、道路、橋梁,它們無時無刻不在提供數(shù)據(jù),這就是新的數(shù)據(jù)源,是它們引領(lǐng)我們來到維克托所描述的更為廣闊的大數(shù)據(jù)世界。

移動和社交商務(wù)的便捷性使得企業(yè)的整個業(yè)務(wù)流程變得非常自動化,用戶可以享受自助服務(wù),對應(yīng)到企業(yè)端就意味著業(yè)務(wù)流程對前端的需求要反應(yīng)得更為迅速,也意味著各個業(yè)務(wù)系統(tǒng)之間無縫連接,否則沒有辦法支撐以最終用戶為中心的服務(wù)體驗,但跨部門和跨應(yīng)用的整合實屬不易。進一步延伸開來,對用戶體驗的追求是無止境的,合作伙伴的API和服務(wù)可以作為補充,這即是“跨企業(yè)邊界”的行為。這種行為必然導致大規(guī)模的用戶訪問。這些整合和外部拓展都需要云計算提供靈活有效的基礎(chǔ)。沒有云計算,移動前端的體驗、大數(shù)據(jù)分析的效果都會大打折扣。“云的基礎(chǔ)設(shè)施使大規(guī)模互動、大規(guī)模數(shù)據(jù)處理、大規(guī)模應(yīng)用可以更好地服務(wù)我們。”毛新生指出。

環(huán)境變化加速,競爭更加激烈,要求企業(yè)的反應(yīng)速度越來越快,應(yīng)用以及端到端解決方案快速改變。毛新生饒有興致地介紹道:“這個改變有多快呢?我們有的客戶嘗試以天為周期去改變,這意味著應(yīng)用和業(yè)務(wù)流程的設(shè)計、開發(fā)、部署、測試、維護的整個過程要大大加快,也就是所謂的DevOps。只有把敏捷的開發(fā)和運維結(jié)合起來,生命周期變得以天為周期,才能響應(yīng)新的商業(yè)環(huán)境。”

“移動、云計算、大數(shù)據(jù)、社交商務(wù)之間的緊密聯(lián)系讓我們應(yīng)該以整體的眼光來審視它們。”胡世忠堅信,它們的組合可以創(chuàng)造可持續(xù)的競爭優(yōu)勢,可以迸發(fā)變革的力量。

至于一個企業(yè)應(yīng)該從哪里下手來實現(xiàn)這一幅宏偉藍圖?毛新生給出的答案是:“每一個企業(yè),因為它所處的行業(yè)或者特定的情況而擁有不同的切入點,有一些企業(yè)需要從移動開始,有一些企業(yè)需要從云計算開始,有一些企業(yè)需要從大數(shù)據(jù)開始,但是它們是不可分割的整體,只有綜合地運用它們,找到適合自己的切入點,一步一步腳踏實地,才能掌握先機,打造競爭力。在這個過程中,要擁有正確的思維,改變既有思維,理解趨勢,制定策略。”

例如,銀行、保險、零售業(yè)這一類和最終消費者打交道的服務(wù)業(yè)在很大概率上需要先從移動、社交商務(wù)入手,從而使其有機會改善和用戶交互的過程。而以數(shù)據(jù)為生的行業(yè)會琢磨如何將自己的內(nèi)容和資源數(shù)據(jù)增值,而傳統(tǒng)的運營基礎(chǔ)設(shè)施的重資產(chǎn)企業(yè),會追求將資產(chǎn)數(shù)字化,得到數(shù)據(jù)并進行分析,以優(yōu)化資產(chǎn)的生命周期管理來預防性地降低維護成本,這些企業(yè)是以大數(shù)據(jù)作為切入點的。還有一些企業(yè)希望跨行業(yè)整合進行業(yè)務(wù)創(chuàng)新,背后牽扯到它們自身現(xiàn)有的業(yè)務(wù)模式和新業(yè)務(wù)模式的整合,這種情況下需要以云的方式構(gòu)建新的應(yīng)用、服務(wù)、商業(yè)流程。

毛新生認為切入點不同只是表象,每一種場景到最后都是綜合性的運用,要把這幾個技術(shù)綜合運用起來。從前端開始,首先是利用移動,并借助社交渠道交流,很快這些渠道會得到新的數(shù)據(jù),這些新的數(shù)據(jù)和原有的交易數(shù)據(jù)和積累的數(shù)據(jù)結(jié)合起來做進一步的數(shù)據(jù)分析,這就是大數(shù)據(jù)分析。大數(shù)據(jù)分析以后可以做社交推薦、關(guān)聯(lián)推薦了。隨后,能不能跨界再實現(xiàn)更廣泛的銷售?跟別的價值鏈上的合作伙伴合作,那么引入云是解決之道。數(shù)據(jù)量增大,用戶數(shù)增多,云的基礎(chǔ)設(shè)施可以讓成本更合理。“所以說,到最后都是綜合性的應(yīng)用,盡管起點不一樣”,毛新生說。

對技術(shù)人員而言,IT就是交付業(yè)務(wù)流程的基礎(chǔ),是信息化的工具。它的目標無非是優(yōu)化業(yè)務(wù)流程或者創(chuàng)新業(yè)務(wù)流程。創(chuàng)新到達一定程度后,業(yè)務(wù)流程的量變會導致質(zhì)變。“這就解釋了為何全球越來越多的CEO將技術(shù)視為驅(qū)動企業(yè)發(fā)展的首要因素。” IBM軟件集團大中華區(qū)中間件集團總經(jīng)理李紅焰強調(diào),技術(shù)人員有能力,也有責任將“看不見的技術(shù)轉(zhuǎn)變?yōu)榭吹靡姷南硎堋薄?/p>

移動開發(fā)的轉(zhuǎn)變

在大數(shù)據(jù)的帶領(lǐng)下我們進入移動時代,企業(yè)有了新機遇,技術(shù)人員卻有了新挑戰(zhàn)。為什么移動開發(fā)和之前不一樣呢?有什么不一樣呢?這成為了縈繞在技術(shù)人員腦子里最主要的兩個問題。

IBM杰出工程師及IBM移動平臺首席架構(gòu)師Greg Truty解答了這兩個疑問。他認為,很多企業(yè)現(xiàn)在所做的事情與在移動的狀態(tài)下做的事情是不一樣的,移動狀態(tài)下的任務(wù)和規(guī)劃更具有戰(zhàn)略性。移動應(yīng)用是在不穩(wěn)定的網(wǎng)絡(luò)上運行的,所占用的資源更少。用戶在移動設(shè)備上和非移動設(shè)備上的體驗是完全不一樣的,他們會希望在不穩(wěn)定的網(wǎng)絡(luò)上仍然能夠獲得良好的體驗。企業(yè)現(xiàn)在需要思考的是,怎么樣把大量數(shù)據(jù)、大量體驗變成一些有意義的體驗。同時,移動管理的需求也不一樣了,開發(fā)的特性也不一樣了。比如對一個企業(yè)來說,移動開發(fā)周期更短,有更多設(shè)備需要支持,有更多開發(fā)方法可供選擇,也有更多的工具和庫可供選擇,這時候企業(yè)就需要仔細斟酌,哪些開發(fā)方法和工具是自己需要的。

自然而然,對于設(shè)備的管理也有了變化,因為應(yīng)用變化了。“一直以來,客戶端服務(wù)器的應(yīng)用架構(gòu)是企業(yè)在使用的。你需要協(xié)調(diào)在服務(wù)器端的服務(wù)以及在客戶端的服務(wù),挑戰(zhàn)非常大。你不可能強迫客戶運行你的應(yīng)用,而必須能協(xié)調(diào)和兼容原有的系統(tǒng)。這是非常關(guān)鍵的一點。” Greg Truty強調(diào)了設(shè)備管理的重要性。

此外,產(chǎn)品種類也非常多,新應(yīng)用層出不窮。Greg Truty 認為多而新的局面下更需要冷靜處理:“我們會把應(yīng)用和數(shù)據(jù)結(jié)合起來,移動和社交網(wǎng)絡(luò)結(jié)合起來,這樣做會創(chuàng)造一些新的得到數(shù)據(jù)的機會,需要進行管理。新的機會、新的技術(shù),給整個IT組織帶來了更多的挑戰(zhàn)。”

第6篇

關(guān)鍵詞:云計算;云存儲

1 什么是云存儲

云存儲是在云計算概念上延伸和發(fā)展的一個新的概念,是指通過集群應(yīng)用、網(wǎng)絡(luò)技術(shù)或分布式文件系統(tǒng)等功能,將網(wǎng)絡(luò)中大量各種不同類型的存儲設(shè)備通過應(yīng)用軟件集合起來協(xié)同工作,共同對外提供數(shù)據(jù)存儲和業(yè)務(wù)訪問功能的一個系統(tǒng)。當云計算系統(tǒng)運算和處理的核心是大量數(shù)據(jù)的存儲管理時,云計算系統(tǒng)中就需要配置大量的存儲設(shè)備,那么,云計算系統(tǒng)就轉(zhuǎn)變成為一個云存儲系統(tǒng),所以云存儲是一個以數(shù)據(jù)存儲和管理為核心的云計算系統(tǒng)。

2 云存儲分類

按照服務(wù)對象可以把云存儲分類如下:

(1) 公共云存儲。公共云存儲可以以低成本提供大量的文件存儲。供應(yīng)商可以保持每個客戶的存儲、應(yīng)用都是獨立的、私有的,公共云存儲可以劃出一部分來用作私有云存儲。

(2) 私有云存儲。通過私有云存儲,一個公司可以擁有或控制基礎(chǔ)架構(gòu),以及應(yīng)用的部署。私有云存儲可以部署在企業(yè)數(shù)據(jù)中心或相同地點的設(shè)施上。私有云可以由公司自己的IT部門管理,也可以由服務(wù)供應(yīng)商管理。

相比傳統(tǒng)存儲模式,云存儲的租購模式顯得更加靈活方便,其實,企業(yè)自己構(gòu)建一個數(shù)據(jù)中心需要購買硬件等必備設(shè)施及復雜多變的維護管理。

(3) 混合云存儲。這種云存儲把公共云和私有云結(jié)合在一起。主要用于按客戶要求的訪問,特別是需要臨時配置容量的時候。

從公共云上劃出一部分容量配置一種私有云,可以幫助公司面對迅速增長的負載波動或高峰時很有幫助。

盡管如此,混合云存儲帶來了跨公共云和私有云分配應(yīng)用的復雜性。

3 云存儲具有的優(yōu)勢

作為大數(shù)據(jù)時代的云存儲技術(shù),與傳統(tǒng)存儲技術(shù)相比,具有如下明顯優(yōu)勢:

(1) 靈活方便。對于中小企業(yè)或個人用戶,完全可以將數(shù)據(jù)的創(chuàng)建與維護委托給云服務(wù)提供商,而只是租用云服務(wù)提供商的服務(wù)即可,用戶不必考慮存儲容量、存儲設(shè)備類型、數(shù)據(jù)存儲位置,以及更多的關(guān)于數(shù)據(jù)的可用性、可靠性和安全性等繁雜的技術(shù)層面。避免了購買硬件設(shè)備及技術(shù)維護而投入的精力,節(jié)省下來的大量時間可以用于更多的工作業(yè)務(wù)發(fā)展。

(2) 成本低廉。就目前來說,企業(yè)在數(shù)據(jù)存儲上所付出的成本相當大,因為企業(yè)要建立一套存儲系統(tǒng)不僅需要購買硬件等基礎(chǔ)設(shè)施,同時,系統(tǒng)維護還需要專門的人員,企業(yè)的存儲空間及管理費用都面臨巨大挑戰(zhàn),企業(yè)必須更新或增加各種數(shù)據(jù)存儲和管理設(shè)備,而且還要負擔逐漸高漲的管理成本。

為了減少這種成本壓力,好多企業(yè)將大部分數(shù)據(jù)遷移至云存儲上,所有的升級、維護等管理任務(wù)均由云存儲服務(wù)提供商來完成。因此,可以將數(shù)據(jù)存儲與管理的成本降到最低,同時,還能獲得最優(yōu)良的數(shù)據(jù)存儲服務(wù)。

(3) 量身定制。隨著大數(shù)據(jù)的到來,傳統(tǒng)的存儲模式已不再適用企業(yè)的數(shù)據(jù)存儲,企業(yè)急需一種新的存儲方式來滿足企業(yè)數(shù)據(jù)存儲的個性化需求。

私有云即可滿足企業(yè)這一個性化需求。云服務(wù)提供商可以專門為企業(yè)客戶提供一種量身定制的云存儲服務(wù)解決方案,也可以由企業(yè)自己的IT機構(gòu)部署一套私有云服務(wù)架構(gòu)。企業(yè)不僅可以得到最優(yōu)質(zhì)的個性化服務(wù),還能在一定程度上降低安全風險。

4 云存儲發(fā)展需要考慮的主要問題

由于云存儲具有傳統(tǒng)數(shù)據(jù)存儲模式不具備的諸多優(yōu)勢,越來越多的中小企業(yè)正在將自己的數(shù)據(jù)中心逐漸轉(zhuǎn)移至云端。而大型企業(yè)除了租用公共云存儲服務(wù)以外,也開始著手建立自己的私有云存儲數(shù)據(jù)中心。但是,云存儲仍處于快速發(fā)展階段,云存儲要想得到廣泛應(yīng)用,還有待進一步完善和改進。

(1) 安全問題。數(shù)據(jù)存儲在云計算中心,安全問題始終是用戶最為關(guān)注的問題。

用戶的敏感信息和個人隱私數(shù)據(jù)如何才能保證其具有安全性和私密性,云存儲服務(wù)提供商應(yīng)根據(jù)分布式文件中可能存在的安全威脅和安全需求,來制定相應(yīng)的安全策略,以便在計算機中實施相應(yīng)的保護機制,確保用戶數(shù)據(jù)避免丟失或被竊。

(2) 可靠性問題。可靠性是數(shù)據(jù)存儲系統(tǒng)最基本也是最關(guān)鍵的一項指標。

數(shù)據(jù)的備份復制是云存儲管理中心必須考慮的問題,而且數(shù)據(jù)的備份復制可以大大提高云存儲系統(tǒng)的可靠性和性能,同時能夠增強系統(tǒng)的容錯能力。如果云存儲數(shù)據(jù)遭到破壞,云存儲服務(wù)提供商應(yīng)該能夠快速全面地恢復數(shù)據(jù),確保用戶數(shù)據(jù)的完整性。

5 結(jié)束語

云存儲不僅僅是存儲,更多的是應(yīng)用,是云計算時代的一場存儲革命,隨著云存儲的安全性、可靠性、實用性等存儲技術(shù)的不斷成熟,人們對存儲技術(shù)的認識不斷提高,云存儲成本的不斷降低,一定會形成一個安全可靠、實用快速的云數(shù)據(jù)存儲與訪問系統(tǒng)。云存儲必將廣泛應(yīng)用于各行各業(yè),云存儲必然是未來數(shù)據(jù)存儲的發(fā)展趨勢。

參考文獻

[1]互動百科./wiki/云存儲.

[2]百度百科. / view /

第7篇

關(guān)鍵詞:大數(shù)據(jù);計算機;數(shù)據(jù)備份;安全保障

中圖分類號:TP311

文獻標識碼:A

文章編號:1009-3044(2017)10-0025-01

數(shù)據(jù)信息作為時代的信息管理標志其安全性必須收到更大的重視,數(shù)據(jù)信息的安全存儲系統(tǒng)尤為重要,防止信息數(shù)據(jù)的丟失的管理備份系統(tǒng)更為重要。因此能夠?qū)?shù)據(jù)信息妥善管理,保證其正常工作的技術(shù)相當重要,但當數(shù)據(jù)真正丟失或不可避免地出現(xiàn)問題以后能夠盡快地將其找回或者是在有效的時間內(nèi)將其完整地恢復,以確保整個計算機系統(tǒng)能夠正常工作的技術(shù)更是必不可少的。

1.數(shù)據(jù)備份概念及其特點

數(shù)據(jù)備份指的是將計算機系統(tǒng)的所有數(shù)據(jù)或者是部分重要數(shù)據(jù)借助某一種或多種手段從計算機一個系統(tǒng)復制到另一個系統(tǒng),或者是從本地計算機存儲系統(tǒng)中復制到其他的存儲系統(tǒng)中。其目的就是保障系統(tǒng)可用或者是數(shù)據(jù)安全。防止由于人為的失誤或者是系統(tǒng)故障問題亦或是自然災(zāi)害等方面的原因造成系統(tǒng)數(shù)據(jù)的安全性無法保障的問題。數(shù)據(jù)備份更重要的原因是數(shù)據(jù)信息的多重保存以備不時之需。

數(shù)據(jù)備份按照備份的實現(xiàn)方式可以分為單機和網(wǎng)絡(luò)兩種備份方式,傳統(tǒng)的備份就是單機備份針對計算機本身將數(shù)據(jù)進行異地存儲,現(xiàn)代比較流行的就是網(wǎng)絡(luò)備份。這是針對整個網(wǎng)絡(luò)而言的,這種方式的備份較為復雜,是通過網(wǎng)絡(luò)備份軟件對存儲介質(zhì)和基礎(chǔ)硬件存儲設(shè)備的數(shù)據(jù)進行保存和管理。由于網(wǎng)絡(luò)備份是在網(wǎng)絡(luò)中進行數(shù)據(jù)備份的,因此也就不同于普通的傳統(tǒng)單機備份,是包含需要備份的文件數(shù)據(jù)和網(wǎng)絡(luò)系統(tǒng)中使用到的應(yīng)用程序以及系統(tǒng)參數(shù)和數(shù)據(jù)庫等內(nèi)容的。

數(shù)據(jù)備份的作用在于:一方面,在數(shù)據(jù)受到損害時對數(shù)據(jù)進行還原和恢復;另一方面,數(shù)據(jù)信息的歷史性、長久保存,方便數(shù)據(jù)的歸檔。

2.數(shù)據(jù)備份存儲技術(shù)

備份換言之就是數(shù)據(jù)的再存儲,因此備份技術(shù)是存儲技術(shù)的重要內(nèi)容之一,但是數(shù)據(jù)備份存儲作為計算機系統(tǒng)技術(shù)與簡單的備份區(qū)別很大。計算機數(shù)據(jù)備份存儲技術(shù)時更為全面、完整、穩(wěn)定安全的數(shù)據(jù)信息的備份,是網(wǎng)絡(luò)系統(tǒng)高效數(shù)據(jù)存儲的,也是安全性較高的網(wǎng)絡(luò)備份。

文件存儲作為最基礎(chǔ)的數(shù)據(jù)類型是隨機存儲在硬盤上的數(shù)據(jù)片段和文檔資料,這些存儲的數(shù)據(jù)文檔、報表甚至是作為數(shù)據(jù)庫文件的應(yīng)用程序等等在存儲一定的量就會出現(xiàn)超出容量的情況因此對其的整合是必要的。這樣的整合是將存儲的各類數(shù)據(jù)或者是數(shù)據(jù)庫以一個順序和程序的形式出現(xiàn),幫助人們解決備份存儲的空間問題,技術(shù)問題以及成本問題。更能將工作人員的連續(xù)數(shù)據(jù)維護和監(jiān)控從繁重的工作中解放出來。

3.保障計算機數(shù)據(jù)網(wǎng)絡(luò)備份的安全性策略

通過網(wǎng)絡(luò)傳輸?shù)膫浞輸?shù)據(jù)在傳輸過程和傳輸路徑方面必須確保數(shù)據(jù)的安全性。若不能保證數(shù)據(jù)的安全那么一些企業(yè)的關(guān)鍵數(shù)據(jù)和重要應(yīng)用程序就會受損,甚至是失去了備份的意義。因此相比單機備份而言網(wǎng)絡(luò)備份更要確保安全傳輸和安全存儲。

首先確保備份數(shù)據(jù)的機密性。數(shù)據(jù)信息的網(wǎng)絡(luò)備份不能被非法用戶隨意獲得,因此在數(shù)據(jù)備份過程和傳輸過程中必須防止數(shù)據(jù)的機密性被破壞。一般數(shù)據(jù)備份常用的方法是加密。必須保證是數(shù)據(jù)擁有者才能使用這些數(shù)據(jù)信息,關(guān)鍵的數(shù)據(jù)信息的加密工作相比更加嚴格。數(shù)據(jù)內(nèi)容不容有失,甚至是數(shù)據(jù)的相關(guān)名稱和代碼等也不能隨便被非法進入系統(tǒng)的人獲得才是最能保障數(shù)據(jù)安全的方式。

此外,在數(shù)據(jù)網(wǎng)絡(luò)傳輸存儲之前一定要確認接受信息一方的真實性,核實雙方信息是否匹配,一定要在雙方身份確認之后才能對網(wǎng)絡(luò)的數(shù)據(jù)信息進行發(fā)送和接受,這樣既避免了欺詐行為又確保了網(wǎng)絡(luò)中間不可信的因素存在使數(shù)據(jù)信息遭到破壞。

其次。確保備份數(shù)據(jù)的完整性。數(shù)據(jù)備份存儲不是一個簡單的過程,數(shù)據(jù)信息是通過設(shè)備和網(wǎng)絡(luò)之間傳輸來完成備份數(shù)據(jù)存儲的。這一個成必須要保障所傳輸?shù)男畔⑼暾乇簧蟼鞫疫@些數(shù)據(jù)信息不能被其他方攔截和篡改,以破壞備份數(shù)據(jù)信息的內(nèi)容和屬性等。此外在存儲時也要保障數(shù)據(jù)信息的正確無誤完整保存。

再次,備份存儲的數(shù)據(jù)可用性。數(shù)據(jù)存儲必須是可用的,而且是計算機資源用戶合理合法的使用。對于網(wǎng)絡(luò)備份系統(tǒng)的信息和信息用戶系統(tǒng)的信息是完全一致的,是可用的。備份數(shù)據(jù)資料必須在合法用戶需要時可以隨時安全使用。這是網(wǎng)絡(luò)數(shù)據(jù)備份存儲必須保證的。

第8篇

關(guān)鍵詞:煙草;數(shù)據(jù)中心;大數(shù)據(jù);Hadoop;Impala

1.大數(shù)據(jù)技術(shù)現(xiàn)狀

當前許多企業(yè)都已基本實現(xiàn)了信息化建設(shè),企業(yè)積累了海量數(shù)據(jù)。同時企業(yè)間的競爭日益加劇,企業(yè)為了生存及發(fā)展需要保證自身能夠更加準確、快速和個性化地為客戶提品及服務(wù)。而大數(shù)據(jù)技術(shù)能夠從海量的數(shù)據(jù)中獲取傳統(tǒng)數(shù)據(jù)分析手段無法獲知的價值和模式,幫助企業(yè)更加迅速、科學、準確地進行決策和預測。

1.1大數(shù)據(jù)技術(shù)現(xiàn)狀

廣大企業(yè)的迫切需求反之也促進了大數(shù)據(jù)技術(shù)的飛速發(fā)展,涌現(xiàn)出了諸如Hadoop、Spark等實用的架構(gòu)平臺。其中,目前最主流的就是Hadoop。Hadoop的分布式處理架構(gòu)支持大規(guī)模的集群,允許使用簡單的編程模型進行跨計算機集群的分布式大數(shù)據(jù)處理。通過使用專門為分布式計算設(shè)計的文件系統(tǒng)HDFS,計算的時候只需要將計算代碼推送到存儲節(jié)點上,即可在存儲節(jié)點上完成數(shù)據(jù)本地化計算。因此,Hadoop實現(xiàn)了高可靠性、高可拓展性、高容錯性和高效性,可以輕松應(yīng)對PB級別的數(shù)據(jù)處理。

1.2大數(shù)據(jù)技術(shù)對煙草數(shù)據(jù)中心建設(shè)的影響

當前,煙草企業(yè)基于多年的信息化建設(shè)已經(jīng)積累了海量數(shù)據(jù),同時每天還不斷有新的各種數(shù)據(jù)產(chǎn)生。在高并發(fā)、大體量的情況下,需要在數(shù)據(jù)采集、存儲和運算方面采用與以往完全不同的計算存儲模式,這就不可避免地需要采用大數(shù)據(jù)技術(shù)。同時,除了購進單、卷煙交易數(shù)據(jù)、貨源投放數(shù)據(jù)等結(jié)構(gòu)化數(shù)據(jù)外,還產(chǎn)生越來越多的非結(jié)構(gòu)化數(shù)據(jù),利用大數(shù)據(jù)技術(shù),對非結(jié)構(gòu)化數(shù)據(jù)進行預處理,可為人工判斷和機器學縮減范圍。對海量數(shù)據(jù)以及非結(jié)構(gòu)化的信息進行分析統(tǒng)計,僅僅依靠傳統(tǒng)的技術(shù)手段很難實現(xiàn),只有引入大數(shù)據(jù)技術(shù)才能充分的將所有的數(shù)據(jù)資源利用起來,成為企業(yè)決策的助力。

2.江蘇煙草數(shù)據(jù)中心應(yīng)用現(xiàn)狀

2.1江蘇煙草數(shù)據(jù)中心體系架構(gòu)

目前江蘇煙草數(shù)據(jù)中心以一體化數(shù)據(jù)中心、一體化數(shù)據(jù)管理和一體化數(shù)據(jù)分析三個部分為核心,構(gòu)建了一套完整的數(shù)據(jù)中心架構(gòu)。一體化數(shù)據(jù)中心是整個數(shù)據(jù)中心最核心的部分。通過數(shù)據(jù)倉庫模型、數(shù)據(jù)存儲、ETL工具等組成部分,構(gòu)建了業(yè)務(wù)數(shù)據(jù)的收集、加工、存儲、分發(fā)的總體架構(gòu)。建立了按ODS(SODS、UODS)、DW、DM三層結(jié)構(gòu)設(shè)計建設(shè)的數(shù)據(jù)倉庫。一體化數(shù)據(jù)管理通過主數(shù)據(jù)管理、信息代碼管理、ESB平臺構(gòu)建了企業(yè)主數(shù)據(jù)收集、標準化、同步分發(fā)過程。結(jié)合指標管理,全面管控企業(yè)的公用基礎(chǔ)信息。通過數(shù)據(jù)質(zhì)量管理,全面有效管控數(shù)據(jù)質(zhì)量。通過數(shù)據(jù)服務(wù)管理,有效提升數(shù)據(jù)中心的對外服務(wù)能力與水平。通過元數(shù)據(jù)管理來管理數(shù)據(jù)中心元數(shù)據(jù)。一體化數(shù)據(jù)分析通過構(gòu)建移動信息、業(yè)務(wù)分析、數(shù)據(jù)挖掘三大模塊,針對性解決當前不同人員的決策、管理以及操作需求,發(fā)揮數(shù)據(jù)中心的數(shù)據(jù)、技術(shù)、平臺優(yōu)勢。通過移動信息模塊為各級領(lǐng)導提供決策支持;通過業(yè)務(wù)分析模塊為業(yè)務(wù)人員的日常工作提供支撐;通過數(shù)據(jù)挖掘模塊,發(fā)掘數(shù)據(jù)所蘊含的隱性價值。基于上述一整套架構(gòu)的支撐,目前數(shù)據(jù)中心構(gòu)建了全省范圍的數(shù)據(jù)集成、交換體系,一方面提升了全省基礎(chǔ)數(shù)據(jù)、業(yè)務(wù)數(shù)據(jù)的規(guī)范化程度和數(shù)據(jù)質(zhì)量,另一方面為在建業(yè)務(wù)系統(tǒng)的實施、已有系統(tǒng)的改造提供了標準化的高質(zhì)量數(shù)據(jù)保障。

2.2大數(shù)據(jù)技術(shù)的應(yīng)用場景分析

隨著江蘇數(shù)據(jù)中心的不斷運行,一些基于傳統(tǒng)技術(shù)架構(gòu)的功能逐漸暴露出種種問題。其中較為突出的問題有:一是使用者對于大數(shù)據(jù)量數(shù)據(jù)的查詢需求。基于傳統(tǒng)技術(shù)架構(gòu)的查詢功能響應(yīng)較慢;二是分析支持靈活性的不足。傳統(tǒng)統(tǒng)計分析應(yīng)用的數(shù)據(jù)結(jié)構(gòu)大多是預先定義好的,面對靈活的非傳統(tǒng)的統(tǒng)計查詢需求難以支撐,需要進行額外的加工處理。江蘇煙草數(shù)據(jù)中心結(jié)合互聯(lián)網(wǎng)大數(shù)據(jù)技術(shù)特性,引入Hadoop平臺以及Impala等工具,搭建基于大數(shù)據(jù)的自定義數(shù)據(jù)查詢平臺,以補充基于傳統(tǒng)技術(shù)架構(gòu)的功能不足,并為未來進一步發(fā)展建設(shè)基于大數(shù)據(jù)技術(shù)和云環(huán)境的數(shù)據(jù)中心做好準備。

3.基于大數(shù)據(jù)的自定義數(shù)據(jù)查詢平臺實現(xiàn)

3.1設(shè)計思路及架構(gòu)

基于大數(shù)據(jù)的自定義數(shù)據(jù)查詢平臺是在現(xiàn)有數(shù)據(jù)中心的建設(shè)成果之上,以數(shù)據(jù)中心的數(shù)據(jù)存儲為基礎(chǔ),以Hadoop、Hive、Impala等大數(shù)據(jù)技術(shù)工具為手段,以簡單靈活、快速高效的查詢展現(xiàn)為目標,建立的數(shù)據(jù)查詢分析支持平臺。

3.2技術(shù)方案

自定義數(shù)據(jù)查詢平臺的建設(shè)主要涉及數(shù)據(jù)存儲架構(gòu)、后臺數(shù)據(jù)加工準備、前端展現(xiàn)三塊內(nèi)容。自定義數(shù)據(jù)查詢平臺的數(shù)據(jù)存儲分為兩部分。一部分為KETTLE、Impala等工具以及自定義查詢相關(guān)的元數(shù)據(jù)存儲,另一部分則是查詢所需的各種統(tǒng)計數(shù)據(jù)的存儲。元數(shù)據(jù)的存儲根據(jù)元數(shù)據(jù)庫的不同主要分為兩部分。第一部分為基于Mysql數(shù)據(jù)庫的元數(shù)據(jù)存儲。這部分元數(shù)據(jù)主要包括有ETL工具KETTLE的元數(shù)據(jù),以及前端自定義查詢需要定義的權(quán)限、數(shù)據(jù)源、表、列和表列關(guān)系等信息。第二部分為基于Hive的元數(shù)據(jù)存儲。這部分存儲的是前端查詢需要使用的Impala工具的元數(shù)據(jù)。統(tǒng)計數(shù)據(jù)的存儲則是使用Hadoop的HDFS實現(xiàn)的。根據(jù)Hadoop平臺架構(gòu),自定義數(shù)據(jù)查詢平臺的HDFS建立在6臺虛擬主機構(gòu)建的集群上的。其中:2臺虛擬主機作為NameNode,一臺為主節(jié)點,另一臺為備份節(jié)點;其余4臺虛擬主機都作為DataNode用于存儲數(shù)據(jù)。所有數(shù)據(jù)將會統(tǒng)一分塊自動分配存儲到4個DataNode上。自定義數(shù)據(jù)查詢平臺的數(shù)據(jù)加工,是通過開源ETL工具KETTLE實現(xiàn)的。通過KETTLE從數(shù)據(jù)中心現(xiàn)有數(shù)據(jù)倉庫及數(shù)據(jù)集市中讀取需要的數(shù)據(jù),根據(jù)自定義數(shù)據(jù)查詢平臺的數(shù)據(jù)模型定義對數(shù)據(jù)進行處理,最終加載到Hadoop的HDFS文件系統(tǒng)中。自定義數(shù)據(jù)查詢平臺的前端展現(xiàn)功能,主要是基于JSP技術(shù)實現(xiàn)頁面開發(fā),通過JDBC或者ODBC對后臺Mysql數(shù)據(jù)庫進行訪問。使用者在查詢頁面中組織定義查詢的內(nèi)容,查詢服務(wù)自動根據(jù)獲取的元數(shù)據(jù)信息將定義的查詢內(nèi)容拼接轉(zhuǎn)換成為查詢SQL,之后通過Impala執(zhí)行查詢SQL對HDFS文件系統(tǒng)中的統(tǒng)計數(shù)據(jù)進行查詢。

3.3系統(tǒng)實現(xiàn)效果

利用大數(shù)據(jù)技術(shù),自定義數(shù)據(jù)查詢平臺較好地解決了目前數(shù)據(jù)中心所面對的問題,滿足了使用人員對于大數(shù)據(jù)量以及分析靈活性的需求。面對使用人員層出不窮的查詢需求,自定義數(shù)據(jù)查詢平臺通過預先梳理、分類定義各種維度以及統(tǒng)計指標。使用者可以自由的根據(jù)實際需求選擇分析所需的維度及統(tǒng)計指標,同時還可以基于這些基礎(chǔ)的內(nèi)容更進一步自定義過濾條件以及計算公式,并指定其展現(xiàn)形式。在大數(shù)據(jù)量查詢效率方面,自定義查詢平臺相比傳統(tǒng)架構(gòu)的查詢功能有了較大提升。

4.結(jié)束語

大數(shù)據(jù)技術(shù)的發(fā)展方興未艾,應(yīng)用前景無比廣闊,對各行各業(yè)的巨大作用正在逐步展現(xiàn)。江蘇煙草數(shù)據(jù)中心的建設(shè)既要看到大數(shù)據(jù)技術(shù)未來的前景,更需要明確地認識到大數(shù)據(jù)平臺的建設(shè)并非一朝一夕,需要有明確而長遠的規(guī)劃,不斷完善數(shù)據(jù)環(huán)境建設(shè)、云計算環(huán)境的構(gòu)建以及數(shù)據(jù)服務(wù)的擴展。

參考文獻

[1]陳鵬.大數(shù)據(jù)時代下的信息安全問題研究[J].電子制,2015,18:48

[2]劉憶魯,劉長銀,侯艷權(quán).大數(shù)據(jù)時代下的信息安全問題論述[J].信息通信.2016,181-182

第9篇

關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)庫技術(shù);數(shù)據(jù)標簽

1引言

數(shù)據(jù)庫技術(shù)主要是通過相關(guān)的技術(shù)措施對信息數(shù)據(jù)進行有效的存儲管理、優(yōu)化數(shù)據(jù)結(jié)構(gòu)、設(shè)計數(shù)據(jù)管理模式等。另外,數(shù)據(jù)庫技術(shù)還可以對庫里的數(shù)據(jù)進行科學合理的整合分析,挖掘數(shù)據(jù)的真實性和實用性,找出不同數(shù)據(jù)之間的聯(lián)系,這也是當前社會發(fā)展的實際需求,對于現(xiàn)代信息技術(shù)的發(fā)展起著十分重要的作用和意義。

2數(shù)據(jù)庫技術(shù)簡介

隨著大數(shù)據(jù)技術(shù)的不斷改革完善,作為近年來興起的新型技術(shù),它在一定程度上是隨著云計算的出現(xiàn)而發(fā)展的。立足于云計算的相關(guān)技術(shù),對人們生活和工作中產(chǎn)生的大量數(shù)據(jù)進行綜合處理,結(jié)合計算機技術(shù)、網(wǎng)絡(luò)通信技術(shù)、數(shù)據(jù)庫技術(shù)等,有效推動社會經(jīng)濟的穩(wěn)步發(fā)展。數(shù)據(jù)庫技術(shù)在推廣和普及過程中,主要是以計算機信息技術(shù)為載體,充分結(jié)合傳統(tǒng)數(shù)據(jù)信息處理技術(shù)和互聯(lián)網(wǎng)技術(shù),對社會中的生產(chǎn)要素和業(yè)務(wù)要素進行及時有效的分析和更新,調(diào)整社會中現(xiàn)有的業(yè)務(wù)結(jié)構(gòu)和發(fā)展模式,從而有效實現(xiàn)經(jīng)濟轉(zhuǎn)型。

3大數(shù)據(jù)時代背景下數(shù)據(jù)庫技術(shù)的應(yīng)用現(xiàn)狀

3.1構(gòu)建與面向?qū)ο髮嶋H需求相結(jié)合的數(shù)據(jù)庫

在進行數(shù)據(jù)庫的開發(fā)和利用過程中,應(yīng)當充分立足于用戶的實際需求,有效結(jié)合面向?qū)ο蠓椒ǎ鶕?jù)數(shù)據(jù)庫的分析情況,充分了解用戶的需求,為用戶提供更為全面和細致的服務(wù)。從一定意義上來講,不僅可以體現(xiàn)出個性化服務(wù),還能保障數(shù)據(jù)傳輸過程中的安全性和實效性[1]。根據(jù)相關(guān)調(diào)查研究可以看出,當前我國數(shù)據(jù)庫技術(shù)仍處于不斷發(fā)展和創(chuàng)新時期,面向?qū)ο蟠罱ǔ龈咝У臄?shù)據(jù)庫,并且根據(jù)用戶需求不斷進行調(diào)整優(yōu)化。

3.2構(gòu)建與多媒體技術(shù)相結(jié)合的數(shù)據(jù)庫

一方面,對大多數(shù)群體來說,多媒體數(shù)據(jù)庫中所存儲的資料數(shù)據(jù)更多,界面的設(shè)置也更加多元化,能夠在第一時間吸引人們的注意力,從而更好地滿足人們的個性化需求,實現(xiàn)技術(shù)的多元化發(fā)展。另一方面,數(shù)據(jù)庫的安全問題一直是人們最為關(guān)注的問題,安全隱患一直是制約數(shù)據(jù)庫技術(shù)發(fā)展的重要因素,通過有效融合數(shù)據(jù)庫技術(shù)與多媒體,可以在一定程度上提高數(shù)據(jù)庫的安全性能和穩(wěn)定性能。在實際工作過程中,為了充分推動數(shù)據(jù)庫的發(fā)展和多媒體技術(shù)的有效融合,相關(guān)工作人員應(yīng)當解決以下幾個問題。第一,多媒體數(shù)據(jù)庫在實際使用過程中必將涉及到用戶的個性化需求,在進行設(shè)計時應(yīng)當有針對性的融入相關(guān)數(shù)字數(shù)據(jù),實現(xiàn)多媒體數(shù)據(jù)的有效管理和存儲,已成為了技術(shù)節(jié)點搭建的重要模塊。第二,數(shù)據(jù)庫技術(shù)與多媒體技術(shù)要實現(xiàn)有效結(jié)合必將涉及到系統(tǒng)的兼容性,這不僅是數(shù)據(jù)之間的融合,還是數(shù)據(jù)交叉使用的重要內(nèi)容,如何充分進行二者的融合和兼容,是全面深入實現(xiàn)多媒體數(shù)據(jù)庫面臨的主要問題[2]。

4大數(shù)據(jù)時代背景下的數(shù)據(jù)庫技術(shù)特點

4.1統(tǒng)一性

受傳統(tǒng)數(shù)據(jù)庫系統(tǒng)搭建模式內(nèi)容的影響,不同類型的數(shù)據(jù)庫在使用中仍存在不兼容的情況。因此,無法充分利用數(shù)據(jù)庫中的信息資源,造成了資源的閑置或浪費,無法充分滿足用戶的實際需求。大數(shù)據(jù)時代背景下的數(shù)據(jù)庫技術(shù)可以有效解決這一問題,針對不同類型的數(shù)據(jù)庫進行有效統(tǒng)一的數(shù)據(jù)庫建設(shè),不斷完善數(shù)據(jù)信息資源的檢索功能,從而提高用戶的滿意程度和工作效率,簡化操作流程[3]。

4.2共享性

數(shù)據(jù)庫技術(shù)的有效實現(xiàn)和價值體現(xiàn),在一定程度上取決于數(shù)據(jù)信息資源的共享性。人們可以通過方便快捷的方式方法獲取資源,不斷提高信息的使用效率。在實踐應(yīng)用過程中,相關(guān)工作人員可以根據(jù)虛擬數(shù)據(jù)的實際情況對各個數(shù)據(jù)庫中的子節(jié)點進行科學合理的搭建,逐漸實現(xiàn)功能的多元化發(fā)展和信息資源的共享。隨著我國信息技術(shù)的不斷發(fā)展,數(shù)據(jù)庫技術(shù)的逐漸拓展和信息資源的共享,在一定程度上實現(xiàn)了信息資源的方便快捷,不斷滿足用戶的多元化需求,從而充分體現(xiàn)出數(shù)據(jù)庫的價值和作用。

5大數(shù)據(jù)時代背景下數(shù)據(jù)庫技術(shù)的應(yīng)用對策和手段

5.1數(shù)據(jù)標簽

數(shù)據(jù)標簽是大數(shù)據(jù)時代背景下使用數(shù)據(jù)庫技術(shù)的基礎(chǔ),能夠充分實現(xiàn)數(shù)據(jù)的查詢和有效定位。在進行數(shù)據(jù)庫的有效搭建和完善過程中,相關(guān)技術(shù)人員應(yīng)當有針對性地凸顯出數(shù)據(jù)庫中相關(guān)資源的特殊性,充分立足于社會發(fā)展的實際需求,科學合理的設(shè)置相應(yīng)字符長度,不斷提高數(shù)據(jù)標簽的科學性和合理性。

5.2節(jié)點建設(shè)

在使用數(shù)據(jù)庫時,節(jié)點建設(shè)應(yīng)當是建設(shè)的核心和關(guān)鍵,各個要素之間的有效搭建能夠充分滿足用戶的實際需求,體現(xiàn)出個性化發(fā)展目標。根據(jù)實際情況可以看出,當前我國在節(jié)點建設(shè)中仍存在一定的問題,比如過于注重其標準性,采用固定的某種模式進行搭建,沒有充分考慮到實際需求,使得節(jié)點建設(shè)脫離實際,無法充分發(fā)揮數(shù)據(jù)庫技術(shù)的作用和功能。基于此,相關(guān)技術(shù)人員應(yīng)當在原有數(shù)據(jù)庫技術(shù)基礎(chǔ)上進行優(yōu)化完善,結(jié)合原有的地址內(nèi)容和關(guān)鍵詞檢索信息,對整個數(shù)據(jù)信息資源進行重新整合,從而提高數(shù)據(jù)庫的有效性。

5.3虛擬大數(shù)據(jù)系統(tǒng)

在數(shù)據(jù)庫中靈活有效搭建出虛擬大數(shù)據(jù)技術(shù)可以更好地實現(xiàn)數(shù)據(jù)的海量管理,對數(shù)據(jù)庫綜合性能的提升和創(chuàng)新改革服務(wù)內(nèi)容等都有著極其重要的作用和意義。虛擬大數(shù)據(jù)系統(tǒng)為數(shù)據(jù)群的前臺,其功能的實現(xiàn)直接影響了數(shù)據(jù)庫和節(jié)點信息資源的收集交匯,合理分配任務(wù)。虛擬大數(shù)據(jù)系統(tǒng)應(yīng)當是整個虛擬數(shù)據(jù)中的關(guān)鍵所在,只有確保其正常高效運行,才能為用戶提供更為更全面的服務(wù)[4]。

5.4信息獲取

我國現(xiàn)有的數(shù)據(jù)庫技術(shù)更為注重數(shù)據(jù)信息資源獲取渠道和機制的創(chuàng)新完善,通過交互式管理模式,不斷進行信息的重組和創(chuàng)新。一方面,對于信息的獲取應(yīng)當充分考慮到用戶的實際需求,搭建出由上而下的健全數(shù)據(jù)信息獲取途徑,使得用戶獲得更為全面系統(tǒng)的數(shù)據(jù)信息,確保信息的真實性和可靠性。另一方面,在獲取元數(shù)據(jù)時,技術(shù)人員應(yīng)當充分運用虛擬大數(shù)據(jù)技術(shù),對數(shù)據(jù)進行有效獲取。

相關(guān)文章
相關(guān)期刊
主站蜘蛛池模板: 99福利网| 色婷在线| 97视频在线观看免费 | 免费观看美女视频的网站 | 欧美污视频网站 | 蜜臀在线播放 | 国产区成人精品视频 | 色综合精品 | 色婷婷啪啪 | 免费看一级视频 | 免费看羞羞无遮挡3d动漫 | 四虎影视成人精品 | 伊人网在线视频 | 久久99久久成人免费播放 | 男人综合网| 久久综合九色综合狠狠97 | 东方伊人免费在线观看 | 国产日产一区二区三区四区五区 | 成人国产精品视频频 | 99久久精品免费看国产交换 | 91亚洲国产成人久久精品网站 | 成人国产一区二区 | 热久久国产 | 99久久精品费精品国产一区二 | www.国产精品视频 | 大色虫成人午夜在线观看 | 欧美日韩色视频 | 国产精品久草 | 99久在线精品99re6视频 | 国产成人精品久久综合 | 激情六月婷婷开心丁香开心 | 你懂的视频在线观看 | 国产精品视频视频久久 | 2020久久精品亚洲热综合 | 国产高清不卡一区二区三区 | 可以免费看的毛片 | 欧美性开放视频 | 欧美一区二区视频 | 中国国产一国产一级毛片视频 | 精品视频在线免费播放 | 大肉大捧一进一出小视频 |