發(fā)布時間:2022-12-23 08:33:28
序言:寫作是分享個人見解和探索未知領域的橋梁,我們?yōu)槟x了8篇的大數據技術樣本,期待這些樣本能夠為您提供豐富的參考和啟發(fā),請盡情閱讀。
本文首先對大數據時代的特點進行了介紹,其次對常用的數據挖掘方法進行了闡述,最后提出了展望。
【關鍵詞】大數據 數據挖掘 分類 聚類
大數據(Big Data),也稱為海量數據,是隨著計算機技術及互聯網技術的高速發(fā)展而產生的獨特數據現象?,F代社會正以不可想象的速度產生大量數據,如網絡訪問,微博微信,視頻圖片,手機通信,網上購物……等等都在不斷產生大量的數據。如何更好的利用和分析產生的數據,從而為人類使用,這是非常重要的科學研究。在大數據時代,更好的利用云計算以及數據挖掘,顯得尤為重要。
1 大數據的概念
大數據,是指無法在一定時間內用常規(guī)機器和軟硬件對其進行感知、獲取、管理、處理和服務的數據集合。IBM將大數據的特點總結為三個V,即大量化(Volume)、多樣化(Variety)和快速化(Velocity)。
即產生的數據容量大。數據主要來源如:E-mail、搜索引擎的搜索、圖片、音頻、視頻、社交網站、微博微信、各種應用軟件和app、電子商務以及電子通信等等。在實際生活中,電子商務的購物平臺數量和種類越來越多,社交網站的典型facebook的數據量大的驚人,以PB計量都不夠。數據存儲的單位不僅僅是MB、GB等,而是使用了表示更大容量的TB、PB、EB、ZB和YB等,每個單位的關系為后者是前者的1024倍,如1PB=1024TB。同時大數據的增長速度是越來越快,如手機相機的像素數隨著新款手機的出現而成倍的增長。
1.2 多樣化
從數據組織形式的角度將數據分為結構化數據和非結構化數據。結構化數據,具有一定的規(guī)律,可以使用二維表結構來表示,并存儲在數據庫中,如高校的教務管理系統的數據、銀行交易產生的數據。而非結構化數據是無法通過預先定義的數據模型表達并存儲在數據庫中的數據,如聲音、視頻和圖片等等。當前非結構化數據的增長速度遠遠超過結構化數據。
1.3 快速化
在當前商業(yè)競爭激烈的時代,對實時的數據進行分析和處理,挖掘有用的數據信息,并用于商業(yè)運作,對于企業(yè)和組織來說非常重要。如現在網絡購物會依據多數人的購物組合,分析出大部分人在購買一件物品的同時會同時購買其他的物品,從而在購物選擇時給予方便,提高網購的效率,提高效益。
隨著互聯網技術和計算機技術的快速發(fā)展,在產生大數據的同時,人們要能夠對這些數據加以利用,得到有用的信息,才是最重要的。為了讓海量規(guī)模的數據能夠真正發(fā)揮巨大的作用,需要將這些數據轉換為有用的信息和知識,即從傳統的數據統計向數據挖掘和分析進行轉換。比如沃爾瑪超市能夠從男人購物時買啤酒的同時會購買小孩的紙尿褲這種關聯,并在實際物品擺放時將這兩種物品放置在一起,方便用戶購物。
2 數據挖掘
隨著信息技術應用的廣泛,大量的數據產生并存儲各個領域的信息系統中,數據呈現了爆炸式的增長。數據挖掘在這種“數據爆炸,知識匱乏”的情況下出現的。數據挖掘(Data mining)是一個多學科交叉的研究領域,它融合了數據庫技術、機器學習、人工智能、知識工程和統計學等學科領域。數據挖掘在很多領域尤其是電信、銀行、交通、保險和零售等商業(yè)領域得到廣泛的應用。
數據挖掘也稱為從數據中發(fā)現知識,具體來講就是從大規(guī)模海量數據中抽取人們所感興趣的非平凡的、隱含的、事先未知的和具有潛在用途的模式或者知識。
3 數據挖掘的主要研究內容
數據挖掘的任務是發(fā)現隱藏在數據中的模式,其模式分為兩大類:描述型模式和預測型模式。描述型模式是對當前數據中存在的事實做規(guī)范描述,刻畫當前數據的一般特性。預測型模式則是以時間為主要關鍵參數,對于時間序列型數據,根據其歷史和當前的值去預測其未來的值。常使用的算法有:
3.1 聚類分析
聚類是將數據劃分成群組的過程,根據數量本身的自然分布性質,數據變量之間存在的程度不同的相似性(親疏關系),按照一定的準則將最相似的數據聚集成簇。主要包括劃分聚類算法,層次聚類算法和密度聚類算法等。經典算法有K-Means、K-Medoids。
3.2 特性選擇
特性選擇是指為特定的應用在不失去數據原有價值的基礎上選擇最小的屬性子集,去除不相關和冗余的屬性。特性選擇用于在建立分類模型前,或者預測模型之前,對原始數據庫進行預處理。常用的算法有最小描述長度法。
3.3 特征抽取
特征抽取式數據挖掘技術的常用方法,是一個屬性降維的過程,實際為變換屬性,經變換了的屬性或者特性,是原來屬性集的線性合并,出現更小更精的一組屬性。常用算法如主成分分析法、因子分析法和非負矩陣因子法等。
3.4 關聯規(guī)則
關聯規(guī)則挖掘是數據挖掘領域中研究最為廣泛和和活躍的方法之一。最初的研究動機是針對購物籃分析問題提出的,目的是為了解決發(fā)現交易數據庫中不同商品之間的聯系規(guī)則。關聯規(guī)則是指大量數據中項集之間的有趣關聯或相關關系。常用的算法有Apriori算法。
3.5 分類和預測
分類是應用已知的一些屬性數據去推測一個未知的離散型的屬性數據,而這個被推測的屬性數據的可取值是預先定義的。要很好的實現推測,需要事先定義一個分類模型??捎糜诜诸惖乃惴ㄓ袥Q策樹、樸素貝葉斯分類、神經網絡、logistic回歸和支持向量機等。
4 結論
隨著時代的進步,數據也發(fā)生變化,具有各種各樣的復雜形式。很多研究機構和個人在對結構化數據進行數據挖掘的同時,也展開了對空間數據、多媒體數據、時序數據和序列數據、文本和Web等數據進行數據挖掘和分析。同時大數據的發(fā)展促進了云計算的產生,基于云計算的數據挖掘也在迅速崛起。
參考文獻
[1]劉軍.大數據處理[M].北京:人民郵電出版社,2013(09).
[2]王元卓等.網絡大數據:現狀與展望[J].計算機學報,2013(06).
[3]申彥.大規(guī)模數據集高效數據挖掘算法研究[D].江蘇大學,2013(06).
[4](加)洪松林.數據挖掘技術與工程實踐[M].北京:機械工業(yè)出版社,2014.
[5]賀瑤等.基于云計算的海量數據挖掘研究[J].計算機技術與發(fā)展,2013(02).
作者簡介
許凡(1996-),男,江蘇省南京市人?,F就讀三江學院計算機科學與工程學院計算機軟件工程專業(yè)本科。
孫勤紅(1979-),女,山東省臨沂市人。碩士研究生學歷?,F為三江學院計算機科學與工程學院講師、指導教師。主要研究領域為數據挖掘。
關鍵詞:云計算;云存儲
1 什么是云存儲
云存儲是在云計算概念上延伸和發(fā)展的一個新的概念,是指通過集群應用、網絡技術或分布式文件系統等功能,將網絡中大量各種不同類型的存儲設備通過應用軟件集合起來協同工作,共同對外提供數據存儲和業(yè)務訪問功能的一個系統。當云計算系統運算和處理的核心是大量數據的存儲管理時,云計算系統中就需要配置大量的存儲設備,那么,云計算系統就轉變成為一個云存儲系統,所以云存儲是一個以數據存儲和管理為核心的云計算系統。
2 云存儲分類
按照服務對象可以把云存儲分類如下:
(1) 公共云存儲。公共云存儲可以以低成本提供大量的文件存儲。供應商可以保持每個客戶的存儲、應用都是獨立的、私有的,公共云存儲可以劃出一部分來用作私有云存儲。
(2) 私有云存儲。通過私有云存儲,一個公司可以擁有或控制基礎架構,以及應用的部署。私有云存儲可以部署在企業(yè)數據中心或相同地點的設施上。私有云可以由公司自己的IT部門管理,也可以由服務供應商管理。
相比傳統存儲模式,云存儲的租購模式顯得更加靈活方便,其實,企業(yè)自己構建一個數據中心需要購買硬件等必備設施及復雜多變的維護管理。
(3) 混合云存儲。這種云存儲把公共云和私有云結合在一起。主要用于按客戶要求的訪問,特別是需要臨時配置容量的時候。
從公共云上劃出一部分容量配置一種私有云,可以幫助公司面對迅速增長的負載波動或高峰時很有幫助。
盡管如此,混合云存儲帶來了跨公共云和私有云分配應用的復雜性。
3 云存儲具有的優(yōu)勢
作為大數據時代的云存儲技術,與傳統存儲技術相比,具有如下明顯優(yōu)勢:
(1) 靈活方便。對于中小企業(yè)或個人用戶,完全可以將數據的創(chuàng)建與維護委托給云服務提供商,而只是租用云服務提供商的服務即可,用戶不必考慮存儲容量、存儲設備類型、數據存儲位置,以及更多的關于數據的可用性、可靠性和安全性等繁雜的技術層面。避免了購買硬件設備及技術維護而投入的精力,節(jié)省下來的大量時間可以用于更多的工作業(yè)務發(fā)展。
(2) 成本低廉。就目前來說,企業(yè)在數據存儲上所付出的成本相當大,因為企業(yè)要建立一套存儲系統不僅需要購買硬件等基礎設施,同時,系統維護還需要專門的人員,企業(yè)的存儲空間及管理費用都面臨巨大挑戰(zhàn),企業(yè)必須更新或增加各種數據存儲和管理設備,而且還要負擔逐漸高漲的管理成本。
為了減少這種成本壓力,好多企業(yè)將大部分數據遷移至云存儲上,所有的升級、維護等管理任務均由云存儲服務提供商來完成。因此,可以將數據存儲與管理的成本降到最低,同時,還能獲得最優(yōu)良的數據存儲服務。
(3) 量身定制。隨著大數據的到來,傳統的存儲模式已不再適用企業(yè)的數據存儲,企業(yè)急需一種新的存儲方式來滿足企業(yè)數據存儲的個性化需求。
私有云即可滿足企業(yè)這一個性化需求。云服務提供商可以專門為企業(yè)客戶提供一種量身定制的云存儲服務解決方案,也可以由企業(yè)自己的IT機構部署一套私有云服務架構。企業(yè)不僅可以得到最優(yōu)質的個性化服務,還能在一定程度上降低安全風險。
4 云存儲發(fā)展需要考慮的主要問題
由于云存儲具有傳統數據存儲模式不具備的諸多優(yōu)勢,越來越多的中小企業(yè)正在將自己的數據中心逐漸轉移至云端。而大型企業(yè)除了租用公共云存儲服務以外,也開始著手建立自己的私有云存儲數據中心。但是,云存儲仍處于快速發(fā)展階段,云存儲要想得到廣泛應用,還有待進一步完善和改進。
(1) 安全問題。數據存儲在云計算中心,安全問題始終是用戶最為關注的問題。
用戶的敏感信息和個人隱私數據如何才能保證其具有安全性和私密性,云存儲服務提供商應根據分布式文件中可能存在的安全威脅和安全需求,來制定相應的安全策略,以便在計算機中實施相應的保護機制,確保用戶數據避免丟失或被竊。
(2) 可靠性問題??煽啃允菙祿鎯ο到y最基本也是最關鍵的一項指標。
數據的備份復制是云存儲管理中心必須考慮的問題,而且數據的備份復制可以大大提高云存儲系統的可靠性和性能,同時能夠增強系統的容錯能力。如果云存儲數據遭到破壞,云存儲服務提供商應該能夠快速全面地恢復數據,確保用戶數據的完整性。
5 結束語
云存儲不僅僅是存儲,更多的是應用,是云計算時代的一場存儲革命,隨著云存儲的安全性、可靠性、實用性等存儲技術的不斷成熟,人們對存儲技術的認識不斷提高,云存儲成本的不斷降低,一定會形成一個安全可靠、實用快速的云數據存儲與訪問系統。云存儲必將廣泛應用于各行各業(yè),云存儲必然是未來數據存儲的發(fā)展趨勢。
參考文獻
[1]互動百科./wiki/云存儲.
[2]百度百科. / view /
關鍵詞:大數據;數據庫技術;數據標簽
1引言
數據庫技術主要是通過相關的技術措施對信息數據進行有效的存儲管理、優(yōu)化數據結構、設計數據管理模式等。另外,數據庫技術還可以對庫里的數據進行科學合理的整合分析,挖掘數據的真實性和實用性,找出不同數據之間的聯系,這也是當前社會發(fā)展的實際需求,對于現代信息技術的發(fā)展起著十分重要的作用和意義。
2數據庫技術簡介
隨著大數據技術的不斷改革完善,作為近年來興起的新型技術,它在一定程度上是隨著云計算的出現而發(fā)展的。立足于云計算的相關技術,對人們生活和工作中產生的大量數據進行綜合處理,結合計算機技術、網絡通信技術、數據庫技術等,有效推動社會經濟的穩(wěn)步發(fā)展。數據庫技術在推廣和普及過程中,主要是以計算機信息技術為載體,充分結合傳統數據信息處理技術和互聯網技術,對社會中的生產要素和業(yè)務要素進行及時有效的分析和更新,調整社會中現有的業(yè)務結構和發(fā)展模式,從而有效實現經濟轉型。
3大數據時代背景下數據庫技術的應用現狀
3.1構建與面向對象實際需求相結合的數據庫
在進行數據庫的開發(fā)和利用過程中,應當充分立足于用戶的實際需求,有效結合面向對象方法,根據數據庫的分析情況,充分了解用戶的需求,為用戶提供更為全面和細致的服務。從一定意義上來講,不僅可以體現出個性化服務,還能保障數據傳輸過程中的安全性和實效性[1]。根據相關調查研究可以看出,當前我國數據庫技術仍處于不斷發(fā)展和創(chuàng)新時期,面向對象搭建出高效的數據庫,并且根據用戶需求不斷進行調整優(yōu)化。
3.2構建與多媒體技術相結合的數據庫
一方面,對大多數群體來說,多媒體數據庫中所存儲的資料數據更多,界面的設置也更加多元化,能夠在第一時間吸引人們的注意力,從而更好地滿足人們的個性化需求,實現技術的多元化發(fā)展。另一方面,數據庫的安全問題一直是人們最為關注的問題,安全隱患一直是制約數據庫技術發(fā)展的重要因素,通過有效融合數據庫技術與多媒體,可以在一定程度上提高數據庫的安全性能和穩(wěn)定性能。在實際工作過程中,為了充分推動數據庫的發(fā)展和多媒體技術的有效融合,相關工作人員應當解決以下幾個問題。第一,多媒體數據庫在實際使用過程中必將涉及到用戶的個性化需求,在進行設計時應當有針對性的融入相關數字數據,實現多媒體數據的有效管理和存儲,已成為了技術節(jié)點搭建的重要模塊。第二,數據庫技術與多媒體技術要實現有效結合必將涉及到系統的兼容性,這不僅是數據之間的融合,還是數據交叉使用的重要內容,如何充分進行二者的融合和兼容,是全面深入實現多媒體數據庫面臨的主要問題[2]。
4大數據時代背景下的數據庫技術特點
4.1統一性
受傳統數據庫系統搭建模式內容的影響,不同類型的數據庫在使用中仍存在不兼容的情況。因此,無法充分利用數據庫中的信息資源,造成了資源的閑置或浪費,無法充分滿足用戶的實際需求。大數據時代背景下的數據庫技術可以有效解決這一問題,針對不同類型的數據庫進行有效統一的數據庫建設,不斷完善數據信息資源的檢索功能,從而提高用戶的滿意程度和工作效率,簡化操作流程[3]。
4.2共享性
數據庫技術的有效實現和價值體現,在一定程度上取決于數據信息資源的共享性。人們可以通過方便快捷的方式方法獲取資源,不斷提高信息的使用效率。在實踐應用過程中,相關工作人員可以根據虛擬數據的實際情況對各個數據庫中的子節(jié)點進行科學合理的搭建,逐漸實現功能的多元化發(fā)展和信息資源的共享。隨著我國信息技術的不斷發(fā)展,數據庫技術的逐漸拓展和信息資源的共享,在一定程度上實現了信息資源的方便快捷,不斷滿足用戶的多元化需求,從而充分體現出數據庫的價值和作用。
5大數據時代背景下數據庫技術的應用對策和手段
5.1數據標簽
數據標簽是大數據時代背景下使用數據庫技術的基礎,能夠充分實現數據的查詢和有效定位。在進行數據庫的有效搭建和完善過程中,相關技術人員應當有針對性地凸顯出數據庫中相關資源的特殊性,充分立足于社會發(fā)展的實際需求,科學合理的設置相應字符長度,不斷提高數據標簽的科學性和合理性。
5.2節(jié)點建設
在使用數據庫時,節(jié)點建設應當是建設的核心和關鍵,各個要素之間的有效搭建能夠充分滿足用戶的實際需求,體現出個性化發(fā)展目標。根據實際情況可以看出,當前我國在節(jié)點建設中仍存在一定的問題,比如過于注重其標準性,采用固定的某種模式進行搭建,沒有充分考慮到實際需求,使得節(jié)點建設脫離實際,無法充分發(fā)揮數據庫技術的作用和功能?;诖?,相關技術人員應當在原有數據庫技術基礎上進行優(yōu)化完善,結合原有的地址內容和關鍵詞檢索信息,對整個數據信息資源進行重新整合,從而提高數據庫的有效性。
5.3虛擬大數據系統
在數據庫中靈活有效搭建出虛擬大數據技術可以更好地實現數據的海量管理,對數據庫綜合性能的提升和創(chuàng)新改革服務內容等都有著極其重要的作用和意義。虛擬大數據系統為數據群的前臺,其功能的實現直接影響了數據庫和節(jié)點信息資源的收集交匯,合理分配任務。虛擬大數據系統應當是整個虛擬數據中的關鍵所在,只有確保其正常高效運行,才能為用戶提供更為更全面的服務[4]。
5.4信息獲取
我國現有的數據庫技術更為注重數據信息資源獲取渠道和機制的創(chuàng)新完善,通過交互式管理模式,不斷進行信息的重組和創(chuàng)新。一方面,對于信息的獲取應當充分考慮到用戶的實際需求,搭建出由上而下的健全數據信息獲取途徑,使得用戶獲得更為全面系統的數據信息,確保信息的真實性和可靠性。另一方面,在獲取元數據時,技術人員應當充分運用虛擬大數據技術,對數據進行有效獲取。
>> 大數據關鍵技術 大數據關鍵技術分析及系統實例分析 淺談大數據基礎理論與關鍵技術發(fā)展 電力信息大數據高速存儲及檢索關鍵技術研究 電力大數據可視化系統開發(fā)關鍵技術研究及趨勢 投資統計大數據處理關鍵技術 基于大數據的信息系統關鍵技術 淺析云環(huán)境下的大數據關鍵技術 面向大數據的Deep Web數據系統關鍵技術研究 大數據安全和隱私保護技術體系的關鍵技術研究 移動數據庫關鍵技術及應用探討 社會網絡大數據分析框架及其關鍵技術 農業(yè)云大數據自組織推送關鍵技術綜述 基于大數據的信息系統關鍵技術研究 云計算環(huán)境下的大數據可靠存儲關鍵技術概述 面向大數據的分布式系統設計關鍵技術研究 大數據時代下軟件工程關鍵技術分析 移動互聯網的大數據處理關鍵技術 電信運營商大數據變現之關鍵技術 移動通信網絡中大數據處理的關鍵技術 常見問題解答 當前所在位置:l.
[4]Big data[EB/OL]..
[18]丁智,林治.MapRdeuce編程模型、方法及應用綜述[J].電腦知識與技術,2014,10(30):70607064.
[19]江舢,金晶,劉鵬展,等.分布式海量數據批處理技術綜述[Z].中國科技論文在線,2012.
[20]吳哲夫,肖鷹,張彤.大數據和云計算技術探析[J].互聯網天地,2015(4):611.
[21]馬紅玉,張柳.大數據中的可視化分析技術[J].山東農業(yè)大學學報:自然科學版,2014,45(s):5658.
[關鍵詞]大數據;互聯網+;農業(yè);智能灌溉
引言
隨著科技的日益進步,計算機的相關技術被引用到各個領域。智能灌溉系統是融合傳感器技術、自動控制技術、計算機技術、無線通信技術與移動終端控制等多種高新技術,自動采集光照、溫度、土壤水分、空氣濕度等信息,通過無線通信技術傳輸給信息管理系統,自動控制噴水灌溉、通風除濕等設備,從而調節(jié)環(huán)境參數。智能灌溉系統應用大數據策略,在云服務平臺進行數據分析處理,以關聯圖表顯示歷史記錄,為農業(yè)專家提供決策支持,同時獲取國家氣象局天氣預報信息,根據天氣狀況和作物需要智能調節(jié)噴水灌溉策略,調整用水量,實施精準灌溉,提高水資源利用率。智能灌溉系統支持多種應用場景如智能花園、溫室大棚、高爾夫球場等,提供Web版、桌面版、移動終端3種管理系統供用戶使用,使其隨時隨地操作管理。智能灌溉系統采用WiFi技術實現遠程無線通信,采用Zigbee技術構建底層無線傳感網,節(jié)能低耗,能夠根據應用場景規(guī)模靈活增加無線節(jié)點模塊,不會因為監(jiān)測點過多而使布線復雜,降低系統維護運營成本。
1職能灌溉系統總體結構
系統總體結構如圖1所示。系統實驗室模型及部分實物操作界面如圖2所示。
2智能灌溉系統功能模塊簡介
本系統根據物聯網三層體系結構設計,功能模塊劃分及其主要設計內容如下表1所示。
3智能灌溉系統簡易操作說明
下面主要說明桌面版管理系統、Web版管理系統、移動終端版管理系統的操作使用方法。3.1桌面版管理系統桌面版管理系統主要功能模塊有:操作控制模塊、數據與命令查看模塊。其中,操作控制模塊的功能如下:這部分提供了實時場景的選擇,區(qū)域實時數據的顯示,區(qū)域手動操作和自動控制的設置??梢酝ㄟ^輸入服務器地址,進行場景的選擇,然后對該場景下的區(qū)域進行手動控制,實時控制底層終端控制設備,也可以開啟自動控制,輸入要自動控制的參數范圍,系統會根據輸入的控制參數,進行自動控制。3.2Web版管理系統3.2.1登錄界面系統的開始頁面,界面簡潔友好。只有獲取權限才能進入控制系統。3.2.2首頁這部分主要是顯示項目的一些圖片,頁面下方是項目的介紹。3.2.3監(jiān)控中心這是本程序的核心部分,在這個頁面中,能夠通過儀器表查看到當前的數據,并提供了天氣預報,能夠根據需要設置自動控制的外界條件,或是進行人工的操作處理。上述界面中,上面部分是最近一次采集到的數據,以儀器表的形式生動地展示出來,左下角是自動控制時的溫濕度,光照強度的控制范圍,在這里輸入要控制的范圍后,系統會根據用戶輸入的范圍自動調控。右下角是系統的自動控制區(qū)域,在這里用戶可以進行手動控制。3.2.4數據分析查看將歷史記錄以關聯圖表的形式展示出來,一目了然,為農業(yè)專家進行數據分析提供決策支持,最終確定適于作物生長的控制策略。3.2.5操作記錄將用戶的操作即自動操作記錄下來,便于查看。3.2.6退出程序退出后,系統的工作模式不變,保持原狀。點擊退出后,登錄狀態(tài)被重置,并跳轉到登錄頁面。3.3移動終端管理軟件3.3.1登錄部分這個是手機端的登錄界面,簡潔明了,選擇聯網模式,輸入賬號密碼以及當前的服務器地址即可登錄,可以選擇保存密碼,方便下次登錄。3.3.2數據查看中心選擇當前環(huán)境模式和區(qū)域,即可查看當前的實時數據。3.3.3控制中心選擇當前的場景模式和區(qū)域,就可以對該區(qū)域進行控制,可以根據需要輸入環(huán)境參數,設置自動控制的范圍,也可直接進行手動控制。
4結語
關鍵詞:大數據;信息處理技術;云計算;數據挖掘;安全保障
引言
信息技術以及網絡科學技術的持續(xù)發(fā)展,使得各個領域中的信息和數據呈現出了爆炸式增長的態(tài)勢。在海量的信息數據中,除了有效信息之外,還充斥著許多垃圾信息。如果不能運用合理有效的信息數據處理技術,對各項信息的種類與內容進行判斷,則會影響社會現代化建設的效率。因此,本文對大數據時代下的計算機信息數據處理技術進行研究,具有鮮明的現實意義。
1大數據時代背景下計算機信息技術內容
計算機信息處理技術主要包括了建模、數據信息采集、處理加工以及存儲等多個環(huán)節(jié),具體流程如圖1所示。
1.1建模
建立模型是大數據時代下計算機信息技術的基礎環(huán)節(jié),通過建立模型的方式可以為后續(xù)數據信息的分析和處理創(chuàng)造便利條件。在模型中進行數據分析,更加直觀易懂[1]。目前,以大數據為依托的信息模型主要包括了流處理和批處理兩種形式,在具體的模型建構中,技術人員要根據信息數據的處理需求,建立適合的模型,以起到提升數據處理效率的效果。
1.2采集
與以往的信息數據處理方式不同,大數據時代下的信息數據面臨諸多挑戰(zhàn)。多樣化、大容量的數據信息特征,要求計算機信息技術能對各項信息進行有效采集和精準篩選。一般來說,技術人員要運用數據挖掘技術實現數據的篩選,以保障計算機信息數據處理的正確性。大數據時代信息數據的處理和加工要保證科學性,符合新時期計算機信息技術對數據處理的實際需求。
1.3存儲
因為大數據時代下的信息種類和數量都較多,所以需要借助新的方式實現數據的安全有效存儲。目前,云存儲空間已經成為了人們首選的新型數據存儲模式。這種處理模式具有空間大、速度快和安全性高的優(yōu)勢,符合大數據時代下人們對于信息數據存儲的需求。云端的信息數據處理以及存儲,為海量信息提供了穩(wěn)定的存儲平臺,同時也為后續(xù)信息的調取提供了方便。
1.4加工
信息數據的加工是大數據時代下應用計算機信息技術對信息進行處理的重要環(huán)節(jié),在此環(huán)節(jié)中,技術人員要根據時代特征、企業(yè)需求以及數據本身的類型,選擇合理的計算機信息技術對數據進行加工處理。經過處理之后可以上傳到云端空間進行存儲,或者直接傳出到企業(yè)終端進行使用。
2大數據時代背景下計算機信息技術處理面臨的問題
2.1信息種類繁多
進入到大數據時代,越來越多的信息和數據進入到企業(yè)日常經營和管理工作當中。從一方面講,雖然這種發(fā)展狀態(tài)為企業(yè)的多樣化管理提供了豐富的資源支持,但是,從另一個方面進行分析,也能看出企業(yè)如何在眾多信息當中快速且精準地篩選出有效的信息,成為了企業(yè)現代化建設面臨的一項重大難題。與之前的信息化時代相比,大數據時代下,計算機信息技術需要從海量信息資源中進行有效信息定位,因此實際的工作量會大大增加。不僅如此,在信息篩選中還會受到網絡環(huán)境中不穩(wěn)定因素的影響,其面臨的安全威脅也明顯增強[2]。由此可以看出,為了從根本上解決信息技術不穩(wěn)定性因素的影響,相關領域的技術人員要不斷地更新計算機信息技術,使其適應大數據時展的需求,為企業(yè)和社會的現代化信息建設提供幫助。
2.2新型人才缺失
大數據時代的來臨加大了對計算機信息技術本身的挑戰(zhàn),同時也提升了對新型網絡技術人才的要求。無論是在以往的信息社會還是在大數據背景下的新型信息化社會,技術人才的作用都十分關鍵。從企業(yè)發(fā)展的角度進行分析,以往企業(yè)的發(fā)展會受到傳統觀念的影響,因此對于人才的培養(yǎng)以及重視程度要求都較低。這一情況會使在專業(yè)化建設方面存在人才不足的問題,進而無法為其后續(xù)的發(fā)展提供及時、有效和專業(yè)性的指導。無論是從企業(yè)本身經濟效益方面,還是整體社會效益方面,都會產生十分不利的影響。為了徹底解決這一問題,企業(yè)在現代建設中,除了要對技術進行優(yōu)化升級之外,還要重視新型技術人才的培養(yǎng)。提高對人才的重視程度,并為員工打造更適合的培訓方式,提升專業(yè)能力與綜合素養(yǎng)。
3大數據時代背景下計算機信息技術處理問題的應對方法
3.1案例概述
以R搜索引擎模型為例,在原本搜索引擎中,采用的是橫向搜索的模式,這種搜索模型并不能有效地結合用戶的特征,對信息數據進行結構化與非結構化的處理。進入到大數據時代,搜索引擎模型的設計單位明確認識到了模型中存在的不足之處,因此借助大數據時代下的新型計算機信息技術,對模型進行改進,期望可以提高實際應用有效性[3]。
3.2需求分析
R搜索引擎模型期望將原本的橫向搜索模式調整為垂直的搜索模式,并在原本的信息數據處理模塊中增加二次處理模塊,實現結構化的信息數據處理。二次處理模塊要求具備分類、去重的功能,以便提升模塊應用后搜索結果的精準性,同時提升信息數據搜索的速度。
3.3改進方法
3.3.1云計算為了使該搜索引擎模型達到預期的設計效果,技術人員運用了大數據時代下的新型計算機信息技術,將云計算功能納入到了系統模型中。通過將計算機網絡和云計算網絡緊密地結合起來,發(fā)揮出了整合后的雙重優(yōu)勢。云計算網絡的應用,確保了計算機硬件設備更新之后的優(yōu)勢可以有效發(fā)揮,特別是隨著高新電子科學技術的不斷改革與完善,計算機硬件設備的更迭也要與時俱進,否則最終將會因為難以適應時代的發(fā)展和現實需求,而導致計算機網絡管理工作失效的情況。云計算的應用促成了開放式網絡模式的建立,公眾們擺脫了網絡中心的局限性,R搜索引擎借助云計算靈活和開放獨特性,逐漸發(fā)揮出來互聯網模式的優(yōu)勢,提升了信息數據的初始處理速率[4-5]。
3.3.2高端人才人才是計算機信息技術應用的保障,人才本身的能力和水平,會影響到計算機信息技術發(fā)揮的有效性與合理性。在大數據時代下,計算機信息技術相關專業(yè)的高端人才需求量大幅度增長。部分企業(yè)雖然在發(fā)展的過程中搭建了各種不同的網絡媒體平臺,但是由于缺乏相應的技術人才,網絡平臺的后續(xù)維護成為了一項難題。對此,R搜索引擎除了積極引進先進的科學技術人才之外,還對內部的人才結構進行了調整。比如,R搜索引擎將搜索引擎功能和視覺信息處理技術相互結合,提出用主動光源而非算法來解決。團隊提出的CCA方法可以把可見光圖像和近紅外圖像提取一個共同特征,在CCA的空間來進行,然后用各種各樣的局部特征進行處理和濾波,提取一些共同特征。R搜索引擎將發(fā)展目光放得更為長遠,在發(fā)展的過程中,從降低成本、提升競爭力等方面進行了人才的專項培養(yǎng),將高端科學技術作為依托,為搜索引擎模型和企業(yè)的長久發(fā)展提供了戰(zhàn)略性支持[6]。
3.3.3數據挖掘大數據背景下,各項信息數據的處理技術都得以充分完善,越來越多的信息和數據匯聚到了一起,不同數據之間內在的聯系性也得以增強。但是,因為部分數據為冗余數據的范疇,在社會現代化建設中并不能發(fā)揮出實際效用,所以如何從這些數據中挖掘出有效信息,成為了R搜索引擎相關領域工作人員實際工作主要目標。數據挖掘技術的優(yōu)化,除了可以提升數據篩選的效率之外,還可以達到節(jié)約信息數據搜索與處理的成本。計算機信息技術中數據挖掘技術能提升技術本身對于數據信息的分析與加工處理能力,最終發(fā)現不同數據之間存在的內在聯系,篩選出有利于社會建設的有效信息[7-8]。
3.3.4安全保障大數據發(fā)展背景下的互聯網環(huán)境開放性進一步增強,當大眾通過互聯網進行有效對信息搜索與篩選時,不可避免地會暴露自己的部分信息,如果缺乏合理有效的監(jiān)管,很有可能被不法分子利用,竊取個人信息,損害個人利益,并且還會對社會的發(fā)展造成危害。因此,互聯網信息技術的安全性和保障性技術十分重要,特別是在大數據時代下,以往的信息管理系統不能對網絡中出現的信息數據進行高效篩選,而經過改進的大數據信息技術,R搜索引擎不僅實現了高效處理,同時也增強了管理工作的科學性和安全性。面對多種不同類型的網絡攻擊以及計算機病毒侵入,都可以幫助企業(yè)和個人保護各自的信息不受到侵害[9-10]。
3.4結果分析
R搜索引擎在大數據時代背景下,對計算機信息處理技術進行了調整,同時引進并培養(yǎng)了現代化的高端技術人才,為產品模型的優(yōu)化升級提供了強大動力支持。經過一系列改革之后,R搜索引擎最終將服務器的穩(wěn)定性提升了23.4%,并且網站的更新頻率、外鏈數量以及流量排名等都進入到了前3位,用戶綜合體驗排名第1。
>> 大數據加速推進貴州產業(yè)轉型升級 大數據助推產業(yè)升級 軍民融合助推貴州工業(yè)轉型升級 讓工業(yè)大數據成為制造業(yè)轉型升級的助推器 國網新疆電力公司大數據智庫平臺安全技術解析 大數據驅動下的新疆新型智庫建設 貴州大數據產業(yè)發(fā)展與產業(yè)結構轉型 貴州弄潮大數據 論道貴州大數據 IT助推智庫創(chuàng)新 數據庫技術在大數據中的應用 大數據助推大格局賽罕區(qū)開啟食藥監(jiān)管“智”理新模式 信息技術助推傳統企業(yè)轉型升級 BIM技術助推國有大型施工企業(yè)轉型升級 2016云上貴州?大數據招商引智推介會在京舉行 利用大數據技術助推精準扶貧的新探索 創(chuàng)意助推企業(yè)轉型升級 大數據背景下的高校新型智庫信息支持平臺構建研究 大數據環(huán)境下高校圖書館嵌入智庫建設模式探討 貴州耕“云”大數據 常見問題解答 當前所在位置:
[2].
[3]宗威、吳鋒.大數據時代下數據質量的挑戰(zhàn),西安交通大學學報,2013年9月,第33卷,第5期,總第121期.
[4]吳金紅、張飛、鞠秀芳.大數據: 企業(yè)競爭情報的機遇、挑戰(zhàn)及對策研究,情報雜志,第32卷.
[5]中國大數據重點行業(yè)應用市場研究白皮書
[6]中國大數據重點行業(yè)應用市場研究白皮書
大數據并不是一蹴而就、空穴來風的概念,在它的背后有很多趨勢在推動這個概念的到來。簡單地說有幾個方面推動大數據的到來:
第一是數據化。我們現在有了更多的傳感器去記錄數據。大家最能理解和最常見的傳感器就是手機。有了手機,我們就能通過技術監(jiān)測知道你生活在哪個地方,有沒有網絡購物等個人信息。正是有了越來越多的記錄數據的傳感器,使得我們獲得的數據一直在增長。
第二大變化是數據形態(tài)發(fā)生了變化 。我們現在有了各種各樣的數據,既包括傳統的結構化數據,例如門店的銷售數據、后臺數據等也包括互聯網的各種數據。
在大數據時代,互聯網用戶通常作為同一個對象使用多個網絡平臺。我們通過對特別對象或人物的網絡(性格、社交圈等)和行為(購物、評論等)的特征進行分析和挖掘,打破了孤立的個人數據特征,成功建立了以人為對象的跨越多個網絡和數據平臺的關系數據群,實現個人跨平臺數據的打通。
正是在這樣的大背景下,2011年5月,麥肯錫麥肯錫全球研究院(MGI)了一份報告――《大數據:創(chuàng)新、競爭和生產力的下一個新領域》,推動了工業(yè)界和學術界對大數據的關注,同年11月IBM公司在產品會上推出大數據概念。
大數據有四個特點:規(guī)模巨大;產生數據的速度非??欤覀兲幚硭乃俣纫卜浅?欤粩祿斓亩鄻有?;數據中潛藏價值。
我們認為大數據不是技術的變化,而是全方位理念的變化,它是基于多源異構、跨域關聯的海量數據分析所產生的決策流程、商業(yè)模式以及生活方式和觀念形態(tài)上的顛覆性變化的總和。
大數據的創(chuàng)新
整個大數據在商業(yè)中的創(chuàng)新體現在數據的外部化。也就是我們如何把自己的業(yè)務數據拿出去給別人用或者怎么樣把別人的數據拿進來自己用?
一個門店、一個品牌的生存都不能僅僅依靠自己的數據。當下基于互聯網基礎的社交媒體、論壇、電子商務及移動電子商務數據給我們提供了很多可能的資源。我從不同角度,簡單闡釋一下這個問題。
如果從大的角度來談化妝品行業(yè)的整體發(fā)展趨勢及哪些品類會成為消費者期盼的商品,互聯網就給了我們很好的答案。
在10年前,中國還沒有男士護膚的概念和市場,但是到今天男士護膚品已經是一個很大的市場。如果我們回溯到十年前,互聯網的論壇討論就是男士護膚市場起步的端倪。因為有一些消費者由于和歐美國家的接觸,他們比化妝品市場從業(yè)人員更敏感,他們首先發(fā)現了男士護膚市場的商機與需求。所以通過大數據的檢測你可能會遇到行業(yè)可能的機會。
從小的角度來看,大數據的運用,我在一個城市開店,我只想知道什么樣的東西受消費者的喜愛,未來的市場變化趨勢是怎樣的?這個時候電子商務和移動電子商務的數據就給了我們很好的答案。
我們可以通過分布式網絡爬蟲技術,直接爬取互聯網數據。當你覆蓋足夠多的電子商務平臺,你就很容易知道哪類產品、哪類品牌甚至某個單品在哪個城市的銷售狀況。我甚至可以通過精準的計算技術,更好的了解我們商業(yè)合作與競爭的利益。
如果再深一層,面對一個個體,我應該給哪些人推送精準營銷或者說一個產品面世后它在互聯網的美譽度是怎么樣的,有沒有可能出現重大安全問題,需要產品方做怎樣的調整,這些東西都不是我們自身的數據能解決的而是需要外部的數據輔助我們做決策。
舉幾個非化妝品行業(yè)的例子。搜索網站谷歌通過人們在網上的搜索記錄完成流感的預測。谷歌每天都會收到來自全球超過30億條的各種搜索指令,如此龐大的數據資源足以支撐和幫助它預測流感的傳染程度。
我們要注意到大數據運用的創(chuàng)新之處。谷歌不是通過疾控中心和醫(yī)院的數據來預測傳染病,它是通過搜索指令的數據資源來預測傳染病的流行程度。也就是說谷歌在用自身業(yè)務產生的數據,拿出去解決其他地方的重大問題。
再舉一個非常典型的例子,告訴大家我們的數據要流動起來,才能發(fā)揮更大的價值。
國家電網每年會兩個指數一個是重工業(yè)用電指數,一個是輕工業(yè)用電指數,這兩個指數是整個中國工業(yè)制造業(yè)的晴雨表。如果將國家電網的數據和用水的數據結合起來,這些數據產生更大的價值。如果把用水和用電的數據結合運用到個人住戶,則可以給公安部門維護社會穩(wěn)定起到積極作用。
公安部門可以通過異常的用水及用電數據判斷哪些住宅是傳銷聚集地。因為傳銷三、四十個人擠在一個小房子里,用水量是超過正常范圍的。
同時,用水用電數據為國家安全委員會維護穩(wěn)定和反恐有重大意義。我們國家有一些被列入黑名單的,這些人一旦發(fā)生了不正常的移動或者居住地用水用電發(fā)生異常,公安部門需要第一時間實地走訪,掌握情況。
此外,用水用電的數據是所有銀行為中小企業(yè)發(fā)放貸款的重要依據。眾所周知,中小企業(yè)的財報數據都不太真實,銀行在為他們做風險評估的時候,基本不看財報,而是看企業(yè)的用水用電數據以及交管委的攝像頭記錄的貨車進出數據,判斷企業(yè)的整體規(guī)模及信貸風險。
所以,我再次強調大數據創(chuàng)新的核心是怎么樣把自己的數據拿出去支持其他行業(yè)以及如何用其他行業(yè)的數據支持自己做決策。
大數據的商業(yè)實踐
將大數據用于品牌商業(yè)分析的時候,有三點和以前不一樣:
第一,我們所有的分析都是全樣的數據而不是抽樣的數據。從某種意義上講,世界上沒有全樣數據,我們所能掌握的都只是部分,但從另一個意義上講,我們團隊能夠監(jiān)控到大量的電子商務及手機移動終端的數據。這些數據不再與以前做數據分析時,到某幾家店,通過某幾個產品的試用和觀察得出的數據一樣。因此大數據時代的數據分析報告,比以前更細、更高速、更高準確率
第二,大數據的分析包括很多非結構化的數據。做移動電子商務的人會知道, 我們除了關注日常銷售、生產等結構化的數據之外,還會非??粗厣唐吩谏缃幻襟w上的影響力如何,品牌的粉絲影響力如何。所以每一件商品的美譽度如何以及在論壇上遭遇的輿情危機等都可以通過非結構化的數據分析獲得認識。
第三,我們所有的數據都是關聯的數據。我們要打通一個用戶、 一款產品在不同社交媒體上的購買行為、瀏覽行為及被收藏被評價行為,從而獲得更全面的認知,同時發(fā)現產品從A平臺到B平臺的商業(yè)機會。
我建議有條件的品牌商及經營者要實現外部數據的戰(zhàn)略儲備。我們團隊的數據其實來自兩方面:一個是自有數據的積累,二是公開數據的爬取?,F在的這些數據對于我們將來做擴展包括趨勢分析、競爭品牌的分析及了解用戶做精準營銷等意義重大。
在了解用戶的時候,我們需要進行全面了解。我們不僅要了解他的購買瀏覽記錄,還要了解他的時間和空間軌跡等。我們給很多品牌商做過服務,你對同一個對象在不同時間點給他推送廣告的打開率可以相差10幾倍。此外,了解一個用戶的行為軌跡,也能讓你做到精準的廣告投放和店鋪選址。
很多人在運用大數據營銷的時候,會步入邏輯結構的誤區(qū)。一般我們理解的大數據營銷是產品經理會通過思考去想像,我的產品適合什么層次的消費者,而企業(yè)的老總會思考我的產品選擇哪個明星做代言。有了這些想法之后,品牌才會根據媒體、銷售渠道及電子商務數據找到它們想要的的代言人。這樣的大數據營銷在邏輯上是不正確的,因為他太強烈的依賴于產品經理對產品的定位。
而正確的大數據營銷是首先找到自己產品和競爭產品的已有用戶以及對這些產品表達過興趣、發(fā)表過評價的幾萬人甚至是幾十萬人。然后在通過分析這幾十萬人從事的職業(yè)、感興趣的電視節(jié)目、關注的明星、日常瀏覽哪些論壇的數據結論,選擇與品牌形象及消費定位匹配的代言人,進行點對點的精準營銷。
在這樣的設計流程中, 產品經理和企業(yè)決策者的重要性體現在他們憑借敏銳的直覺,,將適合消費者使用的產品設計出來。一件產品問世,就像一個小孩出生,他已經是活生生的生命個體,父母已經無法再改變他。在這種情況下,父母對他的理解, 都比不上他在成長過程中自身生命力的勃發(fā)。許多父母會希望小孩子做各種事情,為小孩貼上標簽。但真正成功的父母,總是會從小孩的成長過程中看到驚喜。 同樣的每一件產品有了自己的生命力,它在面對市場的時候會遇到各種評價,我們利用這些大數據的分析能比產品經理更多知道一件產品它真正的目標用戶在哪里,它他真正需要的廣告投放在哪里。
在這么一套新的邏輯框架支持下,給大家舉一個化妝品行業(yè)的例子。歐萊雅集團有一款價值千余元的超聲波潔面儀。當時這一款產品的產品經理找到我們,給我們提出的是針對20歲至40歲的白領女性的產品定位。超聲波潔面儀的產品在電子商務渠道上有很多同類型的品牌,我們通過數據分析得出二三線城市的中小學老師的職業(yè)群體是被他們忽略掉的群體。
中小學老師每天接觸大量的粉筆灰塵,因此她們對潔面儀器的關注最活躍、使用頻次也最高。當我們把這個現象告訴歐萊雅的產品經理時,他們一下子就明白了這個道理。