發(fā)布時(shí)間:2022-06-01 10:55:10
序言:寫作是分享個(gè)人見解和探索未知領(lǐng)域的橋梁,我們?yōu)槟x了1篇的大數(shù)據(jù)采集與處理技術(shù)研究樣本,期待這些樣本能夠?yàn)槟峁┴S富的參考和啟發(fā),請(qǐng)盡情閱讀。
隨著互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,大數(shù)據(jù)的各項(xiàng)技術(shù)應(yīng)用模式也變得更加復(fù)雜,同時(shí)也便捷了人們的生活和工作。因而,需要我們合理地利用大數(shù)據(jù)并對(duì)其進(jìn)行精確管理,使其更好地為社會(huì)服務(wù)。互聯(lián)網(wǎng)大數(shù)據(jù)已融入到政治、經(jīng)濟(jì)、文化、外交以及軍事等不同領(lǐng)域之中,也與我們每個(gè)人的日常生活息息相關(guān),對(duì)數(shù)據(jù)進(jìn)行甄別,從而有效利用,是數(shù)據(jù)信息處理過程的重要一環(huán),影響深遠(yuǎn)。
1互聯(lián)網(wǎng)大數(shù)據(jù)的采集方法
1.1傳感器
傳感器方法主要是通過測(cè)試一些物品的物理特性,通常情況下包括物體的音量,濕溫度,電壓等等物理符號(hào)信息,采集完畢后將這些數(shù)學(xué)值轉(zhuǎn)變?yōu)橐恍╇娔X能夠準(zhǔn)確識(shí)別的信號(hào),然后上傳到數(shù)字終端進(jìn)行歸納,完成數(shù)據(jù)的工作。
1.2系統(tǒng)日志采集方法
一般來說,數(shù)據(jù)源系統(tǒng)能夠產(chǎn)生系統(tǒng)的日志文件數(shù)據(jù),用來對(duì)數(shù)據(jù)源發(fā)生的各項(xiàng)操作過程進(jìn)行實(shí)時(shí)記錄,比如一些web服務(wù)器記錄的用戶訪問行為和網(wǎng)絡(luò)流量的實(shí)時(shí)監(jiān)管和金融軟件的股票記賬等。許多的互聯(lián)網(wǎng)企業(yè)都有自己的海量數(shù)據(jù)采集工具,多用于系統(tǒng)日志采集,如Hadoop的Chukwa,Cloudera的Flume,F(xiàn)acebook的Scribe等,這些工具均采用分布式架構(gòu),能滿足每秒數(shù)百M(fèi)B的日志數(shù)據(jù)采集和傳輸需求。
1.3Web爬蟲
網(wǎng)絡(luò)爬蟲是指為搜索引擎下載并存儲(chǔ)網(wǎng)頁的程序,它是搜索引擎和web緩存的主要的數(shù)據(jù)采集方式。通過網(wǎng)絡(luò)爬蟲或網(wǎng)站公開API等方式從網(wǎng)站上獲取數(shù)據(jù)信息。該方法可以將非結(jié)構(gòu)化數(shù)據(jù)從網(wǎng)頁中抽取出來,將其存儲(chǔ)為統(tǒng)一的本地?cái)?shù)據(jù)文件,并以結(jié)構(gòu)化的方式存儲(chǔ)。它支持圖片、音頻、視頻等文件或附件的采集,附件與正文可以自動(dòng)關(guān)聯(lián)。數(shù)據(jù)類型十分的復(fù)雜,同時(shí)產(chǎn)生數(shù)據(jù)的方法和路徑也在不斷增多,數(shù)據(jù)的表現(xiàn)形式自然更為多變,由原先簡(jiǎn)單的文字、圖片和視頻轉(zhuǎn)變?yōu)橐恍└鼮閺?fù)雜的保留信息和具有時(shí)空信息價(jià)值的抽象信息。
2互聯(lián)網(wǎng)大數(shù)據(jù)的處理技術(shù)
如果要把數(shù)據(jù)處理應(yīng)用到一些處理其他領(lǐng)域的輔助資源,就需要極高的數(shù)據(jù)處理和價(jià)值提取價(jià)值,相對(duì)于當(dāng)下的數(shù)據(jù)處理技術(shù)來說是一個(gè)巨大的挑戰(zhàn)?,F(xiàn)在比較流行的數(shù)據(jù)處理方法主要是批處理和流處理模式,這兩種處理模式相對(duì)應(yīng)的是靜態(tài)數(shù)據(jù)和動(dòng)態(tài)數(shù)據(jù)這兩種不同的數(shù)據(jù)形式。
2.1批處理
對(duì)待靜態(tài)數(shù)據(jù)主要是先對(duì)原始用戶的數(shù)據(jù)進(jìn)行分塊釋義,然后通過不同的任務(wù)處理區(qū)來進(jìn)行工作,得出最終結(jié)論。這一技術(shù)在文本處理等領(lǐng)域運(yùn)用的尤為廣泛。這種批處理的技術(shù)對(duì)于那些先進(jìn)行存儲(chǔ),然后進(jìn)行計(jì)算的大數(shù)據(jù)來說十分適合。另一方面,交互式的數(shù)據(jù)分析系統(tǒng)則是去處理一些實(shí)時(shí)數(shù)據(jù)的另一個(gè)有效方法。
2.2流處理
對(duì)那些實(shí)時(shí)數(shù)據(jù)進(jìn)行處理,交互式的數(shù)據(jù)處理方法相對(duì)與流式而言更加靈活多變,易于控制,處理的結(jié)果也更加方便進(jìn)行讀取,常見的應(yīng)用實(shí)例是一些服務(wù)器的實(shí)時(shí)日志信息采集,網(wǎng)絡(luò)上PB級(jí)數(shù)據(jù)的處理時(shí)間縮短到秒級(jí),所以要求對(duì)這些實(shí)時(shí)數(shù)據(jù)的處理能夠更加迅速和準(zhǔn)確,這些是流數(shù)據(jù)處理的核心處理方法和目標(biāo)。由于當(dāng)下電子設(shè)備的技術(shù)革新和普遍應(yīng)用,更多的圖像和音視頻信息出現(xiàn)在信息源當(dāng)中,由于其自身就能夠表現(xiàn)出數(shù)據(jù)特點(diǎn)和事物聯(lián)系。圖數(shù)據(jù)耦合的特性對(duì)圖的規(guī)模日益增大達(dá)到上百萬甚至上億節(jié)點(diǎn)的大圖數(shù)據(jù)計(jì)算提出了巨大的挑戰(zhàn),于此同時(shí),一些圖片數(shù)據(jù)源的關(guān)鍵字查詢技術(shù)和圖片的存儲(chǔ)挖掘技術(shù)之間都有著共通之處,圖數(shù)據(jù)的處理系統(tǒng)要對(duì)不同的圖數(shù)據(jù)進(jìn)行正確的分割和計(jì)算,運(yùn)用寫好的互聯(lián)網(wǎng)模型來批量處理現(xiàn)在的大數(shù)據(jù),這種技術(shù)已經(jīng)在網(wǎng)絡(luò)安全和公共安全領(lǐng)域已經(jīng)運(yùn)用的十分廣泛了,比如通過大數(shù)據(jù)處理對(duì)一些用戶感興趣的內(nèi)容進(jìn)行微博的推薦閱讀、微信的公眾號(hào)推薦和如今一些視頻流量軟件和平臺(tái)的用戶視頻選取推送等技術(shù)都是此類技術(shù),在社會(huì)安全和公共安全方面,對(duì)一些可能存在的用戶異常操作進(jìn)行錯(cuò)誤報(bào)告,醫(yī)院內(nèi)對(duì)病人的身體情況進(jìn)行語義進(jìn)行分析和協(xié)助,一些物聯(lián)網(wǎng)系統(tǒng)則是通過用戶的使用習(xí)慣對(duì)連接的物理裝置進(jìn)行實(shí)時(shí)操控,還有一些交通管理,環(huán)境管理和生物傳感,物流快遞和物流車輛形式的路線規(guī)劃等領(lǐng)域有著廣泛的應(yīng)用。
3大數(shù)據(jù)發(fā)展展望
各種處理大數(shù)據(jù)的方法和技術(shù)在進(jìn)行不斷地革新,國(guó)內(nèi)外的各類互聯(lián)網(wǎng)企業(yè)也在對(duì)大數(shù)據(jù)處理的專業(yè)化架構(gòu)技術(shù)進(jìn)行研發(fā)。對(duì)開源系統(tǒng)進(jìn)行優(yōu)化,增大開發(fā)的規(guī)模,降低開發(fā)成本,強(qiáng)化開發(fā)的專業(yè)化程度,數(shù)據(jù)處理的模式多樣化程度增加,有利于大數(shù)據(jù)在物聯(lián)網(wǎng)環(huán)境下的良性發(fā)展。大數(shù)據(jù)的處理可以通過機(jī)器深度學(xué)習(xí)挖掘的進(jìn)行實(shí)現(xiàn),所以機(jī)器的深度學(xué)習(xí)是現(xiàn)在大數(shù)據(jù)信息分析的基礎(chǔ),將一些碎片化的信息結(jié)構(gòu)整合成一個(gè)完整的數(shù)據(jù)源,來反應(yīng)信息表達(dá)事物的全貌,增加大數(shù)據(jù)挖掘的深度??梢暬夹g(shù)不僅僅是數(shù)據(jù)分析的關(guān)鍵技術(shù)也是展現(xiàn)通過數(shù)據(jù)挖掘產(chǎn)生的數(shù)據(jù)結(jié)果的重要手段,通過強(qiáng)可視化輔助決策可以對(duì)大數(shù)據(jù)分析的準(zhǔn)確性、有效性和對(duì)于人們能否及時(shí)獲得決策信息非常重要??梢灶A(yù)見,將來大數(shù)據(jù)平臺(tái)會(huì)以一種前所未有的方式改變著各行各業(yè)。
4結(jié)束語
綜上所述,互聯(lián)網(wǎng)的大數(shù)據(jù)采集與處理和信息計(jì)算方式息息相關(guān),如何提高信息計(jì)算方法和機(jī)器建模的數(shù)據(jù)挖掘手段,對(duì)于提高數(shù)據(jù)采集的質(zhì)量和速度都有著重要的意義,面對(duì)越來越復(fù)雜的數(shù)據(jù),僅僅依靠一種數(shù)據(jù)處理方式也是遠(yuǎn)遠(yuǎn)不夠,只有針對(duì)不同的數(shù)據(jù)類型,數(shù)據(jù)產(chǎn)生途徑和數(shù)據(jù)特點(diǎn)進(jìn)行分類處理,合理地綜合運(yùn)用各種不同地信息處理方式,才能夠有效地處理數(shù)據(jù)。在實(shí)際地應(yīng)用意義方面,大數(shù)據(jù)的采集和處理技術(shù)也有著廣闊的應(yīng)用價(jià)值,國(guó)內(nèi)外對(duì)于該領(lǐng)域的研究尚且不完善,在該領(lǐng)域占得先機(jī),對(duì)于我國(guó)的數(shù)據(jù)應(yīng)用和處理有著重要的意義,產(chǎn)生對(duì)社會(huì)各層有益的影響。
參考文獻(xiàn):
[1]王映麗.大數(shù)據(jù)時(shí)代的計(jì)算機(jī)信息處理技術(shù)分析[J].電腦知識(shí)與技術(shù),2018,v.14(10):52-53.
[2]何文韜,邵誠(chéng).工業(yè)大數(shù)據(jù)分析技術(shù)的發(fā)展及其面臨的挑戰(zhàn)[J].信息與控制,2018,47(04):398-410.
[3]王建昆.大數(shù)據(jù)分析技術(shù)在采集運(yùn)維業(yè)務(wù)中的應(yīng)用[J].中國(guó)新通信,2018,v.20(12):107.
[4]王健,楊清銀.大數(shù)據(jù)分析技術(shù)在用電信息異常分析中的應(yīng)用[J].自動(dòng)化與儀器儀表,2018(03).
作者:蘇文偉 耿貞偉 單位:云南電網(wǎng)有限責(zé)任公司信息中心