發(fā)布時(shí)間:2022-04-01 11:30:56
序言:寫(xiě)作是分享個(gè)人見(jiàn)解和探索未知領(lǐng)域的橋梁,我們?yōu)槟x了1篇的大數(shù)據(jù)下信息資源管理創(chuàng)新分析樣本,期待這些樣本能夠?yàn)槟峁┴S富的參考和啟發(fā),請(qǐng)盡情閱讀。
在大數(shù)據(jù)時(shí)代,信息資源管理在思維上要關(guān)注研究對(duì)象的完備性、接受數(shù)據(jù)信息的混雜、注重相關(guān)關(guān)系;在流程上則應(yīng)革新信息采集模式、構(gòu)建分布式信息存儲(chǔ)平臺(tái)、變革信息分析流程、提高信息提供質(zhì)量,從而實(shí)現(xiàn)信息資源管理的整體優(yōu)化。
引言
信息資源管理是在上個(gè)世紀(jì)70年代末80年代初為解決企業(yè)和政府信息資源管理和利用問(wèn)題而興起的一個(gè)新興領(lǐng)域。它將信息作為一種資源進(jìn)行管理,并隨著社會(huì)和技術(shù)的發(fā)展,形成了一系列理論和方法,成為當(dāng)今最引人注目的研究領(lǐng)域之一。20世紀(jì)90年代后期,為了應(yīng)對(duì)傳統(tǒng)計(jì)算機(jī)技術(shù)難以處理的海量數(shù)據(jù)問(wèn)題,科學(xué)研究領(lǐng)域率先提出了大數(shù)據(jù)的概念。2008年,Yahoo、Google、阿里巴巴等大型互聯(lián)網(wǎng)和電子商務(wù)公司在運(yùn)營(yíng)過(guò)程中,出現(xiàn)了很多問(wèn)題,如處理的數(shù)據(jù)量大、種類多,數(shù)據(jù)的流動(dòng)速度快,而且數(shù)據(jù)經(jīng)常是不完備甚至是不可理解的[1]。為了有效地解決這些問(wèn)題,大數(shù)據(jù)的理念和技術(shù)被應(yīng)用,且不斷更新大數(shù)據(jù)的技術(shù)和架構(gòu)。除了在科研和經(jīng)濟(jì)領(lǐng)域引起熱潮,政府也將大數(shù)據(jù)問(wèn)題提升到了戰(zhàn)略層次。2015年,國(guó)務(wù)院頒布了《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》[2],指出大數(shù)據(jù)已成為國(guó)家基礎(chǔ)性戰(zhàn)略資源,這也是中國(guó)正式啟動(dòng)和實(shí)施國(guó)家大數(shù)據(jù)戰(zhàn)略的標(biāo)志。大數(shù)據(jù)與信息資源管理緊密相關(guān),大數(shù)據(jù)的思維影響著信息資源管理的思想,指導(dǎo)處理大數(shù)據(jù)環(huán)境下信息資源管理中涌現(xiàn)的問(wèn)題,并為信息資源管理發(fā)展出全新的方法論。就方法論而言,大數(shù)據(jù)帶來(lái)的新思維,即整體性、容錯(cuò)性以及相關(guān)性思維,給傳統(tǒng)的科學(xué)方法論帶來(lái)了巨大沖擊。大數(shù)據(jù)技術(shù)則為信息資源管理的發(fā)展奠定基礎(chǔ),為其實(shí)現(xiàn)指明道路,并提供動(dòng)力。就非結(jié)構(gòu)化數(shù)據(jù)處理而言,大數(shù)據(jù)提出了多源信息融合理論[3],并在技術(shù)實(shí)現(xiàn)上給予支持,保障信息采集的完備性、信息分析的科學(xué)性,以及信息成果或產(chǎn)品的高價(jià)值。簡(jiǎn)而言之,大數(shù)據(jù)與信息資源管理緊密相關(guān),其思維指導(dǎo)著信息資源管理思想在大數(shù)據(jù)環(huán)境下的變革,其技術(shù)在信息資源管理流程方面具有良好的可移植性,促使信息資源管理流程適應(yīng)大數(shù)據(jù)時(shí)代的發(fā)展。
1大數(shù)據(jù)思維與技術(shù)
“大數(shù)據(jù)”(BigData)是一個(gè)較為抽象的概念,現(xiàn)在還沒(méi)有統(tǒng)一的定義。大數(shù)據(jù)最早由美國(guó)著名未來(lái)學(xué)家Toffer在《TheThirdWave》一書(shū)中提出,其將大數(shù)據(jù)贊頌為“第三次浪潮的華彩樂(lè)章”[4];2000年Diebold[5]所撰寫(xiě)的論文《“BigData”DynamicFactorModelsforMacroeconomicMeasurementandForecasting》是大數(shù)據(jù)第一次出現(xiàn)在學(xué)術(shù)期刊中。維基百科將大數(shù)據(jù)定義為無(wú)法在一定時(shí)間內(nèi)用傳統(tǒng)數(shù)據(jù)庫(kù)軟件工具對(duì)其內(nèi)容進(jìn)行抓取、管理和處理的數(shù)據(jù)集合[6]。這并不是個(gè)嚴(yán)謹(jǐn)?shù)亩x,但卻是各種學(xué)術(shù)和應(yīng)用領(lǐng)域最廣泛引用的一個(gè)定義。2012年初,麥肯錫公司用“大數(shù)據(jù)”來(lái)指那些數(shù)據(jù)量特別巨大,并包含結(jié)構(gòu)性、半結(jié)構(gòu)性和非結(jié)構(gòu)性的數(shù)據(jù)[7],促進(jìn)了大數(shù)據(jù)的廣泛傳播,并引起了學(xué)界對(duì)大數(shù)據(jù)的研究熱潮。有研究以大數(shù)據(jù)的五個(gè)特征作為補(bǔ)充,得出一個(gè)較為清晰的概念,即大數(shù)據(jù)是以容量大、存取速度快、類型多、真實(shí)性、價(jià)值回報(bào)高為主要特征的數(shù)據(jù)集合[1]。雖然關(guān)于大數(shù)據(jù)的研究持續(xù)的時(shí)間不長(zhǎng),但關(guān)于大數(shù)據(jù)的研究與應(yīng)用卻已深入到社會(huì)的方方面面,深刻地影響著人們的生產(chǎn)與生活。
1.1大數(shù)據(jù)思維
得大數(shù)據(jù)者得天下,要想充分發(fā)揮大數(shù)據(jù)的價(jià)值,首先要建立大數(shù)據(jù)思維。簡(jiǎn)單來(lái)說(shuō),大數(shù)據(jù)時(shí)代,人們必須用數(shù)據(jù)的眼光重新看待這個(gè)世界,將一切數(shù)據(jù)化,并且依托數(shù)據(jù)做出更為有效的決策。大數(shù)據(jù)主要給人們帶來(lái)了三個(gè)全新的思維,即整體性思維、容錯(cuò)性思維以及相關(guān)性思維,這三個(gè)思維將幫助人們更好地理解大數(shù)據(jù)。1.1.1整體性思維。大數(shù)據(jù)思維對(duì)整體性的追求,實(shí)質(zhì)上是一種“樣本=總體”的思維轉(zhuǎn)變[8],即要分析與某事物相關(guān)的盡可能多的數(shù)據(jù),甚至所有數(shù)據(jù),而不再只依賴通過(guò)隨機(jī)分析法(抽樣調(diào)查)得到的少量數(shù)據(jù)樣本,通過(guò)這種方式可以抓住隨機(jī)抽樣方法中抓不到的細(xì)節(jié)。這里使用“盡可能多”來(lái)闡述大數(shù)據(jù),是由于在現(xiàn)實(shí)中會(huì)受到人體自身與技術(shù)發(fā)展水平的限制,所能獲取和處理的數(shù)據(jù)終歸是有限的。不過(guò)隨著信息技術(shù)的進(jìn)步,人們可以處理的數(shù)據(jù)量會(huì)不斷增加[8]。1.1.2容錯(cuò)性思維。大數(shù)據(jù)思維的容錯(cuò)性是指其不再追求數(shù)據(jù)的精確性,即接受數(shù)據(jù)的混雜性,不同于以往科學(xué)研究中對(duì)高質(zhì)量數(shù)據(jù)收集處理和精確性結(jié)果獲得的訴求,大數(shù)據(jù)從大量混雜的數(shù)據(jù)中挖掘知識(shí)和價(jià)值,宏觀上失去了精確性,但微觀上卻能獲得準(zhǔn)確性。大數(shù)據(jù)的混雜性主要體現(xiàn)在兩個(gè)方面,一是數(shù)據(jù)容量巨大,質(zhì)量參差不齊;二是數(shù)據(jù)結(jié)構(gòu)多樣,結(jié)構(gòu)化、半結(jié)構(gòu)化、準(zhǔn)結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)共存。大數(shù)據(jù)體現(xiàn)著“樣本=總體”的思想追求,由于人體本身與技術(shù)發(fā)展水平的限制,所能獲取與處理的數(shù)據(jù)是并且永遠(yuǎn)是有限的,因此無(wú)需也無(wú)法追求精確度[8]。此外,適用于傳統(tǒng)數(shù)據(jù)庫(kù)的結(jié)構(gòu)化數(shù)據(jù)只有5%,只有接受混亂,才能利用剩下的95%的數(shù)據(jù)資源[9]。1.1.3相關(guān)性思維。大數(shù)據(jù)思維的相關(guān)性是指不再探求難以捉摸的因果關(guān)系,轉(zhuǎn)而關(guān)注事物的相關(guān)關(guān)系。與因果關(guān)系不同,相關(guān)關(guān)系不需要揭示事物內(nèi)部的運(yùn)行機(jī)制,類似于將數(shù)據(jù)封裝成一個(gè)個(gè)的黑箱,用戶只需要關(guān)注外在的宏觀行為,忽略內(nèi)部的各種復(fù)雜關(guān)系轉(zhuǎn)化,然后通過(guò)比對(duì)來(lái)找到宏觀行為中的數(shù)據(jù)之間的相關(guān)關(guān)系。這種對(duì)數(shù)據(jù)之間相關(guān)關(guān)系的挖掘,在面對(duì)非線性關(guān)系分析時(shí),顯示出了極大的優(yōu)越性。相關(guān)性思維使人們關(guān)注“是什么”而不是“為什么”,幫助人們更好地了解這個(gè)世界[9]。
1.2大數(shù)據(jù)技術(shù)
根據(jù)大數(shù)據(jù)的應(yīng)用實(shí)踐過(guò)程,可將大數(shù)據(jù)技術(shù)劃分為大數(shù)據(jù)采集技術(shù)、存儲(chǔ)與管理技術(shù)、分析技術(shù)以及安全與隱私保護(hù)技術(shù)等。1.2.1大數(shù)據(jù)采集技術(shù)。常用的大數(shù)據(jù)采集技術(shù)有射頻識(shí)別技術(shù)(RFID)、形碼技術(shù)、視頻監(jiān)控技術(shù)、網(wǎng)絡(luò)爬蟲(chóng)采集技術(shù)、情感識(shí)別技術(shù)與智能錄播技術(shù)、移動(dòng)APP技術(shù)與點(diǎn)陣數(shù)碼筆技術(shù)等[10]。主要集中于云環(huán)境下大數(shù)據(jù)的采集、分布式大數(shù)據(jù)的采集技術(shù)以及各領(lǐng)域大數(shù)據(jù)采集三個(gè)方面。如,方暉[11]研究出了基于相干功率譜密度估計(jì)的云信息采集方法。楊懿等[12]研究的用電信息采集系統(tǒng)架構(gòu)優(yōu)化主要是利用了大數(shù)據(jù)的分布式采集技術(shù)。趙紅艷[13]設(shè)計(jì)的基于大數(shù)據(jù)的小微企業(yè)信息自動(dòng)采集系統(tǒng),實(shí)現(xiàn)了網(wǎng)頁(yè)信息抓取、處理、集成、存儲(chǔ)和查詢等。1.2.2大數(shù)據(jù)存儲(chǔ)與管理技術(shù)。大數(shù)據(jù)存儲(chǔ)與管理技術(shù)主要涉及NoSQL存儲(chǔ)方案設(shè)計(jì)、分布式文件系統(tǒng)構(gòu)建、分布式并行數(shù)據(jù)集群技術(shù)的研究、面向大數(shù)據(jù)處理的MapReduce模型實(shí)現(xiàn)以及基于Hadoop開(kāi)源體系的系統(tǒng)平臺(tái)建設(shè)等方面[10]。非關(guān)系型分布式數(shù)據(jù)庫(kù)(NoSQL)是分布式存儲(chǔ)的主要技術(shù),具有不需要預(yù)定義模式、無(wú)共享架構(gòu)、彈性可擴(kuò)展、數(shù)據(jù)分區(qū)、異步復(fù)制以及追求最終一致性和軟事務(wù)等特征[1]。如Hadoop分布式文件系統(tǒng)HDFS具有高度容錯(cuò)性,可以應(yīng)用在那些低配置的硬件上,并保持高吞吐量的數(shù)據(jù)訪問(wèn)。1.2.3大數(shù)據(jù)分析技術(shù)。目前,大數(shù)據(jù)分析技術(shù)的研究主要涉及云計(jì)算、分布式數(shù)據(jù)庫(kù)、MapReduce、基于機(jī)器學(xué)習(xí)的大數(shù)據(jù)分析技術(shù)、大數(shù)據(jù)挖掘技術(shù)、大數(shù)據(jù)分析系統(tǒng)的構(gòu)建、可視化技術(shù)等多個(gè)方面[10]。云計(jì)算是一種可擴(kuò)展的基于互聯(lián)網(wǎng)的資源配置方式,對(duì)軟件的開(kāi)發(fā)與測(cè)試有著深刻的影響[14]。分布式數(shù)據(jù)庫(kù)主要是用計(jì)算機(jī)網(wǎng)絡(luò)對(duì)分散的數(shù)據(jù)節(jié)點(diǎn)建立邏輯上的統(tǒng)一,具有降低數(shù)據(jù)傳送代價(jià)、提供系統(tǒng)可靠性以及便于系統(tǒng)擴(kuò)充等優(yōu)點(diǎn)[1]。HadoopMapReduce是一種編程模型,適合大數(shù)據(jù)規(guī)模集(大于1TB)的并行運(yùn)算。1.2.4大數(shù)據(jù)安全與隱私保護(hù)技術(shù)目前,大數(shù)據(jù)安全與隱私保護(hù)技術(shù)的研究有數(shù)據(jù)加密算法、位置大數(shù)據(jù)的隱私保護(hù)、隱私保護(hù)的技術(shù)架構(gòu)研究以及隱私保護(hù)的立法等[10]。Rivest在1991年開(kāi)發(fā)出技術(shù)上更為趨近成熟的MD5算法,并在一致性驗(yàn)證、數(shù)字簽名、安全訪問(wèn)認(rèn)證等領(lǐng)域有著很好的效果。聶燕敏、陳剛和何志強(qiáng)[15]設(shè)計(jì)的分布式位置隱私保護(hù)模型,實(shí)現(xiàn)了精確位置分割和多層次粗糙位置融合的新算法,并采用信息熵的理論進(jìn)行實(shí)證,顯示新算法對(duì)位置大數(shù)據(jù)隱私保護(hù)效果顯著。楊鑫[16]將入侵檢測(cè)技術(shù)、容忍技術(shù)以及通用框架模型相結(jié)合,在入侵檢測(cè)框架中添加入侵容忍單元,從而提出了改進(jìn)入侵容忍系統(tǒng)模型的設(shè)計(jì)方案。
2大數(shù)據(jù)對(duì)信息資源管理的影響
大數(shù)據(jù)對(duì)信息資源管理的影響主要體現(xiàn)在思想與流程兩個(gè)方面。信息資源管理思想是動(dòng)態(tài)變化的,在大數(shù)據(jù)時(shí)代,由于數(shù)據(jù)的5V特征的影響,會(huì)表現(xiàn)出關(guān)注研究對(duì)象的完備性、接受數(shù)據(jù)信息的混雜和注重相關(guān)關(guān)系等特性。而在信息資源管理流程方面,由于大數(shù)據(jù)技術(shù)的推進(jìn),以及信息資源管理的新思想的作用,信息采集、信息組織、信息分析以及信息提供都會(huì)在一定程度上受到影響。
2.1對(duì)信息資源管理思想的影響
信息資源管理經(jīng)歷了以圖書(shū)館為象征的傳統(tǒng)管理階段、以電子信息系統(tǒng)為標(biāo)志的自動(dòng)化技術(shù)管理階段、對(duì)信息活動(dòng)全要素進(jìn)行管理的信息資源管理階段以及最新發(fā)展形成的知識(shí)管理階段四個(gè)發(fā)展階段。在信息資源管理的發(fā)展演變過(guò)程中,比較主流的信息資源管理思想有信息是一種資源、信息資源管理新模式、以人為中心三種:(1)信息是一種與物質(zhì)、能源同等甚至更加重要的資源,把信息看成寶貴的資源,認(rèn)同其作為資源的地位,是面對(duì)信息資源所持有的一種科學(xué)態(tài)度[17];(2)信息資源管理新模式是指從技術(shù)、經(jīng)濟(jì)、人文三個(gè)維度對(duì)信息資源進(jìn)行管理,從而保證信息資源開(kāi)發(fā)與利用的科學(xué)性,保持管理模式的先進(jìn)性;(3)以人為中心是指將關(guān)注的重心從技術(shù)轉(zhuǎn)移到人本身,如人對(duì)技術(shù)的態(tài)度、人與技術(shù)的關(guān)系、人的信息使用行為、人的信息心理等[18]。信息資源管理思想在不同的階段有著不同的內(nèi)容,即信息資源管理思想是動(dòng)態(tài)變化的,隨著時(shí)代的發(fā)展而不斷替換與更新。大數(shù)據(jù)思維是數(shù)據(jù)規(guī)模與復(fù)雜度發(fā)展到一定階段的產(chǎn)物,符合當(dāng)前發(fā)展趨勢(shì),對(duì)信息資源管理思想的發(fā)展與變革具有指導(dǎo)作用。2.1.1關(guān)注研究對(duì)象的完備性。在傳統(tǒng)管理階段,由于資金、技術(shù)等各種資源的短缺,人們對(duì)研究對(duì)象(狹義的信息資源)的整體性要求不高,在進(jìn)行信息采集時(shí),抽樣是比較常用的方式。而隨著經(jīng)濟(jì)的發(fā)展,信息技術(shù)的提高,尤其是現(xiàn)在大數(shù)據(jù)思想與技術(shù)的沖擊,關(guān)注研究對(duì)象的完備性是保證組織先進(jìn)性的根本要求。即只有收集與研究對(duì)象有關(guān)的全部信息,才能充分挖掘信息的價(jià)值,在保證真實(shí)的基礎(chǔ)上,充分發(fā)揮信息資源的價(jià)值。2.1.2接受數(shù)據(jù)信息的混雜。隨著社交網(wǎng)絡(luò)的發(fā)展,網(wǎng)絡(luò)用戶的角色從數(shù)據(jù)的使用者,變成了數(shù)據(jù)的生產(chǎn)者,數(shù)據(jù)規(guī)模迅速擴(kuò)展。就移動(dòng)互聯(lián)網(wǎng)而言,據(jù)統(tǒng)計(jì)全球每個(gè)月移動(dòng)互聯(lián)網(wǎng)使用者發(fā)送和接收的數(shù)據(jù)高達(dá)1.3EB[1]。同時(shí),不是結(jié)構(gòu)化的數(shù)據(jù)與結(jié)構(gòu)化數(shù)據(jù)的占比迅速擴(kuò)大,且未來(lái)不是結(jié)構(gòu)化的數(shù)據(jù)將占到數(shù)據(jù)總量的80%~90%[9]。大數(shù)據(jù)環(huán)境下,數(shù)據(jù)信息是信息資源的重要組成部分,且隨著時(shí)代的發(fā)展,其在信息資源中所占的比例將越來(lái)越大,數(shù)據(jù)信息的混雜促使信息資源管理的難度升級(jí)。因此,要優(yōu)化信息資源管理,接受數(shù)據(jù)信息的混雜勢(shì)在必行。2.1.3注重相關(guān)關(guān)系。因果關(guān)系是指對(duì)已經(jīng)發(fā)生的事件,根據(jù)其原因來(lái)判斷其結(jié)果。與因果關(guān)系不同,相關(guān)關(guān)系是指針對(duì)幾個(gè)相互聯(lián)系的變量,一個(gè)或幾個(gè)變量的變動(dòng)會(huì)引起與之相對(duì)應(yīng)的另一變量的規(guī)律性變動(dòng),即正相關(guān)或負(fù)相關(guān)[19]。隨著信息技術(shù)的發(fā)展,信息資源管理的對(duì)象更為混雜,很難真正地、容易地找到因果關(guān)系,相關(guān)關(guān)系在這時(shí)凸顯出來(lái),且在信息資源管理活動(dòng)中顯示出極大的優(yōu)越性。
2.2對(duì)信息資源管理流程的影響
按業(yè)務(wù)流程進(jìn)行劃分,信息資源管理包括信息采集、信息組織、信息分析和信息提供等活動(dòng)。信息采集是指采集人員出于自身從事科學(xué)研究的需要,或供他人或企業(yè)作為決策、研究的參考,從而進(jìn)行的利用社會(huì)調(diào)查、網(wǎng)絡(luò)工具、圖書(shū)和報(bào)刊資料等工具進(jìn)行的專門(mén)性的信息采集工作[20],其實(shí)質(zhì)是將信息資源從紛繁復(fù)雜的信息中提煉出來(lái)的過(guò)程。信息組織是指對(duì)采集到的信息按其形式特征和內(nèi)容特征有序化,然后進(jìn)行重新組織與控制的活動(dòng),包括信息篩選、信息分析、信息描述與揭示、信息整序與存儲(chǔ)四方面內(nèi)容[21]。信息分析是指信息分析人員以用戶的信息需求為依據(jù),利用各種分析工具和分析技術(shù),運(yùn)用不同的分析方法,對(duì)已有信息進(jìn)行分析、對(duì)比、提煉、濃縮和綜合,從而得到分析研究結(jié)果的過(guò)程[22]。信息提供是指針對(duì)用戶的特定需求,將信息機(jī)構(gòu)收藏的信息或信息獲取與查詢工具提供給用戶利用的活動(dòng)[22]。信息資源管理活動(dòng)的實(shí)質(zhì),就是為了將信息機(jī)構(gòu)所存儲(chǔ)的信息能夠?yàn)槠髽I(yè)或組織的管理工作服務(wù),為個(gè)人的學(xué)習(xí)、科學(xué)研究及日常生活服務(wù)。大數(shù)據(jù)作為信息資源管理的技術(shù)手段,其發(fā)展對(duì)信息資源管理理論、技術(shù)方法以及應(yīng)用都有著極大的影響,且大數(shù)據(jù)對(duì)信息資源管理的影響會(huì)貫穿信息資源管理流程的每一個(gè)環(huán)節(jié)。2.2.1對(duì)信息采集的影響。從信息采集的角度看,大數(shù)據(jù)環(huán)境下數(shù)字信息資源的空間結(jié)構(gòu)發(fā)生了大的變化。2005年以前,政府約占有全部信息資源的80%。而2011年,麥肯錫公司的報(bào)告顯示,政府對(duì)數(shù)字信息資源的占有率下降到了12%左右,更多的信息資源分散在信息服務(wù)商的手中。由此可見(jiàn),大數(shù)據(jù)環(huán)境下數(shù)字信息資源的空間結(jié)構(gòu)分布呈現(xiàn)出扁平化和多樣化的特點(diǎn),因此,尋求信息采集的創(chuàng)新和突破迫在眉睫[23]。2.2.2對(duì)信息組織的影響。大數(shù)據(jù)對(duì)信息組織的影響主要體現(xiàn)在信息存儲(chǔ)與處理兩個(gè)方面。大數(shù)據(jù)的“大”不僅指數(shù)據(jù)容量巨大,還體現(xiàn)在數(shù)據(jù)結(jié)構(gòu)的多樣性、處理速度快的時(shí)效性等多方面要求。而數(shù)據(jù)作為信息存儲(chǔ)和處理的最小單元,其復(fù)雜性直接導(dǎo)致數(shù)據(jù)組織的難度直線升級(jí)。傳統(tǒng)的信息組織方式只適應(yīng)于適合關(guān)系型數(shù)據(jù)庫(kù)處理的結(jié)構(gòu)化數(shù)據(jù),而對(duì)于未來(lái)占數(shù)據(jù)總量80%~90%的不是結(jié)構(gòu)化的數(shù)據(jù)的處理與存儲(chǔ)則需要借助于大數(shù)據(jù)技術(shù)。此外,在分析處理海量數(shù)據(jù)時(shí),關(guān)系型數(shù)據(jù)庫(kù)存在不支持橫向擴(kuò)充、處理時(shí)間過(guò)長(zhǎng)等缺陷。2.2.3對(duì)信息分析的影響。大數(shù)據(jù)對(duì)信息分析的影響主要體現(xiàn)在研究范式的演進(jìn)和研究質(zhì)量的提高兩個(gè)方面。就研究范式的演進(jìn)而言,科學(xué)研究的范式可劃分為科學(xué)實(shí)驗(yàn)、模型歸納和模擬仿真三個(gè)階段?,F(xiàn)今伴隨著大數(shù)據(jù)技術(shù)的發(fā)展,以及科學(xué)研究進(jìn)程與科學(xué)數(shù)據(jù)管理遇到的挑戰(zhàn),進(jìn)入了第四范式,即數(shù)據(jù)密集型科學(xué)范式[24]。從研究質(zhì)量的提升來(lái)看,能否通過(guò)信息分析把握事物的狀態(tài)、性能和效果,準(zhǔn)確萃取有用信息支持決策,挖掘隱藏信息做出預(yù)測(cè),集成相關(guān)信息進(jìn)行評(píng)估,這些信息分析重要目標(biāo)的實(shí)現(xiàn)在很大程度取決于信息分析的質(zhì)量。大數(shù)據(jù)能進(jìn)行前瞻性預(yù)測(cè)和實(shí)施實(shí)時(shí)精準(zhǔn)的管理的特征為提高信息分析的質(zhì)量提供了巨大動(dòng)力。2.2.4對(duì)信息提供的影響。信息提供的范圍比較廣,目前,主流的研究領(lǐng)域有信息行為研究、個(gè)性化推薦研究、可視化研究以及信息安全與隱私保護(hù)研究等。就信息行為與個(gè)性化推薦而言,大數(shù)據(jù)的相關(guān)性思維具有明顯的優(yōu)越性,如亞馬遜個(gè)性化推薦系統(tǒng)[9],就是通過(guò)分析發(fā)現(xiàn)書(shū)籍之間相關(guān)關(guān)系取代傳統(tǒng)的對(duì)用戶樣本數(shù)據(jù)的研究,從而更加貼近用戶的信息需求,賺取更多的利益。從可視化來(lái)看,大數(shù)據(jù)可視化在工具及理論方面相對(duì)較成熟,對(duì)信息資源管理過(guò)程中的可視化問(wèn)題具有指導(dǎo)意義。在信息安全與隱私保護(hù)方面,大數(shù)據(jù)技術(shù)的研究方向很多,除了傳統(tǒng)的加密算法、立法保護(hù)等方面的研究外,還對(duì)非結(jié)構(gòu)化數(shù)據(jù)的保護(hù)問(wèn)題以及技術(shù)架構(gòu)等方面進(jìn)行了較為深入的研究,對(duì)信息提供的安全保護(hù)問(wèn)題提供新的思路。
3基于大數(shù)據(jù)的信息資源管理創(chuàng)新
利用大數(shù)據(jù)的思維與技術(shù)對(duì)信息資源管理的思想和流程進(jìn)行創(chuàng)新,是一個(gè)循序漸進(jìn)的過(guò)程。就思想創(chuàng)新而言,每一個(gè)思想都會(huì)對(duì)信息資源管理的所有環(huán)節(jié)產(chǎn)生影響,即在信息資源管理的每個(gè)活動(dòng)中都會(huì)有所體現(xiàn)。就流程創(chuàng)新而言,是思想與技術(shù)的共同體現(xiàn),思想為其創(chuàng)新指明方向,而技術(shù)則為其實(shí)現(xiàn)提供支撐。同時(shí),流程的創(chuàng)新,不只是單個(gè)環(huán)節(jié)的創(chuàng)新,更是整個(gè)信息資源管理效果最優(yōu)化的真實(shí)體現(xiàn)。
3.1信息資源管理思想創(chuàng)新
數(shù)據(jù)信息是信息資源管理研究對(duì)象的重要組成部分,因此,將大數(shù)據(jù)思維延伸至信息資源管理方面很有必要。同時(shí),大數(shù)據(jù)思維對(duì)信息資源管理的影響涉及信息資源管理流程的每一個(gè)環(huán)節(jié),即在信息資源管理流程的每一個(gè)環(huán)節(jié)都應(yīng)該注重大數(shù)據(jù)思維的應(yīng)用,從而達(dá)到信息資源管理的整體優(yōu)化。3.1.1信息資源管理的整體性。信息資源管理的整體性是指要關(guān)注研究對(duì)象的完備性,是對(duì)傳統(tǒng)抽樣調(diào)查的補(bǔ)充。信息資源管理的整體性主要體現(xiàn)在信息采集與信息組織兩個(gè)階段。在信息采集階段,整體性要求注重采集的全面性,即要窮盡與信息需求相關(guān)的所有信息。在信息組織階段,整體性要求盡可能窮盡研究對(duì)象的所有具有代表性的特征,尤其是對(duì)內(nèi)容特征的提取,會(huì)直接影響后面信息檢索的效率。3.1.2信息資源管理的容錯(cuò)性。信息資源管理的容錯(cuò)性是指要接受信息內(nèi)容資源的混雜性,是在關(guān)注信息內(nèi)容資源全集的基礎(chǔ)上,由規(guī)?;?yīng)抵消由信息內(nèi)容資源的混雜性帶來(lái)的誤差。大數(shù)據(jù)的混雜是由數(shù)據(jù)的復(fù)雜性造成的,信息內(nèi)容資源的混雜則更為復(fù)雜,這是由于信息內(nèi)容資源不只是數(shù)據(jù),還包括句子、文章、書(shū)籍等,會(huì)涉及句子的切分、自然語(yǔ)言的處理等復(fù)雜問(wèn)題。信息資源管理的容錯(cuò)性思想主要體現(xiàn)在信息組織和信息分析階段。在信息組織階段,容錯(cuò)性能夠保障數(shù)據(jù)處理的順利進(jìn)行。而在信息分析階段,容錯(cuò)性則保證分析結(jié)果的科學(xué)性與可行性。3.1.3信息資源管理的相關(guān)性。信息資源管理的相關(guān)性,不是對(duì)因果關(guān)系的全盤(pán)否定,而是在對(duì)相關(guān)關(guān)系給予肯定的同時(shí),注重因果關(guān)系、相關(guān)關(guān)系以及相關(guān)關(guān)系與因果關(guān)系的結(jié)合使用?,F(xiàn)在,相關(guān)關(guān)系在信息資源管理的每一個(gè)環(huán)節(jié)都有應(yīng)用。在信息采集階段,通過(guò)采集數(shù)據(jù)間的相關(guān)關(guān)系,可以實(shí)現(xiàn)預(yù)測(cè)功能。如:谷歌公司通過(guò)采集人們?cè)诰W(wǎng)上的搜索關(guān)于流感的相關(guān)關(guān)系記錄來(lái)完成冬季流感在美國(guó)如何傳播的預(yù)測(cè)[25]。在信息組織階段,關(guān)注相關(guān)關(guān)系是為了更好地存儲(chǔ),在節(jié)省存儲(chǔ)空間的同時(shí),加快信息資源應(yīng)用時(shí)的響應(yīng)速度。在信息分析階段,關(guān)注用戶之間的相關(guān)關(guān)系、產(chǎn)品之間的相關(guān)關(guān)系、用戶與產(chǎn)品之間的相關(guān)關(guān)系以及它們之間的替換或結(jié)合使用等,提高系統(tǒng)的效率與效益,如亞馬遜的個(gè)性化推薦服務(wù)。在信息提供階段,相關(guān)關(guān)系的應(yīng)用則是為了更“懂”用戶,更加貼近用戶的需求。就亞馬遜推薦系統(tǒng)而言,理想的情況應(yīng)是只為用戶推薦一個(gè)結(jié)果,而這個(gè)結(jié)果正是用戶所需要的。
3.2信息資源管理流程創(chuàng)新
基于大數(shù)據(jù)的思維與技術(shù),對(duì)信息資源管理流程進(jìn)行創(chuàng)新具有極大的可行性,而且目前在信息資源管理方面,已經(jīng)有了將大數(shù)據(jù)與其某些環(huán)節(jié)融合起來(lái)研究或應(yīng)用的案例,并取得了不小的成果。大數(shù)據(jù)對(duì)信息資源管理的影響為其創(chuàng)新提供了極大的可能性。在具體創(chuàng)新中,大數(shù)據(jù)思維為信息資源管理的發(fā)展指明方向,而大數(shù)據(jù)技術(shù)則為其成為現(xiàn)實(shí)奠定基礎(chǔ)。3.2.1革新信息采集模式。在信息技術(shù)與大數(shù)據(jù)技術(shù)的共同作用下,信息采集的理念與技術(shù)實(shí)現(xiàn)有了很大的提升,這為信息采集模式的轉(zhuǎn)變奠定了基礎(chǔ)。大數(shù)據(jù)環(huán)境下,信息采集的模式更加細(xì)化、科學(xué)、可靠。就以紙質(zhì)文本信息的采集為例,為了彌補(bǔ)全文檢索命中率低、耗時(shí)長(zhǎng)的缺陷,提出了內(nèi)容信息的采集問(wèn)題,具體的操作步驟為[26]:(1)關(guān)鍵詞化數(shù)據(jù),即對(duì)文本進(jìn)行基于關(guān)鍵詞的自動(dòng)聚類分析;(2)結(jié)構(gòu)化數(shù)據(jù),即建立數(shù)據(jù)庫(kù),分門(mén)別類地存儲(chǔ)采集到的文本基礎(chǔ)信息;(3)知識(shí)化數(shù)據(jù),即采用知識(shí)管理的概念對(duì)信息進(jìn)行深加工,建立知識(shí)數(shù)據(jù)庫(kù),采集文本知識(shí)信息。只有實(shí)現(xiàn)文本信息的內(nèi)容采集,才能對(duì)其進(jìn)行智慧高效應(yīng)用。3.2.2構(gòu)建分布式信息存儲(chǔ)平臺(tái)。數(shù)據(jù)復(fù)雜度的提升,對(duì)信息存儲(chǔ)提出了全新的要求與挑戰(zhàn)。針對(duì)關(guān)系型數(shù)據(jù)庫(kù)在架構(gòu)及處理速度等方面存在的問(wèn)題,提出了將大數(shù)據(jù)分布式處理的理念融入信息存儲(chǔ)的新模式,構(gòu)建分布式信息存儲(chǔ)平臺(tái)。如:數(shù)據(jù)倉(cāng)庫(kù)中的大規(guī)模并行處理系統(tǒng)(MassivelyParallelProcessing,MPP),其實(shí)現(xiàn)機(jī)理是先將任務(wù)同時(shí)到多個(gè)服務(wù)器節(jié)點(diǎn)上,分別進(jìn)行處理,然后對(duì)其進(jìn)行匯總,從而產(chǎn)生最后的結(jié)果[1]。3.2.3變革信息分析流程。大數(shù)據(jù)環(huán)境下,信息分析的流程為:信息需求定義與計(jì)劃→信息檢索與數(shù)據(jù)采集→多源信息融合與清洗→信息分析與挖掘→結(jié)果解讀與信息提煉→報(bào)告撰寫(xiě)與傳遞[27]。在信息分析方法的選擇與使用方面,更加注重定性分析與定量分析的結(jié)合,從而使分析結(jié)果真實(shí)可靠,提升產(chǎn)品價(jià)值。同時(shí),多源信息融合與清洗是大數(shù)據(jù)時(shí)代信息多樣化發(fā)展的必然要求。與傳統(tǒng)的信息分析流程相比,大數(shù)據(jù)環(huán)境下的信息分析有著獨(dú)特的優(yōu)越性,如:更加注重與用戶之間的關(guān)聯(lián),注重信息資源的完備性,關(guān)注各個(gè)環(huán)節(jié)之間的連接等。3.2.4提升信息提供質(zhì)量。大數(shù)據(jù)環(huán)境下,對(duì)信息提供進(jìn)行創(chuàng)新主要體現(xiàn)在個(gè)性化信息服務(wù)、信息安全與隱私保護(hù)兩個(gè)方面。就個(gè)性化信息服務(wù)而言,通過(guò)對(duì)全體數(shù)據(jù)的分析、對(duì)相關(guān)關(guān)系的挖掘,更容易真正地發(fā)現(xiàn)用戶的信息需求,做出針對(duì)性較強(qiáng)的推薦。如林登所言“如果系統(tǒng)運(yùn)作良好,亞馬遜應(yīng)該只推薦你一本書(shū),而這本書(shū)就是你將要買(mǎi)的下一本書(shū)”[9]。就信息安全與隱私保護(hù)而言,在加強(qiáng)法律法規(guī)建設(shè)、提高人們的隱私意識(shí)與自我保護(hù)意識(shí)的基礎(chǔ)上,還應(yīng)關(guān)注技術(shù)的發(fā)展,根據(jù)數(shù)據(jù)的生命周期,從物理安全、系統(tǒng)安全、網(wǎng)絡(luò)安全、存儲(chǔ)安全、審計(jì)安全、訪問(wèn)安全等角度建立完善的隱私安全技術(shù)體系[28]。此外,大數(shù)據(jù)拓寬了信息提供的渠道,改善了信息提供的方式,加強(qiáng)了提供者與接收者之間的聯(lián)系,并形成新的信息提供模式。
4結(jié)語(yǔ)
大數(shù)據(jù)與信息資源管理緊密相關(guān),通過(guò)對(duì)大數(shù)據(jù)思維與技術(shù)的解讀,為信息資源管理的思想以及流程的創(chuàng)新指明了方向。就思想而言,信息資源管理思想是動(dòng)態(tài)變化的,即隨著時(shí)代的進(jìn)步、信息技術(shù)的發(fā)展,信息資源管理思想會(huì)產(chǎn)生新的內(nèi)涵。本文主要是將大數(shù)據(jù)思維融入信息資源管理,從而產(chǎn)生獨(dú)具信息資源管理特色的整體性、容錯(cuò)性以及相關(guān)性思想。就技術(shù)而言,大數(shù)據(jù)技術(shù)與信息技術(shù)息息相關(guān),其基礎(chǔ)都是計(jì)算機(jī)技術(shù)、通信技術(shù)與網(wǎng)絡(luò)技術(shù)等,具有很好的可移植性,不過(guò)由于側(cè)重環(huán)節(jié)的不同,技術(shù)的重點(diǎn)研究方向略有差異,雙方可互相借鑒,從而完善自己的不足,提高系統(tǒng)效率。應(yīng)將大數(shù)據(jù)的思維與技術(shù)作用于信息資源管理,從而革新信息采集模式、構(gòu)建分布式信息存儲(chǔ)平臺(tái)、優(yōu)化信息分析流程以及提升信息提供質(zhì)量,以達(dá)到信息資源管理的整體優(yōu)化。
參考文獻(xiàn):
[1]趙剛.大數(shù)據(jù)技術(shù)與應(yīng)用實(shí)踐指南(第2版)[M].北京:電子工業(yè)出版社,2016:1.
[2]國(guó)務(wù)院.國(guó)務(wù)院關(guān)于印發(fā)促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要的通知[EB/OL].[2018-10-15].http://www.gov.cn/zhengce/content/2015-09/05/content_10137.htm.
[3]化柏林,李廣建.大數(shù)據(jù)環(huán)境下多源信息融合的理論與應(yīng)用探討[J].圖書(shū)情報(bào)工作,2015(16):5-10.
[4]TofferA.TheThirdWave[M].NewYork:BantamBooks,1981:26.
[5]DieboldFX.“BigData”DynamicFactorModelsforMacroeconomicMeasurementandForecasting[M].Cambridge:CambridgeUniversityPress,2003:115-122.
[6]Wikipedia.Bigdata[DB/OL].[2018-10-15].http://en.wikipedia.org/wiki/Big_data.
[7]李德偉.大數(shù)據(jù)改變世界[M].北京:電子工業(yè)出版社,2013:7.
[8]徐超.解析大數(shù)據(jù)思想及其在企業(yè)檔案管理中的價(jià)值[J].機(jī)電兵船檔案,2016(5):51-54.
[9]周蘇,張麗娜,王文.大數(shù)據(jù)可視化技術(shù)[M].北京:清華大學(xué)出版社,2016:15.
[10]常李艷,我國(guó)大數(shù)據(jù)技術(shù)研究趨勢(shì)[J].電腦知識(shí)與技術(shù),2017(2):2-4.
[11]方暉.大數(shù)據(jù)時(shí)代網(wǎng)絡(luò)下云信息采集方法的改進(jìn)與研究[J].電子技術(shù)與軟件工程,2016(21):162-164.
[12]楊懿,王鑫,楊開(kāi)瓊,等.大數(shù)據(jù)關(guān)鍵技術(shù)在用電信息采集系統(tǒng)架構(gòu)優(yōu)化中的應(yīng)用研究[J].科技傳播,2015(20):116-118.
[13]趙紅艷.基于大數(shù)據(jù)技術(shù)的小微企業(yè)信息采集技術(shù)研究[J].科技展望,2015(30):1-3.
[14]壽步,王曉燕.云計(jì)算知識(shí)產(chǎn)權(quán)問(wèn)題研究[M].上海:上海交通大學(xué)出版社,2014:3.
[15]聶燕敏,陳剛,何志強(qiáng).基于信息熵的位置大數(shù)據(jù)隱私保護(hù)研究[J].黑龍江科技信息,2016(12):189.
[16]楊鑫.基于云平臺(tái)的大數(shù)據(jù)信息安全機(jī)制研究[J].情報(bào)科學(xué),2017(1):110-114.
[17]李運(yùn)蒙.信息資源管理[M].廣州:華南理工大學(xué)出版社,2016:5.
[18]馬費(fèi)城,賴茂生,等.信息資源管理(第二版)[M].天津:高等教育出版社,2014:27.
[19]曲峰.大數(shù)據(jù)背景下公安邊防應(yīng)急指揮信息采集研究[J].中國(guó)應(yīng)急救援,2015(5):23-26.
[20]夏南強(qiáng),殷克濤,謝乘風(fēng).信息采集學(xué)[M].北京:清華大學(xué)出版社,2012:13.
[21]葉繼元.信息組織(第二版)[M].北京:電子工業(yè)出版社,2015:2-7.
[22]婁策群,段堯清,張凱.信息管理學(xué)基礎(chǔ)(第二版)[M].北京:科學(xué)出版社,2009:146.
[23]張斌,馬費(fèi)成.大數(shù)據(jù)環(huán)境下數(shù)字信息資源服務(wù)創(chuàng)新[J].情報(bào)理論與實(shí)踐,2014(6):28-33.
[24]TolleKM,TansleyD,StewartW.TheFourthParadigm:Data-intensiveScientificDiscovery[J].ProceedingsoftheIEEE,2011,99(8):334-1337.
[25]ViktorMS,KennethC.大數(shù)據(jù)時(shí)代[M].盛楊燕,等譯,杭州:浙江人民出版社.2013:1.
[26]王坤,郭起云,郭光.大數(shù)據(jù)時(shí)代下檔案信息采集新思路[J].數(shù)字與縮微影像,2014(2):7-8.
[27]化柏林.從棱鏡計(jì)劃看大數(shù)據(jù)時(shí)代下的情報(bào)分析[J].圖書(shū)與情報(bào),2014(5):2-6.
[28]陳紅.大數(shù)據(jù)與圖書(shū)館保護(hù)讀者隱私的自律措施[J].圖書(shū)館學(xué)刊,2014(12):19-21.
作者:易明 馮翠翠 莫富傳 單位:華中師范大學(xué)信息管理學(xué)院