發(fā)布時(shí)間:2023-06-06 15:56:21
序言:寫作是分享個(gè)人見解和探索未知領(lǐng)域的橋梁,我們?yōu)槟x了8篇的數(shù)據(jù)分析的方法樣本,期待這些樣本能夠?yàn)槟峁┴S富的參考和啟發(fā),請(qǐng)盡情閱讀。
關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)分析;數(shù)據(jù)挖掘
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2017)03-0104-02
1 綜述
1.1 簡(jiǎn)介
在數(shù)字化時(shí)代,需要新一代系統(tǒng)架構(gòu)提升業(yè)務(wù)創(chuàng)新能力。在新一代系統(tǒng)架構(gòu)中,大數(shù)據(jù)是核心要素。業(yè)務(wù)應(yīng)用能否自主發(fā)現(xiàn)與自助獲得高質(zhì)量的大數(shù)據(jù),就成為業(yè)務(wù)創(chuàng)新成敗的關(guān)鍵。這就要在搭建大數(shù)據(jù)平臺(tái)時(shí),就著手大數(shù)據(jù)治理相關(guān)建設(shè)。
1.2 需求和意義
從某種意義上說大數(shù)據(jù)治理架構(gòu)需要以元數(shù)據(jù)為核心、提高大數(shù)據(jù)質(zhì)量、透明化大數(shù)據(jù)資產(chǎn)、自助化數(shù)據(jù)開發(fā)、自動(dòng)化數(shù)據(jù)、智能化數(shù)據(jù)安全,提升大數(shù)據(jù)平臺(tái)服務(wù)能力,讓大數(shù)據(jù)平臺(tái)變得易使用、易獲得、高質(zhì)量。
但是,目前很多技術(shù)解決方案存在諸多安全和效率隱患:業(yè)務(wù)系統(tǒng)多,監(jiān)管力度大;數(shù)據(jù)量龐大且呈碎片化分布,急需提升大數(shù)據(jù)質(zhì)量;數(shù)據(jù)格式不規(guī)范、難以在短時(shí)間內(nèi)找到所需數(shù)據(jù);數(shù)據(jù)在各階段的應(yīng)用角度不同,需要降低系統(tǒng)間的集成復(fù)雜度。
2 功能設(shè)計(jì)
2.1 總體架構(gòu)
本文講述的數(shù)據(jù)分析方法及實(shí)現(xiàn)技術(shù)是建立在Hadoop/Spark技術(shù)生態(tài)圈的基礎(chǔ)之上,以實(shí)現(xiàn)用戶集成處理、、清理、分析的一個(gè)統(tǒng)一的數(shù)據(jù)處理平臺(tái);按數(shù)據(jù)類別分為線數(shù)據(jù)、歸檔數(shù)據(jù);按數(shù)據(jù)格式分為非結(jié)構(gòu)化數(shù)據(jù)、結(jié)構(gòu)化數(shù)據(jù);按數(shù)據(jù)模型分類為范式化模型數(shù)據(jù)、維度模型數(shù)據(jù);按數(shù)據(jù)采集頻度分為非實(shí)時(shí)數(shù)據(jù)、準(zhǔn)實(shí)時(shí)數(shù)據(jù)處理架構(gòu);并提供數(shù)據(jù)中心平臺(tái)與安全管理方案,為企業(yè)級(jí)用戶建立一個(gè)通用數(shù)據(jù)處理和分析中心。如圖1所示。
2.2 在線數(shù)據(jù)
在線數(shù)據(jù)在線通過接口去獲得的數(shù)據(jù),一般要求為秒級(jí)或速度更快。首先應(yīng)當(dāng)將數(shù)據(jù)進(jìn)行區(qū)分:在線數(shù)據(jù)、或歸檔數(shù)據(jù)。本平臺(tái)中采用:Storm或Spark Streaming框架進(jìn)行實(shí)現(xiàn)。Spark Streaming將數(shù)據(jù)切分成片段,變成小批量時(shí)間間隔處理,Spark抽象一個(gè)持續(xù)的數(shù)據(jù)流稱為DStream(離散流),一個(gè)DStream是RDD彈性分布式數(shù)據(jù)集的micro-batch微批次,RDD是分布式集合能夠并行地被任何函數(shù)操作,也可以通過一個(gè)滑動(dòng)窗口的數(shù)據(jù)進(jìn)行變換。
2.3 歸檔數(shù)據(jù)
歸檔數(shù)據(jù)是在線存儲(chǔ)周期超過數(shù)據(jù)生命周期規(guī)劃的數(shù)據(jù),處理的要求一般在分鐘級(jí)或速度更慢。通常歸檔數(shù)據(jù)的計(jì)算量、數(shù)據(jù)量、數(shù)據(jù)復(fù)雜度均超過試試數(shù)據(jù)處理。本平臺(tái)中采用:Hadoop、Spark技術(shù)生態(tài)體系內(nèi)的框架進(jìn)行計(jì)算,這里不詳細(xì)闡述。
2.4 非結(jié)構(gòu)化數(shù)據(jù)
通常非結(jié)構(gòu)化的數(shù)據(jù)不一定具備字段,即使具備字段其長(zhǎng)度也不固定,并且字段的又可是由可不可重復(fù)和重復(fù)的子字段組成,不僅可以包含結(jié)構(gòu)化數(shù)據(jù),更適合處理非結(jié)構(gòu)化數(shù)據(jù)。常見的非結(jié)構(gòu)化數(shù)據(jù)包括XML、文本、圖象、聲音、影音、各類應(yīng)用軟件產(chǎn)生的文件。
針對(duì)包含文字、數(shù)據(jù)的為結(jié)構(gòu)化數(shù)據(jù)應(yīng)當(dāng)先利用數(shù)據(jù)清洗、數(shù)據(jù)治理工具進(jìn)行提取,這項(xiàng)工作目前仍依賴技術(shù)員進(jìn)行操作,由于格式的復(fù)雜性所以難以使用自動(dòng)化方式進(jìn)行較為高效的批處理。在治理數(shù)據(jù)的過程中,需要根據(jù)情況對(duì)數(shù)據(jù)本身額外建立描述數(shù)據(jù)結(jié)構(gòu)的元數(shù)據(jù)、以及檢索數(shù)據(jù)的索引服務(wù),以便后續(xù)更佳深度利用數(shù)據(jù)。
2.5 結(jié)構(gòu)化數(shù)據(jù)
結(jié)構(gòu)化數(shù)據(jù)具備特定的數(shù)據(jù)結(jié)構(gòu),通??梢赞D(zhuǎn)換后最終用二維的結(jié)構(gòu)的數(shù)據(jù),并且其字段的含義明確,是挖掘數(shù)據(jù)價(jià)值的主要對(duì)象。
本平臺(tái)中主要使用Hadoop Impala和Spark SQL來(lái)進(jìn)行結(jié)構(gòu)化數(shù)據(jù)的處理。Impale底層采用C++實(shí)現(xiàn),而非Hadoop的基于Java的Map-Reduce機(jī)制,將性能提高了1-2個(gè)數(shù)量級(jí)。而Spark SQL提供很好的性能并且與Shark、Hive兼容。提供了對(duì)結(jié)構(gòu)化數(shù)據(jù)的簡(jiǎn)便的narrow-waist操作,為高級(jí)的數(shù)據(jù)分析統(tǒng)一了SQL結(jié)構(gòu)化查詢語(yǔ)言與命令式語(yǔ)言的混合使用。
結(jié)構(gòu)化數(shù)據(jù)根據(jù)采集頻度可以繼續(xù)分類為:非實(shí)時(shí)數(shù)據(jù)、準(zhǔn)實(shí)時(shí)數(shù)據(jù)。
2.6 準(zhǔn)實(shí)時(shí)數(shù)據(jù)
通常準(zhǔn)實(shí)時(shí)數(shù)據(jù)是指數(shù)據(jù)存儲(chǔ)在平臺(tái)本身,但更新頻率接近于接口調(diào)用數(shù)據(jù)源的數(shù)據(jù)。適合用于支持?jǐn)?shù)據(jù)和信息的查詢,但數(shù)據(jù)的再處理度不高,具有計(jì)算并發(fā)度高、數(shù)據(jù)規(guī)模大、結(jié)果可靠性較高的特點(diǎn)。通常使用分布式數(shù)據(jù)處理提高數(shù)據(jù)規(guī)模、使用內(nèi)存數(shù)據(jù)進(jìn)行計(jì)算過程緩沖和優(yōu)化。本平臺(tái)主要采用Spark SQL結(jié)合高速緩存Redis的技術(shù)來(lái)實(shí)現(xiàn)。Spark SQL作為大數(shù)據(jù)的基本查詢框架,Redis作為高速緩存去緩存數(shù)據(jù)熱區(qū),減小高并發(fā)下的系統(tǒng)負(fù)載。
2.7 非實(shí)時(shí)數(shù)據(jù)
非實(shí)時(shí)數(shù)據(jù)主要應(yīng)用于支持分析型應(yīng)用,時(shí)效性較低。通常用于數(shù)據(jù)的深度利用和挖掘,例如:因素分析、信息分類、語(yǔ)義網(wǎng)絡(luò)、圖計(jì)算、數(shù)值擬合等。
非實(shí)時(shí)數(shù)據(jù)根據(jù)數(shù)據(jù)模型可繼續(xù)分類為:范式化模型數(shù)據(jù)、維度模型數(shù)據(jù)。
2.8 范式化模型
范式化模型主要是針對(duì)關(guān)系型數(shù)據(jù)庫(kù)設(shè)計(jì)范式,通常稻菔遣捎玫諶范式3NF或更高范式。面向近源數(shù)據(jù)查詢、數(shù)據(jù)主題的整合。范式化模型數(shù)據(jù)的數(shù)據(jù)存儲(chǔ)區(qū),建議使用并行MPP數(shù)據(jù)庫(kù)集群,既具備關(guān)系型數(shù)據(jù)庫(kù)的優(yōu)點(diǎn),又兼顧了大數(shù)據(jù)下的處理。
2.9 基于維度模型
維度模型數(shù)據(jù)主要應(yīng)用于業(yè)務(wù)系統(tǒng)的數(shù)據(jù)挖掘和分析。過去多維度數(shù)據(jù)處理主要依賴OLAP、BI等中間件技術(shù),而在大數(shù)據(jù)和開源框架的時(shí)代下,本技術(shù)平臺(tái)采用Hadoop Impala來(lái)進(jìn)行實(shí)現(xiàn)。Impala并沒有使用MapReduce這種不太適合做SQL查詢的范式,而是參考了MPP并行數(shù)據(jù)庫(kù)的思想另起爐灶,省掉不必要的shuffle、sort等開銷,使運(yùn)算得到優(yōu)化。
3 應(yīng)用效果
本系統(tǒng)在不同的業(yè)務(wù)領(lǐng)域上都可以應(yīng)用,以2016年在某銀行的應(yīng)用案例為例:該銀行已完成數(shù)據(jù)倉(cāng)庫(kù)建設(shè),但眾多數(shù)據(jù)質(zhì)量問題嚴(yán)重影響了數(shù)據(jù)應(yīng)用的效果,以不同的數(shù)據(jù)存儲(chǔ)方式,以更高的要求去進(jìn)行數(shù)據(jù)的統(tǒng)一管理。通過組織、制度、流程三個(gè)方面的實(shí)施,以元數(shù)據(jù)、數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)質(zhì)量平臺(tái)為支撐,實(shí)現(xiàn)了數(shù)據(jù)管控在50多個(gè)分支,60個(gè)局,1000余處的全面推廣,實(shí)現(xiàn)了全行的覆蓋;管理了120個(gè)系統(tǒng)和數(shù)據(jù)倉(cāng)庫(kù),顯著提升了新系統(tǒng)的快速接入能力;通過14個(gè)數(shù)據(jù)規(guī)范和流程明確了數(shù)據(jù)管控的分工;數(shù)據(jù)考核機(jī)制的實(shí)施,使其在數(shù)據(jù)質(zhì)量評(píng)比中名列前茅。
4 結(jié)語(yǔ)
本文介紹了大數(shù)據(jù)下數(shù)據(jù)分析方法及實(shí)現(xiàn)技術(shù)的大體設(shè)計(jì)和思路,從需求分析、總體架構(gòu)和數(shù)據(jù)處理以及數(shù)據(jù)分析這幾個(gè)方面來(lái)介紹。文章在最后介紹出了這種平臺(tái)的應(yīng)用效果。筆者相信這些思路和技術(shù)能夠在業(yè)務(wù)中能得到很好的應(yīng)用。
參考文獻(xiàn)
一、以認(rèn)知沖突,引發(fā)學(xué)生產(chǎn)生數(shù)據(jù)收集與整理的強(qiáng)烈愿望
學(xué)生每一個(gè)學(xué)習(xí)行為的背后,都是有目的、有價(jià)值、有意義的。簡(jiǎn)言之,學(xué)生自己要真正認(rèn)識(shí)到這種學(xué)習(xí)是有用的,哪怕僅僅是因?yàn)橛腥?、好玩,才能激發(fā)學(xué)生進(jìn)行相關(guān)學(xué)習(xí)的愿望和興趣。對(duì)于數(shù)據(jù)分析觀念的培養(yǎng),教師有必要替學(xué)生問一個(gè)“為什么”,問題不必明確提出,但一定要把相關(guān)信息告訴學(xué)生,引發(fā)學(xué)生強(qiáng)烈的認(rèn)知沖突,才會(huì)產(chǎn)生進(jìn)行數(shù)據(jù)收集、整理與分析的欲望,才會(huì)使他們認(rèn)識(shí)到學(xué)習(xí)數(shù)據(jù)分析的必要性,產(chǎn)生興趣,從而建立與培養(yǎng)其初步的數(shù)據(jù)分析觀念。
以二年級(jí)上冊(cè)“統(tǒng)計(jì)”一課的學(xué)習(xí)為例,學(xué)生首次接觸“統(tǒng)計(jì)”的相關(guān)內(nèi)容。在學(xué)生尚不真正知道與理解該詞的確切含義的情況下,教材提供的課例是“統(tǒng)計(jì)最喜歡的動(dòng)物”,以統(tǒng)計(jì)圖形式呈現(xiàn)出喜歡四種動(dòng)物(小貓、小狗、小兔、烏龜)的學(xué)生的人數(shù),并提供了3道題目,但教材始終沒有告訴學(xué)生,“為什么我要學(xué)習(xí)這個(gè)知識(shí)”、“為什么我要進(jìn)行數(shù)據(jù)分析”。此時(shí),對(duì)這一問題的提出與引導(dǎo)學(xué)生思考,只能由教師在不動(dòng)聲色中完成。所以,教學(xué)時(shí),利用學(xué)生愛吃零食的特點(diǎn),我調(diào)整了教學(xué)思路,首先,我征得學(xué)生同意,打算用班上賣廢品的錢給學(xué)生買糖吃。此舉得到學(xué)生們的一致歡迎;其次,我要求5個(gè)小組長(zhǎng)提前去學(xué)校門口的超市,了解糖塊的種類與價(jià)格,并告知其他同學(xué);再次,我要求班委成員負(fù)責(zé)了解班上每一名同學(xué)的需求并進(jìn)行分類、計(jì)算總量。每人限一塊,以便于合理安排買糖的數(shù)量與花費(fèi);再次,將買來(lái)的糖帶入教室,上課,進(jìn)行相關(guān)的數(shù)據(jù)整理與分析;最后,完成全部教學(xué)任務(wù)后,吃糖。
當(dāng)我將此想法與實(shí)際的授課過程講給其他老師聽時(shí),有老師笑談“孩子們學(xué)習(xí)的動(dòng)力就是吃糖”。我不否認(rèn)這是學(xué)生們積極參與教學(xué)活動(dòng)的動(dòng)力之一,因?yàn)槭孪任矣懈嬖V學(xué)生全部的活動(dòng)過程與“完不成就不會(huì)有糖吃”的話。但不可否認(rèn)的是,對(duì)于二年級(jí)的學(xué)生來(lái)說,為了達(dá)成“每個(gè)同學(xué)都能吃到自己想吃的糖”這一目標(biāo),要在活動(dòng)的每一個(gè)步驟都進(jìn)行相關(guān)數(shù)據(jù)的收集、整理與分析,才能正確且順利地完成任務(wù)。簡(jiǎn)言之,等于我們告訴學(xué)生,“為什么要進(jìn)行數(shù)據(jù)分析”、“只因?yàn)槲覀冃枰_(dá)成一定的目的”,并且,活動(dòng)的每一步驟的數(shù)據(jù)分析都有學(xué)生親自進(jìn)行,并明確知曉這樣做的原因——當(dāng)然不是教師的程式化的要求,這就使得學(xué)生的數(shù)據(jù)分析工作是主動(dòng)的,各成員之間是相互合作的,既使學(xué)生愉快地接受了數(shù)據(jù)分析的內(nèi)容與過程,也在增強(qiáng)學(xué)生數(shù)據(jù)分析觀念的同時(shí),培養(yǎng)了學(xué)生主動(dòng)學(xué)習(xí)與合作的精神。
二、挖掘數(shù)據(jù)中蘊(yùn)藏的深層信息,體驗(yàn)數(shù)據(jù)分析的應(yīng)用價(jià)值
統(tǒng)計(jì)教學(xué)的一個(gè)重要目標(biāo),是鼓勵(lì)學(xué)生通過分析從統(tǒng)計(jì)圖表中獲取盡可能多的信息,為后續(xù)的某項(xiàng)工作或?qū)W習(xí)做出合理的決策。表現(xiàn)在教材中,數(shù)據(jù)分析觀念的首次引入即是一個(gè)簡(jiǎn)單的“最喜歡的動(dòng)物”的統(tǒng)計(jì)圖,接下來(lái)的每一個(gè)問題的答案無(wú)不需要從該統(tǒng)計(jì)圖進(jìn)行尋找。這樣的例子,在學(xué)生生活中也是有接觸的。但是,教學(xué)過程中,也存在一個(gè)常見現(xiàn)象,學(xué)生通過統(tǒng)計(jì)圖表獲取的信息,多是一些最基本的、一眼即可看出的直接信息,而很少能夠?qū)D表上的數(shù)據(jù)信息進(jìn)行更為深入的整理與分析,挖掘出更多有價(jià)值和有意義的信息來(lái)做出合理的決策。
關(guān)鍵詞:Matlab軟件;制流與分壓電路實(shí)驗(yàn);特性研究
一、分壓電路特性研究及參數(shù)的變化
首先,用1000Ω滑線變阻作分壓器,負(fù)載電阻用1000Ω(K=1),測(cè)出滑線電阻滑動(dòng)端的位置參數(shù)X和U/Umax分壓比,并作出U/Umax的關(guān)系曲線。其次,同上,用1000Ω滑線電阻和500Ω的負(fù)載電阻(K=0.1),測(cè)出X和U/Umax,記錄不同的K值。在Matlab軟件中編寫下列程序?qū)崿F(xiàn)分壓電路實(shí)驗(yàn)數(shù)據(jù)的處理和圖像的擬合:
x0=0:0.1:1.0;
y1=[0 0.24 0.48 0.58 0.72 0.92 1.12 1.58 2.18 3.42 4.46];
z1=max(y1);
y2=[0 0.38 0.72 0.98 1.32 1.72 2.02 2.48 3.26 4.18 4.64];
z2=max(y2);
y3=[0 0.40 0.82 1.18 1.58 2.02 2.40 2.98 3.62 4.32 4.52];
z3=max(y3);
y4=[0 0.18 0.28 0.34 0.48 0.58 0.78 1.02 1.66 2.98 4.48];
z4=max(y4);
n=3;
p1=polyfit(x0,y1,n)
p2=polyfit(x0,y2,n)
p3=polyfit(x0,y3,n)
p4=polyfit(x0,y4,n)
xx=0:0.01:1.0;
yy1=polyval(p1,xx);
yy2=polyval(p2,xx);
yy3=polyval(p3,xx);
yy4=polyval(p4,xx);
plot(xx,yy1/z1,'r',x0,y1/z1,'.r')
hold on;
plot(xx,yy2/z2,'k',x0,y2/z2,'.k')
hold on;
plot(xx,yy3/z3,'b',x0,y2/z2,'.b')
hold on;
plot(xx,yy4/z4,'g',x0,y4/z4,'.g')
hold off;
由實(shí)驗(yàn)可得不同K值的分壓特性曲線,如圖1所示。從曲線可以清楚看出分壓電路有如下幾個(gè)特點(diǎn):第一,不論R0的大小,負(fù)載RZ的電壓調(diào)節(jié)范圍均可從0■E;第二,K越小電壓調(diào)節(jié)越不均勻,曲線線性程度越差,細(xì)調(diào)程度較差;第三,K越大電壓調(diào)節(jié)越均勻,因此要電壓U在0到Umax整個(gè)范圍內(nèi)均勻變化,則取K>1比較合適。
■
圖1 不同K值的分壓特性曲線
二、制流電路特性研究及參數(shù)的變化
首先,用1000Ω滑線變阻作制流器,負(fù)載電阻用100Ω(K=0.1),測(cè)出滑線電阻滑動(dòng)端的位置參數(shù)X和分壓比I/Imax,并作出I/Imax-x的關(guān)系曲線。其次,同上,用10000Ω滑線電阻和20Ω的負(fù)載電阻(K=0.02),測(cè)出X和I/Imax,記錄不同的K值,并作出關(guān)系曲線,在Matlab軟件中編寫下列程序?qū)崿F(xiàn)制流電路實(shí)驗(yàn)數(shù)據(jù)的處理和圖像的擬合:
x0=0:0.1:1.0;
y1=[0.04 0.04 0.08 0.12 0.18 0.22 0.30 0.52 1.02 3.58 4.18];
z1=max(y1);
y2=[0.04 0.04 0.08 0.12 0.18 0.24 0.30 0.52 0.92 2.38 4.98];
z2=max(y2);
y3=[0.02 0.02 0.02 0.04 0.12 0.18 0.28 0.40 0.70 2.98 3.52];
z3=max(y3);
y4=[0.01 0.01 0.01 0.01 0.02 0.08 0.20 0.30 0.60 1.20 2.0];
z4=max(y4);
n=3;
p1=polyfit(x0,y1,n)
p2=polyfit(x0,y2,n)
p3=polyfit(x0,y3,n)
p4=polyfit(x0,y4,n)
xx=0:0.01:1.0;
yy1=polyval(p1,xx);
yy2=polyval(p2,xx);
yy3=polyval(p3,xx);
yy4=polyval(p4,xx);
plot(xx,yy1/z1,'r',x0,y1/z1,'.r')
hold on;
plot(xx,yy2/z2,'k',x0,y2/z2,'.k')
hold on;
plot(xx,yy3/z3,'b',x0,y2/z2,'.b')
hold on;
plot(xx,yy4/z4,'g',x0,y4/z4,'.g')
hold off;
(上接第47頁(yè))
■
圖2 不同值的制流特性曲線
圖2表示不同K值的制流特性曲線,從曲線可以清楚地看到制流電路有以下幾個(gè)特點(diǎn):第一,K越大電流調(diào)節(jié)范圍越?。浑娏髡{(diào)節(jié)越均勻,曲線線性程度較好;第二,K(K≥1)時(shí)調(diào)節(jié)的線性較好;第三,K較小時(shí)(即R0>RZ),電流調(diào)節(jié)范圍大,電流調(diào)節(jié)越不均勻,曲線線性程度越差,細(xì)調(diào)程度較差;第四,不論R0大小如何,負(fù)載RZ上通過的電流都不可能為零。第五,制流電路適用于負(fù)載電阻較小,功耗較大,電壓調(diào)節(jié)范圍較小的場(chǎng)合。
綜上所述,當(dāng)負(fù)載電阻較大時(shí),要求調(diào)節(jié)范圍較寬時(shí)宜采用分壓電路。相反,在負(fù)載電阻較小,功耗較大且調(diào)節(jié)范圍不太大時(shí),選用制流電路較好。
參考文獻(xiàn):
[1]陳玉林,李傳起.大學(xué)物理實(shí)驗(yàn)[M].北京:科學(xué)出版社,2007:186-190.
[2]穆曉東.制流與分壓電路實(shí)驗(yàn)參數(shù)的選擇與確定[J].大學(xué)物理實(shí)驗(yàn),2004,(01).
從現(xiàn)實(shí)著眼,從宏觀層面反映城市在全國(guó)范圍內(nèi)的競(jìng)爭(zhēng)力與綜合影響力的“國(guó)內(nèi)知名度”對(duì)于進(jìn)行中國(guó)區(qū)域城市的比較研究具有重大意義:一方面,通過分析中國(guó)城市在經(jīng)歷從帶有濃厚農(nóng)業(yè)社會(huì)傳統(tǒng)向快速現(xiàn)代化轉(zhuǎn)型的進(jìn)程,有利于揭示政治、經(jīng)濟(jì)和文化在城市知名度建構(gòu)機(jī)制中的作用關(guān)系;另一方面,在中國(guó)區(qū)域現(xiàn)代化發(fā)展進(jìn)入到攻堅(jiān)期的背景下,城市國(guó)內(nèi)知名度的研究可以為區(qū)域城市競(jìng)爭(zhēng)力對(duì)比分析提供精準(zhǔn)切入點(diǎn)。特別是對(duì)于處于中國(guó)經(jīng)濟(jì)和文化中心的蘇南地區(qū)而言,對(duì)區(qū)域內(nèi)城市的國(guó)內(nèi)知名度的變遷軌跡和結(jié)構(gòu)特征進(jìn)行歷史比較分析,并與其他區(qū)域的代表性城市進(jìn)行空間對(duì)照觀察,能夠在一般意義上歸納出在社會(huì)轉(zhuǎn)型過程中中國(guó)城市的發(fā)展機(jī)理以及動(dòng)力構(gòu)成。
盡管關(guān)于城市知名度的研究日益成為城市文化領(lǐng)域的“顯學(xué)”,但梳理以往的相關(guān)研究,我們不難發(fā)現(xiàn):絕大多數(shù)研究是以理論探討為旨趣,并且研究視域較為狹隘,缺乏從全面整體的維度對(duì)城市文化影響力進(jìn)行研究。并且在一些采取量化分析方法的研究中,其操作化指標(biāo)在可信性、全面性、有效性等方面也備受質(zhì)疑。究其原因,一方面是由于采用抽樣調(diào)查的資料收集方法不可避免地要承受成本巨大和樣本代表性難以得到可靠保證的風(fēng)險(xiǎn),而更為關(guān)鍵的則是在現(xiàn)有的技術(shù)條件下既難以在空間維度上保證基于全國(guó)范圍內(nèi)的系統(tǒng)測(cè)量和分析,也無(wú)法在時(shí)間維度上完成大跨度的歷史回溯和描述。Gary King認(rèn)為,由互聯(lián)網(wǎng)時(shí)代衍生而來(lái)的、具備超大規(guī)模和海量信息特性的“大數(shù)據(jù)”很有可能會(huì)打破定性與定量研究的方法和技術(shù)壁壘,進(jìn)而為社會(huì)科學(xué)、人文科學(xué)領(lǐng)域開拓嶄新的分析思維和研究路徑。因此,在互聯(lián)網(wǎng)時(shí)代蓬勃興起的“大數(shù)據(jù)”為我們針對(duì)大跨度的城市國(guó)內(nèi)知名度歷史演化進(jìn)程進(jìn)行精準(zhǔn)測(cè)量提供了新的研究路徑。特別是通過大數(shù)據(jù)的比較和總結(jié)性的分析,可以看到城市知名度不僅可以作為城市形象一般性表達(dá)的符號(hào)和說明,而且也是建構(gòu)城市核心競(jìng)爭(zhēng)力和提升城市軟實(shí)力能級(jí)的前提和必要條件,知名度特別是在高美譽(yù)度前提下形成的城市知名度,既是一個(gè)城市的特色和文化價(jià)值的表達(dá),也是城市文化軟實(shí)力的集中表現(xiàn),還是“城市文化資本”再生產(chǎn)的前提和文化場(chǎng)域。
(二)以谷歌圖書和百度指數(shù)為基礎(chǔ)的大數(shù)據(jù)
谷歌圖書(Google Books)的創(chuàng)立和互聯(lián)網(wǎng)搜索引擎的發(fā)展,為在社會(huì)科學(xué)領(lǐng)域內(nèi)有效克服“大數(shù)據(jù)”所存在的資料獲取難度大、以及學(xué)界對(duì)其與社會(huì)科學(xué)研究之間適用性、樣本代表性、測(cè)量方法的信度和效度等爭(zhēng)議提供了有力支持。自2004年年底以來(lái),谷歌公司與哈佛大學(xué)、劍橋大學(xué)等40多所國(guó)際知名大學(xué)及相關(guān)出版社合作,對(duì)館藏圖書及出版社贈(zèng)書進(jìn)行了數(shù)字化的建設(shè),截止到2013年,谷歌圖書最新版語(yǔ)料庫(kù)中被掃描和識(shí)別的圖書已經(jīng)超過3000多萬(wàn)種,目前可供進(jìn)行全文檢索和數(shù)據(jù)分析的書籍高達(dá)8116746種,詞匯量為8613億。其中,漢語(yǔ)(簡(jiǎn)體)書籍和詞匯數(shù)量分別為30萬(wàn)種和269億。表1展示了谷歌圖書語(yǔ)料庫(kù)2012年第2版的主要構(gòu)成,其數(shù)據(jù)資源規(guī)模的超大體量性和極佳的時(shí)空代表性為從事中國(guó)社會(huì)問題的歷史性組群對(duì)象和現(xiàn)實(shí)社會(huì)問題的研究提供了技術(shù)可行性支持。
此外,由于近年互聯(lián)網(wǎng)的迅速崛起已經(jīng)深刻改變?nèi)祟惿鐣?huì)信息資源聚合方式,加之谷歌圖書書籍詞頻檢索時(shí)間存在的限制(截至到2008年),并且基于中國(guó)大陸網(wǎng)絡(luò)用戶對(duì)于搜索引擎使用習(xí)慣的考慮,我們認(rèn)為有必要結(jié)合中國(guó)國(guó)情引入在中文世界中占據(jù)核心地位的百度搜索引擎來(lái)更加精確、全面地反映處于中國(guó)大陸范圍內(nèi)各大城市在本土的受關(guān)注度情況,以進(jìn)一步提高樣本的規(guī)模性和代表性。我們采用2011-2016年百度指數(shù)的“用戶關(guān)注度’,大數(shù)據(jù)來(lái)分析蘇南城市及其他中國(guó)主要大城市國(guó)內(nèi)知名度在此期間的變動(dòng)情況。
這一分析方法的意義還有,對(duì)于相關(guān)城市地名出現(xiàn)的頻率和范圍可以從一般意義上佐證知名度的程度和價(jià)值,雖然個(gè)別大事件,特別是負(fù)面意義的大事件,對(duì)城市知名度的影響度有較大的影響。但是,在一個(gè)較長(zhǎng)的時(shí)間段內(nèi),人們主要關(guān)注的是某一城市的整體文化意義,如人們對(duì)某城市的歷史領(lǐng)域、建筑領(lǐng)域、文化藝術(shù)領(lǐng)域等所進(jìn)行的學(xué)術(shù)研究和傳統(tǒng)文獻(xiàn)的表述。因?yàn)槌鞘斜旧淼臍v史與現(xiàn)實(shí)的價(jià)值而對(duì)某城市本身的關(guān)注較多,其知名度自然以正面取向和積極意義為主。不言而喻,知名度本身選詞的海量意義來(lái)說,知名高與經(jīng)濟(jì)社會(huì)發(fā)展的正向、城市優(yōu)良的環(huán)境、城市創(chuàng)新性及向上的積極意義呈正相關(guān)。
(三)城市國(guó)內(nèi)知名度的概念操作化及測(cè)量
應(yīng)該明確,本文所研究的城市知名度是指公眾對(duì)某城市綜合意象的正向性認(rèn)知,并且依托在全社會(huì)諸領(lǐng)域內(nèi)的綜合影響力而提升關(guān)注度,而非藉由惡意炒作而“吸引眼球”,以及因重大安全事件和集體性事件而增加關(guān)注度。因此,如何尋找更具科學(xué)性的測(cè)量工具以便從海量無(wú)結(jié)構(gòu)的數(shù)據(jù)中提煉出同時(shí)具有時(shí)空結(jié)構(gòu)性和研究匹配性的數(shù)據(jù)就顯得尤為重要。筆者認(rèn)為,語(yǔ)言學(xué)中的語(yǔ)料庫(kù)詞頻分析的方法可以對(duì)某一關(guān)鍵詞在特定時(shí)段內(nèi)其所蘊(yùn)含的文化影響力進(jìn)行有效測(cè)量。在社會(huì)科學(xué)領(lǐng)域應(yīng)用“詞頻比例”方法具有充分的邏輯嚴(yán)密性與系統(tǒng)科學(xué)性。一方面,從語(yǔ)言學(xué)角度來(lái)看,社會(huì)歷史進(jìn)程中的多數(shù)事件和現(xiàn)象都是依靠書籍語(yǔ)言得以記錄,其在承載知識(shí)、思維和觀念等抽象事物上最具有正式性和權(quán)威性。而且,書籍語(yǔ)言不僅蘊(yùn)含了筆者的觀點(diǎn)和意圖,而且更能反映當(dāng)時(shí)公眾思維傾向和社會(huì)整體風(fēng)尚。超過半個(gè)世紀(jì)的漢語(yǔ)印刷書籍在某種意義上匯聚了建國(guó)以來(lái)整個(gè)中國(guó)社會(huì)的知識(shí)、觀念與經(jīng)驗(yàn)。由于谷歌圖書語(yǔ)料庫(kù)具有充分的規(guī)模性、跨度性和代表性,我們可以邏輯性地假定某一詞匯出現(xiàn)在其中的相對(duì)頻次能夠近似地反映這個(gè)詞匯本身及其蘊(yùn)含的“文化影響力”,即知名度、公眾關(guān)注度等,甚至折射出某種社會(huì)趨勢(shì)、風(fēng)尚或思潮。目前,基于谷歌圖書的詞頻統(tǒng)計(jì)研究已經(jīng)在國(guó)際語(yǔ)言學(xué)和歷史學(xué)界得到廣泛應(yīng)用。比如Jean-Baptiste Michel等人率先利用谷歌圖書語(yǔ)料庫(kù)展開的文化史定量分析,阿瑟比等人對(duì)其中的情感用詞變遷和英語(yǔ)地區(qū)差異進(jìn)行的研究,以及賓利等人在書籍詞匯與經(jīng)濟(jì)發(fā)展周期之間進(jìn)行的關(guān)聯(lián)性分析等[l0],都給我們帶來(lái)很好的研究經(jīng)驗(yàn)與證明。
在本研究中,我們利用谷歌圖書的所有漢語(yǔ)(簡(jiǎn)體)書籍(1949-2008年)和百度指數(shù)(2011-2016年)的全部搜索記錄作為語(yǔ)料庫(kù)(Corpus ),并將提及有關(guān)蘇南地區(qū)和其他城市的詞匯頻次,作為衡量城市國(guó)內(nèi)知名度的測(cè)度,從而在超越以往相關(guān)研究的時(shí)空跨度上對(duì)區(qū)域性城市乃至全國(guó)范圍的城市國(guó)內(nèi)知名度的歷史變遷軌跡進(jìn)行全景探索和深度分析。在具體算法上,由于谷歌圖書內(nèi)漢語(yǔ)書籍中的詞匯在數(shù)量上不盡相同,為增強(qiáng)數(shù)據(jù)的時(shí)間可比性,
我們用關(guān)鍵詞出現(xiàn)頻數(shù)除以當(dāng)年的詞匯總量。具體的計(jì)算公式為:
其中,F(xiàn)表示在公元Y年城市i的出現(xiàn)次數(shù),F(xiàn)為在公元y年中出版書籍的全部詞匯量、為在公元y年城市i的同頻比例,即國(guó)內(nèi)知名度。
百度指數(shù)中用戶關(guān)注度的計(jì)算公式是根據(jù)在所選定時(shí)段內(nèi)百度網(wǎng)頁(yè)或百度新聞的用戶搜索量的周平均值得出,其如下:
關(guān)鍵詞:質(zhì)量管理,統(tǒng)計(jì)分析,船舶設(shè)計(jì)
中圖分類號(hào):U673.2 文獻(xiàn)標(biāo)識(shí)碼:A
Data Analysis Method of Quality Control Applied for Ship Design Project
LI Lanjuan
( Guangzhou Marine Engineering Corporation, Guangzhou 510250 )
Abstract:Statistic and analysis for drawings which are censored by CCS with a new data analysis method of quality control. It can reflect technique level of each profession clearly, then we can adjust to achieve the aim of improve design according to requires.
Key words: Quality control; Data analysis; Ship design
1概述
在船舶設(shè)計(jì)項(xiàng)目質(zhì)量管理中,對(duì)設(shè)計(jì)圖紙的差錯(cuò)率進(jìn)行統(tǒng)計(jì)分析非常重要,不僅可以總結(jié)經(jīng)驗(yàn),還可以找出設(shè)計(jì)環(huán)節(jié)中的薄弱之處,進(jìn)而有針對(duì)性地采取改進(jìn)措施,降低圖紙差錯(cuò)率和圖紙修改率,最終達(dá)到提高設(shè)計(jì)質(zhì)量的目的。本文將一種全新的質(zhì)量管理數(shù)據(jù)分析方法應(yīng)用到船舶設(shè)計(jì)項(xiàng)目中,對(duì)某船送中國(guó)船級(jí)社(CCS)廣州審圖中心的各專業(yè)圖樣文件進(jìn)行了統(tǒng)計(jì)和分析。首先對(duì)CCS審圖意見類別及其導(dǎo)致修改的原因進(jìn)行統(tǒng)計(jì),然后對(duì)統(tǒng)計(jì)結(jié)果進(jìn)行分析,最后針對(duì)產(chǎn)生原因采取相應(yīng)的改進(jìn)措施。
2專業(yè)審圖意見類別和原因分析
對(duì)各專業(yè)分別進(jìn)行統(tǒng)計(jì)和分析,有利于了解各專業(yè)本身技術(shù)力量的實(shí)際情況,以便專業(yè)負(fù)責(zé)人做出適時(shí)的調(diào)整,對(duì)薄弱之處加以改進(jìn)和提高。根據(jù)CCS的審圖意見類別,對(duì)某船各專業(yè)的圖樣文件進(jìn)行統(tǒng)計(jì),然后根據(jù)CCS提出的意見進(jìn)行原因分析。
為了方便分析,設(shè)置下列不同的代碼,表示不同的審圖意見類別和原因分析含義。
(1)審圖意見類別代碼含義:
A-認(rèn)可無(wú)意見;
AC-認(rèn)可有意見;
N-備查無(wú)意見;
NC-備查有意見;
TS-轉(zhuǎn)送現(xiàn)場(chǎng)驗(yàn)船師審核;
RS-不予批準(zhǔn),需修改后重新送審。
(2)原因分析代碼含義:
B1-設(shè)計(jì)方案欠妥;
B2-設(shè)計(jì)接口不協(xié)調(diào);
B3-不符合現(xiàn)行有效的規(guī)范、法規(guī)要求;
B4-標(biāo)識(shí)不明或有誤;
B5-其它。
下面對(duì)輪機(jī)專業(yè)進(jìn)行舉例說明:
該專業(yè)的意見類別統(tǒng)計(jì)見表1,原因分析統(tǒng)計(jì)見表2。
表1輪機(jī)專業(yè)CCS審圖意見類別統(tǒng)計(jì)表
表2輪機(jī)專業(yè)原因分析統(tǒng)計(jì)表
由表1可清楚地看出某船輪機(jī)專業(yè)圖樣文件的退審意見分布情況。其它專業(yè)也分別如此進(jìn)行歸類和統(tǒng)計(jì),便能了解本專業(yè)圖樣文件的退審意見分布情況,并且還可將各專業(yè)的退審情況進(jìn)行比較。
由表2可清楚地看出某船輪機(jī)專業(yè)圖樣文件的差錯(cuò)分布較為集中在B3 (不符合現(xiàn)行有效的規(guī)范、法規(guī)要求),其次是B1(設(shè)計(jì)方案欠妥),說明輪機(jī)專業(yè)在這兩方面需采取措施加以改進(jìn)。其它專業(yè)也分別如此歸類和統(tǒng)計(jì),這樣就能清楚地了解各專業(yè)自身的薄弱環(huán)節(jié)在何處,從而可采取相應(yīng)的措施來(lái)改進(jìn)和提高。
3全船審圖意見類別和原因分析
為了使分析具有全局性,對(duì)各專業(yè)之間進(jìn)行比較之后,需對(duì)全船進(jìn)行統(tǒng)計(jì)和分析,這樣有利于找出整體中的薄弱環(huán)節(jié)在何處。某船全船圖樣文件的CCS審圖意見類別統(tǒng)計(jì)見表3;原因分析統(tǒng)計(jì)見表4。
表3全船CCS審圖意見類別數(shù)據(jù)統(tǒng)計(jì)表
表4全船原因分析統(tǒng)計(jì)表
由表3可清楚地看出各個(gè)專業(yè)退審圖樣文件的總體情況。由表4可看出各個(gè)專業(yè)圖樣文件的退審意見主要集中在B3(不符合現(xiàn)行有效的規(guī)范、法規(guī)要求),說明在這一環(huán)節(jié)所有專業(yè)均比較薄弱,特別是電氣專業(yè),因此需專門針對(duì)這一環(huán)節(jié)制定改進(jìn)措施。
通過對(duì)全船的退審圖樣文件進(jìn)行統(tǒng)計(jì)和分析后,使項(xiàng)目負(fù)責(zé)人能清楚地掌握各專業(yè)的實(shí)際工作情況與整個(gè)項(xiàng)目組中的薄弱環(huán)節(jié)所在,以便采取改進(jìn)措施,從全局出發(fā)對(duì)各專業(yè)的技術(shù)力量進(jìn)行調(diào)整,進(jìn)而提高產(chǎn)品項(xiàng)目設(shè)計(jì)質(zhì)量。
4結(jié)論
在船舶設(shè)計(jì)項(xiàng)目中采用這種全新的質(zhì)量管理數(shù)據(jù)分析方法,不僅能清晰地反映出各專業(yè)本身的優(yōu)劣勢(shì),還能反映出各個(gè)專業(yè)之間技術(shù)力量的強(qiáng)弱差別。這樣不但讓專業(yè)負(fù)責(zé)人能了解本專業(yè)的問題所在,并采取相應(yīng)的改進(jìn)措施,同時(shí)也能讓項(xiàng)目負(fù)責(zé)人掌控全局,根據(jù)需要對(duì)各專業(yè)進(jìn)行協(xié)調(diào),從而提高產(chǎn)品項(xiàng)目的質(zhì)量,降低圖樣文件的差錯(cuò)率。
作者簡(jiǎn)介:李蘭娟(1979-),女,工程師。從事項(xiàng)目管理與質(zhì)量管理工作。
收稿日期:2013-07-05
國(guó)際動(dòng)態(tài)
日本獲得6艘靈便型散貨船訂單
近日,Sesoda公司表示,通過其子公司及合資公司(JV)訂造了2艘34000DWT型及4艘38000DWT型散貨船。相關(guān)散貨船的新造船價(jià)分別為“每艘2500萬(wàn)美元以下”及“最高2600萬(wàn)美元”水平。
這些新造船將在日本Namura(名村)造船、Imabari(今治)造船以及匿名的其他日本造船廠進(jìn)行建造,安排在2016-2018年交付。
南日本造船獲4艘甲醇運(yùn)輸船訂單
1.1 系統(tǒng)建設(shè)必要性
隨著世界經(jīng)濟(jì)形勢(shì)和金融環(huán)境發(fā)生的巨大變化,作為金融市場(chǎng)中的重要組成部分,商業(yè)銀行在發(fā)展中面臨的風(fēng)險(xiǎn)很多,而信用風(fēng)險(xiǎn)始終是其面臨的最主要風(fēng)險(xiǎn)之一,也是影響一國(guó)經(jīng)濟(jì)發(fā)展的主要因素。與此同時(shí),監(jiān)管部門也規(guī)定商業(yè)銀行新資本協(xié)議的整體規(guī)劃和實(shí)施路徑中,信用風(fēng)險(xiǎn)數(shù)據(jù)集市是新協(xié)議實(shí)施合規(guī)達(dá)標(biāo)的必要條件之一。
在此背景下,結(jié)合時(shí)下迅速發(fā)展起來(lái)的“大數(shù)據(jù)”思想,在商業(yè)銀行信用風(fēng)險(xiǎn)管理中,構(gòu)建信用風(fēng)險(xiǎn)數(shù)據(jù)集市成已為必然的選擇。
1.2 銀行同業(yè)系統(tǒng)建設(shè)情況
近年來(lái)國(guó)內(nèi)外同業(yè)銀行期紛紛開展風(fēng)險(xiǎn)數(shù)據(jù)標(biāo)準(zhǔn)設(shè)計(jì)與風(fēng)險(xiǎn)數(shù)據(jù)集市建設(shè)項(xiàng)目。通過數(shù)據(jù)系統(tǒng)的建設(shè)加大對(duì)各類內(nèi)外部數(shù)據(jù)的運(yùn)用,借此提高風(fēng)險(xiǎn)管理的能力和水平。
國(guó)外方面,在不斷加大對(duì)信用風(fēng)險(xiǎn)管理的關(guān)注力度和研究力度的同時(shí),各類數(shù)據(jù)運(yùn)用系統(tǒng)的建設(shè)已全面展開并在信用風(fēng)險(xiǎn)管理中得到了運(yùn)用。Mckinsey公司的研究表明:信用風(fēng)險(xiǎn)占銀行總體風(fēng)險(xiǎn)敞口的60%,是導(dǎo)致銀行破產(chǎn)的最主要因素,也是導(dǎo)致區(qū)域性金融危機(jī)甚至全球性金融危機(jī)的根本原因之一[1]。國(guó)外的許多先進(jìn)銀行已實(shí)現(xiàn)了內(nèi)外部數(shù)據(jù)的高度整合,并已積累了大量歷史數(shù)據(jù),建立起各自的信用風(fēng)險(xiǎn)違約數(shù)據(jù)庫(kù)。
國(guó)內(nèi)方面,我國(guó)的商業(yè)銀行也在緊跟國(guó)際發(fā)展步伐,近年來(lái)也逐步建立起了基于計(jì)算機(jī)技術(shù)的信用風(fēng)險(xiǎn)管理體系。如:平安銀行開展了“風(fēng)險(xiǎn)數(shù)據(jù)集市建設(shè)項(xiàng)目”;寧波鄞州銀行開展了“全面風(fēng)險(xiǎn)管理系統(tǒng)項(xiàng)目”;徽商銀行開展了“徽商銀行零售信用風(fēng)險(xiǎn)數(shù)據(jù)集市項(xiàng)目”;天津農(nóng)商行開展了“信用風(fēng)險(xiǎn)數(shù)據(jù)集市管理系統(tǒng)項(xiàng)目”等[2]。但與國(guó)外先進(jìn)銀行相比,還存在較大的差距,因此需要加快基于數(shù)據(jù)的信用風(fēng)險(xiǎn)管理系統(tǒng)。
2 信用風(fēng)險(xiǎn)數(shù)據(jù)集市構(gòu)建探索
2.1 信用風(fēng)險(xiǎn)數(shù)據(jù)集市定位
信用風(fēng)險(xiǎn)數(shù)據(jù)集市的定位是構(gòu)建一個(gè)適應(yīng)商業(yè)銀行數(shù)據(jù)特點(diǎn)和信用風(fēng)險(xiǎn)管理需求的數(shù)據(jù)中心系統(tǒng),為進(jìn)一步完善商業(yè)銀行全方位、多層次的信用風(fēng)險(xiǎn)管控體系服務(wù)。通過對(duì)海量的內(nèi)外部數(shù)據(jù)按不同主題進(jìn)行區(qū)分和加工,計(jì)算出各類指標(biāo)等中間數(shù)據(jù)和衍生數(shù)據(jù),將數(shù)據(jù)中的隱含信息最大程度的加以挖掘、表達(dá)和運(yùn)用,為信用風(fēng)險(xiǎn)管理提供服務(wù)。
2.2 信用風(fēng)險(xiǎn)數(shù)據(jù)集市建設(shè)目標(biāo)
信用風(fēng)險(xiǎn)數(shù)據(jù)集市的總體建設(shè)目標(biāo)是建立一個(gè)以信用風(fēng)險(xiǎn)管理為主、面向全行各業(yè)務(wù)部門的、支持各類信用風(fēng)險(xiǎn)應(yīng)用的數(shù)據(jù)集市環(huán)境。數(shù)據(jù)集市的數(shù)據(jù)范圍需要覆蓋銀行內(nèi)部客戶方面、交易與投資業(yè)務(wù)方面、信貸資產(chǎn)業(yè)方面的所有細(xì)節(jié)數(shù)據(jù)與相關(guān)風(fēng)險(xiǎn)應(yīng)用的派生數(shù)據(jù),為各個(gè)不同的風(fēng)險(xiǎn)應(yīng)用系統(tǒng)之間提供數(shù)據(jù)共享服務(wù),以保證全行一致的風(fēng)險(xiǎn)數(shù)據(jù)視圖根據(jù)信用風(fēng)險(xiǎn)數(shù)據(jù)集市的定位,并結(jié)合商業(yè)銀行信用風(fēng)險(xiǎn)管理的需求和特點(diǎn),系統(tǒng)的建設(shè)目標(biāo)主要包括以下幾方面:
1) 解決各系統(tǒng)數(shù)據(jù)分散、彼此獨(dú)立的問題,構(gòu)建全行性的數(shù)據(jù)平臺(tái),對(duì)來(lái)自不同系統(tǒng)的數(shù)據(jù)進(jìn)行整合后的共享,實(shí)現(xiàn)數(shù)據(jù)的統(tǒng)一管理和利用。
2) 盡可能多的收集并利用與信用風(fēng)險(xiǎn)相關(guān)的各類外部數(shù)據(jù),如工商、稅務(wù)、征信等方面的數(shù)據(jù),使商業(yè)銀行內(nèi)部的信用風(fēng)險(xiǎn)管理從有限的內(nèi)部資源中延伸到廣闊的外部環(huán)境中,利用更多有價(jià)值的數(shù)據(jù)信息為信用風(fēng)險(xiǎn)管理服務(wù)。
3) 對(duì)獲取的基礎(chǔ)數(shù)據(jù)進(jìn)行掘取和加工,提煉出客戶、產(chǎn)品、行業(yè)、機(jī)構(gòu)等不同維度中的隱含信息,分析并掌握數(shù)據(jù)背后的潛在規(guī)律,為信用風(fēng)險(xiǎn)管理提供依據(jù),完成業(yè)務(wù)數(shù)據(jù)向信用風(fēng)險(xiǎn)管理信息的過渡。
4) 面對(duì)信用風(fēng)險(xiǎn)管理中不同下游應(yīng)用系統(tǒng)的數(shù)據(jù)需求,在集市內(nèi)部區(qū)分不同的數(shù)據(jù)模型,在集市外部提供統(tǒng)一的數(shù)據(jù)供應(yīng)平臺(tái),保證各應(yīng)用系統(tǒng)間數(shù)據(jù)的統(tǒng)一性。
5) 解決行內(nèi)各部門間信息不對(duì)稱的問題,統(tǒng)一內(nèi)外部監(jiān)管報(bào)表數(shù)的據(jù)口徑,實(shí)現(xiàn)集市自動(dòng)對(duì)不同系統(tǒng)、不同報(bào)表之間數(shù)據(jù)的校驗(yàn),提高報(bào)表數(shù)據(jù)質(zhì)量,并提供靈活查詢工具實(shí)現(xiàn)隨時(shí)、隨需提取數(shù)據(jù)生產(chǎn)報(bào)表。
3 系統(tǒng)總體架構(gòu)
3.1 數(shù)據(jù)采集方案
信用風(fēng)險(xiǎn)數(shù)據(jù)集市是對(duì)數(shù)據(jù)進(jìn)行應(yīng)用的系統(tǒng),因此數(shù)據(jù)采集是保證系統(tǒng)性能和應(yīng)用效果的前提和基礎(chǔ)。在設(shè)計(jì)數(shù)據(jù)采集方案時(shí)需要重點(diǎn)考慮數(shù)據(jù)質(zhì)量、采集效率、ODS數(shù)據(jù)庫(kù)建設(shè)以及數(shù)據(jù)處理過程ETL的實(shí)現(xiàn)。
為保證數(shù)據(jù)質(zhì)量,除了在系統(tǒng)建設(shè)初期通過數(shù)據(jù)分析和業(yè)務(wù)部門訪談來(lái)查找和修正錯(cuò)誤數(shù)據(jù)外,在系統(tǒng)架構(gòu)的設(shè)計(jì)中也應(yīng)該引入數(shù)據(jù)質(zhì)量管理和控制機(jī)制,在數(shù)據(jù)采集的源頭上做好數(shù)據(jù)質(zhì)量管理和控制,避免因數(shù)據(jù)質(zhì)量問題造成上層應(yīng)用的失真。
數(shù)據(jù)質(zhì)量管理和控制機(jī)制的工作原理如圖1所示。采集來(lái)的數(shù)據(jù)被存儲(chǔ)在數(shù)據(jù)存儲(chǔ)區(qū)中,在數(shù)據(jù)存儲(chǔ)區(qū)之后設(shè)定一系列的數(shù)據(jù)質(zhì)量檢查規(guī)則對(duì)數(shù)據(jù)質(zhì)量進(jìn)行檢查。質(zhì)量檢查規(guī)則是通過數(shù)據(jù)質(zhì)量規(guī)則庫(kù)來(lái)完成的,數(shù)據(jù)質(zhì)量規(guī)則庫(kù)是事先定義好的檢查規(guī)則,當(dāng)然也可以隨時(shí)對(duì)其中的規(guī)則進(jìn)行修改和補(bǔ)充。
ODS數(shù)據(jù)庫(kù)對(duì)數(shù)據(jù)的采集應(yīng)當(dāng)實(shí)現(xiàn)的目標(biāo)是:將內(nèi)部各業(yè)務(wù)系統(tǒng)數(shù)據(jù)及外部不同來(lái)源的數(shù)據(jù)采集至統(tǒng)一的ODS數(shù)據(jù)倉(cāng)庫(kù),再經(jīng)過統(tǒng)一的ETL處理過程后供應(yīng)給信用風(fēng)險(xiǎn)數(shù)據(jù)集市,如圖2所示。
各業(yè)務(wù)系統(tǒng)數(shù)據(jù)先經(jīng)過ODS匯總后,再統(tǒng)一供應(yīng)給集市,這樣可大大提高數(shù)據(jù)采集效率,同時(shí)減少數(shù)據(jù)冗余問題,并節(jié)省存儲(chǔ)空間。
ETL的處理過程是指數(shù)據(jù)的抽取、轉(zhuǎn)換和裝載,主要作用是減少對(duì)數(shù)據(jù)倉(cāng)庫(kù)時(shí)間窗口的占用,減少數(shù)據(jù)的轉(zhuǎn)換過程。隨著基于信用風(fēng)險(xiǎn)數(shù)據(jù)集市應(yīng)用的增多,ODS到ETL的過程應(yīng)減少依賴性,避免應(yīng)用的增加造成ETL的重復(fù)開發(fā)。
上述的數(shù)據(jù)采集架構(gòu),從數(shù)據(jù)的采集路徑與環(huán)節(jié)看,數(shù)據(jù)流明確,環(huán)節(jié)簡(jiǎn)單,對(duì)原業(yè)務(wù)系統(tǒng)影響很小。而信用風(fēng)險(xiǎn)數(shù)據(jù)集市的數(shù)據(jù)統(tǒng)一來(lái)源于ODS,也能保證系統(tǒng)的安全性也較高,且有效避免了重復(fù)的數(shù)據(jù)整合與轉(zhuǎn)換工作[3] 。
3.2 系統(tǒng)邏輯結(jié)構(gòu)設(shè)計(jì)
信用風(fēng)險(xiǎn)數(shù)據(jù)集市以挖掘數(shù)據(jù)中的信用風(fēng)險(xiǎn)信息為目的,對(duì)于數(shù)據(jù)的應(yīng)用應(yīng)打破關(guān)系型數(shù)據(jù)庫(kù)理論中標(biāo)準(zhǔn)泛式的約束,將業(yè)務(wù)系統(tǒng)的數(shù)據(jù)重新組織和整理,為各類信用風(fēng)險(xiǎn)應(yīng)用提供數(shù)據(jù)支持。在對(duì)整個(gè)系統(tǒng)的邏輯結(jié)構(gòu)進(jìn)行設(shè)計(jì)時(shí),應(yīng)從面向應(yīng)用的角度出發(fā),采用“自頂向下”的設(shè)計(jì)方法,對(duì)數(shù)據(jù)分層處理、逐層加工。按照這個(gè)思想,將信用風(fēng)險(xiǎn)數(shù)據(jù)集市的邏輯結(jié)構(gòu)設(shè)計(jì)如圖3所示。
系統(tǒng)邏輯架構(gòu)自下而上分為三層 :基礎(chǔ)層、模型層和應(yīng)用層?;A(chǔ)層包括從ODS數(shù)據(jù)倉(cāng)庫(kù)以及ETL處理過程;模型層包括數(shù)據(jù)緩沖層、基礎(chǔ)整合層、加工匯總層和應(yīng)用接口層;應(yīng)用層指針對(duì)信用風(fēng)險(xiǎn)數(shù)據(jù)的各類應(yīng)用,如:為相關(guān)系統(tǒng)供數(shù)、RWA及經(jīng)濟(jì)資本計(jì)算、固定報(bào)表、靈活查詢、指標(biāo)查詢等。
3.2.1 基礎(chǔ)層的設(shè)計(jì)
基礎(chǔ)層的關(guān)鍵在于ETL過程的設(shè)計(jì)。ETL過程的作用是將ODS獲取的數(shù)據(jù),經(jīng)過一系列加工處理加載進(jìn)信用風(fēng)險(xiǎn)數(shù)據(jù)集市的過程。ETL處理流程主要包括以下主要步驟[4]:
數(shù)據(jù)抽取:數(shù)據(jù)抽取就是將集市需要的業(yè)務(wù)數(shù)據(jù)從ODS數(shù)據(jù)倉(cāng)庫(kù)抽取到ETL的數(shù)據(jù)轉(zhuǎn)換區(qū)的過程;
數(shù)據(jù)檢查和出錯(cuò)處理:在數(shù)據(jù)轉(zhuǎn)換區(qū)中,對(duì)源數(shù)據(jù)質(zhì)量進(jìn)行檢查,形成檢查報(bào)告,并進(jìn)行相應(yīng)的出錯(cuò)處理,對(duì)于嚴(yán)重錯(cuò)誤,需要系統(tǒng)維護(hù)人員現(xiàn)場(chǎng)做出相應(yīng)的處理。
數(shù)據(jù)轉(zhuǎn)換:數(shù)據(jù)轉(zhuǎn)換包括對(duì)源系統(tǒng)數(shù)據(jù)進(jìn)行整理、剔除、合并、驗(yàn)證等一系列轉(zhuǎn)換工作,最后形成集市數(shù)據(jù)結(jié)構(gòu)所需的數(shù)據(jù),存放在轉(zhuǎn)換區(qū)的數(shù)據(jù)表中。
數(shù)據(jù)加載:數(shù)據(jù)加載將數(shù)據(jù)轉(zhuǎn)換的結(jié)果數(shù)據(jù)加載到集市,并形成數(shù)據(jù)加載情況的報(bào)告。
經(jīng)過以上ETL處理流程,能夠使數(shù)據(jù)源穩(wěn)定的、周期性的導(dǎo)入到信用風(fēng)險(xiǎn)數(shù)據(jù)集市中。
3.2.2 模型層的設(shè)計(jì)
模型層是信用風(fēng)險(xiǎn)數(shù)據(jù)集市的核心,這層的作用是組織信用風(fēng)險(xiǎn)管理所需的數(shù)據(jù),形成信用風(fēng)險(xiǎn)類應(yīng)用的數(shù)據(jù)基礎(chǔ)?;A(chǔ)區(qū)按不同風(fēng)險(xiǎn)主題采用模型化結(jié)構(gòu)存儲(chǔ)信用風(fēng)險(xiǎn)應(yīng)用所需的各類明細(xì)業(yè)務(wù)數(shù)據(jù)。因?yàn)楦黝愋庞蔑L(fēng)險(xiǎn)采用的計(jì)量方法不盡相同,因此基礎(chǔ)區(qū)按不同風(fēng)險(xiǎn)主題對(duì)數(shù)據(jù)進(jìn)行整合。又因基礎(chǔ)數(shù)據(jù)來(lái)自不同的源系統(tǒng),結(jié)構(gòu)復(fù)雜多樣,為將這些數(shù)據(jù)整合、關(guān)聯(lián)起來(lái),形成完整的信用風(fēng)險(xiǎn)數(shù)據(jù)信息,同時(shí)在結(jié)構(gòu)上保持一定的穩(wěn)定性和一致性,因此在不同主題下采用模型化結(jié)構(gòu)對(duì)帶有同樣業(yè)務(wù)特征的數(shù)據(jù)進(jìn)行分類存儲(chǔ)。
在模型層,經(jīng)過ETL處理后的數(shù)據(jù)被存儲(chǔ)在數(shù)據(jù)緩沖層中。數(shù)據(jù)緩沖層是一個(gè)數(shù)據(jù)臨時(shí)存儲(chǔ)區(qū),其作用是等待數(shù)據(jù)被進(jìn)一步調(diào)用。
在數(shù)據(jù)緩沖層之上是基礎(chǔ)數(shù)據(jù)整合層,在這層中,集市將按照不同主題域?qū)?shù)據(jù)做初步的區(qū)分和整理。主題域的劃分是逐層細(xì)化的,基礎(chǔ)整合層主要有對(duì)公信貸、零售信貸、公共主題、投資交易幾個(gè)主題。其中對(duì)公信貸包括參與主題、客戶評(píng)級(jí)、交易活動(dòng)、業(yè)務(wù)流程、風(fēng)險(xiǎn)緩釋、債項(xiàng)評(píng)級(jí)、不良資產(chǎn)、財(cái)務(wù)信息等二級(jí)主題;零售信貸包括個(gè)貸、個(gè)人征信、信用卡、零售分池、中小企業(yè)等二級(jí)主題。
經(jīng)過基礎(chǔ)整合層的主題域劃分,各類業(yè)務(wù)明細(xì)數(shù)據(jù)和外部數(shù)據(jù)已被做出初步匯總和區(qū)分,不同來(lái)源的數(shù)據(jù)經(jīng)過主題的劃分被有效關(guān)聯(lián)起來(lái),數(shù)據(jù)間的聚合程度得到了提高,有利于數(shù)據(jù)的進(jìn)一步運(yùn)用。
基礎(chǔ)整合層之上是加工匯總層,加工匯總層完全由應(yīng)用驅(qū)動(dòng),根據(jù)信用風(fēng)險(xiǎn)管理應(yīng)用需求來(lái)存儲(chǔ)和加工匯總后的指標(biāo)數(shù)據(jù)等。該部分可以根據(jù)不同應(yīng)用系統(tǒng)的指標(biāo)進(jìn)行劃分二級(jí)主題,也可以根據(jù)風(fēng)險(xiǎn)的收益、資本、敞口等等進(jìn)行劃分主題對(duì)基礎(chǔ)整合層的數(shù)據(jù)加以挖掘和提煉,進(jìn)一步從基礎(chǔ)數(shù)據(jù)中提取有效信息,產(chǎn)生更多的中間數(shù)據(jù)、指標(biāo)數(shù)據(jù)和衍生數(shù)據(jù)。
信用風(fēng)險(xiǎn)數(shù)據(jù)集市中,直接與各類應(yīng)用對(duì)接的是應(yīng)用接口層。這層定義了集市與具體應(yīng)用間的數(shù)據(jù)接口、數(shù)據(jù)文本、視圖和建模款表等,將數(shù)據(jù)模型中的信息通過具體應(yīng)用表達(dá)出來(lái),使信用風(fēng)險(xiǎn)應(yīng)用得以實(shí)現(xiàn)。
3.2.3 應(yīng)用層的設(shè)計(jì)
應(yīng)用層是信用風(fēng)險(xiǎn)數(shù)據(jù)集市建設(shè)的目的所在,根據(jù)商業(yè)銀行信用風(fēng)險(xiǎn)管理方面的具體需求可通過信用風(fēng)險(xiǎn)數(shù)據(jù)集市支持內(nèi)部評(píng)級(jí)系統(tǒng)、風(fēng)險(xiǎn)預(yù)警系統(tǒng)等系統(tǒng)的建設(shè),完成RWA及經(jīng)濟(jì)資本和各類指標(biāo)的計(jì)算,提供內(nèi)外部監(jiān)管報(bào)表的查詢等。在下文中將對(duì)信用風(fēng)險(xiǎn)數(shù)據(jù)集市的具體應(yīng)用展開進(jìn)一步探討。
4 信用風(fēng)險(xiǎn)數(shù)據(jù)集市的應(yīng)用
信用風(fēng)險(xiǎn)數(shù)據(jù)集市的應(yīng)用總體可分為三個(gè)方面:數(shù)據(jù)支持、報(bào)表和統(tǒng)計(jì)分析和決策支持,如圖4所示。
4.1 數(shù)據(jù)支持類應(yīng)用
數(shù)據(jù)支持是指為各類信用風(fēng)險(xiǎn)管理類的系統(tǒng)供數(shù),滿足各類信用風(fēng)險(xiǎn)應(yīng)用系統(tǒng)的數(shù)據(jù)采集需求,保證這類系統(tǒng)的應(yīng)用的順利實(shí)現(xiàn)。同時(shí)也與這類信用風(fēng)險(xiǎn)應(yīng)用系統(tǒng)進(jìn)行交互,即不僅為下游應(yīng)用系統(tǒng)提供數(shù)據(jù)支持,也吸收這類系統(tǒng)產(chǎn)生的數(shù)據(jù)結(jié)果,用于更多的信用風(fēng)險(xiǎn)管理當(dāng)中。因此,信用風(fēng)險(xiǎn)數(shù)據(jù)集市在數(shù)據(jù)支持方面是雙向的,數(shù)據(jù)流的進(jìn)、出兩條線是并行的。
4.2 報(bào)表和統(tǒng)計(jì)分析類應(yīng)用
報(bào)表和統(tǒng)計(jì)分析的應(yīng)用分為定制報(bào)表和靈活查詢。定制報(bào)表指根據(jù)信用風(fēng)險(xiǎn)管理的內(nèi)外部監(jiān)管報(bào)表需求,按確定的報(bào)表樣式、數(shù)據(jù)口徑、取數(shù)規(guī)則、勾稽關(guān)系和報(bào)表頻度等制作出直接可用的報(bào)表。靈活查詢則是不針對(duì)具體報(bào)表需求的數(shù)據(jù)提供,只提供足夠多的數(shù)據(jù)字段,由用戶自己根據(jù)需求選取所需字段并加以組合,形成符合自身需求的報(bào)表或查詢結(jié)果。
4.2.1 風(fēng)險(xiǎn)分析主題的劃分
在實(shí)現(xiàn)報(bào)表和統(tǒng)計(jì)分析類的應(yīng)用中,應(yīng)重點(diǎn)考慮兩方面問題:一是如何最才能大程度的滿足各類不同的報(bào)表或數(shù)據(jù)查詢需求,二是需要考慮隨著業(yè)務(wù)的發(fā)展以及信用風(fēng)險(xiǎn)管理的不斷深入,報(bào)表和統(tǒng)計(jì)分析的需求還將不斷增長(zhǎng)和擴(kuò)展。從這兩點(diǎn)出發(fā),需要將數(shù)據(jù)區(qū)分成不同的風(fēng)險(xiǎn)分析主題。
風(fēng)險(xiǎn)主題的劃分應(yīng)從報(bào)表及統(tǒng)計(jì)分析的需求出發(fā),先把集市中已有的數(shù)據(jù)區(qū)分成諸如資產(chǎn)質(zhì)量、不良資產(chǎn)、預(yù)警監(jiān)控等不同主題,再對(duì)每個(gè)主題進(jìn)行挖掘和補(bǔ)充,利用已有數(shù)據(jù)產(chǎn)生更多隱含數(shù)據(jù),豐富每個(gè)主題的數(shù)據(jù)字段。每個(gè)主題之間是彼此獨(dú)立但又相互調(diào)用的關(guān)系。除了劃分風(fēng)險(xiǎn)分析主題外,商業(yè)銀行還可以針對(duì)自身的需求和特點(diǎn)建立專題話的分析主題,如集團(tuán)客戶分析,關(guān)聯(lián)交易分析等。
4.2.2 報(bào)表工具的選擇
報(bào)表和統(tǒng)計(jì)分析類應(yīng)用的另一個(gè)難點(diǎn)就是靈活查詢的實(shí)現(xiàn)問題。提供靈活查詢功能的目的在于使用戶可根據(jù)需要隨時(shí)提取數(shù)據(jù)信息或生成報(bào)表。因此,靈活查詢需要結(jié)合專門的報(bào)表工具才能得以實(shí)現(xiàn)。
綜合考慮報(bào)表工具的緩存能力、數(shù)據(jù)提取的靈活程度等方面,選擇了ORACLE公司的BIEE報(bào)表工具。它不僅在數(shù)據(jù)緩存和提取上表現(xiàn)良好,還可以完整的連接企業(yè)內(nèi)各個(gè)異構(gòu)數(shù)據(jù)源,從而使報(bào)表制作變的更加智能。用戶可以通過不同數(shù)據(jù)字段、度量維度和分析維度輕松組合出所需的報(bào)表,必要時(shí)還可以通過圖形展示。
4.3 決策支持類應(yīng)用
決策支持引進(jìn)不同的決策分析模型,通過大量的數(shù)據(jù)計(jì)算對(duì)某個(gè)風(fēng)險(xiǎn)專題進(jìn)行推演,其計(jì)算 結(jié)果可反映管理決策的可行性或給出可供選擇的方案。如RWA及經(jīng)濟(jì)資本的計(jì)算、壓力測(cè)試、組合管理等都是信用風(fēng)險(xiǎn)數(shù)據(jù)集市在決策支持方面的應(yīng)用。
5 結(jié)束語(yǔ)
本文從商業(yè)銀行信用風(fēng)險(xiǎn)管理發(fā)展的需要出發(fā),結(jié)合內(nèi)外部監(jiān)管要求,探討了信用風(fēng)險(xiǎn)數(shù)據(jù)集市的建設(shè)方法,并詳細(xì)闡述了系統(tǒng)在數(shù)據(jù)質(zhì)量控制、數(shù)據(jù)模型設(shè)計(jì)和具體運(yùn)用方面的構(gòu)建思路并給出解決方案。
從商業(yè)銀行信用風(fēng)險(xiǎn)管理的發(fā)展趨勢(shì)來(lái)看,信用風(fēng)險(xiǎn)數(shù)據(jù)集市必將過渡更為包含更多數(shù)據(jù)信息的大數(shù)據(jù)系統(tǒng),并且還要從獨(dú)立的系統(tǒng)發(fā)展成為與云端數(shù)據(jù)交互的共享系統(tǒng)。
參考文獻(xiàn):
[1] 王彥龍.企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)原理、設(shè)計(jì)與實(shí)踐[M].北京:電子工業(yè)出版社,2009.
關(guān)鍵詞:RFID匹配數(shù)據(jù);異常數(shù)據(jù);數(shù)據(jù)有效性析;檢驗(yàn)
1 背景
城市化和機(jī)動(dòng)化的迅猛發(fā)展,使得城市機(jī)動(dòng)保有量日漸增加,隨之而來(lái)的是城市范圍內(nèi)的交通擁堵現(xiàn)象,降低了城市交通系統(tǒng)的運(yùn)行效率,嚴(yán)重影響了城市居民的日常工作和生活。為了應(yīng)對(duì)城市交通擁堵問題,基于先進(jìn)技術(shù)應(yīng)用的城市智能交通系統(tǒng)建設(shè)得到了廣泛的關(guān)注,發(fā)展迅猛。如結(jié)合2008年北京奧運(yùn)會(huì)建立了北京奧運(yùn)智能交通管理與服務(wù)綜合系統(tǒng);結(jié)合2010年上海世博會(huì)建立了上海世博智能交通技術(shù)綜合集成系統(tǒng);結(jié)合2010年廣州亞運(yùn)會(huì)建立了廣州亞運(yùn)智能交通系統(tǒng)及應(yīng)用,一方面為上述重大體育比賽或文化盛會(huì)的順利完成發(fā)揮了保障和支撐作用,另一方面,又形成了一系列的解決我國(guó)城市交通擁堵的研究成果和技術(shù)解決方案。
和傳統(tǒng)的交通系統(tǒng)相比,廣泛的交通信息采集和處理是智能交通系統(tǒng)獨(dú)有的特點(diǎn)。在智能交通系統(tǒng)建設(shè)過程中,已經(jīng)有一系列的交通檢測(cè)技術(shù)得到了應(yīng)用,如傳統(tǒng)的磁感應(yīng)線圈技術(shù)、微波檢測(cè)技術(shù)、視頻檢測(cè)技術(shù)等,并在城市智能交通系統(tǒng)的建設(shè)領(lǐng)域獲得了廣泛的應(yīng)用。隨著信息采集和處理技術(shù)的進(jìn)一步發(fā)展,當(dāng)前以RFID(Radio Frequency Identification)技術(shù)為典型代表的基于物聯(lián)網(wǎng)技術(shù)的城市交通信息采集技術(shù)日益發(fā)展,并已經(jīng)在一些城市得到了應(yīng)用,如南京已經(jīng)建成的基于RFID技術(shù)的城市交通信息采集平臺(tái),可以采集到每一輛車的通行信息和特征信息,形成了海量的交通數(shù)據(jù)庫(kù),奠定了交通分析和信息挖掘的基礎(chǔ)。
然而隨著信息處理技術(shù)的不斷發(fā)展,城市交通系統(tǒng)領(lǐng)域雖然已經(jīng)相繼建立了大量的信息系統(tǒng),積累了海量的交通數(shù)據(jù),但是很多系統(tǒng)出現(xiàn)了“數(shù)據(jù)豐富,信息貧乏”現(xiàn)象,數(shù)據(jù)質(zhì)量不高是原因之一,主要表現(xiàn)在交通數(shù)據(jù)庫(kù)中存在相當(dāng)數(shù)據(jù)的錯(cuò)誤數(shù)據(jù)、缺失數(shù)據(jù)和可疑數(shù)據(jù)等三類問題[1-2]。為了應(yīng)對(duì)上述數(shù)據(jù)質(zhì)量問題,數(shù)據(jù)有效性檢驗(yàn)技術(shù)應(yīng)運(yùn)而生。本文以目前領(lǐng)先的交通數(shù)據(jù)采集技術(shù)RFID技術(shù)為研究對(duì)象,分析RFID匹配數(shù)據(jù)的有效性,并提出基于統(tǒng)計(jì)技術(shù)的RFID匹配數(shù)據(jù)有效性檢驗(yàn)方法,以為后續(xù)的RFID數(shù)據(jù)挖掘和分析提供數(shù)據(jù)支撐。
2 交通數(shù)據(jù)采集和有效性檢驗(yàn)綜述
2.1 交通數(shù)據(jù)采集方法
城市交通運(yùn)行狀態(tài)的實(shí)時(shí)采集技術(shù),或城市交通運(yùn)行狀態(tài)的實(shí)時(shí)感知技術(shù)是構(gòu)建有效的城市智能交通系統(tǒng)的基礎(chǔ)。常用的道路交通狀態(tài)采集方法如下所述。
⑴感應(yīng)線圈。感應(yīng)線圈是一種常用的道路斷面交通數(shù)據(jù)采集技術(shù),其原理是通過預(yù)埋在道路面層下的感應(yīng)線圈感知通過的車輛,并計(jì)算交通狀態(tài)數(shù)據(jù),主要包括斷面流量,交通流斷面速度,占有率,其優(yōu)點(diǎn)是技術(shù)成熟,成本較低,可以探測(cè)到所有經(jīng)過感應(yīng)線圈的車輛數(shù)據(jù),缺點(diǎn)是須埋入路面,維護(hù)困難,受自然和車輛影響較大;并當(dāng)車輛擁堵嚴(yán)重時(shí),檢測(cè)精度下降。
⑵微波檢測(cè)器。微波檢測(cè)器是一種常用的道路斷面交通數(shù)據(jù)采集技術(shù),其原理是通過車輛的反射回波分析進(jìn)行車輛檢測(cè),優(yōu)點(diǎn)是在路側(cè)安裝,不影響路面,維護(hù)方便,在車流較為均勻穩(wěn)定時(shí)準(zhǔn)確度較高,缺點(diǎn)是在擁堵路段或者車流不穩(wěn)定路段檢測(cè)精度較低,特別是在有大車遮擋時(shí)檢測(cè)效果不理想。
⑶視頻檢測(cè)器。視頻檢測(cè)器是一種常用的道路斷面交通數(shù)據(jù)采集技術(shù),其原理是通過視頻攝像機(jī)作為傳感器采集交通視頻,并在視頻采集范圍內(nèi)設(shè)置虛擬檢測(cè)區(qū),通過視頻背景值的變化來(lái)檢測(cè)車輛,優(yōu)點(diǎn)是路側(cè)安裝,不影響路面,價(jià)格便宜,缺點(diǎn)是易受惡劣天氣、燈光和陰影等環(huán)境的影響。
⑷浮動(dòng)車。浮動(dòng)車是一種常用的路段交通數(shù)據(jù)采集技術(shù),其原理是通過在車輛上配置位置檢測(cè)器如GPS等,實(shí)時(shí)檢測(cè)車輛的行駛軌跡,并計(jì)算路段交通狀態(tài)數(shù)據(jù),其優(yōu)點(diǎn)是交通數(shù)據(jù)準(zhǔn)確,可以直接計(jì)算路段交通數(shù)據(jù),缺點(diǎn)是交通數(shù)據(jù)采集樣本受到檢測(cè)車輛的限制,難以構(gòu)建整體交通狀態(tài)數(shù)據(jù)庫(kù)。
⑸車牌匹配。車牌匹配是一種基于圖像處理的路段交通數(shù)據(jù)采集技術(shù),其原理是通過視頻檢測(cè)等技術(shù),在路段兩端進(jìn)行車輛車牌特征匹配,從而獲取路段交通狀態(tài)數(shù)據(jù),其優(yōu)點(diǎn)是可以獲得較多的路段交通狀態(tài)數(shù)據(jù),一旦匹配成功,數(shù)據(jù)準(zhǔn)確度較高,同樣,其缺點(diǎn)是車牌匹配受到車牌檢測(cè)技術(shù)限制很大,在復(fù)雜交通環(huán)境下難以實(shí)現(xiàn)有效的車牌識(shí)別及匹配。
上述傳統(tǒng)的交通數(shù)據(jù)采集技術(shù)側(cè)重于對(duì)交通流信息的采集,對(duì)單個(gè)車輛信息的關(guān)注整體上來(lái)說不高;雖然個(gè)別方法如車牌匹配技術(shù)考慮到了車輛的識(shí)別信息,但上述識(shí)別信息受到圖像處理技術(shù)和復(fù)雜交通環(huán)境的限制,仍需采用更加先進(jìn)的技術(shù)加以完善和提高。物聯(lián)網(wǎng)技術(shù),特別是以RFID技術(shù)為代表的車輛網(wǎng)技術(shù)發(fā)展,為單一車輛特征數(shù)據(jù)的采集奠定了技術(shù)基礎(chǔ),使得車輛信息和車流信息的綜合采集成為了可能,為實(shí)現(xiàn)道路交通系統(tǒng)的綜合感知提供了前提。
2.2 交通數(shù)據(jù)有效性檢驗(yàn)
數(shù)據(jù)檢驗(yàn)技術(shù)最早出現(xiàn)在美國(guó),初期主要是針對(duì)全美社會(huì)保險(xiǎn)號(hào),取得了良好的效果。在交通數(shù)據(jù)有效性檢驗(yàn)領(lǐng)域,由于交通數(shù)據(jù)采集方法的限制,主要是針對(duì)基于線圈的交通數(shù)據(jù),常用的檢驗(yàn)方法主要包括邏輯檢驗(yàn)方法,閾值檢驗(yàn)方法,基于交通流理論的檢驗(yàn)方法,綜合檢驗(yàn)方法等[3-6]。邏輯檢驗(yàn)方法是檢測(cè)交通數(shù)據(jù)中的一些明顯的邏輯性錯(cuò)誤,如數(shù)據(jù)采集時(shí)間漂移、重復(fù)記錄等,可以通過人工觀測(cè)的方法實(shí)施。閾值檢驗(yàn)方法是常用的一種數(shù)據(jù)有效性檢驗(yàn)方法,其主要的原理是根據(jù)歷史交通數(shù)據(jù)資料、經(jīng)驗(yàn)公式或者交通流的基本理論,確定交通流參數(shù)的可能的取值范圍,如流量、占有率或者速度等,并根據(jù)上述確定的范圍的采集到的相應(yīng)交通流參數(shù)進(jìn)行檢驗(yàn),認(rèn)為落在預(yù)定范圍的交通流數(shù)據(jù)是可疑的。這個(gè)方法簡(jiǎn)單易行,但是閾值的確定往往受到多種因素的影響,在不同的情況下需要進(jìn)行特定的研究。基于交通流理論的檢驗(yàn)方法的基本原理是交通參數(shù)之間應(yīng)當(dāng)滿通流理論的規(guī)定性,如交通流量、密度和速度的三參數(shù)模型等,在出現(xiàn)不滿足上述交通流模型的情況時(shí),所采集到的交通流數(shù)據(jù)是可疑的。綜合檢測(cè)方法是將閾值檢測(cè)和交通流理論檢測(cè)等方法綜合應(yīng)用,以尋找交通流數(shù)據(jù)樣本中的更加隱蔽的可疑數(shù)據(jù),常用的如最大密度法和平均有效車長(zhǎng)法等。
在RFID數(shù)據(jù)有效性檢驗(yàn)方面,當(dāng)前的主要研究?jī)?nèi)容是針對(duì)RFID的原始數(shù)據(jù)流進(jìn)行有效性檢驗(yàn),主要方法有滑動(dòng)窗口方法[7]、時(shí)序關(guān)系法[8]、自適應(yīng)時(shí)間閾值法[9]等,然而在基于RFID技術(shù)的交通數(shù)據(jù)有效性檢驗(yàn)方面還處在初級(jí)的階段,研究成果并不多見。
3 RFID技術(shù)與RFID匹配數(shù)據(jù)
3.1 RFID技術(shù)
無(wú)線射頻識(shí)別技術(shù)(簡(jiǎn)稱RFID)是一種非接觸式自動(dòng)識(shí)別技術(shù),其基本原理是利用射頻信號(hào)或空間耦合(電感或電磁耦合)的傳輸特性,實(shí)現(xiàn)對(duì)物體或商品的自動(dòng)識(shí)別,被廣泛應(yīng)用于物流、供應(yīng)鏈、動(dòng)物和車輛識(shí)別、門禁系統(tǒng)、圖書管理、自動(dòng)收費(fèi)和生產(chǎn)制造等領(lǐng)域。RFID射頻自動(dòng)識(shí)別技術(shù)由電子標(biāo)簽(Tag)、閱讀器(Reader)和數(shù)據(jù)交換與管理系統(tǒng)(Processor)三大部分組成。當(dāng)攜帶電子標(biāo)簽的物體在距離0~10米的范圍內(nèi)接近閱讀器時(shí),閱讀器內(nèi)部控制系統(tǒng)控制閱讀器發(fā)出微波查詢信號(hào);安裝在物體表面的電子標(biāo)簽收到閱讀器的查詢信號(hào)后,將此信號(hào)與標(biāo)簽中的數(shù)據(jù)信息合成一體反射回電子標(biāo)簽讀出裝置,反射回的微波合成信號(hào)已攜帶有電子標(biāo)簽數(shù)據(jù)信息,閱讀器接收到電子標(biāo)簽反射回的微波合成信號(hào)后,經(jīng)閱讀器內(nèi)部微處理器處理后即可將電子標(biāo)簽貯存的識(shí)別代碼等信息分離讀取出,進(jìn)一步傳輸?shù)綌?shù)據(jù)交換和管理系統(tǒng)存儲(chǔ),也可以通過相應(yīng)接口導(dǎo)出至數(shù)據(jù)庫(kù)進(jìn)行第二層面的處理。
RFID技術(shù)最大的優(yōu)點(diǎn)在于非接觸,在完成識(shí)別工作時(shí)無(wú)需人工干預(yù),適用于自動(dòng)化系統(tǒng),概括起來(lái),RFID技術(shù)具有以下特點(diǎn):1)識(shí)別精度高,可快速準(zhǔn)確的識(shí)別物體,2)采用無(wú)線電射頻,可以繞開障礙物,并透過外部材料讀取數(shù)據(jù),可工作于惡劣的環(huán)境中,3)可以同時(shí)對(duì)多個(gè)物體進(jìn)行識(shí)讀,4)儲(chǔ)存的信息量大且信息可加密保存,是一般條形碼存貯信息量的幾十倍,甚至上百倍。
3.2 RFID匹配數(shù)據(jù)
RFID原始數(shù)據(jù)包括每輛裝有RFID標(biāo)簽的車輛通過各RFID基站的過車數(shù)據(jù),包括通過該基站的時(shí)間和RFID標(biāo)簽中存儲(chǔ)的準(zhǔn)確的車輛信息,如車牌等。利用傳輸系統(tǒng)將讀寫器采集到的車輛信息傳回到交通信息中心后,基于RFID基站采集到過車車牌號(hào)和車輛通過時(shí)刻,針對(duì)任意一組和路網(wǎng)相匹配的RFID基站對(duì),可以匹配得到每一輛車通過該RFID基站對(duì)的平均行程車速,此類由相鄰基站匹配而得到的數(shù)據(jù)稱為匹配數(shù)據(jù)。值得說明的是,在RFID匹配數(shù)據(jù)的計(jì)算過程中,RFID基站對(duì)的構(gòu)建是基礎(chǔ),必須考慮到路網(wǎng)的幾何拓?fù)浣Y(jié)構(gòu),在進(jìn)行車流方向分析的基礎(chǔ)上,形成以RFID基站對(duì)為基礎(chǔ)的完備的RFID基站網(wǎng)絡(luò)。
可以看出,上述RFID匹配數(shù)據(jù)的計(jì)算是基于RFID技術(shù)的交通數(shù)據(jù)采集系統(tǒng)中的關(guān)鍵環(huán)節(jié)之一,其匹配數(shù)據(jù)直接體現(xiàn)了每一車輛的行駛狀態(tài)信息,為進(jìn)行進(jìn)一步的數(shù)據(jù)處理、獲得其他交通數(shù)據(jù)參數(shù)奠定了基礎(chǔ)。在上述過程中,由于交通路網(wǎng)和交通駕駛行為的復(fù)雜性,RFID匹配數(shù)據(jù)往往也存在和傳統(tǒng)交通數(shù)據(jù)采集方法相類的數(shù)據(jù)質(zhì)量問題,需要加以分析和檢驗(yàn),提高RFID匹配數(shù)據(jù)的有效性和質(zhì)量。
4 RFID匹配數(shù)據(jù)有效性分析和檢驗(yàn)
如上所述,高質(zhì)量的交通流數(shù)據(jù)是智能運(yùn)輸系統(tǒng)得以實(shí)現(xiàn)預(yù)期功能的基礎(chǔ)。RFID技術(shù)作為在智能交通數(shù)據(jù)采集技術(shù)的最新發(fā)展,具有快速獲得大量車輛信息的特點(diǎn),其中RFID匹配數(shù)據(jù)是其中最為基礎(chǔ)和重要的數(shù)據(jù)。為了提高RFID匹配數(shù)據(jù)的質(zhì)量,有必要對(duì)RFID匹配數(shù)據(jù)進(jìn)行有效性分析和檢驗(yàn),以提高數(shù)據(jù)集質(zhì)量,奠定后續(xù)數(shù)據(jù)挖掘和分析的基礎(chǔ)。以下以南京市建設(shè)的基于RFID技術(shù)的交通系統(tǒng)采集平臺(tái)為對(duì)象進(jìn)行RFID匹配數(shù)據(jù)的有效性分析和檢驗(yàn)。
4.1 RFID匹配數(shù)據(jù)分析
⑴數(shù)據(jù)選擇。RFID匹配數(shù)據(jù)的選擇包括RFID基站對(duì)的選擇和分析時(shí)段的選擇,如下所述。
1)選取基站對(duì):根據(jù)基站所在道路的不同類型和交通狀況,選取RFID樣本基站對(duì)。路段類型主要選取主干道、次干道和支路3類,交通情況選取擁堵、交通量較大、自由流3種情況,則共選取3*3=9種情況下的基站對(duì),各選取5個(gè)基站對(duì),共45個(gè)基站對(duì)。在選取時(shí)要注意選取有視頻的基站對(duì),以對(duì)比查看道路交通狀況。
2)選取時(shí)間段:選取高峰、平峰、夜間三種情況的時(shí)間段共2小時(shí),如7:30-8:00,14:00-14:30,1:00-1:30。
⑵實(shí)例分析。在選定數(shù)據(jù)的基礎(chǔ)上,采用如下步驟進(jìn)行數(shù)據(jù)的分析,即調(diào)取每個(gè)RFID基站對(duì)在某一時(shí)間段內(nèi)各匹配數(shù)據(jù)經(jīng)過起終點(diǎn)基站的時(shí)刻數(shù)據(jù),逐個(gè)查看其時(shí)間差t,若t
1)繞路導(dǎo)致行程車速為負(fù)值。分析發(fā)現(xiàn)在RFID基站對(duì)(6117,6115)在2012/10/23日14:00-14:20內(nèi)的過車數(shù)據(jù)中,“蘇0001”的行程車速為負(fù)值,明顯是錯(cuò)誤數(shù)據(jù)(為保護(hù)駕駛?cè)穗[私,本文對(duì)車輛牌照信息加以隱藏處理,下同)。追蹤該車在當(dāng)日17:30-17:50的過車路徑情況如下圖1所示,可以看出,該車輛依次經(jīng)過RFID基站6117和6115后,因兩次調(diào)頭,又經(jīng)過了RFID基站6116,并再次經(jīng)過了RFID基站6117,在數(shù)據(jù)匹配時(shí),由于RFID基站檢測(cè)技術(shù)在路段上基站檢測(cè)范圍外的檢測(cè)和跟蹤盲點(diǎn),將通過RFID基站6115的時(shí)間和第二次經(jīng)過RFID基站6117的時(shí)間進(jìn)行了匹配,導(dǎo)致了行程車速為負(fù)的情況。
2)繞路導(dǎo)致行程車速過小?;緦?duì)(6024,6026)在2012/10/23日17:30-17:50的過車數(shù)據(jù)中的速度分布如圖2。通過視頻跟蹤發(fā)現(xiàn)當(dāng)時(shí)該基站對(duì)間路段的交通狀況為輕微擁堵,大部分?jǐn)?shù)據(jù)是與交通狀況相符的,但有3個(gè)小于10km/h的速度值與其他的數(shù)據(jù)相比偏小,需進(jìn)一步分析。
選取最小值,即牌號(hào)為“蘇0002”的車輛的行程車速5.76km/h進(jìn)行分析,追蹤該車牌在當(dāng)日17:30-17:50的過車路徑情況如下圖3,可以發(fā)現(xiàn)該車輛在經(jīng)過起點(diǎn)基站6024后,又經(jīng)過了另外兩個(gè)站點(diǎn)后才經(jīng)過終點(diǎn)基站6026,存在繞路的情況,導(dǎo)致其經(jīng)過基站對(duì)(6024,6026)的行程車速偏小,不能很好的代表該路段的交通狀況,需要檢驗(yàn)處理。
⑶總結(jié)。在進(jìn)行大量實(shí)證數(shù)據(jù)分析的基礎(chǔ)上,總結(jié)形成RFID匹配數(shù)據(jù)異常數(shù)據(jù)分析總結(jié)表如表1。
4.2 基于統(tǒng)計(jì)的匹配數(shù)據(jù)檢測(cè)
在大量RFID匹配數(shù)據(jù)分析的基礎(chǔ)上,提出基于統(tǒng)計(jì)分析的匹配數(shù)據(jù)有效性檢驗(yàn)方法,實(shí)現(xiàn)對(duì)RFID匹配數(shù)據(jù)的有效性檢驗(yàn)。
⑴算法原理。由于交通流的漸變特性,在固定時(shí)間段內(nèi)道路上的車輛車速分布相對(duì)連續(xù),這也就說明匹配車速的分布不可能在短時(shí)間內(nèi)出現(xiàn)大幅度的偏差,針對(duì)這種狀況可以采用統(tǒng)計(jì)的方法對(duì)匹配車速進(jìn)行有效性檢驗(yàn)。根據(jù)RFID匹配數(shù)據(jù)的連續(xù)性特征,提出利用統(tǒng)計(jì)分布模型對(duì)匹配車速進(jìn)行有效性檢驗(yàn),針對(duì)RFID基站對(duì)在固定時(shí)間段內(nèi)采集到的車輛車速計(jì)算其均值μ和方差σ,并假設(shè)上訴車輛車速符合正態(tài)分布,所以根據(jù)正態(tài)分布的性質(zhì),構(gòu)建(μ-2σ,μ+2σ)區(qū)間作為有效的RFID匹配數(shù)據(jù)范圍,其中95%的RFID匹配數(shù)據(jù)將落在該區(qū)間內(nèi),而將落在該區(qū)間之外的RFID匹配數(shù)據(jù)作為可疑的數(shù)據(jù)加以處理。除此之外,考慮到城市交通速度的可能范圍,選取120km/h作為城市交通流速度的上限。綜上所述,基于統(tǒng)計(jì)技術(shù)的RFID匹配數(shù)據(jù)有效性檢驗(yàn)步驟如下:
1)獲取RFID原始數(shù)據(jù)。2)選定某一時(shí)間段和RFID基站對(duì),獲取RFID匹配數(shù)據(jù),計(jì)算車輛的行程車速。3)計(jì)算RFID匹配數(shù)據(jù)的行程車速的均值μ和方差σ。4)根據(jù)均值μ和方差σ確定閾值。5)根據(jù)閾值,檢驗(yàn)該時(shí)間段內(nèi)該RFID匹配數(shù)據(jù)的有效性:若v1120km/h,則v1屬于錯(cuò)誤數(shù)據(jù);若μ-2σ< v1
⑵算例。以基站對(duì)(6095,6096)的17:59:00-18:00:00時(shí)間段內(nèi)RFID匹配車速作為樣本進(jìn)行檢驗(yàn)實(shí)例分析。在選定的基站對(duì)和時(shí)間范圍內(nèi),共有9個(gè)速度樣本如表2。
根據(jù)表2數(shù)據(jù)計(jì)算出匹配車速的均值μ=34.64km/h,方差σ=13.91km/h,從而得到該時(shí)段匹配車速的閾值范圍為(6.82km/h,62.46km/h),并根據(jù)該范圍篩選出車牌蘇0010的匹配車速為異常數(shù)據(jù)。通過對(duì)該路段在該時(shí)間段內(nèi)的視頻觀察,可以發(fā)現(xiàn)該路段交通流在高峰時(shí)段17:30:00至18:30:00間緩慢前進(jìn),車速穩(wěn)定在較低水平,不可能出現(xiàn)大幅度的跳躍,確認(rèn)蘇0010的匹配車速為異常數(shù)據(jù),驗(yàn)證了算法的有效性。
5 結(jié)論
以RFID技術(shù)為典型代表的物聯(lián)網(wǎng)技術(shù)將提高智能交通系統(tǒng)的數(shù)據(jù)采集效率,構(gòu)建海量的交通數(shù)據(jù)庫(kù)。然而,上述數(shù)據(jù)庫(kù)的有效分析和信息挖掘要求RFID數(shù)據(jù)具有較高的質(zhì)量。本文在闡述相關(guān)的交通數(shù)據(jù)采集和有效性分析方法的基礎(chǔ)上,針對(duì)RFID匹配數(shù)據(jù),結(jié)合南京市建成的RFID交通數(shù)據(jù)采集平臺(tái)數(shù)據(jù),系統(tǒng)進(jìn)行了RFID匹配數(shù)據(jù)的有效性分析,發(fā)現(xiàn)各類RFID匹配數(shù)據(jù)異?,F(xiàn)象,并結(jié)合現(xiàn)場(chǎng)視頻深入分析了異常的原因;同時(shí),在進(jìn)行RFID匹配數(shù)據(jù)有效性分析的基礎(chǔ)上,利用統(tǒng)計(jì)技術(shù)提供了一種RFID匹配數(shù)據(jù)有效性判別方法,并給出了實(shí)際的算例,結(jié)果表明,所提出的有效性算法可以檢測(cè)異常的RFID匹配數(shù)據(jù)。
交通數(shù)據(jù)的有效性分析和檢驗(yàn)是提高智能交通系統(tǒng)應(yīng)用效率的重要基礎(chǔ)之一。在RFID交通數(shù)據(jù)采集技術(shù)領(lǐng)域,由于RFID交通采集技術(shù)的應(yīng)用尚不廣泛,在該方向的研究還處在起始階段,本文的研究成果將推動(dòng)該領(lǐng)域的研究發(fā)展。
致謝
本研究受到國(guó)家科技支撐計(jì)劃課題No.2011BAK21B01《南京城市綜合智能交通系統(tǒng)關(guān)鍵技術(shù)研究及應(yīng)用示范》資助。
[參考文獻(xiàn)]
[1]耿彥斌,于雷,趙慧.ITS 數(shù)據(jù)質(zhì)量控制技術(shù)及應(yīng)用研究[J].中國(guó)安全科學(xué)學(xué)報(bào),2005,15(1): 82-87.
[2]王曉原,張敬磊,吳芳.交通流數(shù)據(jù)清洗規(guī)則研究[J].計(jì)算機(jī)工程,2011,37(20):191-193.
[3]秦玲,郭艷梅.吳鵬.斷面交通檢測(cè)數(shù)據(jù)檢驗(yàn)及預(yù)處理關(guān)鍵技術(shù)研究[J].公路交通科技,2006(11):39-41.
[4]Turochy R.E and Smith B.L.New procedure for detector data screening in traffic management systems[J].Transportation Research Record,2000,No.1727:127-131.
[5]Jacobson L.N.,Nihan N .L.and Bender J.D.Detecting erroneous loop detector data in a freeway traffic management system[J].Transportation Research Record,1990,1287:151-166.
[6]Chen C.,Kwon J.,Rice J.,et al.Detecting errors and imputing missing data for single-loop surveillance systems [J].Transportation Research Record,2003,No.1855:160-167.
[7]周興強(qiáng).RFID數(shù)據(jù)流清洗技術(shù)及其系統(tǒng)實(shí)現(xiàn)[D].大連海事大學(xué),2011,5:1-8.
關(guān)鍵詞:數(shù)據(jù)質(zhì)量;可用性;評(píng)估方法
隨著大數(shù)據(jù)時(shí)代的來(lái)臨,數(shù)據(jù)集合中劣質(zhì)數(shù)據(jù)也隨之大量產(chǎn)生,導(dǎo)致信息數(shù)據(jù)整體質(zhì)量下降,數(shù)據(jù)的有效使用受到了極大限制。為了更加有效發(fā)揮各行各業(yè)大數(shù)據(jù)的作用,開展數(shù)據(jù)可用性研究具有較大的戰(zhàn)略意義。
1 數(shù)據(jù)可用性定義
研究者們普遍認(rèn)為,數(shù)據(jù)的可用性可以從數(shù)據(jù)的一致性、準(zhǔn)確性、完整性、時(shí)效性及實(shí)體同一性五個(gè)方面進(jìn)行考察,其具體定義如下:
①數(shù)據(jù)的一致性:指數(shù)據(jù)信息系統(tǒng)中各相關(guān)數(shù)據(jù)信息之間相容、不產(chǎn)生矛盾。
②數(shù)據(jù)的準(zhǔn)確性:指數(shù)據(jù)信息系統(tǒng)中每個(gè)數(shù)據(jù)表示現(xiàn)實(shí)物體的精準(zhǔn)程度。人們對(duì)數(shù)據(jù)進(jìn)行操作的各個(gè)環(huán)節(jié)都可能影響數(shù)據(jù)準(zhǔn)確性。
③數(shù)據(jù)的完整性:指數(shù)據(jù)集合包含的數(shù)據(jù)完全滿足對(duì)數(shù)據(jù)進(jìn)行各項(xiàng)操作的要求。
④數(shù)據(jù)的時(shí)效性:是指在不同需求場(chǎng)景下數(shù)據(jù)的及時(shí)性和有效性。對(duì)應(yīng)用系統(tǒng)而言,往往對(duì)數(shù)據(jù)時(shí)效性要求較高,過時(shí)的數(shù)據(jù)即使分析出來(lái)了也不會(huì)對(duì)實(shí)際應(yīng)用產(chǎn)生有價(jià)值的影響。
⑤實(shí)體的同一性:指同一實(shí)體在各種數(shù)據(jù)源中的描述統(tǒng)一。
一個(gè)數(shù)據(jù)集合,滿足以上五個(gè)性質(zhì)的程度稱為該數(shù)據(jù)集合的可用性。
2 評(píng)估方法分析
對(duì)于數(shù)據(jù)可用性評(píng)估,國(guó)內(nèi)外研究人員也進(jìn)行了許多工作。以下從數(shù)據(jù)的一致性、精確性、完整性、時(shí)效性、實(shí)體同一性五個(gè)方面進(jìn)行介紹和分析。
2.1 基于一致性的方法
文獻(xiàn)[1]針對(duì)異地備份系統(tǒng)中數(shù)據(jù)持續(xù)變化的情況,設(shè)計(jì)并實(shí)現(xiàn)了一種基于累積摘要值的一致性檢測(cè)方法。該方法解決了傳統(tǒng)一致性檢測(cè)需要中斷備份任務(wù)的問題,保證了備份任務(wù)的連續(xù)性,并且能夠迅速檢測(cè)本地服務(wù)器和遠(yuǎn)程備份中心數(shù)據(jù)的一致性,提高了一致性檢測(cè)的效率。
文獻(xiàn)[2]從已有的一致性維護(hù)方法出發(fā),針對(duì)海量數(shù)據(jù)多副本之間一致性維護(hù),從一致性維護(hù)過程中所涉及的更新、更新傳播方式、更新傳播內(nèi)容、更新沖突解決等幾個(gè)方面進(jìn)行了分析,提出了相應(yīng)的解決辦法。
文獻(xiàn)[3]針對(duì)p2p分布存儲(chǔ)系統(tǒng)中大型數(shù)據(jù)對(duì)象面臨的數(shù)據(jù)一致性問題,提出了數(shù)據(jù)一致性維護(hù)方法plcp。該方法從提高更新傳播速度和減少日志空間開銷的角度進(jìn)行了數(shù)據(jù)優(yōu)化。同時(shí)針對(duì)數(shù)據(jù)更新的問題和關(guān)鍵屬性更新的問題,提出數(shù)據(jù)一致性維護(hù)方法dacp和kacp。
文獻(xiàn)[5]從無(wú)線傳感網(wǎng)絡(luò)數(shù)據(jù)安全的角度,結(jié)合一些廉價(jià)的保護(hù)技術(shù),提出了利用跨層一致性評(píng)估信息整體質(zhì)量的方法。
基于數(shù)據(jù)一致性的方法,主要體現(xiàn)在集中存儲(chǔ)方面,對(duì)于分布式和非關(guān)系數(shù)據(jù)方面研究還較少,適用于海量數(shù)據(jù)的一致性評(píng)估方法有待進(jìn)一步探索。
2.2 基于精確性的方法
數(shù)據(jù)精確性方面的研究結(jié)果比較少見,文獻(xiàn)[6]從精確度低的角度,提出了對(duì)應(yīng)的精確性評(píng)估算法。該算法考慮了一種基于可能世界語(yǔ)義的描述方法。目前的研究結(jié)果顯示,數(shù)據(jù)精確性的評(píng)估方法還有待研究者們深入探究。
2.3 基于完整性的方法
針對(duì)海量關(guān)系數(shù)據(jù)中普遍存在的數(shù)據(jù)不完整現(xiàn)象,劉永楠等研究了關(guān)系數(shù)據(jù)完整性度量問題。針對(duì)數(shù)據(jù)的完整性計(jì)算問題,提出了數(shù)據(jù)完整性計(jì)算模型,以及精確算法和基于均勻抽樣的近似算法。理論分析證明了近似算法可以達(dá)到任意的精度要求,可以高效地對(duì)數(shù)據(jù)完整性進(jìn)行計(jì)算,通過在dblp數(shù)據(jù)上的實(shí)驗(yàn)驗(yàn)證了算法的有效性和高效性。
在具體應(yīng)用領(lǐng)域,張少敏等利用iec61970對(duì)智能電網(wǎng)進(jìn)行信息集成,然后根據(jù)完整性定義,對(duì)智能電網(wǎng)數(shù)據(jù)進(jìn)行自動(dòng)機(jī)建模,給出了一種無(wú)需對(duì)數(shù)據(jù)進(jìn)行直接操作的數(shù)據(jù)完整性定量評(píng)估模型。
barcelo p等將傳統(tǒng)的完整性理論擴(kuò)展到xml數(shù)據(jù)上,討論了不完整xml數(shù)據(jù)的表示問題。
另外,針對(duì)云存儲(chǔ)服務(wù)中數(shù)據(jù)的完整性問題,一些研究者提出了pdp 和por。這兩種方案都采用了概率性證明思路,即存儲(chǔ)服務(wù)提供商向數(shù)據(jù)擁有者證明其完整的持有數(shù)據(jù)擁有者存儲(chǔ)的數(shù)據(jù)。
基于數(shù)據(jù)完整性評(píng)估方面的結(jié)論還較少,特別是具有普遍適用價(jià)值的方法,還有待進(jìn)一步研究。
2.4 基于時(shí)效性的方法
文獻(xiàn)[7]針對(duì)歷史評(píng)價(jià)數(shù)據(jù)時(shí)效性會(huì)影響評(píng)價(jià)計(jì)算準(zhǔn)確性的問題,引入了評(píng)價(jià)數(shù)據(jù)的時(shí)間屬性,構(gòu)造了評(píng)價(jià)數(shù)據(jù)衰減因子,減小了時(shí)效性對(duì)于評(píng)價(jià)計(jì)算準(zhǔn)確性的影響。
文獻(xiàn)[8]研究了包含冗余記錄的集合在給定時(shí)效約束下的時(shí)效性判定問題,并首次提出了時(shí)效性判定問題的求解算法.
在建筑能耗領(lǐng)域,文獻(xiàn)[9]通過對(duì)幾類典型公共建筑能耗數(shù)據(jù)的統(tǒng)計(jì)分析對(duì)比,提出了采用近1年的能耗數(shù)據(jù)作為統(tǒng)計(jì)樣本的建議。
基于時(shí)效性方面的研究非常匱乏,已有的少量研究結(jié)論都主要針對(duì)一些特殊應(yīng)用,還需深入系統(tǒng)的研究。
2.5 基于實(shí)體同一性的方法
實(shí)體同一性是數(shù)據(jù)可用性研究較多的一個(gè)方面,實(shí)體同一性研究主要涉及兩類方法:第一類是從語(yǔ)義規(guī)則的角度進(jìn)行同一性研究,這類方法主要通過經(jīng)驗(yàn)知識(shí)來(lái)描述實(shí)體的同一性問題;第二類是從相似性的角度進(jìn)行同一性研究,該類方法主要采用相似度函數(shù)來(lái)對(duì)實(shí)體同一性進(jìn)行判定。