發(fā)布時(shí)間:2023-01-22 01:14:41
序言:寫作是分享個(gè)人見解和探索未知領(lǐng)域的橋梁,我們?yōu)槟x了8篇的數(shù)據(jù)挖掘論文樣本,期待這些樣本能夠?yàn)槟峁┴S富的參考和啟發(fā),請(qǐng)盡情閱讀。
目前現(xiàn)有的針對(duì)煙草營(yíng)銷策略的研究,多采用數(shù)據(jù)挖掘的思想,基于數(shù)據(jù)挖掘的營(yíng)銷策略是對(duì)終端客戶進(jìn)行分類,根據(jù)用戶的銷量和誠(chéng)信記錄把用戶分為多個(gè)等級(jí),但這種分級(jí)策略只能反應(yīng)用戶的銷量信息,把這個(gè)分類作為營(yíng)銷策略依據(jù)太單薄,只能起一定的輔助作用。更深入地研究是根據(jù)客戶的資料和歷史訂單數(shù)據(jù)對(duì)現(xiàn)有商戶進(jìn)行聚類,獲取到自主的商戶分類,但盲目的聚類會(huì)導(dǎo)致商戶的分類沒(méi)有實(shí)際意義,或獲取的結(jié)果是無(wú)助于營(yíng)銷目的的。
2技術(shù)關(guān)鍵
本系統(tǒng)采用基于營(yíng)銷目的的商戶聚類,技術(shù)關(guān)鍵包括三部分內(nèi)容:數(shù)據(jù)預(yù)處理中的特征選擇、基于限制目標(biāo)的商戶精確聚類和基于聚類結(jié)果的多層關(guān)聯(lián)規(guī)則算法的研究。
2.1特征選擇
假定獲取的數(shù)據(jù)的維數(shù)為n,通常情況下n是很大的一個(gè)數(shù),為簡(jiǎn)化模型,也為了防止模型陷入過(guò)擬合(維數(shù)災(zāi)難),需要進(jìn)行降維處理,即僅把對(duì)項(xiàng)目改造判定起關(guān)鍵作用的因素挑選出來(lái)。本系統(tǒng)采用PCA算法來(lái)進(jìn)行降維處理,過(guò)程如下:
1)計(jì)算標(biāo)準(zhǔn)化后的矩陣Z的樣本的協(xié)方差矩陣Cov;
2)計(jì)算協(xié)方差矩陣Cov的本征向量e1,e2,…,en的本征值。本征值按大到小排序;
3)投影數(shù)據(jù)
到本征矢張成的空間之中,利用貢獻(xiàn)分析取前m個(gè)向量Y1,Y2,…,Ym。
2.2基于營(yíng)銷目標(biāo)限制的商戶精確聚類算法
現(xiàn)有聚類算法一般沒(méi)有約束條件,只根據(jù)相似度來(lái)進(jìn)行聚類,為了能夠體現(xiàn)約束條件,需要在聚類相似度或者樣本距離之間把限制條件增加進(jìn)去,這樣在樣本聚類的時(shí)候即可使得具有相同營(yíng)銷特性的樣本或者客戶被劃分到同一個(gè)類中。煙草終端商戶的大部分屬性是分類屬性,例如:地區(qū)、類別等,此外還有數(shù)字型屬性、日期型屬性,由于存在不同類型的屬性,常規(guī)的聚類算法無(wú)法使用,為此,采用把數(shù)字屬性和日期屬性劃分區(qū)間的思路,這樣可以轉(zhuǎn)化成分類屬性的方式來(lái)進(jìn)行聚類。進(jìn)而可建立如下商戶模型:分類對(duì)象X∈Ω,X=[A1=x1]∧[A2=x2]∧…∧[Am=xm],其中xj∈DOM(Aj),1≤j≤m,為簡(jiǎn)便起見,將對(duì)象X∈Ω用向量(x1,x2,…,xm)表達(dá),如果屬性Aj的值不存在,則Aj=ε。令Χ={X1,X2,…,Xn}為n個(gè)分類對(duì)象的集合,用集合方式表達(dá)分類對(duì)象,則Xi={xi,1,xi,2,…,xi,m},如果屬性Aj的值不存在,則集合中不出現(xiàn)xi,j,容易得到|Xi|≤m。如果存在Xi,j=Xk,j,1≤j≤m,則Xi=Xk。為方便聚類,利用聚類匯總來(lái)壓縮原始數(shù)據(jù),從而達(dá)到提高算法效率的目的。一個(gè)類C可以由如下三元組(n,I,S)來(lái)表示。其中n為類C中的對(duì)象數(shù)量,I={i1,i2,…,iu}是C內(nèi)所有屬性值的集合,S={s1,s2,…,su},其中sj為ij在類C中的數(shù)量,ij∈I,1≤j≤u。集合S按升序排列,即s1≤s2≤…≤su,這同時(shí)也暗示集合I的元素按其在C中的數(shù)量按升序排列。三元組(n,I,S)被稱作類C的聚類匯總CS,CS的三個(gè)成員分別記作CS.n、CS.I和CS.S;對(duì)于CS.I的任一元素ij∈CS.I,則記作CS.I.ij,對(duì)于sj∈CS.S,則記作CS.S.sj,其中1≤j≤u。
2.3基于煙草營(yíng)銷的多層關(guān)聯(lián)規(guī)則的研究
針對(duì)本項(xiàng)目,對(duì)關(guān)聯(lián)規(guī)則定義進(jìn)行擴(kuò)展,對(duì)形如:XY的關(guān)聯(lián)規(guī)則,不再限定X和Y為一個(gè)項(xiàng)目集,而把X和Y定義為條件的合取范式,每個(gè)條件Ai=True/False為布爾表達(dá)式。此時(shí)的Ai為一個(gè)項(xiàng)目集,它的含義與原來(lái)的X和Y的含義相同,如果把結(jié)果中的條件布爾表達(dá)式寫成Cj=True/False,則關(guān)聯(lián)規(guī)則有如下形式:(A1=True/False)∧(A2=True/False)∧…∧(An=True/False)(C1=True/False)∧(C2=True/False)∧…∧(Cm=True/False)關(guān)聯(lián)規(guī)則的開采問(wèn)題可以分解成以下兩個(gè)子問(wèn)題:
①?gòu)臄?shù)據(jù)集合或交易集合D中發(fā)現(xiàn)所有的頻繁項(xiàng)目集。
②從頻繁項(xiàng)目集中生成所有置信度不小于用戶定義的最小置信度minconf的關(guān)聯(lián)規(guī)則。即對(duì)任一個(gè)頻繁項(xiàng)目集F和F的所有非空真子集S,SF,如果sup(F)/sup(F-S)≥minconf,則(F-S)S就是一條有效的關(guān)聯(lián)規(guī)則。按上述方法發(fā)現(xiàn)所有類似的規(guī)則。這兩個(gè)步驟中第2步要相對(duì)容易,因此項(xiàng)目的研究將更關(guān)注第1步,由于最大頻繁項(xiàng)目集已經(jīng)隱含了所有頻繁項(xiàng)目集,所以可以把發(fā)現(xiàn)頻繁項(xiàng)目集的問(wèn)題轉(zhuǎn)化為發(fā)現(xiàn)最大頻繁項(xiàng)目集的問(wèn)題。針對(duì)煙草營(yíng)銷的客戶,進(jìn)行關(guān)聯(lián)規(guī)則挖掘時(shí),是在上一步的基礎(chǔ)上,即針對(duì)每一個(gè)商戶群進(jìn)行規(guī)則挖掘。在獲取到最大頻繁項(xiàng)目集后,順序生成頻繁項(xiàng)目集,然后獲取到可用的關(guān)聯(lián)規(guī)則。此時(shí)獲取的關(guān)聯(lián)規(guī)則是底層關(guān)聯(lián)規(guī)則,然后再采用概念樹的方法對(duì)獲取的底層關(guān)聯(lián)規(guī)則進(jìn)行匯總。概念樹由煙草領(lǐng)域?qū)<腋鶕?jù)屬性的領(lǐng)域知識(shí)提供,按特定屬性的概念層次從一般到具體排序。樹的根結(jié)點(diǎn)是用any表示最一般的概念,葉結(jié)點(diǎn)是最具體的概念即屬性的具體值。
對(duì)于一個(gè)多種網(wǎng)絡(luò)形式并存的復(fù)雜網(wǎng)絡(luò),假設(shè)復(fù)雜網(wǎng)絡(luò)作為一個(gè)網(wǎng)絡(luò)社區(qū),在復(fù)雜網(wǎng)絡(luò)中存在的網(wǎng)絡(luò)類型數(shù)即社區(qū)數(shù)。我們用一個(gè)無(wú)向遍歷圖GV,E來(lái)表示整個(gè)網(wǎng)絡(luò)社區(qū),如果網(wǎng)絡(luò)中有兩個(gè)節(jié)點(diǎn)有兩條不重合的網(wǎng)絡(luò)路徑,則說(shuō)明這兩個(gè)節(jié)點(diǎn)處于一個(gè)網(wǎng)絡(luò)環(huán)路當(dāng)中,網(wǎng)絡(luò)中的數(shù)據(jù)流需要經(jīng)過(guò)網(wǎng)絡(luò)環(huán)路到達(dá)特定的節(jié)點(diǎn)。當(dāng)在某個(gè)時(shí)間段里需要傳送的數(shù)據(jù)流個(gè)數(shù)大于網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)時(shí),則說(shuō)明該網(wǎng)絡(luò)的數(shù)據(jù)流密度較大,為了能夠準(zhǔn)確地在復(fù)雜網(wǎng)絡(luò)中挖掘出所需的數(shù)據(jù)流,則需要根據(jù)數(shù)據(jù)流密度來(lái)劃分整個(gè)網(wǎng)絡(luò)社區(qū),尋找數(shù)據(jù)流處于哪個(gè)社區(qū),再確定數(shù)據(jù)流所在社區(qū)的環(huán)路。在這里我們通過(guò)設(shè)計(jì)算法確定網(wǎng)絡(luò)數(shù)據(jù)流密度,來(lái)對(duì)復(fù)雜網(wǎng)絡(luò)進(jìn)行社區(qū)劃分,再對(duì)社區(qū)進(jìn)行無(wú)向環(huán)路遍歷,并通過(guò)遍歷得到該社區(qū)網(wǎng)絡(luò)的所環(huán)路,確定所需查詢的數(shù)據(jù)流位于哪個(gè)環(huán)路。以下為復(fù)雜網(wǎng)絡(luò)中需要用到的符號(hào)說(shuō)明。
2增量子空間數(shù)據(jù)挖掘算法
為了能夠有效地在復(fù)雜網(wǎng)絡(luò)中挖掘出目的數(shù)據(jù)流,使用了復(fù)雜網(wǎng)絡(luò)數(shù)據(jù)流密度的分析方法在對(duì)復(fù)雜網(wǎng)絡(luò)進(jìn)行社區(qū)劃分后,通過(guò)對(duì)社區(qū)網(wǎng)絡(luò)進(jìn)行無(wú)向環(huán)路遍歷并得到社區(qū)網(wǎng)絡(luò)的所有環(huán)路。接下來(lái)挖掘算法先后挖掘出目的數(shù)據(jù)流所屬的社區(qū)以及環(huán)路,最終確定目的數(shù)據(jù)流的具置。
2.1基于社區(qū)網(wǎng)絡(luò)遍歷的數(shù)據(jù)流挖掘
當(dāng)數(shù)據(jù)流i與社區(qū)k的相關(guān)度最大時(shí),說(shuō)明數(shù)據(jù)流i位于社區(qū)k的可能性就最大。但是當(dāng)多個(gè)數(shù)據(jù)流的大小區(qū)別不大時(shí),以數(shù)據(jù)流的大小作為指標(biāo)來(lái)定義相關(guān)度會(huì)導(dǎo)致挖掘精度較低。這里我們也引入數(shù)據(jù)流的特征集和數(shù)據(jù)流中的分組隊(duì)列長(zhǎng)度來(lái)計(jì)算相關(guān)度。
2.2基于多增量空間的數(shù)據(jù)流挖掘
在采用基于社區(qū)網(wǎng)絡(luò)遍歷的數(shù)據(jù)流挖掘方法得到數(shù)據(jù)流的所屬社區(qū)后,我們接著采用基于多增量空間的數(shù)據(jù)流挖掘方法來(lái)挖掘出數(shù)據(jù)流的所屬環(huán)路。先將社區(qū)網(wǎng)絡(luò)的環(huán)路進(jìn)行多增量空間擴(kuò)展,即先得到
目標(biāo)數(shù)據(jù)流所經(jīng)過(guò)的環(huán)路,再得到數(shù)據(jù)流所經(jīng)過(guò)的節(jié)點(diǎn)與時(shí)間的相關(guān)系數(shù),這樣就可以在時(shí)空上確定目的數(shù)據(jù)流位于環(huán)路的哪個(gè)節(jié)點(diǎn)中。
3實(shí)驗(yàn)結(jié)果
為了驗(yàn)證本文提出的基于復(fù)雜網(wǎng)絡(luò)數(shù)據(jù)流密度的增量子空間數(shù)據(jù)挖掘算法的效果,我們通過(guò)matlab7.0軟件進(jìn)行算法仿真,其中仿真的復(fù)雜網(wǎng)絡(luò)由多種網(wǎng)絡(luò)形式組成,網(wǎng)絡(luò)節(jié)點(diǎn)有200個(gè),數(shù)據(jù)流大小為500bytes,節(jié)點(diǎn)的接收能耗為10nJ/bit,發(fā)射能耗為50nJ/bit,進(jìn)行信號(hào)處理和功率放大的能耗為10nJ/bit。其他節(jié)點(diǎn)干擾而產(chǎn)生的能量消耗為5nJ/bit。在對(duì)本文算法進(jìn)行分析的過(guò)程中,我們采用了對(duì)比分析的方法,Lopez-Yanez等人提出一種基于時(shí)間序列數(shù)據(jù)挖掘的新的關(guān)聯(lián)模型,該模型是基于伽瑪分類,是一種監(jiān)督模式識(shí)別模型,目的是為了挖掘已知模式中的時(shí)間序列,以預(yù)測(cè)未知的值。由Negrevergne等人提出的一種PARAMINER算法:一個(gè)通用的模式挖掘算法的多核架構(gòu)。多核架構(gòu)采用的是一種新的數(shù)據(jù)集縮減技術(shù)(稱之為EL-還原),在算法中通過(guò)結(jié)合新的技術(shù)用于處理多核心架構(gòu)的并行執(zhí)行數(shù)據(jù)集。為了驗(yàn)證本文算法的挖掘有效性,我們分別在增多節(jié)點(diǎn)數(shù)量和社區(qū)網(wǎng)絡(luò)數(shù)的情況下獲取算法的數(shù)據(jù)挖掘精度。實(shí)驗(yàn)采用的精度為NMI[16],實(shí)驗(yàn)結(jié)果如圖3和圖4所示。在不同節(jié)點(diǎn)數(shù)量下基于復(fù)雜網(wǎng)絡(luò)數(shù)據(jù)流密度的增量子空間數(shù)據(jù)挖掘算法的挖掘精度更高,挖掘精度高于85%,而文獻(xiàn)[14]的挖掘精度在77%以上,挖掘精度在76%以上。因?yàn)?、提出的關(guān)聯(lián)模型、提出的多核架構(gòu)沒(méi)有準(zhǔn)確把握數(shù)據(jù)流在不同時(shí)間段里與環(huán)路位置的相關(guān)情況。而本文算法采用社區(qū)網(wǎng)絡(luò)遍歷和多增量空間的方法可以有效地確定這種相關(guān)性。圖4為不同社區(qū)數(shù)下的算法挖掘精度,從圖中可以看出,當(dāng)社區(qū)網(wǎng)絡(luò)的種類增多時(shí),會(huì)對(duì)算法的挖掘精度造成影響,本文算法的挖掘精度在社區(qū)數(shù)為10時(shí)是95.7%,當(dāng)社區(qū)數(shù)增加到50時(shí)為87.5%。而基于時(shí)間序列數(shù)據(jù)挖掘方法的挖掘精度在社區(qū)數(shù)為10時(shí)是88.6%,在社區(qū)數(shù)為50時(shí)是77.4%,而PARAMINER算法在社區(qū)數(shù)為10時(shí)是86.7%,社區(qū)數(shù)為50時(shí)是78.2%。因此從數(shù)據(jù)分析來(lái)看,本文算法的數(shù)據(jù)挖掘精度在社區(qū)數(shù)增多時(shí)仍能保持在較高水平。
4結(jié)論
在上述系統(tǒng)設(shè)計(jì)的基礎(chǔ)之上,我們提出了網(wǎng)店客戶購(gòu)買數(shù)據(jù)挖掘系統(tǒng)的模型,該模型由三個(gè)層次組成,其邏輯架構(gòu)如圖一所示。
2、系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
2.1系統(tǒng)開發(fā)與運(yùn)行環(huán)境硬件環(huán)境:CPUIntelI3380M/RAM2G/硬盤320G軟件配置:操作系統(tǒng):Windows7SP1開發(fā)工具:2005/VisualC#數(shù)據(jù)庫(kù)管理系統(tǒng):MSSQLServer2008輔助軟件:SPSSClementine11.1;SQLServer2008AnalysisServices(SSAS)
2.2主要技術(shù)與系統(tǒng)實(shí)現(xiàn)通過(guò)對(duì)上述對(duì)客戶購(gòu)買數(shù)據(jù)挖掘系統(tǒng)模型的分析可知,該系統(tǒng)主要由用戶接口模塊、數(shù)據(jù)清洗模塊、數(shù)據(jù)格式轉(zhuǎn)換模塊、數(shù)據(jù)庫(kù)生成模塊和數(shù)據(jù)挖掘引擎模塊等組成。1)用戶接口模塊本系統(tǒng)最終目的還是為為客戶的決策提供支持,因此友好的界面設(shè)計(jì)是用戶與系統(tǒng)交互的基礎(chǔ)。簡(jiǎn)潔而易于理解的界面有利于提高用戶對(duì)系統(tǒng)的使用效率。2)數(shù)據(jù)預(yù)處理模塊客戶訪問(wèn)數(shù)據(jù)進(jìn)入數(shù)據(jù)預(yù)處理模塊進(jìn)行清洗,去除無(wú)關(guān)的信息,剝離出對(duì)數(shù)據(jù)挖掘有價(jià)值的數(shù)據(jù)。數(shù)據(jù)預(yù)處理模塊對(duì)原始訪問(wèn)數(shù)據(jù)進(jìn)行分析,將用戶購(gòu)買數(shù)據(jù)記錄逐條的分割成十個(gè)字段,分別為:u_id(訪問(wèn)者編號(hào)),u_date(到訪日期),u_time(到訪時(shí)間),u_orderid(訂單編號(hào)),u_product(客戶購(gòu)買的商品),u_bowser(使用的瀏覽器類型),page(首次到訪頁(yè)面),place(客戶所在地區(qū)),payment(支付方式),logistic(物流方式),同時(shí)刪除訪問(wèn)數(shù)據(jù)中與以上字段不相干的數(shù)據(jù)。然后將經(jīng)過(guò)預(yù)處理的數(shù)據(jù)存入中間文件。3)XML轉(zhuǎn)換模塊該模塊程序使用.NET的相關(guān)的方法編寫,主要功能將預(yù)處理過(guò)的客戶購(gòu)買數(shù)據(jù)轉(zhuǎn)換成標(biāo)準(zhǔn)化XML格式的數(shù)據(jù)文件進(jìn)行存儲(chǔ)。該程序的主要實(shí)現(xiàn)原理是對(duì)經(jīng)過(guò)預(yù)處理的中間文件中的數(shù)據(jù)記錄逐個(gè)分割并存入數(shù)組,然后將數(shù)組的內(nèi)容按照XML的格式寫入文件,完成轉(zhuǎn)換。4)數(shù)據(jù)庫(kù)導(dǎo)入模塊利用.NET的相關(guān)方法并結(jié)合數(shù)據(jù)庫(kù)管理工具建立支持?jǐn)?shù)據(jù)挖掘的客戶購(gòu)買數(shù)據(jù)庫(kù),編寫相關(guān)程序?qū)⒁呀?jīng)轉(zhuǎn)換成XML格式的客戶訪問(wèn)數(shù)據(jù)逐條的導(dǎo)入到數(shù)據(jù)庫(kù)并形成日志數(shù)據(jù)表方便進(jìn)行后續(xù)的數(shù)據(jù)挖掘。5)數(shù)據(jù)挖掘引擎模塊數(shù)據(jù)挖掘引擎是實(shí)現(xiàn)客戶購(gòu)買數(shù)據(jù)挖掘系統(tǒng)的實(shí)現(xiàn)關(guān)鍵。優(yōu)秀的數(shù)據(jù)挖掘算法不僅可以使數(shù)據(jù)挖掘的結(jié)果更加準(zhǔn)確,也可以提高數(shù)據(jù)挖掘的效率。本系統(tǒng)主要用到的算法是該模塊利用數(shù)據(jù)挖掘算法對(duì)數(shù)據(jù)進(jìn)行挖掘,主要包括算法的優(yōu)化、日志數(shù)據(jù)表的刪除操作以及挖掘結(jié)果集的保存與刪除操作等。這里主要用到的算法是K-Means算法。主要是利用該算法發(fā)現(xiàn)最相似的客戶聚類,通過(guò)對(duì)聚類的分析來(lái)得出網(wǎng)店眾多的顧客一般的購(gòu)買行為模式,從而可以適當(dāng)?shù)卣{(diào)整網(wǎng)站營(yíng)銷的策略中的來(lái)提高網(wǎng)絡(luò)營(yíng)銷的效果,進(jìn)而增加銷售量。
3、小結(jié)
首先要確保數(shù)據(jù)來(lái)源的寬度,及時(shí)、準(zhǔn)確地從社會(huì)獲取盡可能多的外部信息,并建立起穩(wěn)定的常態(tài)交互機(jī)制,提供源源不斷的新鮮“原料”,否則相關(guān)的模型建立將會(huì)非常困難。這些可以通過(guò)與社會(huì)其它單位協(xié)作,資源共用、數(shù)據(jù)共享加以實(shí)現(xiàn)。其次要重視數(shù)據(jù)的“挖掘加工能力”。在模型的創(chuàng)建過(guò)程中,確定各個(gè)變量之間的邏輯關(guān)系、對(duì)結(jié)果的影響權(quán)重,實(shí)現(xiàn)對(duì)客戶信用風(fēng)險(xiǎn)的智能研判,保證預(yù)判結(jié)果的準(zhǔn)確性。
2利用數(shù)據(jù)挖掘技術(shù)建立客戶信用評(píng)價(jià)模型的實(shí)現(xiàn)方法
數(shù)據(jù)挖掘技術(shù)是通過(guò)分析大量數(shù)據(jù),從中尋找其規(guī)律的技術(shù),主要有數(shù)據(jù)準(zhǔn)備、規(guī)律尋找和規(guī)律表示3個(gè)步驟。數(shù)據(jù)準(zhǔn)備是從相關(guān)的數(shù)據(jù)源中選取所需的數(shù)據(jù)并整合成用于數(shù)據(jù)挖掘的數(shù)據(jù)集;規(guī)律尋找是用某種方法將數(shù)據(jù)集所含的規(guī)律找出來(lái);規(guī)律表示是盡可能以用戶可理解的方式將找出的規(guī)律表示出來(lái)。數(shù)據(jù)挖掘的任務(wù)有關(guān)聯(lián)分析、聚類分析、分類分析等。(1)數(shù)據(jù)挖掘方法。根據(jù)客戶信用價(jià)值評(píng)價(jià)指標(biāo)模型要求,在進(jìn)行綜合評(píng)價(jià)前,應(yīng)先確定指標(biāo)體系中各個(gè)指標(biāo)的評(píng)價(jià)值,可采用數(shù)據(jù)挖掘技術(shù)中聚類方法加以分析。聚類分析是將個(gè)體或?qū)ο蠓诸?,使得同一類中?duì)象之間的相似性比與其他類的對(duì)象的相似性更強(qiáng)。目的在于使類間對(duì)象的同質(zhì)性最大化和類與類間對(duì)象的異質(zhì)性最大化。通過(guò)對(duì)聚類算法的分析,針對(duì)電力客戶信用分類的特征,提出了電力客戶信用評(píng)價(jià)算法.得到了不同客戶群的聚類中心以及客戶的隸屬度矩陣,為客戶群的特征分析提供了量化依據(jù),從而得到滿意的客戶聚類及分類結(jié)果。(2)數(shù)據(jù)挖掘算法。首先可采用K-means聚類算法對(duì)電力客戶樣本進(jìn)行分類,利用該算法,給定客戶分類個(gè)數(shù)k,按照樣本間距離最近的原則,將n個(gè)電力客戶劃分到k個(gè)分類中去。k個(gè)聚類中心代表了聚類的結(jié)果;進(jìn)而采用層次分析法將一個(gè)復(fù)雜的評(píng)價(jià)系統(tǒng),按其內(nèi)在的邏輯關(guān)系,以及評(píng)價(jià)指標(biāo)為代表構(gòu)成一個(gè)有序的層次結(jié)構(gòu),然后針對(duì)每一層的指標(biāo),運(yùn)用專家或管理人員的專業(yè)知識(shí)、經(jīng)驗(yàn)、信息和價(jià)值觀,對(duì)同一層次或同一域的指標(biāo)進(jìn)行兩兩比較對(duì)比,并按規(guī)定的標(biāo)度值構(gòu)造比較判別矩陣。從而確定指標(biāo)權(quán)重;最后根據(jù)聚類以后得出的各個(gè)類的中心點(diǎn),計(jì)算得出的k類電力客戶的信用得分,可以判斷其所屬的信用等級(jí)。
3數(shù)據(jù)挖掘技術(shù)在電力客戶信用管理中的應(yīng)用效果和意義
對(duì)于風(fēng)電功率的預(yù)估,本文提出了一種短期的用于一至十五分鐘內(nèi)的預(yù)測(cè)方法。其中輸入數(shù)據(jù)來(lái)自風(fēng)力發(fā)電機(jī)的歷史寄存器,數(shù)據(jù)種類有電壓、電流、有功功率等。并且對(duì)兩種預(yù)測(cè)方法進(jìn)行了比較。預(yù)測(cè)出的風(fēng)力數(shù)據(jù)作為風(fēng)力渦輪機(jī)預(yù)測(cè)模型的輸入值。風(fēng)力發(fā)電機(jī)模型是參考了空氣力學(xué)、傳動(dòng)系統(tǒng)、感應(yīng)發(fā)電機(jī)等參數(shù),并通過(guò)唯像模型建立的。風(fēng)力渦輪模型則建立于一種現(xiàn)象學(xué)模型,這種模型將風(fēng)的空氣動(dòng)力學(xué)、傳動(dòng)系統(tǒng)和感應(yīng)發(fā)電機(jī)的參數(shù)都考慮了進(jìn)來(lái)。另一種預(yù)測(cè)風(fēng)電功率方法是使用數(shù)據(jù)挖掘技術(shù)來(lái)進(jìn)行預(yù)測(cè)。風(fēng)電發(fā)電系統(tǒng)中的數(shù)據(jù)庫(kù)就應(yīng)用到了這些技術(shù)。為了提高算法的效率,使用了風(fēng)速估計(jì)器,以估計(jì)空氣分子的布朗運(yùn)動(dòng)。并與沒(méi)有用風(fēng)速估計(jì)器時(shí)平均發(fā)電功率進(jìn)行比較。
二、風(fēng)功率預(yù)測(cè)模型和現(xiàn)象學(xué)模型
(一)人工神經(jīng)網(wǎng)絡(luò)
每一個(gè)人工神經(jīng)網(wǎng)絡(luò)模型都有架構(gòu)、處理單元和訓(xùn)練方面的特性。在時(shí)間序列預(yù)測(cè)的人工神經(jīng)網(wǎng)絡(luò)模型中,其中很重要的一種是集中延時(shí)神經(jīng)網(wǎng)絡(luò)。它屬于動(dòng)態(tài)神經(jīng)網(wǎng)絡(luò)的一般類型,在這種神經(jīng)網(wǎng)絡(luò)中,動(dòng)態(tài)只出現(xiàn)于靜態(tài)的、有多個(gè)層級(jí)的前饋神經(jīng)網(wǎng)絡(luò)的輸入層中。集中延時(shí)神經(jīng)網(wǎng)絡(luò)的一個(gè)顯著特征是它不要求有動(dòng)態(tài)反向傳播來(lái)計(jì)算神經(jīng)網(wǎng)絡(luò)的梯度,原因是抽頭延遲線只在神經(jīng)網(wǎng)絡(luò)輸入數(shù)據(jù)時(shí)才出現(xiàn)。由于這個(gè)原因,這種神經(jīng)網(wǎng)絡(luò)比其他動(dòng)態(tài)網(wǎng)絡(luò)的訓(xùn)練進(jìn)行得更快。
(二)隨機(jī)時(shí)序
風(fēng)功率模型和現(xiàn)象模型是使用最多的預(yù)測(cè)方法。如果假設(shè)預(yù)測(cè)變量Xt是已知值的線性組合,那么自回歸模型則能用于預(yù)測(cè)未知值。通過(guò)查看自相關(guān)函數(shù)和偏自相關(guān)函數(shù),用于找到模型的順序和結(jié)構(gòu),從而確定模型適當(dāng)?shù)慕Y(jié)構(gòu)和式子順序。根據(jù)赤池信息準(zhǔn)則,施瓦茨準(zhǔn)則或貝葉斯信息標(biāo)準(zhǔn)以及校正后的決定系數(shù),我們就能選出最好的模型。
三、算例分析
(一)提出的預(yù)處理方法
在考慮風(fēng)速的復(fù)雜動(dòng)態(tài)的情況下,為了更好地描述ARMA模型,本文提出了一種新的數(shù)據(jù)預(yù)處理方法。這種方法是以模型的形式呈現(xiàn)的,我們將這種模型稱之為函數(shù)的ARMA。
(二)實(shí)例仿真
利用SVM工具箱在matlab7.1平臺(tái)上完成回歸模型建立的工作,利用我國(guó)某風(fēng)電場(chǎng)連續(xù)100個(gè)數(shù)據(jù)(每10s取一個(gè)數(shù)值)的實(shí)測(cè)風(fēng)能功率輸出值,建立訓(xùn)練和預(yù)測(cè)樣本。盡管神經(jīng)網(wǎng)絡(luò)在預(yù)測(cè)風(fēng)速時(shí)誤差已經(jīng)很小,但由風(fēng)力渦輪機(jī)模型和函數(shù)的ARMA模型組成的復(fù)合模型在各方面性能更好。導(dǎo)致這一結(jié)果的原因是焦點(diǎn)延時(shí)神經(jīng)網(wǎng)絡(luò)(以下簡(jiǎn)稱FTDNN)預(yù)測(cè)曲線的高度非線性。
四、結(jié)論
事實(shí)上,數(shù)據(jù)挖掘的產(chǎn)生是有其必然性的。隨著信息時(shí)代的到來(lái),各種數(shù)據(jù)收集設(shè)備不斷更新,相應(yīng)的數(shù)據(jù)庫(kù)技術(shù)也在不斷地成熟,使得人們積累的信息量不斷增加,為了提高效率,當(dāng)務(wù)之急就是要從海量的數(shù)據(jù)中找出最有用的信息,這就催生了數(shù)據(jù)挖掘技術(shù)。
2網(wǎng)絡(luò)入侵檢測(cè)的重要性與必要性分析
網(wǎng)絡(luò)入侵檢測(cè),就是對(duì)網(wǎng)絡(luò)入侵行為的發(fā)覺(jué)。與其他安全技術(shù)相比而言,入侵檢測(cè)技術(shù)并不是以建立安全和可靠的網(wǎng)絡(luò)環(huán)境為主,而是以分析和處理對(duì)網(wǎng)絡(luò)用戶信息構(gòu)成威脅的行為,進(jìn)而進(jìn)行非法控制來(lái)確保網(wǎng)絡(luò)系統(tǒng)的安全。它的主要目的是對(duì)用戶和系統(tǒng)進(jìn)行檢測(cè)與分析,找出系統(tǒng)中存在的漏洞與問(wèn)題,一旦發(fā)現(xiàn)攻擊或威脅就會(huì)自動(dòng)及時(shí)地向管理人員報(bào)警,同時(shí)對(duì)各種非法活動(dòng)或異?;顒?dòng)進(jìn)行識(shí)別、統(tǒng)計(jì)與分析。
3數(shù)據(jù)挖掘在網(wǎng)絡(luò)入侵檢測(cè)中的應(yīng)用分析
在使用數(shù)據(jù)挖掘技術(shù)對(duì)網(wǎng)絡(luò)入侵行為進(jìn)行檢測(cè)的過(guò)程中,我們可以通過(guò)分析有用的數(shù)據(jù)或信息來(lái)提取用戶的行為特征和入侵規(guī)律,進(jìn)而建立起一個(gè)相對(duì)完善的規(guī)則庫(kù)來(lái)進(jìn)行入侵檢測(cè)。該檢測(cè)過(guò)程主要是數(shù)據(jù)收集——數(shù)據(jù)預(yù)處理——數(shù)據(jù)挖掘,以下是在對(duì)已有的基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)入侵檢測(cè)的模型結(jié)構(gòu)圖進(jìn)行闡述的基礎(chǔ)上進(jìn)行一些優(yōu)化。
3.1綜合了誤用檢測(cè)和異常檢測(cè)的模型
為改進(jìn)前綜合誤用檢測(cè)和異常檢測(cè)的模型。從圖2可以看出,它是綜合利用了誤用檢測(cè)和異常檢測(cè)模型而形成的基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)入侵檢測(cè)模型。其優(yōu)點(diǎn)在于通過(guò)結(jié)合誤用檢測(cè)器和異常檢測(cè)器,把所要分析的數(shù)據(jù)信息減少了很多,大大縮小了數(shù)據(jù)范圍。其劣勢(shì)在于當(dāng)異常檢測(cè)器檢測(cè)到新的入侵檢測(cè)后,僅僅更新了異常檢測(cè)器,而沒(méi)有去及時(shí)地更新誤用檢測(cè)器,這就無(wú)形中增加了工作量。對(duì)于這一不足之處,筆者提出了以下改進(jìn)意見。
3.2改進(jìn)后的誤用檢測(cè)和異常檢測(cè)模型
筆者進(jìn)行了一些改進(jìn),以形成一種更加有利的基于數(shù)據(jù)挖掘的入侵檢測(cè)模型,基礎(chǔ)上進(jìn)行了一定的優(yōu)化。一是把從網(wǎng)絡(luò)中獲取的網(wǎng)絡(luò)數(shù)據(jù)包發(fā)送到數(shù)據(jù)預(yù)處理器中,由它進(jìn)行加工處理,然后使用相應(yīng)的關(guān)聯(lián)規(guī)則找出其中具有代表性的規(guī)則,放入關(guān)聯(lián)規(guī)則集中,接下來(lái)用聚類規(guī)則將關(guān)聯(lián)規(guī)則所得的支持度和可信度進(jìn)行聚類優(yōu)化。此后,我們可根據(jù)規(guī)定的閾值而將一部分正常的數(shù)據(jù)刪除出去,這就大大減少了所要分析的數(shù)據(jù)量。此時(shí)可以把剩下的那些數(shù)據(jù)發(fā)送到誤用檢測(cè)器中進(jìn)行檢測(cè),如果誤用檢測(cè)器也沒(méi)有檢測(cè)到攻擊行為,則把該類數(shù)據(jù)發(fā)送到異常檢測(cè)器中再次進(jìn)行檢測(cè),與上面的例子一樣,這個(gè)異常檢測(cè)器實(shí)際上也起到了一個(gè)過(guò)濾的作用,以此來(lái)把海量的正常數(shù)據(jù)過(guò)濾出去,相應(yīng)地?cái)?shù)據(jù)量就會(huì)再一次變少,這就方便了后期的挖掘。這一模型系統(tǒng)的一大特點(diǎn)就是為了避免重復(fù)檢測(cè),利用對(duì)數(shù)據(jù)倉(cāng)庫(kù)的更新來(lái)完善異常檢測(cè)器和誤用檢測(cè)器。也就是說(shuō),根據(jù)異常檢測(cè)器的檢測(cè)結(jié)果來(lái)對(duì)異常檢測(cè)器和誤用檢測(cè)器進(jìn)行更新,若測(cè)得該行為是正常行為,那么就會(huì)更新異常檢測(cè)器,若測(cè)得該行為是攻擊行為,那么就更新誤用檢測(cè)器來(lái)記錄該次的行為,從而方便下次進(jìn)行重復(fù)的檢測(cè)。
4結(jié)束語(yǔ)
剔除舊圖書一般指對(duì)破舊、過(guò)時(shí)的或者失去價(jià)值的圖書進(jìn)行清理。比如因年代久遠(yuǎn)變得陳舊或內(nèi)容滯后而失去參考價(jià)值的圖書、有新版或修訂版的圖書、殘缺破損不利于閱讀的圖書、復(fù)本過(guò)多的圖書、在規(guī)定時(shí)間內(nèi)未流通的圖書、借閱率低的圖書,都可以作為剔舊圖書而入藏舊書庫(kù)。在實(shí)際工作中,對(duì)于殘缺破損的或有新版、修訂版的圖書,剔除工作相對(duì)簡(jiǎn)單,復(fù)本過(guò)多的圖書和借閱率低的圖書的剔舊工作相對(duì)困難。利用數(shù)據(jù)挖掘技術(shù)可以科學(xué)地分析圖書的復(fù)本數(shù),統(tǒng)計(jì)圖書在一定周期內(nèi)的借閱次數(shù),從而得出借閱率。但單從借閱率低、復(fù)本數(shù)多等方面考慮剔除舊圖書是不科學(xué)的。有些優(yōu)秀的圖書往往會(huì)被反復(fù)續(xù)借,并長(zhǎng)期在某一特定用戶手中,其借閱次數(shù)不一定很多,但借閱時(shí)間很長(zhǎng)。這些圖書并不一定能在借閱次數(shù)上體現(xiàn)其優(yōu)勢(shì),因此,還需要統(tǒng)計(jì)圖書的平均借閱時(shí)間,并依此設(shè)定平均借閱閾值,去掉未達(dá)到閾值的圖書,找到館藏中借閱時(shí)間較長(zhǎng)的圖書。以鎮(zhèn)江高等??茖W(xué)校圖書館為例,統(tǒng)計(jì)中文圖書的借閱率,并進(jìn)行分析。設(shè)定借閱時(shí)間為2013年1月至2014年6月,借閱率小于0.3。通過(guò)數(shù)據(jù)挖掘得到如圖1所示的統(tǒng)計(jì)結(jié)果。在圖1中,我們可以看到,《晨讀十分鐘》復(fù)本數(shù)為12,借閱次數(shù)為2,借閱率低,可以適當(dāng)降低復(fù)本數(shù)。同樣,《語(yǔ)文學(xué)科知識(shí)與教學(xué)能力》復(fù)本數(shù)為6,借閱次數(shù)為1,借閱率也比較低,可以降低復(fù)本數(shù)。
2數(shù)據(jù)挖掘應(yīng)用于合理布局館藏書架
圖書排架就是將已經(jīng)加工整理的圖書按照某種標(biāo)準(zhǔn)和次序陳放在書架上的過(guò)程。鎮(zhèn)江高等??茖W(xué)校圖書館是根據(jù)圖書分類號(hào)來(lái)排架的,其優(yōu)點(diǎn)是,讀者能夠比較方便準(zhǔn)確地找到所需要的圖書,并在查找自己所要的圖書的同時(shí)關(guān)注相似的圖書。缺點(diǎn):1)讀者需要準(zhǔn)確知道欲借圖書的索書號(hào)。2)圖書館必須為各類新進(jìn)圖書預(yù)留合理的書架空間,否則會(huì)導(dǎo)致圖書的重新整架甚至倒架,增加圖書管理人員的工作量。3)讀者進(jìn)入圖書館借書,很可能就在某類自己感興趣的圖書中查閱,很少同時(shí)關(guān)注其他類別的圖書。因此,需要對(duì)圖書館系統(tǒng)中的數(shù)據(jù)進(jìn)行挖掘分析,了解各類圖書的利用率和更新指數(shù),統(tǒng)計(jì)各類圖書借閱情況??梢愿鶕?jù)圖書的利用率合理排架,即將利用率高的圖書陳放在容易查找的書架上??梢愿鶕?jù)圖書的更新指數(shù)預(yù)留書架空間。可以根據(jù)某一時(shí)期圖書借閱次數(shù)排行榜找出最受歡迎的圖書,開設(shè)《好書介紹》欄目,甚至可以針對(duì)特定群體進(jìn)行好書介紹和推薦。設(shè)立專門的書架為圖書展讀處,最好設(shè)立在讀者進(jìn)入圖書館的必經(jīng)之地,吸引讀者注意。圖書館也可以主辦各類讀書節(jié)活動(dòng)吸引讀者。以鎮(zhèn)江高等??茖W(xué)校圖書館為例,圖書利用率統(tǒng)計(jì)結(jié)果詳見圖2。從圖2可以看出,B類(哲學(xué)類)、H類(語(yǔ)言、文字類)、I類(文學(xué)類)、K類(歷史、地理類)、Q類(生物科學(xué)類)等圖書的利用率高,可以將放置這幾類圖書的書架放在容易查找、方便上架的地方。
3結(jié)束語(yǔ)
數(shù)據(jù)挖掘技術(shù)在企業(yè)的信息化建設(shè)中所擔(dān)任的角色是實(shí)現(xiàn)數(shù)據(jù)信息到商業(yè)知識(shí)的轉(zhuǎn)化。首先需要明確數(shù)據(jù)挖掘技術(shù)的處理對(duì)象,明白商業(yè)活動(dòng)的主題;其次,需要對(duì)商業(yè)的主題進(jìn)行分析,并搜集與之相關(guān)的數(shù)據(jù)利用各種技術(shù)對(duì)數(shù)據(jù)進(jìn)行整理分析,并載入適合的數(shù)據(jù)挖據(jù)的算法中,建立模型,再?gòu)哪P椭刑崛〕鲇杏玫纳虡I(yè)信息,再根據(jù)分析所得結(jié)果調(diào)整算法,以數(shù)據(jù)和信息的可靠性為依據(jù)對(duì)結(jié)果進(jìn)行判斷;再次,將獲得的商業(yè)知識(shí)融合到企業(yè)的信息平臺(tái),利用人機(jī)界面對(duì)企業(yè)的決策活動(dòng)予以支持。另外值得注意的是,由于數(shù)據(jù)挖據(jù)技術(shù)屬于高層次的技術(shù),又關(guān)系到企業(yè)的業(yè)務(wù)機(jī)密,因此,需要極為專業(yè)的技術(shù)人才專業(yè)管理。
2如何實(shí)現(xiàn)數(shù)據(jù)挖掘在企業(yè)的信息化建設(shè)中的應(yīng)用
在企業(yè)進(jìn)行業(yè)務(wù)的操作過(guò)程中往往會(huì)產(chǎn)生大量需要處理的數(shù)據(jù),這就為數(shù)據(jù)挖掘的應(yīng)用提出了要求,數(shù)據(jù)挖掘的運(yùn)用使企業(yè)的大量的數(shù)據(jù)得到了梳理,分析信息的能力提高,在企業(yè)今后的市場(chǎng)開拓記憶日常的運(yùn)行中發(fā)揮了重要的作用,促進(jìn)企業(yè)的競(jìng)爭(zhēng)力的提高,那么,數(shù)據(jù)挖據(jù)具體在企業(yè)的信息化建設(shè)中如何應(yīng)用呢,下文將予以介紹。
2.1利用數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)客戶信息的有效管理
具體來(lái)說(shuō)就是通過(guò)對(duì)客戶信息進(jìn)行分析,為客戶建立一個(gè)合適的購(gòu)物模式,以滿足客戶的需求為重,這是處理好企業(yè)與客戶之間的關(guān)系的關(guān)鍵。有相關(guān)數(shù)據(jù)顯示,企業(yè)在獲得一個(gè)新的客戶過(guò)程中所花費(fèi)的成本比維系一個(gè)老客戶的成本高出6倍-9倍之多,一個(gè)老客戶的流失是以10個(gè)新客戶的獲得為代價(jià)的,由此可見,對(duì)于企業(yè)來(lái)說(shuō)老客戶的維護(hù)工作至關(guān)重要。通過(guò)數(shù)據(jù)挖掘技術(shù)可以得到老客戶的大量的信息,并對(duì)其交易記錄、統(tǒng)計(jì)信息進(jìn)行分析后,可以有目的性的對(duì)流失的客戶進(jìn)行分析,找出客戶流失的原因并為新客戶的建立提供模型和經(jīng)驗(yàn),有效地對(duì)意向客戶和流失客戶進(jìn)行判斷,起到企業(yè)與客戶的關(guān)系的改善的作用。
2.2利用數(shù)據(jù)挖掘技術(shù)進(jìn)行市場(chǎng)營(yíng)銷的分析與管理
在市場(chǎng)營(yíng)銷中,數(shù)據(jù)挖掘的作用在于可以促進(jìn)市場(chǎng)的分工,以“客戶過(guò)去的消費(fèi)行為可以說(shuō)明今后的消費(fèi)傾向”為假設(shè),然后對(duì)客戶的信息進(jìn)行分析,確定某一群體客戶的消費(fèi)興趣,消費(fèi)的趨向于需要,進(jìn)而對(duì)消費(fèi)者的下一次或者下一步的消費(fèi)行為作出判斷,然后再以此為基礎(chǔ),將識(shí)別出來(lái)的客戶作為一個(gè)消費(fèi)群體,以此制定營(yíng)銷計(jì)劃,這與傳統(tǒng)的不以消費(fèi)者的實(shí)際需求為參考而進(jìn)行大規(guī)模營(yíng)銷的手段相比較,在成本的節(jié)約方面貢獻(xiàn)極大,可以帶給企業(yè)更多的利潤(rùn)。在市場(chǎng)營(yíng)銷中的應(yīng)用上,各種數(shù)據(jù)挖掘算法都得到了廣泛的應(yīng)用,每種不同的操作手段都可以引導(dǎo)商家做出滿足消費(fèi)者需求的決策與判斷。
3結(jié)束語(yǔ)