發(fā)布時間:2023-01-22 01:14:41
序言:寫作是分享個人見解和探索未知領(lǐng)域的橋梁,我們?yōu)槟x了8篇的數(shù)據(jù)挖掘論文樣本,期待這些樣本能夠為您提供豐富的參考和啟發(fā),請盡情閱讀。
目前現(xiàn)有的針對煙草營銷策略的研究,多采用數(shù)據(jù)挖掘的思想,基于數(shù)據(jù)挖掘的營銷策略是對終端客戶進(jìn)行分類,根據(jù)用戶的銷量和誠信記錄把用戶分為多個等級,但這種分級策略只能反應(yīng)用戶的銷量信息,把這個分類作為營銷策略依據(jù)太單薄,只能起一定的輔助作用。更深入地研究是根據(jù)客戶的資料和歷史訂單數(shù)據(jù)對現(xiàn)有商戶進(jìn)行聚類,獲取到自主的商戶分類,但盲目的聚類會導(dǎo)致商戶的分類沒有實際意義,或獲取的結(jié)果是無助于營銷目的的。
2技術(shù)關(guān)鍵
本系統(tǒng)采用基于營銷目的的商戶聚類,技術(shù)關(guān)鍵包括三部分內(nèi)容:數(shù)據(jù)預(yù)處理中的特征選擇、基于限制目標(biāo)的商戶精確聚類和基于聚類結(jié)果的多層關(guān)聯(lián)規(guī)則算法的研究。
2.1特征選擇
假定獲取的數(shù)據(jù)的維數(shù)為n,通常情況下n是很大的一個數(shù),為簡化模型,也為了防止模型陷入過擬合(維數(shù)災(zāi)難),需要進(jìn)行降維處理,即僅把對項目改造判定起關(guān)鍵作用的因素挑選出來。本系統(tǒng)采用PCA算法來進(jìn)行降維處理,過程如下:
1)計算標(biāo)準(zhǔn)化后的矩陣Z的樣本的協(xié)方差矩陣Cov;
2)計算協(xié)方差矩陣Cov的本征向量e1,e2,…,en的本征值。本征值按大到小排序;
3)投影數(shù)據(jù)
到本征矢張成的空間之中,利用貢獻(xiàn)分析取前m個向量Y1,Y2,…,Ym。
2.2基于營銷目標(biāo)限制的商戶精確聚類算法
現(xiàn)有聚類算法一般沒有約束條件,只根據(jù)相似度來進(jìn)行聚類,為了能夠體現(xiàn)約束條件,需要在聚類相似度或者樣本距離之間把限制條件增加進(jìn)去,這樣在樣本聚類的時候即可使得具有相同營銷特性的樣本或者客戶被劃分到同一個類中。煙草終端商戶的大部分屬性是分類屬性,例如:地區(qū)、類別等,此外還有數(shù)字型屬性、日期型屬性,由于存在不同類型的屬性,常規(guī)的聚類算法無法使用,為此,采用把數(shù)字屬性和日期屬性劃分區(qū)間的思路,這樣可以轉(zhuǎn)化成分類屬性的方式來進(jìn)行聚類。進(jìn)而可建立如下商戶模型:分類對象X∈Ω,X=[A1=x1]∧[A2=x2]∧…∧[Am=xm],其中xj∈DOM(Aj),1≤j≤m,為簡便起見,將對象X∈Ω用向量(x1,x2,…,xm)表達(dá),如果屬性Aj的值不存在,則Aj=ε。令Χ={X1,X2,…,Xn}為n個分類對象的集合,用集合方式表達(dá)分類對象,則Xi={xi,1,xi,2,…,xi,m},如果屬性Aj的值不存在,則集合中不出現(xiàn)xi,j,容易得到|Xi|≤m。如果存在Xi,j=Xk,j,1≤j≤m,則Xi=Xk。為方便聚類,利用聚類匯總來壓縮原始數(shù)據(jù),從而達(dá)到提高算法效率的目的。一個類C可以由如下三元組(n,I,S)來表示。其中n為類C中的對象數(shù)量,I={i1,i2,…,iu}是C內(nèi)所有屬性值的集合,S={s1,s2,…,su},其中sj為ij在類C中的數(shù)量,ij∈I,1≤j≤u。集合S按升序排列,即s1≤s2≤…≤su,這同時也暗示集合I的元素按其在C中的數(shù)量按升序排列。三元組(n,I,S)被稱作類C的聚類匯總CS,CS的三個成員分別記作CS.n、CS.I和CS.S;對于CS.I的任一元素ij∈CS.I,則記作CS.I.ij,對于sj∈CS.S,則記作CS.S.sj,其中1≤j≤u。
2.3基于煙草營銷的多層關(guān)聯(lián)規(guī)則的研究
針對本項目,對關(guān)聯(lián)規(guī)則定義進(jìn)行擴展,對形如:XY的關(guān)聯(lián)規(guī)則,不再限定X和Y為一個項目集,而把X和Y定義為條件的合取范式,每個條件Ai=True/False為布爾表達(dá)式。此時的Ai為一個項目集,它的含義與原來的X和Y的含義相同,如果把結(jié)果中的條件布爾表達(dá)式寫成Cj=True/False,則關(guān)聯(lián)規(guī)則有如下形式:(A1=True/False)∧(A2=True/False)∧…∧(An=True/False)(C1=True/False)∧(C2=True/False)∧…∧(Cm=True/False)關(guān)聯(lián)規(guī)則的開采問題可以分解成以下兩個子問題:
①從數(shù)據(jù)集合或交易集合D中發(fā)現(xiàn)所有的頻繁項目集。
②從頻繁項目集中生成所有置信度不小于用戶定義的最小置信度minconf的關(guān)聯(lián)規(guī)則。即對任一個頻繁項目集F和F的所有非空真子集S,SF,如果sup(F)/sup(F-S)≥minconf,則(F-S)S就是一條有效的關(guān)聯(lián)規(guī)則。按上述方法發(fā)現(xiàn)所有類似的規(guī)則。這兩個步驟中第2步要相對容易,因此項目的研究將更關(guān)注第1步,由于最大頻繁項目集已經(jīng)隱含了所有頻繁項目集,所以可以把發(fā)現(xiàn)頻繁項目集的問題轉(zhuǎn)化為發(fā)現(xiàn)最大頻繁項目集的問題。針對煙草營銷的客戶,進(jìn)行關(guān)聯(lián)規(guī)則挖掘時,是在上一步的基礎(chǔ)上,即針對每一個商戶群進(jìn)行規(guī)則挖掘。在獲取到最大頻繁項目集后,順序生成頻繁項目集,然后獲取到可用的關(guān)聯(lián)規(guī)則。此時獲取的關(guān)聯(lián)規(guī)則是底層關(guān)聯(lián)規(guī)則,然后再采用概念樹的方法對獲取的底層關(guān)聯(lián)規(guī)則進(jìn)行匯總。概念樹由煙草領(lǐng)域?qū)<腋鶕?jù)屬性的領(lǐng)域知識提供,按特定屬性的概念層次從一般到具體排序。樹的根結(jié)點是用any表示最一般的概念,葉結(jié)點是最具體的概念即屬性的具體值。
但是現(xiàn)有電子商務(wù)多數(shù)局限于PC、Pad等終端?;陔娨暤馁徫锕?jié)目缺乏品牌、可信性,傳統(tǒng)的遙控器輸入也難以滿足電子商務(wù)的交互要求。電視機是我國千萬家庭中最為普及的家庭信息交互智能終端產(chǎn)品之一,集公共傳播、信息服務(wù)、文化娛樂、交流互動于一體。因此,新型電視電子商務(wù)融合傳統(tǒng)的電視購物和互聯(lián)網(wǎng)模式,通過多屏互動、電視映像觸控徹底改變電視的操控方式,結(jié)合數(shù)據(jù)挖掘、行為分析技術(shù),將帶來電視商務(wù)的蓬勃發(fā)展,彌補相關(guān)領(lǐng)域空白。
2技術(shù)方案
2.1電視商城前端管理系統(tǒng)功能模塊
前端管理系統(tǒng)軟件架構(gòu)圖如圖2所示。電視商城前端管理系統(tǒng)由客戶管理、欄目及商品信息管理、電視數(shù)據(jù)同步管理、電視數(shù)據(jù)交互、對賬管理、支付管理、用戶管理、日志管理等功能模塊組成??蛻艄芾砟K主要包含電視商城用戶的注冊、登錄、收藏等一系列客戶行為的管理;欄目及商品信息管理模塊主要為電視上商品及欄目提供統(tǒng)一格式的一系列的后臺數(shù)據(jù)。電視的欄目主要是通過時間、頻道號、節(jié)目號做關(guān)聯(lián);電視數(shù)據(jù)同步管理模塊主要是指后臺同步電商數(shù)據(jù)的一系列管理。主要是指后臺同步電商數(shù)據(jù)的一系列管理;電視數(shù)據(jù)交互模塊主要是指與電商數(shù)據(jù)接互的后臺接口的處理;對賬管理模塊主要是指與電商的一個訂單對賬管理,包含支付情況的對賬;支付管理對接第三方支付平臺,如支付寶等;系統(tǒng)日志管理模塊主要是指后臺日志系統(tǒng)的增刪改查操作,以便系統(tǒng)用戶跟蹤問題。
2.2多屏互動、電視映像觸控
電視映像觸控技術(shù)徹底丟掉了繁瑣輸入工具,是革命性、顛覆性的技術(shù)創(chuàng)新,為電視設(shè)備提供了簡單的操作,用戶可以像操控手機一樣操控電視,解決了長期以來久攻不克的電視輸入難題。行業(yè)分析者認(rèn)為將會在未來幾年內(nèi)有上萬億的市場前景。用戶可以通過手機或Pad操控大屏電視、搜索視頻、縮放網(wǎng)頁、拖動圖片、玩轉(zhuǎn)重力游戲,帶給你前所未有的電視體驗,或通過手機或Pad在家里的任何地方觀看電視實時播放的內(nèi)容,暢想多屏互動的樂趣。通過高速Wi-Fi連接,只需要各設(shè)備在同一個局域網(wǎng)。實現(xiàn)了手機、Pad、電視“零延時”同步,精彩多屏看,真正實現(xiàn)“大屏映小屏、小屏控大屏”。當(dāng)機頂盒接收到直播Server的數(shù)據(jù)后會將EPG數(shù)據(jù)保存,當(dāng)手機、Pad請求的視頻播放狀態(tài)信息時,機頂盒會通過Wi-Fi網(wǎng)絡(luò)將EPG信息發(fā)送給手機、Pad。手機、Pad將直播視頻播放的狀態(tài)信息發(fā)送給前端服務(wù)平臺,前端服務(wù)平臺每天會定時請求直播Server來獲取和解析EPG信息的詳細(xì)內(nèi)容,當(dāng)接收到手機、Pad視頻播放信息時,則會自動匹配相關(guān)的program內(nèi)容,并將匹配到的商品信息等通過后臺的編輯人員編輯加工入庫后傳送給電視商城系統(tǒng)。電視商城系統(tǒng)接收到前端服務(wù)平臺關(guān)聯(lián)的商品信息后,會返回商品的詳情、購買情況等信息,然后由前端服務(wù)平臺將數(shù)據(jù)打包傳送給手機、Pad,此時用戶在移動終端已經(jīng)完全可以瀏覽到與直播相關(guān)聯(lián)的商品信息并與電視商城系統(tǒng)平臺之間進(jìn)行交互,完成商品購買。
2.3數(shù)據(jù)挖掘和精準(zhǔn)推送
數(shù)據(jù)挖掘和精準(zhǔn)推送流程圖。當(dāng)用戶開啟電視商城系統(tǒng)平臺的服務(wù)客戶端觀看直播時,會發(fā)起關(guān)聯(lián)請求,此時機頂盒會將用戶所觀看的直播節(jié)目和當(dāng)前的時間記錄下來發(fā)送給服務(wù)端請求關(guān)聯(lián)商品界面及關(guān)聯(lián)的內(nèi)容,初步請求按照channelname+time查找關(guān)聯(lián)界面,如果找到則放回固定的Link_epg_gues_goods中,如果不存在則只按照channelname查找關(guān)聯(lián)界面,若channelname存在,則返回關(guān)聯(lián)頻道的link_epg_gues_goods,如果不存在,則返回通用的關(guān)聯(lián)商品界面Link_epg_home_goods。在服務(wù)端接收到請求消息后會在服務(wù)端統(tǒng)計數(shù)據(jù)并進(jìn)行分析用戶的行為,最終返回關(guān)聯(lián)商品界面,供用戶購買。
3結(jié)論
在上述系統(tǒng)設(shè)計的基礎(chǔ)之上,我們提出了網(wǎng)店客戶購買數(shù)據(jù)挖掘系統(tǒng)的模型,該模型由三個層次組成,其邏輯架構(gòu)如圖一所示。
2、系統(tǒng)設(shè)計與實現(xiàn)
2.1系統(tǒng)開發(fā)與運行環(huán)境硬件環(huán)境:CPUIntelI3380M/RAM2G/硬盤320G軟件配置:操作系統(tǒng):Windows7SP1開發(fā)工具:2005/VisualC#數(shù)據(jù)庫管理系統(tǒng):MSSQLServer2008輔助軟件:SPSSClementine11.1;SQLServer2008AnalysisServices(SSAS)
2.2主要技術(shù)與系統(tǒng)實現(xiàn)通過對上述對客戶購買數(shù)據(jù)挖掘系統(tǒng)模型的分析可知,該系統(tǒng)主要由用戶接口模塊、數(shù)據(jù)清洗模塊、數(shù)據(jù)格式轉(zhuǎn)換模塊、數(shù)據(jù)庫生成模塊和數(shù)據(jù)挖掘引擎模塊等組成。1)用戶接口模塊本系統(tǒng)最終目的還是為為客戶的決策提供支持,因此友好的界面設(shè)計是用戶與系統(tǒng)交互的基礎(chǔ)。簡潔而易于理解的界面有利于提高用戶對系統(tǒng)的使用效率。2)數(shù)據(jù)預(yù)處理模塊客戶訪問數(shù)據(jù)進(jìn)入數(shù)據(jù)預(yù)處理模塊進(jìn)行清洗,去除無關(guān)的信息,剝離出對數(shù)據(jù)挖掘有價值的數(shù)據(jù)。數(shù)據(jù)預(yù)處理模塊對原始訪問數(shù)據(jù)進(jìn)行分析,將用戶購買數(shù)據(jù)記錄逐條的分割成十個字段,分別為:u_id(訪問者編號),u_date(到訪日期),u_time(到訪時間),u_orderid(訂單編號),u_product(客戶購買的商品),u_bowser(使用的瀏覽器類型),page(首次到訪頁面),place(客戶所在地區(qū)),payment(支付方式),logistic(物流方式),同時刪除訪問數(shù)據(jù)中與以上字段不相干的數(shù)據(jù)。然后將經(jīng)過預(yù)處理的數(shù)據(jù)存入中間文件。3)XML轉(zhuǎn)換模塊該模塊程序使用.NET的相關(guān)的方法編寫,主要功能將預(yù)處理過的客戶購買數(shù)據(jù)轉(zhuǎn)換成標(biāo)準(zhǔn)化XML格式的數(shù)據(jù)文件進(jìn)行存儲。該程序的主要實現(xiàn)原理是對經(jīng)過預(yù)處理的中間文件中的數(shù)據(jù)記錄逐個分割并存入數(shù)組,然后將數(shù)組的內(nèi)容按照XML的格式寫入文件,完成轉(zhuǎn)換。4)數(shù)據(jù)庫導(dǎo)入模塊利用.NET的相關(guān)方法并結(jié)合數(shù)據(jù)庫管理工具建立支持?jǐn)?shù)據(jù)挖掘的客戶購買數(shù)據(jù)庫,編寫相關(guān)程序?qū)⒁呀?jīng)轉(zhuǎn)換成XML格式的客戶訪問數(shù)據(jù)逐條的導(dǎo)入到數(shù)據(jù)庫并形成日志數(shù)據(jù)表方便進(jìn)行后續(xù)的數(shù)據(jù)挖掘。5)數(shù)據(jù)挖掘引擎模塊數(shù)據(jù)挖掘引擎是實現(xiàn)客戶購買數(shù)據(jù)挖掘系統(tǒng)的實現(xiàn)關(guān)鍵。優(yōu)秀的數(shù)據(jù)挖掘算法不僅可以使數(shù)據(jù)挖掘的結(jié)果更加準(zhǔn)確,也可以提高數(shù)據(jù)挖掘的效率。本系統(tǒng)主要用到的算法是該模塊利用數(shù)據(jù)挖掘算法對數(shù)據(jù)進(jìn)行挖掘,主要包括算法的優(yōu)化、日志數(shù)據(jù)表的刪除操作以及挖掘結(jié)果集的保存與刪除操作等。這里主要用到的算法是K-Means算法。主要是利用該算法發(fā)現(xiàn)最相似的客戶聚類,通過對聚類的分析來得出網(wǎng)店眾多的顧客一般的購買行為模式,從而可以適當(dāng)?shù)卣{(diào)整網(wǎng)站營銷的策略中的來提高網(wǎng)絡(luò)營銷的效果,進(jìn)而增加銷售量。
3、小結(jié)
紡織品中一些纖維不易上色,只有應(yīng)用強酸或者強堿才能保證其上色的效果,我國對紡織品中PH達(dá)到的數(shù)值有著明確要求。通過對某檢測機構(gòu)pH值超標(biāo)報告的分析發(fā)現(xiàn),紡織品中各個成本pH值分布為:棉56.67,羊毛22.5%,羊絨7.5%,桑蠶絲4.17%,亞麻3.33%,聚酯纖維3.3%,粘纖1.67%,兔毛0.83%。
經(jīng)過檢驗與對比發(fā)現(xiàn),pH超標(biāo)較為嚴(yán)重的主要是棉成分,由于棉只能在強堿條件下上色,所以,會使紡織品超過國家要求的pH值控制范圍。pH值超標(biāo)主要是生產(chǎn)工藝不佳造成的,為了降低pH值對人健康的影響,相關(guān)部門應(yīng)加強對服裝制作工藝的控制與管理。
2基于數(shù)據(jù)挖掘的色牢度分析
色牢度也是紡織品檢驗的一項重要指標(biāo),在Clementine中將導(dǎo)入的數(shù)據(jù)通過過濾節(jié)點過濾出品牌、耐水色牢度(沾色)、耐酸色牢度(沽色)、耐堿色牢度(沾色)、耐干摩擦色牢度和主要成分之后。建立進(jìn)口紡織服裝的風(fēng)險預(yù)警以及置信度規(guī)則,可以發(fā)現(xiàn),支持度和置信度都很高的規(guī)則主要涉及桑蠶絲和棉這2種成分以及甲品牌。主要成分為桑蠶絲的紡織服飾與耐堿色牢度、耐水色牢度、耐酸色牢度關(guān)系密切,而主要成分為棉的紡織服飾以及甲品牌的紡織服飾4種色牢度的不合格比例都很高。
色牢度不夠的原因除了與制作工藝有關(guān),還與染色后浮水處理有關(guān)。針對桑蠶絲與棉成分含量較高的紡織品,一定要在染色前先進(jìn)行正交試驗,還要保證染色溫度、染色液酸堿濃度的合理性,這樣才能保證桑蠶絲以及棉制品色牢度的合格性。
3結(jié)語
結(jié)合現(xiàn)階段電力企業(yè)在電力需求預(yù)測方面存在的問題,本文對系統(tǒng)的設(shè)計提出以下的要求:
第一,對電力需求的預(yù)測將充分將國民經(jīng)濟的各項指標(biāo)對電力的影響納入進(jìn)來,其主要的原因是用電量的多少與國民經(jīng)濟增長有著很大的關(guān)系;
第二,將城鎮(zhèn)化納入到對電力需求的預(yù)測中,因為隨著我國經(jīng)濟的發(fā)展,城鎮(zhèn)化可反映居民增加的多少,從而對未來我國長期的用電量有著最為直觀的需求分析;
第三,將階梯電量計算給居民用電帶來的影響納入到預(yù)測當(dāng)中,因為國家發(fā)改委在電力改革方面,采用階梯定價的方式,在一定程度上將影響居民的用電的多少。
第四,將國家節(jié)能減排對用電大戶所帶來的影響納入到系統(tǒng)當(dāng)中。因為隨著國家對環(huán)保觀念的重視,未來在很大程度上將注重企業(yè)的節(jié)能減排,從而減少企業(yè)的用電量。
第五,針對現(xiàn)階段的數(shù)據(jù)挖掘算法,本文結(jié)合各個算法的優(yōu)缺點,采用多種算法綜合組合的方式,實現(xiàn)對電力需求的客觀預(yù)測。采用在不同的時刻和情況下采用不同的預(yù)測算法。
2基于電力需求模型的綜合預(yù)測模型構(gòu)建
2.1模型構(gòu)建及其優(yōu)缺點比較
通過上述的分析,我們可以看出以往的對電力預(yù)測的算法通常都是采用單一的數(shù)據(jù)挖掘模式的形式,如BP神經(jīng)網(wǎng)絡(luò)算法、模糊預(yù)測法等。通過采用單一的算法,所挖掘的結(jié)果通常缺乏客觀性,如以吉林供電公司為例,其采用單一回歸預(yù)測,其預(yù)測的數(shù)據(jù)與實際應(yīng)用的電量的多少存在很大的偏差。因此,為提高本系統(tǒng)預(yù)測的準(zhǔn)確性,決定采用多種數(shù)據(jù)挖掘算法相結(jié)合的綜合預(yù)測模型。其具體的思路是首先構(gòu)建綜合預(yù)測模型的方法庫,并通過單一模型檢測方法,對偏差比較大的模型進(jìn)行剔除。對預(yù)測較好的模型進(jìn)行反復(fù)的測算,并通過一定的方式將測算的結(jié)果進(jìn)行組合,從而得到最佳的綜合預(yù)測的模型。而對綜合預(yù)測模型的選擇,其關(guān)鍵點在于如何對模型的組合。對此,本文為解決該問題,采用加權(quán)平均的方式確定不同模型的權(quán)重系數(shù)。同時通過對不同數(shù)據(jù)挖掘算法的優(yōu)劣勢的比較。
2.2算法應(yīng)用實例
結(jié)合本文對電力預(yù)測的要求,本文通過采用對比的方式實現(xiàn)對綜合模型準(zhǔn)確性的驗證與評價。同時以某省全社會的用電量作為綜合預(yù)測的目標(biāo)。而所謂的全社會用電量包括生產(chǎn)用電和居民生活用電的總和。而做好對該省全社會的居民用電,為未來3-5年甚至更長時間的電力企業(yè)電網(wǎng)規(guī)劃、輸電線路布局等有著非常重要的作用。同時,在對數(shù)據(jù)進(jìn)行選取的時候,必須對數(shù)據(jù)進(jìn)行一定的平滑處理,從而剔除數(shù)據(jù)中的異常的值,以此更好的實現(xiàn)對數(shù)據(jù)挖掘的結(jié)果。
3系統(tǒng)功能設(shè)計
結(jié)合系統(tǒng)設(shè)計的要求,本文將系統(tǒng)的功能設(shè)計為數(shù)據(jù)采集與處理、模型庫、系統(tǒng)維護、結(jié)果可視化查詢等功能模塊。其中數(shù)據(jù)采集與處理包括對居民用電營銷、調(diào)度自動化、電網(wǎng)負(fù)荷等數(shù)據(jù)的采集。通過采用挖掘技術(shù)實現(xiàn)對數(shù)據(jù)從上到下的挖掘;模型庫則主要包括數(shù)據(jù)挖掘的各種不同的算法,如灰色關(guān)聯(lián)、模糊預(yù)測、BP神經(jīng)網(wǎng)絡(luò)等算法在內(nèi)。需求預(yù)測庫模塊主要對電力需求進(jìn)行預(yù)測。其具體的步驟則為通過采用單一模型進(jìn)行預(yù)測,通過比較選擇誤差最小的預(yù)測模型,并通過采用回歸分析的方式,實現(xiàn)對不同預(yù)測方法權(quán)重的比較,從而計算數(shù)據(jù)挖掘的結(jié)果。結(jié)果可視化則是通過綜合預(yù)測模型對數(shù)據(jù)的計算,將其挖掘和預(yù)測的結(jié)果和電力增長的規(guī)律通過可視化的方式將其展現(xiàn)給用戶,使得用戶更為直觀了解電力需求的預(yù)測數(shù)據(jù)和該省電力需求的增長規(guī)律。系統(tǒng)管理包括系統(tǒng)權(quán)限分配和系統(tǒng)維護。通過對不同使用角色的功能分配,實現(xiàn)對系統(tǒng)使用的正常運轉(zhuǎn)。同時通過對數(shù)據(jù)的日常維護、備份等,保障系統(tǒng)的運行。
4系統(tǒng)架構(gòu)設(shè)計
電力需求數(shù)據(jù)挖掘的計算設(shè)計多個不同的系統(tǒng)和數(shù)據(jù)庫,因此,對系統(tǒng)的設(shè)計采用最新的B/S模式,該模式其典型的優(yōu)點在于通過Internet網(wǎng)絡(luò)可實現(xiàn)對數(shù)據(jù)的采集。同時該模式還可有效對系統(tǒng)進(jìn)行維護,增加了系統(tǒng)的靈活性。
5結(jié)語
根據(jù)衛(wèi)生部2001年的《醫(yī)院感染診斷標(biāo)準(zhǔn)》和2009年12月1日起實施的《醫(yī)院感染監(jiān)測規(guī)范》要求,應(yīng)用數(shù)據(jù)挖掘技術(shù),在院內(nèi)綜合管理平臺上建立在線的醫(yī)院感染全院綜合性監(jiān)測和目標(biāo)性監(jiān)測等子系統(tǒng)。參照醫(yī)院感染監(jiān)測流程,建立臨床無紙化的報告方式上報醫(yī)院感染病例功能,由醫(yī)院感染科終端接收。將查詢醫(yī)院感染病例的信息線索從各獨立的系統(tǒng)內(nèi)收集并組合展示在一個界面上,方便醫(yī)院感染專職人員實現(xiàn)網(wǎng)上前瞻性調(diào)查;盡可能地從各系統(tǒng)內(nèi)直接導(dǎo)入以數(shù)字及文字表達(dá)的病例信息,生成各類監(jiān)測記錄表并進(jìn)行統(tǒng)計分析。
醫(yī)院感染實時監(jiān)控系統(tǒng)需要以醫(yī)院信息系統(tǒng)中的醫(yī)療數(shù)據(jù)為數(shù)據(jù)源,通過數(shù)據(jù)模型分析建立數(shù)據(jù)倉庫,通過對數(shù)據(jù)進(jìn)行預(yù)處理、建立數(shù)據(jù)挖掘模型、得到相應(yīng)規(guī)則并返回給用戶界面。系統(tǒng)主要分由用戶界面、數(shù)據(jù)庫接口、數(shù)據(jù)挖掘模塊和決策四個部分組成。由于醫(yī)療數(shù)據(jù)的特殊性,需要針對數(shù)據(jù)源進(jìn)行預(yù)處理及信息融合;為得出最佳的決策管理方案,需對結(jié)構(gòu)化處理的數(shù)據(jù)建立關(guān)聯(lián)規(guī)則。醫(yī)院感染實時監(jiān)控系統(tǒng)采用了決策樹算法對醫(yī)療數(shù)據(jù)進(jìn)行挖掘分析。在數(shù)據(jù)庫接口準(zhǔn)備過程中,由于醫(yī)療數(shù)據(jù)庫中含有海量不同來源的原始信息,包括大量模糊的、不完整的、帶有噪聲的、冗余的信息。因此在數(shù)據(jù)挖掘之前,必須對這些信息進(jìn)行清理和過濾,以確保數(shù)據(jù)的一致性和確定性,并將其轉(zhuǎn)換成適合挖掘的形式。醫(yī)療數(shù)據(jù)中還包含大量的文本、符號、數(shù)字信息,對這些不同物理屬性的醫(yī)療數(shù)據(jù),應(yīng)采用不同的技術(shù)進(jìn)行處理,使其在屬性上趨同或一致,再對處理結(jié)果進(jìn)行綜合。醫(yī)療數(shù)據(jù)多源性、時序性和非時序性數(shù)據(jù)共存、數(shù)字型數(shù)據(jù)和非數(shù)字型數(shù)據(jù)共存的特點,加大了信息融合的難度。
經(jīng)過數(shù)據(jù)清洗并通過數(shù)據(jù)挖掘計算后,在醫(yī)院綜合管理平臺上建立醫(yī)院感染監(jiān)控系統(tǒng),醫(yī)師通過該系統(tǒng)上報可疑的醫(yī)院感染病例。醫(yī)院感染專兼職人員通過該系統(tǒng)進(jìn)行各類監(jiān)測、調(diào)查或查詢病例,監(jiān)測資料可以存儲、統(tǒng)計、網(wǎng)絡(luò)反饋和導(dǎo)出。
2醫(yī)院感染實時監(jiān)控系統(tǒng)功能
通過數(shù)據(jù)挖掘技術(shù),建立醫(yī)院感染實時監(jiān)控系統(tǒng)。由于前期數(shù)據(jù)準(zhǔn)備充分,數(shù)據(jù)源規(guī)范準(zhǔn)確,數(shù)據(jù)挖掘技術(shù)的有效應(yīng)用,全面實現(xiàn)了感染病例的全過程監(jiān)控、感染預(yù)警、統(tǒng)計分析和目標(biāo)監(jiān)測各功能。系統(tǒng)對患者感染相關(guān)數(shù)據(jù)進(jìn)行多參數(shù)綜合分析、智能化識別,把達(dá)到預(yù)警標(biāo)準(zhǔn)的病例全部提取出來,將醫(yī)院科室感染情況直觀展示。通過設(shè)置統(tǒng)計參數(shù),系統(tǒng)自動統(tǒng)計出住院、出院感染病人的各類數(shù)據(jù)。分析后產(chǎn)生全面的統(tǒng)計結(jié)果,然后以圖形、表格等方式展示。強大的查詢功能使醫(yī)院管理人員能更高效、全面、深入地進(jìn)行感染學(xué)的調(diào)查與研究。通過數(shù)據(jù)挖掘技術(shù)對數(shù)據(jù)有效分析,系統(tǒng)的應(yīng)用更為有效,在感染發(fā)生早期就能通過數(shù)據(jù)全過程進(jìn)行監(jiān)控,極大提升了發(fā)現(xiàn)感染的概率,準(zhǔn)確度高,效率快,從根本上解決感染病例漏報率問題,提高了醫(yī)院感染管理水平。同時,因數(shù)據(jù)挖掘技術(shù)對數(shù)據(jù)有效分析也降低了多重耐藥菌的監(jiān)控數(shù)據(jù)的偏差,在多重耐藥菌監(jiān)測模塊,根據(jù)從檢驗信息系統(tǒng)中獲取的數(shù)據(jù),經(jīng)過清洗計算,大大降低了可能出現(xiàn)的偏差。
3結(jié)語
1.較高的有效性新興起來的數(shù)據(jù)挖掘技術(shù)的應(yīng)用時間并不是很長,但是其在經(jīng)濟統(tǒng)計領(lǐng)域的應(yīng)用受到了良好的效果,其穩(wěn)定的工作性能,不僅能夠?qū)?jīng)濟統(tǒng)計數(shù)據(jù)進(jìn)行分析整理,更能深層次地開發(fā)出更多的有用信息,在實際的應(yīng)用中展現(xiàn)出較高的有效性。
2.綜合應(yīng)用性強數(shù)據(jù)挖掘技術(shù)已經(jīng)被廣泛地應(yīng)用在統(tǒng)計工作中的多個領(lǐng)域,并且發(fā)揮著重要的作用。數(shù)據(jù)挖掘技術(shù)不僅是一種綜合應(yīng)用性強的技術(shù)手段,同時又能滿足統(tǒng)計數(shù)據(jù)使用者的特定數(shù)據(jù)需要。因此,數(shù)據(jù)挖掘技術(shù)能夠?qū)?jīng)濟統(tǒng)計數(shù)據(jù)進(jìn)行定向的整理和開發(fā),為數(shù)據(jù)使用者提供更好的服務(wù)。
3.宏觀型的數(shù)據(jù)庫有利于數(shù)據(jù)挖掘技術(shù)的應(yīng)用當(dāng)前,我國的經(jīng)濟統(tǒng)計大多還是采用傳統(tǒng)的經(jīng)濟統(tǒng)計方法,統(tǒng)計收集的數(shù)據(jù)信息不能形成有機整體,在對數(shù)據(jù)進(jìn)行管理過程中,出現(xiàn)了很多問題。因此。經(jīng)濟統(tǒng)計工作需要能夠提供數(shù)據(jù)整理開發(fā)的新技術(shù)。宏觀經(jīng)濟統(tǒng)計數(shù)據(jù)庫,為數(shù)據(jù)挖掘技術(shù)的開展提供了平臺。數(shù)據(jù)管理系統(tǒng)的經(jīng)濟統(tǒng)計信息要正確無誤,然后經(jīng)過數(shù)據(jù)挖掘技術(shù)的整合,就能得到更豐富的數(shù)據(jù)資源。
二、數(shù)據(jù)挖掘技術(shù)的運用
數(shù)據(jù)挖掘技術(shù)的特性決定了其對經(jīng)濟統(tǒng)計數(shù)據(jù)整理的重要性,經(jīng)濟統(tǒng)計所得到的數(shù)據(jù)信息要求必須有實用性和真實性,數(shù)據(jù)挖掘技術(shù)的特性正好滿足了經(jīng)濟統(tǒng)計工作的需要。數(shù)據(jù)挖掘的過程主要包括以下四種方法:
1.預(yù)處理方法首先,要對統(tǒng)計數(shù)據(jù)進(jìn)行預(yù)處理。由于經(jīng)濟統(tǒng)計信息在收集過程中存在一些問題,導(dǎo)致收集到的數(shù)據(jù)存在缺失和模糊現(xiàn)象,這種有缺憾的數(shù)據(jù)信息不能作為數(shù)據(jù)挖掘的基礎(chǔ),因此一定要對數(shù)據(jù)挖掘?qū)ο筮M(jìn)行事先的處理。其中包括對基礎(chǔ)數(shù)據(jù)中不正確、不真實、不準(zhǔn)確和偏差較大的數(shù)據(jù)進(jìn)行甄別。
2.集成化處理方法其次,要對統(tǒng)計數(shù)據(jù)進(jìn)行集成化處理。經(jīng)濟統(tǒng)計過程中,會出現(xiàn)對多個數(shù)據(jù)源進(jìn)行重疊統(tǒng)計的現(xiàn)象,這就要求對數(shù)據(jù)進(jìn)行挖掘之前,要有一個統(tǒng)一整理的過程,即數(shù)據(jù)的集成化處理。數(shù)據(jù)集成在統(tǒng)計中被廣泛的使用。經(jīng)過數(shù)據(jù)集成處理的統(tǒng)計信息更加全面,更加真實,可以作為數(shù)據(jù)挖掘基礎(chǔ)信息。
3.轉(zhuǎn)換方法再有,要對統(tǒng)計數(shù)據(jù)根據(jù)需要進(jìn)行轉(zhuǎn)換。經(jīng)濟統(tǒng)計數(shù)據(jù)的描述形式比較單一,為了滿足數(shù)據(jù)信息使用者的需要,就要對數(shù)據(jù)進(jìn)行轉(zhuǎn)換,使其的表現(xiàn)形式具有泛化或是更加規(guī)范。這里所說的泛化指的是利用更深層次和更加抽象的定義來代替原有的低層數(shù)據(jù)。
4.決策樹方法除卻上述四種處理方法外,還有決策樹方法,指的是對龐雜的經(jīng)濟數(shù)據(jù)進(jìn)行分類,把有利用價值的統(tǒng)計數(shù)據(jù)提煉出來,這種數(shù)據(jù)挖掘形式能夠?qū)Ψ治鰧ο筮M(jìn)行體現(xiàn),并能快速的對信息進(jìn)行分類處理,能夠解決在經(jīng)濟統(tǒng)計過程中出現(xiàn)的各種問題。
三、結(jié)語
關(guān)鍵詞:煙草行業(yè);質(zhì)量管理;數(shù)據(jù)挖掘
煙草行業(yè)在我國市場經(jīng)濟發(fā)展中迅速壯大起來,同時行業(yè)間的競爭也越來越激烈,如何在激烈的競爭中占據(jù)主動是廣大煙草企業(yè)領(lǐng)導(dǎo)者關(guān)心的問題。加強質(zhì)量管理,提高煙草產(chǎn)品質(zhì)量,在很大程度上能夠提升企業(yè)競爭力。采用數(shù)據(jù)挖掘技術(shù),利用大數(shù)據(jù)對行業(yè)發(fā)展規(guī)律進(jìn)行分析,對質(zhì)量管理過程進(jìn)行有效地監(jiān)測,提高企業(yè)質(zhì)量管理的水平,促進(jìn)煙草企業(yè)持續(xù)發(fā)展。
一、數(shù)據(jù)挖掘技術(shù)概述
所謂的數(shù)據(jù)挖掘技術(shù),就是從大量模糊的數(shù)據(jù)中,將其隱含的具有價值的信息提煉出來,在一定程度上與數(shù)據(jù)庫、數(shù)據(jù)融合等概念具有相似性?;谕诰蛉蝿?wù)的視角出發(fā),數(shù)據(jù)挖掘技術(shù)更加強調(diào)對相關(guān)數(shù)據(jù)的聚類以及關(guān)聯(lián)性分析,同時對大量數(shù)據(jù)進(jìn)行整理、歸納,以便做出準(zhǔn)確的預(yù)測任務(wù)。現(xiàn)階段,常用的數(shù)據(jù)挖掘技術(shù)包括遺傳算法、統(tǒng)計分析法、神經(jīng)網(wǎng)絡(luò)法、模糊算法等等。在具體的使用過程中,首先應(yīng)該根據(jù)業(yè)務(wù)的性質(zhì)進(jìn)行重新定義,明確任務(wù)目標(biāo),然后做好相關(guān)的準(zhǔn)備工作,確保數(shù)據(jù)的完整性;隨后進(jìn)行數(shù)據(jù)挖掘以及數(shù)據(jù)分析,將收集的數(shù)據(jù)進(jìn)行整理、分析,得到目標(biāo)數(shù)據(jù)信息;最后,在業(yè)務(wù)處理工作中對這些數(shù)據(jù)信息進(jìn)行妥善的應(yīng)用。
二、煙草行業(yè)質(zhì)量管理現(xiàn)狀
現(xiàn)階段,消費者對煙草行業(yè)質(zhì)量的要求越來越嚴(yán)格,外部環(huán)境控?zé)熞笠苍絹碓骄o迫,盡管在市場經(jīng)濟的良好環(huán)境下,煙草行業(yè)無論從規(guī)模、數(shù)量還是設(shè)備上都得到了顯著的提升,但是在此過程中也形成了大量的數(shù)據(jù)信息。在企業(yè)質(zhì)量管理過程中,主要缺陷體現(xiàn)在以下幾個方面:第一,在質(zhì)量管理過程中,采用傳統(tǒng)的數(shù)據(jù)處理方式,導(dǎo)致質(zhì)量管理部門工作量龐大,數(shù)據(jù)處理結(jié)果的準(zhǔn)確性也不高;第二,煙草行業(yè)質(zhì)量管理方式相對滯后,對數(shù)據(jù)的分析不夠科學(xué),導(dǎo)致采用不科學(xué)的數(shù)據(jù)結(jié)果對煙草質(zhì)量進(jìn)行評價,導(dǎo)致煙草企業(yè)質(zhì)量管理整體質(zhì)量受到影響。第三,質(zhì)量管理中缺少反饋內(nèi)容,使煙草行業(yè)無法及時發(fā)現(xiàn)其中存在的問題并做好相應(yīng)對策以及改進(jìn)與預(yù)防工作。第四,傳統(tǒng)質(zhì)量管理更側(cè)重于某個生產(chǎn)環(huán)節(jié),忽視全局管理,而煙草行業(yè)本身規(guī)模較大且在不同地域中都涉及較多的質(zhì)量管理部門,很多質(zhì)量信息需在較長時間內(nèi)完成流通。對此,便需引入數(shù)據(jù)挖掘中的關(guān)聯(lián)與聚類分析,其中的關(guān)聯(lián)規(guī)則可將數(shù)據(jù)項關(guān)聯(lián)關(guān)系充分挖掘出來,在質(zhì)量管理中更集中體現(xiàn)在產(chǎn)品質(zhì)量預(yù)期特性值的關(guān)系。
三、數(shù)據(jù)挖掘技術(shù)在煙草行業(yè)質(zhì)量管理中的應(yīng)用
加強對數(shù)據(jù)挖掘技術(shù)在煙草行業(yè)質(zhì)量管理工作中應(yīng)用的研究,對煙草企業(yè)質(zhì)量管理工作具有重要意義,對煙草行業(yè)的發(fā)展也具有促進(jìn)作用。在具體分析研究過程中,一般從供應(yīng)商、適量反饋以及生產(chǎn)過程三個角度出發(fā):
1.基于對供應(yīng)商評價的角度
煙草產(chǎn)品生產(chǎn)過程中需要大量的原材料,并且原材料的種類相對較多,包括煙葉原材料以及一些輔助的材料。這些材料的質(zhì)量在很大程度上決定了煙草產(chǎn)品的整體質(zhì)量。供應(yīng)商在某種意義上對原材料質(zhì)量起著重要作用,煙草企業(yè)還需要與供應(yīng)商建立良好的關(guān)系。煙草企業(yè)的相關(guān)部門需要將供應(yīng)商提供的原材料信息進(jìn)行有效地統(tǒng)計、儲存,同時將原材料的合格率作為主要的評價依據(jù)。根據(jù)數(shù)據(jù)挖掘技術(shù)中的關(guān)聯(lián)規(guī)則,將一種原材料對應(yīng)所有的原材料供應(yīng)商,收集并分析所有供應(yīng)商提供的數(shù)據(jù)信息中該原材料的合格率,從而選擇最佳的原材料供應(yīng)商,為煙草質(zhì)量提供保障。
2.基于質(zhì)量反饋的角度
質(zhì)量反饋就是客戶對一件產(chǎn)品質(zhì)量使用后的總結(jié)性評價,通過有效地質(zhì)量反饋,煙草企業(yè)能夠?qū)煵萆a(chǎn)過程、生產(chǎn)工藝、服務(wù)水平等進(jìn)行整改。根據(jù)相關(guān)研究資料顯示:在能夠創(chuàng)造同樣價值的基礎(chǔ)上,新客戶發(fā)展涉及的成本往往是維持與老客戶關(guān)系涉及的成本的五倍,但若由老客戶將企業(yè)口碑向新客戶傳遞將獲得更大的競爭優(yōu)勢,所以企業(yè)發(fā)展中維持老客戶的關(guān)鍵在于使顧客滿意度得以提高。利用數(shù)據(jù)挖掘技術(shù),對顧客反饋的信息進(jìn)行科學(xué)化的分析與管理,總結(jié)客戶對產(chǎn)品質(zhì)量的意見,同時分析出造成這個質(zhì)量問題產(chǎn)生的原因,以便企業(yè)能夠提出針對性的措施,幫助企業(yè)質(zhì)量管理水平的提升,也能夠為煙草企業(yè)迎來更大的經(jīng)濟利潤,讓煙草企業(yè)在激烈競爭中立于不敗之地。
3.煙草生產(chǎn)過程中數(shù)據(jù)挖掘技術(shù)的應(yīng)用
在卷煙生產(chǎn)過程中,煙絲質(zhì)量是備受關(guān)注的問題,煙絲質(zhì)量不僅會受到化學(xué)成分的影響,在生產(chǎn)過程中的一些工藝、操作也會對其質(zhì)量造成影響。在煙絲制作過程中需要經(jīng)過多重工序,同時涉及配方、含雜量等諸多因素,這一過程就會產(chǎn)生大量的數(shù)據(jù)。因此,需要利用數(shù)據(jù)挖掘技術(shù),對煙草生產(chǎn)過程產(chǎn)生的數(shù)據(jù)進(jìn)行存儲、分析,利用神經(jīng)網(wǎng)絡(luò)技術(shù)分析導(dǎo)致煙絲質(zhì)量問題的原因,不斷地優(yōu)化生產(chǎn)工藝參數(shù),同時利用聚類分析手段,對加工過程與煙絲質(zhì)量的關(guān)系進(jìn)行分析,促進(jìn)煙草產(chǎn)品質(zhì)量的提升。
四、總結(jié)
通過上述分析可知,煙草行業(yè)在市場經(jīng)濟發(fā)展中迅速發(fā)展起來,已經(jīng)逐漸成為我國支柱型產(chǎn)業(yè)。然而在煙草行業(yè)質(zhì)量管理過程中,由于對海量數(shù)據(jù)處理技術(shù)滯后,給煙草企業(yè)重大決策以及煙草產(chǎn)品質(zhì)量都造成重大影響。數(shù)據(jù)挖掘技術(shù)的應(yīng)用,不僅能夠幫助企業(yè)選擇最佳合適的原材料供應(yīng)商,還能夠及時地發(fā)現(xiàn)產(chǎn)品質(zhì)量問題,以便對產(chǎn)品生產(chǎn)工藝進(jìn)行優(yōu)化,提高煙草產(chǎn)品質(zhì)量,促進(jìn)煙草行業(yè)健康發(fā)展。
作者:焦麗靜 單位:河北中煙工業(yè)有限責(zé)任公司
參考文獻(xiàn)
[1]張麗榮.數(shù)據(jù)挖掘在煙草行業(yè)質(zhì)量管理中的應(yīng)用[J].科技創(chuàng)新與應(yīng)用,2012,25(8):124-125.
[2]李卓.試析數(shù)據(jù)挖掘技術(shù)在煙草行業(yè)中的應(yīng)用[J].旅游總覽,2014,26(2):99-100.