亚洲激情综合另类男同-中文字幕一区亚洲高清-欧美一区二区三区婷婷月色巨-欧美色欧美亚洲另类少妇

首頁(yè) 優(yōu)秀范文 數(shù)據(jù)挖掘技術(shù)分析論文

數(shù)據(jù)挖掘技術(shù)分析論文賞析八篇

發(fā)布時(shí)間:2022-09-22 13:52:52

序言:寫(xiě)作是分享個(gè)人見(jiàn)解和探索未知領(lǐng)域的橋梁,我們?yōu)槟x了8篇的數(shù)據(jù)挖掘技術(shù)分析論文樣本,期待這些樣本能夠?yàn)槟峁┴S富的參考和啟發(fā),請(qǐng)盡情閱讀。

數(shù)據(jù)挖掘技術(shù)分析論文

第1篇

關(guān)鍵詞:Web數(shù)據(jù)挖掘,邊防情報(bào),應(yīng)用模式

 

隨著科學(xué)技術(shù)的突飛猛進(jìn),社會(huì)信息化的快速發(fā)展, 以信息技術(shù)為主要標(biāo)志的高新技術(shù)革命已經(jīng)引起了社會(huì)各個(gè)領(lǐng)域的深刻變革,網(wǎng)絡(luò)已經(jīng)成為社會(huì)生活不可分割的一部分。每天有數(shù)以億計(jì)的網(wǎng)民在互聯(lián)網(wǎng)上瀏覽、信息,互聯(lián)網(wǎng)已經(jīng)成為信息時(shí)代最為重要的信息集散地。對(duì)于邊防情報(bào)部門(mén)而言,研究如何通過(guò)互聯(lián)網(wǎng)和公安網(wǎng)快速高效地進(jìn)行情報(bào)收集,使各項(xiàng)工作都圍繞收集、運(yùn)用情報(bào)而展開(kāi),已經(jīng)成為當(dāng)務(wù)之急。Web數(shù)據(jù)挖掘技術(shù)的興起,為邊防情報(bào)部門(mén)開(kāi)展工作提供了高效的工具與手段。

一、Web數(shù)據(jù)挖掘技術(shù)

Web數(shù)據(jù)挖掘技術(shù)是由傳統(tǒng)數(shù)據(jù)庫(kù)領(lǐng)域的數(shù)據(jù)挖掘技術(shù)演變而來(lái)。數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的原始數(shù)據(jù)中,提取隱含在其中的、事先未知的、但又潛在有用的信息的過(guò)程;它是從數(shù)據(jù)倉(cāng)庫(kù)中提取出可信的、新穎的、有效的,并能被人理解的模式的高級(jí)處理過(guò)程。數(shù)據(jù)挖掘出現(xiàn)于20世紀(jì)80年代,它不僅面向特定數(shù)據(jù)庫(kù)的簡(jiǎn)單檢索查詢調(diào)用,而且要對(duì)這些數(shù)據(jù)進(jìn)行深入的統(tǒng)計(jì)、分析和推理,發(fā)掘數(shù)據(jù)間的相互關(guān)系,完成從業(yè)務(wù)數(shù)據(jù)到?jīng)Q策信息的轉(zhuǎn)換。數(shù)據(jù)挖掘技術(shù)把人們對(duì)數(shù)據(jù)的應(yīng)用,從低層次的末端查詢提高到為決策者提供決策支持。隨著互聯(lián)網(wǎng)的蓬勃發(fā)展,數(shù)據(jù)挖掘技術(shù)被運(yùn)用到網(wǎng)絡(luò)上,并根據(jù)網(wǎng)絡(luò)信息的特點(diǎn)發(fā)展出了新的理論與方法,演變成為Web數(shù)據(jù)挖掘技術(shù)。Web數(shù)據(jù)挖掘是指從與WWW有關(guān)的資源和行為中抽取人們感興趣的、有用的模式和隱含信息,所挖掘出的知識(shí)能夠用于信息管理、查詢處理、決策支持、過(guò)程控制等方面。Web數(shù)據(jù)挖掘已經(jīng)成為對(duì)互聯(lián)網(wǎng)信息進(jìn)行深度分析、開(kāi)發(fā)與利用的重要手段。

二、Web數(shù)據(jù)挖掘的分類

(一)Web內(nèi)容挖掘

Web內(nèi)容挖掘是指從互聯(lián)網(wǎng)上檢索資源,從相關(guān)文件內(nèi)容及描述信息中獲取有價(jià)值的潛在信息。根據(jù)處理對(duì)象的不同,Web內(nèi)容挖掘分為文本挖掘和多媒體挖掘。網(wǎng)上信息形式多以文本信息的形式存在。文本可以被看作是一種順序數(shù)據(jù),目前有許多適合于順序數(shù)據(jù)的挖掘方法。Web文本信息挖掘的主要任務(wù)一般限定在文本特征的表示、文本的總結(jié),以及文本的分類和聚類等方面。互聯(lián)網(wǎng)現(xiàn)有大量多媒體信息。對(duì)該類信息進(jìn)行分析挖掘,找出合適的描述模式,闡述并理解其中的意義,可提高該類信息的識(shí)別度及檢索效率,也是Web多媒體挖掘的目標(biāo)。論文大全。目前此方面應(yīng)用的技術(shù)手段主要是語(yǔ)音信息的理解及識(shí)別、圖形圖像信息的理解及識(shí)別,以及信息檢索等。

(二) Web結(jié)構(gòu)挖掘

Web結(jié)構(gòu)挖掘的目標(biāo)是Web文檔的鏈接結(jié)構(gòu),目的在于揭示蘊(yùn)涵于文檔結(jié)構(gòu)中的信息,主要方法是通過(guò)對(duì)Web站點(diǎn)的結(jié)構(gòu)進(jìn)行分析、變形和歸納,將Web頁(yè)面進(jìn)行分類,以利于信息的搜索。對(duì)Web頁(yè)的鏈接結(jié)構(gòu)進(jìn)行分類,可以識(shí)別判斷頁(yè)面與文檔間的各種屬性關(guān)系。由于Web頁(yè)的內(nèi)外部存在具有各種屬性關(guān)系的結(jié)構(gòu)信息,通過(guò)研究Web結(jié)構(gòu)信息,可得到相關(guān)主題、相關(guān)分類的頁(yè)面集合,生成關(guān)于某個(gè)Web站點(diǎn)的結(jié)構(gòu)和頁(yè)面結(jié)構(gòu)的概括信息。因此,結(jié)構(gòu)挖掘的重點(diǎn)在于鏈接信息。

(三) Web日志挖掘

Web日志挖掘是從服務(wù)器訪問(wèn)日志、用戶策略、用戶對(duì)話和事物處理信息中得到用戶的訪問(wèn)模式和感興趣的信息,并盡可能預(yù)測(cè)用戶的行為。通過(guò)對(duì)用戶所訪問(wèn)頁(yè)面、文檔等的技術(shù)分析,Web日志挖掘可以找出相關(guān)主題間、相關(guān)內(nèi)容間的聯(lián)系規(guī)律。訪問(wèn)分析又稱使用分析,主要使用用戶基本信息如IP、ID、URL、日期、時(shí)間等進(jìn)行處理。由于Web服務(wù)器的Log日志存在完整的結(jié)構(gòu),當(dāng)用戶訪問(wèn)Web站點(diǎn)時(shí),相關(guān)的頁(yè)面、文檔、鏈接等信息在日志中都做了相應(yīng)的記錄。Web日志挖掘不僅要找出用戶經(jīng)常訪問(wèn)的URL路徑,而且也要找出用戶有可能要訪問(wèn)的相關(guān)站點(diǎn)的鏈接。利用這種方法,可以獲知互聯(lián)網(wǎng)使用者的行為偏好。

三、Web數(shù)據(jù)挖掘的主要方法

(一)統(tǒng)計(jì)分析方法

統(tǒng)計(jì)分析(statistical)方法是通過(guò)對(duì)總體中的樣本數(shù)據(jù)進(jìn)行分析,從而描述和推斷能夠揭示總體中的內(nèi)部規(guī)律的信息和知識(shí)的方法。為了適應(yīng)復(fù)雜信息的挖掘需求,往往依賴有明確目標(biāo)和任務(wù)的概率模型。數(shù)據(jù)挖掘的統(tǒng)計(jì)模型要適合于所要提取的對(duì)象。利用統(tǒng)計(jì)分析技術(shù)可以對(duì)我們感興趣的內(nèi)容進(jìn)行蘊(yùn)含信息的挖掘。如對(duì)互聯(lián)網(wǎng)日志進(jìn)行統(tǒng)計(jì)可以獲得有關(guān)站點(diǎn)使用的基本信息,包括頁(yè)面訪問(wèn)次數(shù)、日平均訪問(wèn)人數(shù)、最受用戶歡迎的頁(yè)面等。除此以外,還可以進(jìn)行錯(cuò)誤分析,如非法用戶登錄等。這些統(tǒng)計(jì)數(shù)據(jù)都是基于用戶瀏覽頁(yè)面的時(shí)間、用戶的瀏覽路徑和路徑長(zhǎng)度等信息。這些統(tǒng)計(jì)數(shù)據(jù)對(duì)于提高系統(tǒng)的性能、安全性以及優(yōu)化站點(diǎn)結(jié)構(gòu)大有幫助。目前已有許多互聯(lián)網(wǎng)流量分析工具實(shí)現(xiàn)了這些基本的統(tǒng)計(jì)功能。

(二)關(guān)聯(lián)分析方法

關(guān)聯(lián)分析(associationanalysis)用于發(fā)現(xiàn)關(guān)聯(lián)規(guī)則,所謂關(guān)聯(lián)規(guī)則是指在大量的數(shù)據(jù)中所隱含的項(xiàng)集之間的關(guān)系以及項(xiàng)集的頻繁模式。用戶在瀏覽網(wǎng)頁(yè)時(shí),經(jīng)常會(huì)在同一次訪問(wèn)中瀏覽一些無(wú)順序關(guān)系的頁(yè)面集合,挖掘發(fā)現(xiàn)的這些頁(yè)面之間內(nèi)在的聯(lián)系,就是就表現(xiàn)為它們之間存在一定的關(guān)聯(lián)。如果關(guān)聯(lián)規(guī)則中的頁(yè)面之間沒(méi)有超鏈接,則應(yīng)該引起我們的特別關(guān)注。通常使用可信度、支持度、期望可信度和作用度這四個(gè)參數(shù)來(lái)描述關(guān)聯(lián)規(guī)則。

(三)分類方法

分類(classification)是找出描述并區(qū)分?jǐn)?shù)據(jù)類或概念的模型(或函數(shù)),以便能夠使用模型預(yù)測(cè)類標(biāo)記未知的對(duì)象類。分類不同于聚類,聚類無(wú)須事先制定標(biāo)準(zhǔn),而能從信息本身出發(fā),利用算法自動(dòng)分類;而分類的準(zhǔn)則是事先定好的。在Web數(shù)據(jù)挖掘中,分類主要是將用戶配置文件歸屬到既定的用戶類別,網(wǎng)頁(yè)根據(jù)內(nèi)容的屬性分類等。分類技術(shù)要求抽取關(guān)鍵屬性描述已知的信息,可以通過(guò)指導(dǎo)性歸納學(xué)習(xí)算法進(jìn)行分類,主要包括決策樹(shù)分類法、貝葉斯分類法、最近鄰分類法等。

(四)聚類分析方法

聚類(clustering)就是將數(shù)據(jù)對(duì)象分組成為多個(gè)類或簇,在同一個(gè)簇中的對(duì)象之間具有較高的相似度,而不同簇中的對(duì)象差別較大。聚類分析能夠?qū)⒁慌鷶?shù)據(jù)按照它們?cè)谛再|(zhì)上的親密程度,在沒(méi)有先驗(yàn)知識(shí)的情況下自動(dòng)進(jìn)行分類,每一類都是大量具有相似性個(gè)體的集合,不同類之間具有明顯的區(qū)別。聚類分析是一種探索性分析,在分類過(guò)程中,人們不必事先給出一個(gè)分類的標(biāo)準(zhǔn),聚類分析能夠從信息本身出發(fā),自動(dòng)進(jìn)行分類。例如在Web日志挖掘中,聚類分析主要集中于用戶聚類和頁(yè)面聚類。用戶聚類將具有相似瀏覽行為的用戶歸類;頁(yè)面聚類則是將內(nèi)容相關(guān)的頁(yè)面歸類,搜索引擎可以利用這些信息為某個(gè)查詢提供用戶感興趣的相關(guān)超鏈接。

四、Web數(shù)據(jù)挖掘在邊防情報(bào)工作中的應(yīng)用模式

(一)Web數(shù)據(jù)挖掘在建立公安網(wǎng)搜索引擎中的應(yīng)用

目前,邊防情報(bào)部門(mén)所需的公開(kāi)信息大部分來(lái)源于互聯(lián)網(wǎng)和公安網(wǎng),情報(bào)人員通過(guò)使用搜索引擎來(lái)快速查詢需要的信息,然而公安網(wǎng)的搜索引擎存在較大局限性,搜索出來(lái)的結(jié)果存在大量冗余信息,不能滿足情報(bào)人員的需求。因此,在搜索引擎中通過(guò)借鑒Web數(shù)據(jù)挖掘技術(shù)可以有效地提高查準(zhǔn)率和查全率,從而給情報(bào)人員提供較有準(zhǔn)確的信息。具體應(yīng)用方法如下:

1.根據(jù)公安網(wǎng)的頁(yè)面內(nèi)容,自動(dòng)形成摘要

目前,使用公安網(wǎng)搜索引擎進(jìn)行檢索,檢索的結(jié)果文檔是以簡(jiǎn)單摘要形式出現(xiàn)的,它表現(xiàn)為機(jī)械地提取網(wǎng)頁(yè)內(nèi)容取前幾句為摘要,這種僅通過(guò)位置進(jìn)行自動(dòng)摘要是很難真正反映出網(wǎng)頁(yè)中的信息內(nèi)容。論文大全。在文本挖掘中的文本抽取技術(shù)是指從文檔中抽取出關(guān)鍵信息,然后以簡(jiǎn)潔的形式對(duì)文檔的信息進(jìn)行摘要或描述,即文本抽取技術(shù)是根據(jù)Web文檔本身的內(nèi)容,從Web頁(yè)中提煉出重要信息形成文檔摘要,而不是根據(jù)位置來(lái)進(jìn)行文本內(nèi)容的概括,因此它更能夠反映出Web文檔中的真正信息。論文大全。這樣,情報(bào)人員通過(guò)瀏覽關(guān)鍵詞就可以了解網(wǎng)頁(yè)的大致內(nèi)容,從而決定是否使用該信息。

2.根據(jù)檢索結(jié)果,自動(dòng)進(jìn)行文檔聚類

文本聚類是文本分類的逆向過(guò)程,是指將文檔集中的文檔分為更小的簇,要求同一簇內(nèi)文檔之間的相似性盡可能大,而簇與簇之間的關(guān)系盡可能小,這些簇相當(dāng)于分類表中的類目。情報(bào)人員在使用搜索引擎時(shí),會(huì)得到大量的返回信息組成的線性表,而其中很大一部分是與其查詢請(qǐng)求不相關(guān)的,于是通過(guò)對(duì)檢索結(jié)果的文檔集合進(jìn)行聚類,可以使得與用戶檢索結(jié)果相關(guān)的文檔集中在一起,并遠(yuǎn)離那些不相關(guān)的文檔。再將處理以后的信息以超鏈接結(jié)構(gòu)組織的層次方式可視化地提供給情報(bào)人員,從而大大減短瀏覽時(shí)間。

(二)Web數(shù)據(jù)挖掘在建立公安網(wǎng)站中的應(yīng)用

公安網(wǎng)網(wǎng)站是公安網(wǎng)信息的容納處,我們可以利用Web數(shù)據(jù)挖掘技術(shù)有效地組織網(wǎng)站信息,建立一個(gè)資源優(yōu)化的網(wǎng)站,也就是說(shuō)通過(guò)對(duì)網(wǎng)站內(nèi)容的數(shù)據(jù)挖掘,主要是對(duì)文本內(nèi)容的挖掘,如采用自動(dòng)歸類技術(shù)實(shí)現(xiàn)網(wǎng)站信息的層次性組織;以及結(jié)合對(duì)用戶訪問(wèn)日志記錄信息的挖掘,把握用戶的興趣,開(kāi)展網(wǎng)站信息推送服務(wù)。

1.采用自動(dòng)歸類技術(shù),實(shí)現(xiàn)公安網(wǎng)網(wǎng)站信息層次化

一般而言,網(wǎng)站提供給訪問(wèn)者的信息和服務(wù)應(yīng)該是按優(yōu)先次序進(jìn)行排列,網(wǎng)站維護(hù)人員應(yīng)該把重要的信息放在醒目的位置,因此在網(wǎng)站維護(hù)時(shí),通過(guò)對(duì)網(wǎng)站內(nèi)容挖掘和Web日志挖掘,可以有效地組織網(wǎng)站信息。例如:采用自動(dòng)歸類技術(shù)實(shí)現(xiàn)網(wǎng)站信息層次化;分析訪問(wèn)者的訪問(wèn)行為,可為用戶提供智能化、個(gè)性化服務(wù)。還可根據(jù)訪問(wèn)者的訪問(wèn)興趣、訪問(wèn)頻度、訪問(wèn)時(shí)間,動(dòng)態(tài)地調(diào)整頁(yè)面結(jié)構(gòu)。

2.采用日志挖掘技術(shù),實(shí)現(xiàn)公安網(wǎng)網(wǎng)站信息推送服務(wù)

網(wǎng)站可以根據(jù)訪問(wèn)者的瀏覽情況,發(fā)現(xiàn)訪問(wèn)者的興趣,定期為注冊(cè)用戶提供相關(guān)信息,并且調(diào)整網(wǎng)站中網(wǎng)頁(yè)的鏈接結(jié)構(gòu)和內(nèi)容,為訪問(wèn)者提供個(gè)人定制服務(wù)。具體步驟為:首先將日志文件中的數(shù)據(jù)經(jīng)過(guò)預(yù)處理,形成原始數(shù)據(jù)庫(kù);然后獲取用戶的訪問(wèn)模式,放入用戶訪問(wèn)模式數(shù)據(jù)庫(kù);再通過(guò)數(shù)據(jù)挖掘和模式分析形成知識(shí)數(shù)據(jù)庫(kù),Web服務(wù)器自動(dòng)更新知識(shí)數(shù)據(jù)庫(kù),采用動(dòng)態(tài)主頁(yè)設(shè)計(jì)方法,根據(jù)用戶的知識(shí)信息,提供相應(yīng)的個(gè)性化主頁(yè)。在數(shù)據(jù)預(yù)處理過(guò)程中會(huì)話識(shí)別是重要的一步,它取決于用戶訪問(wèn)模式的有效性和準(zhǔn)確性。為提高準(zhǔn)確性,可采用Cookie法進(jìn)行會(huì)話識(shí)別。在呈現(xiàn)個(gè)性化主頁(yè)時(shí),利用用戶的IP地址和Cookie值查詢知識(shí)數(shù)據(jù)庫(kù),發(fā)現(xiàn)用戶頻繁訪問(wèn)的路徑,并自動(dòng)形成相應(yīng)鏈接,根據(jù)相似用戶群和相關(guān)Web頁(yè)推薦給用戶。由于是經(jīng)過(guò)挖掘和分析后所產(chǎn)生的動(dòng)態(tài)主頁(yè),相對(duì)于一般的主頁(yè),其針對(duì)性更強(qiáng),更受用戶的歡迎。

參考文獻(xiàn):

[1]葉鷹.情報(bào)學(xué)基礎(chǔ)教程[M].科學(xué)出版社,2006

[2]栗湘等.Web挖掘應(yīng)用研究[J]情報(bào)理論與實(shí)踐,2005,(6)

[3]曼麗春等.Web數(shù)據(jù)挖掘研究與探討[J].現(xiàn)在電子技術(shù),2006,(8)

[4]徐險(xiǎn)峰.基于Web的網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)[J].情報(bào)雜志,2005,(3)

第2篇

文獻(xiàn)標(biāo)識(shí)碼:A

計(jì)算機(jī)領(lǐng)域新技術(shù)應(yīng)用使各行業(yè)生成、收集和存儲(chǔ)了大量數(shù)據(jù)。大量信息數(shù)據(jù)給社會(huì)帶來(lái)方便也帶來(lái)大堆問(wèn)題:信息過(guò)量,難以消化;信息真假難以辨識(shí);信息安全難以保證;信息形式不一致而難以統(tǒng)一處理。一般數(shù)據(jù)庫(kù)系統(tǒng)可高效實(shí)現(xiàn)數(shù)據(jù)錄入、查詢與統(tǒng)計(jì)等功能,卻無(wú)法發(fā)現(xiàn)數(shù)據(jù)存在的關(guān)系和規(guī)則。如何辨析信息和如何不被信息淹沒(méi)已經(jīng)成為現(xiàn)實(shí)問(wèn)題。一、數(shù)據(jù)挖掘直面數(shù)據(jù)豐富而知識(shí)匱乏的挑戰(zhàn)

面對(duì)信息社會(huì)帶來(lái)的“數(shù)據(jù)豐富而知識(shí)匱乏”的現(xiàn)實(shí)挑戰(zhàn),數(shù)據(jù)挖掘(Data Mining,DM)和知識(shí)發(fā)現(xiàn)(Knowledge Discovery,KD)技術(shù)應(yīng)運(yùn)而生,伴隨計(jì)算機(jī)新技術(shù)和新理論的出現(xiàn)而發(fā)展,在電信與銀行,生物及大型超市等領(lǐng)域運(yùn)用效果顯著。數(shù)據(jù)挖掘有時(shí)又稱作數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)(KDD),此術(shù)語(yǔ)出現(xiàn)于1989年,從數(shù)據(jù)集識(shí)別有效與新穎的,潛在有用的,最終可理解的模式過(guò)程。KDD過(guò)程常指多階段處理,包括數(shù)據(jù)準(zhǔn)備與模式搜索,知識(shí)評(píng)價(jià)及反復(fù)修改求精;該過(guò)程要有智能性和自動(dòng)性。有效性指發(fā)現(xiàn)新數(shù)據(jù)仍保持可信度,新穎性要求模式應(yīng)是新的,潛在有用性指發(fā)現(xiàn)的知識(shí)將來(lái)有效用,最終可理解性要求發(fā)現(xiàn)模式能被用戶所理解,幾項(xiàng)綜合在一起稱為數(shù)據(jù)的科學(xué)性豍。

數(shù)據(jù)挖掘的界定。數(shù)據(jù)挖掘是從存放在數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)或其它存儲(chǔ)信息庫(kù)中的海量數(shù)據(jù)挖掘有趣知識(shí)過(guò)程。一般的定義是:數(shù)據(jù)挖掘是從大量、不完全、有噪聲、模糊、隨機(jī)的數(shù)據(jù)中抽取隱含其中,事先不為人所知、潛在、有效、新穎、有用和最終可理解知識(shí)的過(guò)程。研究人工智能學(xué)術(shù)人員和計(jì)算機(jī)技術(shù)專家通常所說(shuō)數(shù)據(jù)挖掘名稱各異但實(shí)質(zhì)一樣。自然世界數(shù)據(jù)以多種多樣形式存放,除最常見(jiàn)數(shù)字與字符等類型,還有許多復(fù)雜數(shù)據(jù)。復(fù)雜類型數(shù)據(jù)挖掘包括:空間數(shù)據(jù)挖掘和多媒體數(shù)據(jù)挖掘,時(shí)序數(shù)據(jù)挖掘和文本數(shù)據(jù)挖掘,Web數(shù)據(jù)挖掘與流數(shù)據(jù)挖掘等。數(shù)據(jù)挖掘與傳統(tǒng)數(shù)學(xué)統(tǒng)計(jì)分析有區(qū)別,數(shù)據(jù)挖掘在沒(méi)有明確假設(shè)前提下自動(dòng)建立方程,可采用不同類型如文本、聲音、圖片等的數(shù)據(jù)挖掘興趣模式;統(tǒng)計(jì)數(shù)據(jù)分析工具側(cè)重被動(dòng)分析,需建立方程或模型來(lái)與假設(shè)吻合,最終面對(duì)數(shù)字化數(shù)據(jù);數(shù)據(jù)挖掘是主動(dòng)發(fā)現(xiàn)型與預(yù)測(cè)型數(shù)據(jù)分析工具,分析重點(diǎn)在于預(yù)測(cè)未來(lái)未知潛在情況并解釋原因。二、軟件工程的產(chǎn)生與數(shù)據(jù)實(shí)用性

軟件工程概念源自軟件危機(jī),20世紀(jì)60年代末的“軟件危機(jī)”這個(gè)詞語(yǔ)頻繁出現(xiàn)計(jì)算機(jī)軟件領(lǐng)域,泛指計(jì)算機(jī)軟件開(kāi)發(fā)和維護(hù)所遇到的系列嚴(yán)重問(wèn)題。在軟件開(kāi)發(fā)和維護(hù)過(guò)程中的軟件危機(jī)表現(xiàn)為軟件需求的增長(zhǎng)得不到滿足,軟件開(kāi)發(fā)成本和進(jìn)度無(wú)法控制,軟件質(zhì)量難保證,軟件維護(hù)程度非常低,軟件成本不斷提高,軟件開(kāi)發(fā)生產(chǎn)率趕不上計(jì)算機(jī)硬件發(fā)展和各種應(yīng)用需求增長(zhǎng)等。軟件危機(jī)產(chǎn)生的宏觀原因是軟件日益深入社會(huì)生活,軟件需求增長(zhǎng)速度超過(guò)軟件生產(chǎn)率提高,具體軟件工程任務(wù)的許多困難來(lái)源于軟件工程所面臨任務(wù)和其他工程之間各種差異以及軟件和其他工業(yè)產(chǎn)品的差異,即特殊性。軟件開(kāi)發(fā)和維護(hù)過(guò)程存在的問(wèn)題,與計(jì)算機(jī)軟件本身特點(diǎn)有關(guān),軟件開(kāi)發(fā)過(guò)程進(jìn)度很難衡量,軟件質(zhì)量難以評(píng)價(jià),管理和控制軟件開(kāi)發(fā)過(guò)程困難等。計(jì)算機(jī)軟件專家認(rèn)真研究解決軟件危機(jī)方法,逐步形成軟件工程概念,開(kāi)辟工程學(xué)新領(lǐng)域即軟件工程學(xué)。軟件工程用工程、科學(xué)和數(shù)學(xué)原理與方法研制與維護(hù)計(jì)算機(jī)軟件有關(guān)技術(shù)及管理的方法。

軟件工程針對(duì)數(shù)據(jù)的處理具有系統(tǒng)的規(guī)范的系列辦法。1993年IEEE(電氣和電子工程師學(xué)會(huì))給軟件工程綜合定義為:將系統(tǒng)化、規(guī)范和可度量的方法應(yīng)用于軟件開(kāi)發(fā)、測(cè)試、運(yùn)行和維護(hù)全過(guò)程,即將工程化應(yīng)用于軟件數(shù)據(jù)等設(shè)計(jì)中。軟件工程包括方法、工具和過(guò)程三個(gè)要素,方法是完成軟件工程項(xiàng)目技術(shù)手段;工具支持軟件開(kāi)發(fā)、管理與文檔生成;過(guò)程支持軟件開(kāi)發(fā)各個(gè)環(huán)節(jié)控制與管理。軟件工程的發(fā)展伴隨計(jì)算機(jī)與數(shù)據(jù)等相關(guān)技術(shù)的發(fā)展而進(jìn)步。三、軟件工程的知識(shí)庫(kù)應(yīng)用數(shù)據(jù)挖掘技術(shù)

蘊(yùn)含數(shù)據(jù)的特殊軟件的生命周期也是一個(gè)極其復(fù)雜演變過(guò)程,各個(gè)階段都會(huì)產(chǎn)生大量軟件數(shù)據(jù)。在設(shè)計(jì)文檔與程序源代碼,交流歷史與Bug報(bào)告,軟件運(yùn)行日志等方面產(chǎn)生的大量數(shù)據(jù),必然存在著對(duì)軟件開(kāi)發(fā)和維護(hù)具有重要價(jià)值的信息。如能充分利用數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)這些數(shù)據(jù)隱藏的知識(shí),可提高開(kāi)發(fā)效率并避免錯(cuò)誤,增強(qiáng)軟件系統(tǒng)運(yùn)行穩(wěn)定性和可信性。利用數(shù)據(jù)挖掘技術(shù)處理軟件產(chǎn)生大量數(shù)據(jù)想法在上世紀(jì)70年代就出現(xiàn),但直到最近軟件數(shù)據(jù)挖掘領(lǐng)域才受到越來(lái)越多學(xué)者關(guān)注豏。軟件工程國(guó)際會(huì)議出現(xiàn)關(guān)于軟件數(shù)據(jù)挖掘研究工作組,許多數(shù)據(jù)挖掘會(huì)議與期刊陸續(xù)出現(xiàn)多篇高質(zhì)量與軟件工程相關(guān)學(xué)術(shù)論文,軟件數(shù)據(jù)挖掘已成為越來(lái)越關(guān)注熱點(diǎn)的研究領(lǐng)域。

第3篇

[關(guān)鍵詞]數(shù)據(jù)挖掘 風(fēng)險(xiǎn)評(píng)估 集裝箱

一、引言

隨著我國(guó)對(duì)外貿(mào)易的快速發(fā)展,進(jìn)境箱量顯著增長(zhǎng)?!笆晃濉逼陂g,檢出攜帶疫情及有毒有害物質(zhì)箱數(shù)呈持續(xù)增長(zhǎng)趨勢(shì)。僅2010年度,共受理進(jìn)境集裝箱申報(bào)3699.06萬(wàn)箱,同比增長(zhǎng)14.04%,檢出攜帶疫情或有毒有害物質(zhì)的43.66萬(wàn)箱,比去年同期提高了28.20%。進(jìn)境檢出疫情箱數(shù)占查驗(yàn)箱數(shù)的比例(即查驗(yàn)檢出率)為3.26%,同比提高0.43個(gè)百分點(diǎn)。這反映出進(jìn)境集裝箱攜帶疫情及有毒有害物質(zhì)情況十分普遍,進(jìn)境集裝箱檢疫面臨形勢(shì)十分嚴(yán)峻。

目前,在進(jìn)境集裝箱檢疫工作中主要采用以人工判斷為主的經(jīng)驗(yàn)式方法,效率比較低,工作量繁重,經(jīng)驗(yàn)知識(shí)傳承性差。但是在多年來(lái)的實(shí)踐過(guò)程中,我們已經(jīng)積累了大量的經(jīng)驗(yàn)和數(shù)據(jù)。通過(guò)數(shù)據(jù)挖掘技術(shù)在已有的數(shù)據(jù)中發(fā)現(xiàn)未知的模式和知識(shí)可以為入境集裝箱風(fēng)險(xiǎn)進(jìn)行評(píng)估,并為檢疫業(yè)務(wù)決策提供輔助支持。

二、數(shù)據(jù)挖掘技術(shù)

數(shù)據(jù)挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程。簡(jiǎn)而言之,數(shù)據(jù)挖掘其實(shí)是一類深層次的數(shù)據(jù)分析方法。數(shù)據(jù)挖掘已廣泛應(yīng)用于生物醫(yī)學(xué)、金融、零售業(yè)、電信業(yè)、海關(guān)監(jiān)管等領(lǐng)域,并產(chǎn)生了巨大的效益。數(shù)據(jù)挖掘技術(shù)同樣能夠?qū)⒋罅康臋z疫數(shù)據(jù)提煉、轉(zhuǎn)化為可以理解和應(yīng)用的模式和知識(shí)來(lái)指導(dǎo)檢疫業(yè)務(wù)。

數(shù)據(jù)分類(DataClassification)是數(shù)據(jù)挖掘技術(shù)的一個(gè)重要分支。從根本上說(shuō),數(shù)據(jù)分類就是通過(guò)對(duì)源數(shù)據(jù)的特點(diǎn)進(jìn)行歸納和描述。要進(jìn)行數(shù)據(jù)分類,必須使用特定的分類工具,方法主要包括:ID3算法、C4.5算法、SPRINT算法、SLIQ算法、EM算法、AQ算法、CN2算法等。數(shù)據(jù)分類是數(shù)據(jù)挖掘的基本功能、重要功能,目前在商業(yè)、工業(yè)、軍事、生活、海關(guān)監(jiān)管上應(yīng)用最多,具有非常高的使用價(jià)值。

三、數(shù)據(jù)概念模型

根據(jù)從進(jìn)境集裝箱中檢出疫情及有毒有害物質(zhì)情況的不同,將檢出問(wèn)題分為7類,分別是:①人類傳染病和動(dòng)物傳染病病原體;②植物危性病、蟲(chóng)、雜草以及其它有害生物;③嚙齒動(dòng)物、蚊、蠅、蟑螂等病媒生物;④土壤、動(dòng)物尸體等禁止進(jìn)境物;⑤動(dòng)植物殘留物;⑥生活垃圾及其他有毒有害物質(zhì);⑦其他問(wèn)題——7類問(wèn)題,對(duì)應(yīng)每一類問(wèn)題需要建立一個(gè)可用于數(shù)據(jù)挖掘的數(shù)據(jù)概念模型,其主要包括:

(1)7大類問(wèn)題集裝箱同諸如:①來(lái)源地;②箱主公司;③承運(yùn)人;④貨運(yùn)方式等特征數(shù)據(jù)存在哪些未知的、潛在有用的模式和知識(shí),明確對(duì)每類問(wèn)題集裝箱產(chǎn)生影響的特征數(shù)據(jù),建立一套對(duì)應(yīng)各類問(wèn)題集裝箱的風(fēng)險(xiǎn)數(shù)據(jù)字典;

(2)CIQ數(shù)據(jù)庫(kù)中并不包含所有的特征數(shù)據(jù),一些重要的特征數(shù)據(jù)需要通過(guò)與場(chǎng)站、貨運(yùn)公司的比對(duì)才能獲得。同時(shí),要對(duì)數(shù)據(jù)進(jìn)行采集、清洗、轉(zhuǎn)換等步驟,建立可以用于數(shù)據(jù)挖掘的數(shù)據(jù)概念模型。

四、風(fēng)險(xiǎn)評(píng)估模型

對(duì)進(jìn)境集裝箱進(jìn)行風(fēng)險(xiǎn)評(píng)估主要用到數(shù)據(jù)挖掘中的重要分支——分類技術(shù),建立和完善風(fēng)險(xiǎn)評(píng)估模型關(guān)系到風(fēng)險(xiǎn)評(píng)估系統(tǒng)研究的成敗,主要研究?jī)?nèi)容如下:

(1)分類技術(shù)有ID3算法、C4.5算法、SPRINT算法、SLIQ算法等,結(jié)合檢疫工作實(shí)際選擇合適的算法進(jìn)行數(shù)據(jù)挖掘,并在實(shí)踐中對(duì)模型進(jìn)行修正和完善;

(2)選擇和使用SAS公司提供的SAS/BASE、SAS/STAT、SAS/LAB等模塊化分析工具對(duì)7類問(wèn)題集裝箱進(jìn)行逐類數(shù)據(jù)挖掘、建模。

五、典型系統(tǒng)應(yīng)用開(kāi)發(fā)

基于上述的研究成果,設(shè)計(jì)實(shí)現(xiàn)一個(gè)基于數(shù)據(jù)挖掘技術(shù)的進(jìn)境集裝箱風(fēng)險(xiǎn)評(píng)估管理系統(tǒng),重點(diǎn)關(guān)注下面系統(tǒng),如圖1所示:

(1)面向檢疫查驗(yàn)人員設(shè)計(jì)并實(shí)現(xiàn)一個(gè)基于Web技術(shù)的軟件系統(tǒng),通過(guò)此軟件,檢疫管理人員可以將已有風(fēng)險(xiǎn)評(píng)估模型軟件化,系統(tǒng)接收進(jìn)境集裝箱特征數(shù)據(jù),自動(dòng)對(duì)風(fēng)險(xiǎn)進(jìn)行預(yù)評(píng)估。同時(shí),將用于風(fēng)險(xiǎn)評(píng)估的數(shù)據(jù)獨(dú)立于CIQ數(shù)據(jù)庫(kù)存在,為以后進(jìn)一步完善風(fēng)險(xiǎn)評(píng)估模型提供數(shù)據(jù)庫(kù)支持。

(2)面向檢疫查驗(yàn)人員設(shè)計(jì)并實(shí)現(xiàn)一個(gè)軟件終端,考慮到檢疫查驗(yàn)一線人員工作環(huán)境分散、移動(dòng)的特點(diǎn),重點(diǎn)面向主流嵌入式系統(tǒng)(Apple、Angel、Symban、Windows-Mobile等)和移動(dòng)終端(如手機(jī)、PDA、iPOD等)展開(kāi)研發(fā)。

圖 基于數(shù)據(jù)挖掘技術(shù)的風(fēng)險(xiǎn)評(píng)估系統(tǒng)

六、結(jié)論

針對(duì)出入境檢驗(yàn)檢疫部門(mén)在對(duì)進(jìn)境集裝箱檢疫查驗(yàn)中盲目性大、工作效率低等客觀實(shí)際,研究一個(gè)基于數(shù)據(jù)挖掘技術(shù)的進(jìn)境集裝箱風(fēng)險(xiǎn)評(píng)估模型,并將其軟件化、實(shí)用化,通過(guò)軟件自動(dòng)對(duì)進(jìn)境集裝箱進(jìn)行風(fēng)險(xiǎn)等級(jí)評(píng)估,指導(dǎo)日常檢疫查驗(yàn)工作,降低檢驗(yàn)查驗(yàn)的盲目性,提升檢疫查驗(yàn)人員的工作效率,提高把關(guān)成效。

參考文獻(xiàn):

[1]舒軍生.數(shù)據(jù)挖掘技術(shù)在企業(yè)信用分類管理系統(tǒng)中的應(yīng)用.安徽:安徽大學(xué)碩士論文.2010

[2]高燕. 基于數(shù)據(jù)挖掘技術(shù)的海關(guān)執(zhí)法評(píng)估系統(tǒng)的研究與開(kāi)發(fā).武漢:武漢理工大學(xué)碩士論文.2002

第4篇

論文關(guān)鍵詞:數(shù)據(jù)挖掘;電子商務(wù);web數(shù)據(jù)挖掘 

 

1 引言 

當(dāng)前,隨著網(wǎng)絡(luò)技術(shù)的發(fā)展和數(shù)據(jù)庫(kù)技術(shù)的迅猛發(fā)展,有效推動(dòng)了商務(wù)活動(dòng)由傳統(tǒng)活動(dòng)向電子商務(wù)變革。電子商務(wù)就是利用計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)以及遠(yuǎn)程通信技術(shù),實(shí)現(xiàn)整個(gè)商務(wù)活動(dòng)的電子化、數(shù)字化和網(wǎng)絡(luò)化?;趇nternet的電子商務(wù)快速發(fā)展,使現(xiàn)代企業(yè)積累了大量的數(shù)據(jù),這些數(shù)據(jù)不僅能給企業(yè)帶來(lái)更多有用信息,同時(shí)還使其他現(xiàn)代企業(yè)管理者能夠及時(shí)準(zhǔn)確的搜集到大量的數(shù)據(jù)。訪問(wèn)客戶提供更多更優(yōu)質(zhì)的服務(wù),成為電子商務(wù)成敗的關(guān)鍵因素,因而受到現(xiàn)代電子商務(wù)經(jīng)營(yíng)者的高度關(guān)注,這也對(duì)計(jì)算機(jī)web數(shù)據(jù)技術(shù)提出了新的要求,web 數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生。它是一種能夠從網(wǎng)上獲取大量數(shù)據(jù),并能有效地提取有用信息供企業(yè)決策者分析參考,以便科學(xué)合理制定和調(diào)整營(yíng)銷策略,為客戶提供動(dòng)態(tài)、個(gè)性化、高效率服務(wù)的全新技術(shù)。目前,它已成為電子商務(wù)活動(dòng)中不可或缺的重要載體。 

2 計(jì)算機(jī)web數(shù)據(jù)挖掘概述 

2.1 計(jì)算機(jī)web數(shù)據(jù)挖掘的由來(lái) 

計(jì)算機(jī)web數(shù)據(jù)挖掘是一個(gè)在web資源上將對(duì)自己有用的數(shù)據(jù)信息進(jìn)行篩選的過(guò)程。web數(shù)據(jù)挖掘是把傳統(tǒng)的數(shù)據(jù)挖掘思想和方法移植到web應(yīng)用中,即從現(xiàn)有的web文檔和活動(dòng)中挑選自己感興趣且有用的模式或者隱藏的數(shù)據(jù)信息。計(jì)算機(jī)web數(shù)據(jù)挖掘可以在多領(lǐng)域中展示其作用,目前已被廣泛應(yīng)用于數(shù)據(jù)庫(kù)技術(shù)、信息獲取技術(shù)、統(tǒng)計(jì)學(xué)、人工智能中的機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)等多個(gè)方面,其中對(duì)商務(wù)活動(dòng)的變革起到重大的推動(dòng)作用方面最為明顯。 

2.2 計(jì)算機(jī)web數(shù)據(jù)挖掘含義及特征 

(1) web數(shù)據(jù)挖掘的含義。 

web 數(shù)據(jù)挖掘是指數(shù)據(jù)挖掘技術(shù)在web 環(huán)境下的應(yīng)用,是一項(xiàng)數(shù)據(jù)挖掘技術(shù)與www技術(shù)相結(jié)合產(chǎn)生的新技術(shù),綜合運(yùn)用到了計(jì)算機(jī)語(yǔ)言、internet、人工智能、統(tǒng)計(jì)學(xué)、信息學(xué)等多個(gè)領(lǐng)域的技術(shù)。具體說(shuō),就是通過(guò)充分利用網(wǎng)絡(luò)(internet),挖掘用戶訪問(wèn)日志文件、商品信息、搜索信息、購(gòu)銷信息以及網(wǎng)絡(luò)用戶登記信息等內(nèi)容,從中找出隱性的、潛在有用的和有價(jià)值的信息,最后再用于企業(yè)管理和商業(yè)決策。 

(2)web數(shù)據(jù)挖掘的特點(diǎn)。 

計(jì)算機(jī)web數(shù)據(jù)挖掘技術(shù)具有以下特點(diǎn):一是用戶不用提供主觀的評(píng)價(jià)信息;二是用戶“訪問(wèn)模式動(dòng)態(tài)獲取”不會(huì)過(guò)時(shí);三是可以處理大規(guī)模的數(shù)據(jù)量,并且使用方便;四是與傳統(tǒng)數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)相比,web是一個(gè)巨大、分布廣泛、全球性的信息服務(wù)中心。 

(3)計(jì)算機(jī)web數(shù)據(jù)挖掘技術(shù)的類別。 

web數(shù)據(jù)挖掘技術(shù)共有三類:第一類是web使用記錄挖掘。就是通過(guò)網(wǎng)絡(luò)對(duì)web 日志記錄進(jìn)行挖掘,查找用戶訪問(wèn)web頁(yè)面的模式及潛在客戶等信息,以此提高其站點(diǎn)所有服務(wù)的競(jìng)爭(zhēng)力。第二類是web內(nèi)容挖掘。既是指從web文檔中抽取知識(shí)的過(guò)程。第三類是web結(jié)構(gòu)挖掘。就是通過(guò)對(duì)web上大量文檔集合的內(nèi)容進(jìn)行小結(jié)、聚類、關(guān)聯(lián)分析的方式,從web文檔的組織結(jié)構(gòu)和鏈接關(guān)系中預(yù)測(cè)相關(guān)信息和知識(shí)。 

3 計(jì)算機(jī)web數(shù)據(jù)挖掘技術(shù)與電子商務(wù)的關(guān)系 

借助計(jì)算機(jī)技術(shù)和網(wǎng)絡(luò)技術(shù)的日臻成熟,電子商務(wù)正以其快速、便捷的特點(diǎn)受到越來(lái)越多的企業(yè)和個(gè)人的關(guān)注。隨著電子商務(wù)企業(yè)業(yè)務(wù)規(guī)模的不斷擴(kuò)大,電子商務(wù)企業(yè)的商品和客戶數(shù)量也隨之迅速增加,電子商務(wù)企業(yè)以此獲得了大量的數(shù)據(jù),這些數(shù)據(jù)正成為了電子商務(wù)企業(yè)客戶管理和銷售管理的重要信息。為了更好地開(kāi)發(fā)和利用這些數(shù)據(jù)資源,以便給企業(yè)和客戶帶來(lái)更多的便利和實(shí)惠,各種數(shù)據(jù)挖掘技術(shù)也逐漸被應(yīng)用到電子商務(wù)網(wǎng)站中。目前,基于數(shù)據(jù)挖掘(特別是web數(shù)據(jù)挖掘)技術(shù)構(gòu)建的電子商務(wù)推薦系統(tǒng)正成為電子商務(wù)推薦系統(tǒng)發(fā)展的一種趨勢(shì)。 

4 計(jì)算機(jī)web數(shù)據(jù)挖掘在電子商務(wù)中的具體應(yīng)用 

(1)電子商務(wù)中的web數(shù)據(jù)挖掘的過(guò)程。 

在電子商務(wù)中,web數(shù)據(jù)挖掘的過(guò)程主要有以下三個(gè)階段:既是數(shù)據(jù)準(zhǔn)備階段、數(shù)據(jù)挖掘操作階段、結(jié)果表達(dá)和解釋階段。如果在結(jié)果表達(dá)階段中,分析結(jié)果不能讓電子商務(wù)企業(yè)的決策者滿意,就需要重復(fù)上述過(guò)程,直到滿意為止。 

(2)web數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用。 

目前,電子商務(wù)在企業(yè)中得到廣泛應(yīng)用,極大地促進(jìn)了電子商務(wù)網(wǎng)站的興起,經(jīng)過(guò)分析一定時(shí)期內(nèi)站點(diǎn)上的用戶的訪問(wèn)信息,便可發(fā)現(xiàn)該商務(wù)站點(diǎn)上潛在的客戶群體、相關(guān)頁(yè)面、聚類客戶等數(shù)據(jù)信息,企業(yè)信息系統(tǒng)因此會(huì)獲得大量的數(shù)據(jù),如此多的數(shù)據(jù)使web數(shù)據(jù)挖掘有了豐富的數(shù)據(jù)基礎(chǔ),使它在各種商業(yè)領(lǐng)域有著更加重要的實(shí)用價(jià)值。因而,電子商務(wù)必將是未來(lái)web數(shù)據(jù)挖掘的主攻方向。web數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用主要包含以下幾方面: 

一是尋找潛在客戶。電子商務(wù)活動(dòng)中,企業(yè)的銷售商可以利用分類技術(shù)在internet上找到潛在客戶,通過(guò)挖掘web日志記錄等信息資源,對(duì)訪問(wèn)者進(jìn)行分類,尋找訪問(wèn)客戶共同的特征和規(guī)律,然后從已經(jīng)存在的分類中找到潛在的客戶。 

二是留住訪問(wèn)客戶。電子商務(wù)企業(yè)通過(guò)商務(wù)網(wǎng)站可以充分挖掘客戶瀏覽訪問(wèn)時(shí)留下的信息,了解客戶的瀏覽行為,然后根據(jù)客戶不同的愛(ài)好和要求,及時(shí)做出讓訪問(wèn)客戶滿意的頁(yè)面推薦和專屬性產(chǎn)品,以此來(lái)不斷提高網(wǎng)站訪問(wèn)的滿意度,最大限度延長(zhǎng)客戶駐留的時(shí)間,實(shí)現(xiàn)留住老客戶發(fā)掘新客戶的目的。 

三是提供營(yíng)銷策略參考。通過(guò)web數(shù)據(jù)挖掘,電子商務(wù)企業(yè)銷售商能夠通過(guò)挖掘商品訪問(wèn)情況和銷售情況,同時(shí)結(jié)合市場(chǎng)的變化情況,通過(guò)聚類分析的方法,推導(dǎo)出客戶訪問(wèn)的規(guī)律,不同的消費(fèi)需求以及消費(fèi)產(chǎn)品的生命周期等情況,為決策提供及時(shí)而準(zhǔn)確的信息參考,以便決策者能夠適時(shí)做出商品銷售策略調(diào)整,優(yōu)化商品營(yíng)銷。 

四是完善商務(wù)網(wǎng)站設(shè)計(jì)。電子商務(wù)網(wǎng)站站點(diǎn)設(shè)計(jì)者能夠利用關(guān)聯(lián)規(guī)則,來(lái)了解客戶的行為記錄和反饋情況,并以此作為改進(jìn)網(wǎng)站的依據(jù),不斷對(duì)網(wǎng)站的組織結(jié)構(gòu)進(jìn)行優(yōu)化來(lái)方便客戶訪問(wèn),不斷提高網(wǎng)站的點(diǎn)擊率。 

第5篇

摘要在對(duì)復(fù)雜流程制造業(yè)生產(chǎn)過(guò)程的數(shù)據(jù)特點(diǎn)進(jìn)行充分分析的基礎(chǔ)上,緊密結(jié)合流程制造業(yè)綜合自動(dòng)化的應(yīng)用需求,給出了流程制造業(yè)數(shù)據(jù)挖掘的體系框架,分析了流程制造業(yè)數(shù)據(jù)挖掘中的關(guān)鍵問(wèn)題。

關(guān)鍵詞:數(shù)據(jù)挖掘;流程制造業(yè);海量數(shù)據(jù)

近年來(lái),數(shù)據(jù)挖掘技術(shù)已經(jīng)在商業(yè)、金融、管理、工業(yè)等眾多領(lǐng)域廣泛應(yīng)用并取得了重大進(jìn)展,但大都僅限于企業(yè)的商業(yè)信息,在企業(yè)的生產(chǎn)過(guò)程中應(yīng)用的還比較少。

目前,在復(fù)雜流程制造業(yè)生產(chǎn)過(guò)程中,由于各種先進(jìn)工藝和工程技術(shù)的廣泛采用,產(chǎn)生和積累了大量的各種類型的歷史數(shù)據(jù)和當(dāng)前生產(chǎn)的實(shí)時(shí)動(dòng)態(tài)數(shù)據(jù),這些海量生產(chǎn)數(shù)據(jù)又包含用于生產(chǎn)和管理的大量的有價(jià)值的信息和知識(shí)。一方面,為了避免產(chǎn)品的設(shè)計(jì)知識(shí)數(shù)據(jù)重用率低,無(wú)法有效地實(shí)現(xiàn)產(chǎn)品配置設(shè)計(jì)和變形設(shè)計(jì),延長(zhǎng)了產(chǎn)品的設(shè)計(jì)周期;另一方面,為了能夠?yàn)檫^(guò)程監(jiān)測(cè)、診斷、能效分析、先進(jìn)控制、優(yōu)化和調(diào)度、管理等各層次提供決策支持,使得流程制造業(yè)綜合自動(dòng)化系統(tǒng)性能達(dá)到最優(yōu)。這就需要一種高效可靠的分析工具,把隱藏在海量數(shù)據(jù)中的有用的深層次的知識(shí)和信息挖掘出來(lái),提取這些數(shù)據(jù)的整體特征、關(guān)聯(lián)及對(duì)其發(fā)展趨勢(shì)的預(yù)測(cè)等,以幫助決策者提出問(wèn)題、發(fā)現(xiàn)問(wèn)題、分析問(wèn)題和解決問(wèn)題。基于流程制造業(yè)的生產(chǎn)特點(diǎn)和數(shù)據(jù)性質(zhì)以及所面臨的問(wèn)題,數(shù)據(jù)挖掘技術(shù)是解決流程制造業(yè)產(chǎn)生的海量信息數(shù)據(jù)處理的關(guān)鍵技術(shù)之一,并且數(shù)據(jù)挖掘技術(shù)也是目前國(guó)內(nèi)外研究的一個(gè)熱點(diǎn)。

本文從流程制造業(yè)的生產(chǎn)數(shù)據(jù)的特點(diǎn)及分析需求出發(fā),建立了一般流程制造業(yè)數(shù)據(jù)挖掘的體系結(jié)構(gòu),并分析了流程制造業(yè)數(shù)據(jù)挖掘中的關(guān)鍵問(wèn)題,總結(jié)了數(shù)據(jù)挖掘方法在流程制造業(yè)領(lǐng)域的數(shù)據(jù)應(yīng)用技術(shù)方向。

一、數(shù)據(jù)挖掘概念

數(shù)據(jù)挖掘是近年來(lái)隨著人工智能和數(shù)據(jù)庫(kù)技術(shù)的發(fā)展而出現(xiàn)的一門(mén)新興技術(shù)。它的發(fā)展速度很快,加之它是多學(xué)科綜合的產(chǎn)物,目前還沒(méi)有一個(gè)標(biāo)準(zhǔn)的定義,簡(jiǎn)單地說(shuō),數(shù)據(jù)挖掘就是從大量的已知數(shù)據(jù)中找出隱藏的、可信的、未知的、有用的信息,探索數(shù)據(jù)中隱藏的規(guī)律用來(lái)預(yù)測(cè)未來(lái),其中數(shù)據(jù)可以放在數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)或其他信息庫(kù)中。數(shù)據(jù)挖掘工具能夠從企業(yè)數(shù)以百萬(wàn)筆的歷史數(shù)據(jù)中提取有用的信息,為企業(yè)的生產(chǎn)與經(jīng)營(yíng)提供決策依據(jù)。

數(shù)據(jù)挖掘過(guò)程由以下步驟組成:

1.挖掘主題――明確挖掘的要求、內(nèi)容及目標(biāo);

2.數(shù)據(jù)預(yù)處理――包括數(shù)據(jù)清理、數(shù)據(jù)歸約、數(shù)據(jù)集成與變換、離散化與概念提升等;

3.挖掘算法選擇――包括類的選擇、算法選擇及算法軟件選擇;

4.構(gòu)造數(shù)據(jù)挖掘(軟件、硬件)平臺(tái);

5.結(jié)果展示及評(píng)價(jià)。

以上步驟是一個(gè)反復(fù)迭代的過(guò)程,最終目的是在數(shù)據(jù)中獲得有用的知識(shí)。在實(shí)踐中,數(shù)據(jù)挖掘的兩個(gè)基本目標(biāo)往往是預(yù)測(cè)和描述。預(yù)測(cè)涉及到使用數(shù)據(jù)集中的一些變量或域來(lái)預(yù)測(cè)其他我們所關(guān)心變量的求知或未來(lái)的值;另一方面,描述關(guān)注的則是找出描述可由人類解釋的數(shù)據(jù)模式。因此,數(shù)據(jù)挖掘活動(dòng)可分成預(yù)測(cè)性數(shù)據(jù)挖掘和描述性數(shù)據(jù)挖掘。數(shù)據(jù)挖掘方法大致可分為關(guān)聯(lián)(Apriori算法)、分類(決策樹(shù)算法、粗糙集、人工神經(jīng)網(wǎng)絡(luò)等)、聚類(層次、遺傳算法、劃分法等)三種。 簡(jiǎn)而言之,數(shù)據(jù)挖掘其實(shí)是一類深層次的數(shù)據(jù)分析方法。數(shù)據(jù)挖掘可以描述為:按企業(yè)既定業(yè)務(wù)目標(biāo),對(duì)大量的企業(yè)數(shù)據(jù)進(jìn)行探索和分析,揭示隱藏的、未知的或驗(yàn)證已知的規(guī)律性,并進(jìn)一步將其模型化的先進(jìn)有效的方法。

二、流程制造業(yè)數(shù)據(jù)特點(diǎn)

制造業(yè)(Manufacturing Industry)是指經(jīng)物理變化或化學(xué)變化后成為了新的產(chǎn)品,不論是動(dòng)力機(jī)械制造,還是手工制作;也不論產(chǎn)品是批發(fā)銷售,還是零售,均視為制造。制造業(yè)按其產(chǎn)品制造工藝過(guò)程特點(diǎn)總體上可概括為離散型制造業(yè)和流程制造業(yè)兩種。典型的離散型制造行業(yè)包括電腦、汽車及工業(yè)用品制造等行業(yè);典型的流程制造行業(yè)包括化工,食品飲料,制藥,化妝品等以配方為基礎(chǔ)的行業(yè)。

流程制造業(yè)是工程學(xué)科的一個(gè)重要研究領(lǐng)域,系統(tǒng)非常復(fù)雜,成品一旦生產(chǎn)出來(lái),就不能再提取它,回到它的原始成分。流程制造業(yè)整個(gè)流程生產(chǎn)過(guò)程是一個(gè)動(dòng)態(tài)的過(guò)程,產(chǎn)出量、物料特性、甚至物料加工路線受到原材料成分波動(dòng)、操作、加工溫度壓力、設(shè)備等等波動(dòng)的影響,并且不可預(yù)知。流程制造業(yè)制造過(guò)程是連續(xù)、在線的,所以說(shuō)更加強(qiáng)調(diào)生產(chǎn)過(guò)程的跟蹤和調(diào)整,主要靠實(shí)時(shí)的跟蹤、控制糾偏?;诹鞒讨圃鞓I(yè)的生產(chǎn)特點(diǎn),流程制造業(yè)數(shù)據(jù)尤其是實(shí)際生產(chǎn)過(guò)程中的數(shù)據(jù)非常復(fù)雜,現(xiàn)在的流程制造業(yè)生產(chǎn)過(guò)程都采用了計(jì)算機(jī)控制系統(tǒng)定時(shí)采集系統(tǒng)的變量和設(shè)備狀態(tài),以供顯示、控制之用,日積月累產(chǎn)生大量的冗余數(shù)據(jù);同時(shí)又由于離散決策變量和連續(xù)決策變量同時(shí)存在,各種變量的值是在不斷變化的,數(shù)據(jù)類型也是多樣的,系統(tǒng)中既包括連續(xù)過(guò)程變量,也包括離散過(guò)程變量,使得這些它們之間有較強(qiáng)的耦合及非線性;許多變量的變化快慢各異,采集信號(hào)的頻率不同,導(dǎo)致時(shí)間上的不同步,在數(shù)據(jù)記錄上也可能丟失數(shù)據(jù),造成數(shù)據(jù)的不完整;流程制造業(yè)系統(tǒng)環(huán)境復(fù)雜,電、磁、噪聲干擾較強(qiáng),加之系統(tǒng)的不確定性,導(dǎo)致數(shù)據(jù)受污染。簡(jiǎn)言之,流程制造業(yè)數(shù)據(jù)具有不確定性、動(dòng)態(tài)性、不完整性、多時(shí)標(biāo)性(部分不同變量采用不同的采樣周期)和數(shù)據(jù)類型多樣性、多模態(tài)性,非線性、強(qiáng)耦合性和交錯(cuò)性等特點(diǎn),致使全流程的模擬、診斷、決策與優(yōu)化變得極為困難,而數(shù)據(jù)挖掘技術(shù)對(duì)這些問(wèn)題提供了一定的解決方案。

三、流程制造業(yè)數(shù)據(jù)挖掘的體系結(jié)構(gòu)

流程制造業(yè)數(shù)據(jù)挖掘體系結(jié)構(gòu)的確定是流程制造業(yè)數(shù)據(jù)挖掘項(xiàng)目成功的基礎(chǔ),依據(jù)流程制造業(yè)數(shù)據(jù)的特點(diǎn)以及數(shù)據(jù)挖掘技術(shù)的要求,構(gòu)建流程制造業(yè)數(shù)據(jù)挖掘的總體框架。如圖1所示:

圖1 流程制造業(yè)數(shù)據(jù)挖掘體系結(jié)構(gòu)

1.數(shù)據(jù)預(yù)處理

流程制造業(yè)生產(chǎn)過(guò)程中產(chǎn)生的海量數(shù)據(jù)一般是不完整的、含噪聲的和不一致的,數(shù)據(jù)預(yù)處理技術(shù)(數(shù)據(jù)采樣、數(shù)據(jù)清理、數(shù)據(jù)轉(zhuǎn)換等)可以檢測(cè)數(shù)據(jù)異常,改進(jìn)數(shù)據(jù)質(zhì)量,從而有助于提高其后的挖掘過(guò)程的精度和性能。

2.數(shù)據(jù)歸約

流程制造業(yè)生產(chǎn)過(guò)程中產(chǎn)生的海量數(shù)據(jù)經(jīng)過(guò)預(yù)處理后,數(shù)據(jù)質(zhì)量有了很大的提高,在此基礎(chǔ)上構(gòu)造數(shù)據(jù)倉(cāng)庫(kù)和OLAP,數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)集非常大,對(duì)海量數(shù)據(jù)進(jìn)行復(fù)雜的數(shù)據(jù)分析和挖掘?qū)⑿枰喈?dāng)長(zhǎng)的時(shí)間,通過(guò)數(shù)據(jù)歸約技術(shù)可以將數(shù)據(jù)集中不相關(guān)、弱相關(guān)或冗余的屬性或刪除,并能保持原數(shù)據(jù)的完整性,對(duì)歸約后的數(shù)據(jù)集進(jìn)行挖掘?qū)⒏行?,并產(chǎn)生相同(幾乎相同)的分析結(jié)果。

3.挖掘方法選擇器

方法選擇專家系統(tǒng)及知識(shí)庫(kù)根據(jù)不同的挖掘要求選擇最有效的挖掘算法或幾種算法的序列組合,并且不斷地更新知識(shí)庫(kù),用選擇的方法去執(zhí)行挖掘任務(wù)。目前系統(tǒng)常用的挖掘方法有統(tǒng)計(jì)分析方法、決策樹(shù)、人工神經(jīng)網(wǎng)絡(luò)、基因算法、粗糙集等。

4.評(píng)估界面 執(zhí)行數(shù)據(jù)挖掘任務(wù)得到的結(jié)果往往是一些抽象的模型或數(shù)據(jù),因此,系統(tǒng)提供了一種解釋機(jī)制,以一種直覺(jué)的方式來(lái)表現(xiàn)數(shù)據(jù)挖掘的結(jié)果,比如用文字、圖表和報(bào)表等多種可視化手段,幫助分析決策人員具體地了解所挖掘的結(jié)果。

四、流程制造業(yè)數(shù)據(jù)挖掘的關(guān)鍵問(wèn)題

1.數(shù)據(jù)的質(zhì)量和數(shù)量

流程制造業(yè)數(shù)據(jù)挖掘的最根本問(wèn)題在于數(shù)據(jù)的數(shù)量和質(zhì)量。一方面,數(shù)據(jù)量越充足,越能保證獲取的數(shù)據(jù)的連續(xù)性,從而易發(fā)現(xiàn)系統(tǒng)的一般性規(guī)律;另一方面,數(shù)據(jù)的準(zhǔn)確性和可靠性也是一切建模和分析是否有效的關(guān)鍵。因此,要盡可能完備地搜集與所研究問(wèn)題相關(guān)的信息資料,包括公開(kāi)和未公開(kāi)的數(shù)據(jù)資料,然后從眾多的資料中把有用的部分挑選出來(lái)。挑選數(shù)據(jù)資料時(shí)應(yīng)按照相關(guān)性、可靠性、最新性等原則進(jìn)行。然后挑選出符合一定標(biāo)準(zhǔn)的資料,加以深入研究。然而收集數(shù)據(jù)資料并不容易,尤其是在我國(guó)當(dāng)前的情況下,各層次的資料往往不夠完整,真實(shí)性也有存在很大的問(wèn)題,再加上涉及到數(shù)據(jù)的保密性問(wèn)題,所以無(wú)形中就增加了數(shù)據(jù)搜集的難度,從而數(shù)據(jù)的數(shù)量和質(zhì)量也就難以保證。

2.數(shù)據(jù)倉(cāng)庫(kù)的建立

從數(shù)據(jù)挖掘的定義可以看出,數(shù)據(jù)挖掘包含一系列旨在從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)有用而未發(fā)現(xiàn)的模式的技術(shù),如果將其與數(shù)據(jù)倉(cāng)庫(kù)緊密聯(lián)系在一起,將獲得意外的成功。傳統(tǒng)的觀點(diǎn)認(rèn)為,數(shù)據(jù)挖掘技術(shù)扎根于計(jì)算科學(xué)和數(shù)學(xué),不需要也不得益于數(shù)據(jù)倉(cāng)庫(kù)。這種觀點(diǎn)并不正確。成功的數(shù)據(jù)挖掘的關(guān)鍵之一就是通過(guò)訪問(wèn)正確、完整和集成的數(shù)據(jù),然后再進(jìn)行深層次的分析,尋求有益的信息,而這些正是數(shù)據(jù)倉(cāng)庫(kù)所能夠提供的。數(shù)據(jù)倉(cāng)庫(kù)不僅是集成數(shù)據(jù)的一種方式,而且數(shù)據(jù)倉(cāng)庫(kù)的聯(lián)機(jī)分析功能(OLAP)還為數(shù)據(jù)挖掘提供了一個(gè)極佳的操作平臺(tái)。如果數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘能夠?qū)崿F(xiàn)有效的聯(lián)結(jié).這將給數(shù)據(jù)挖掘帶來(lái)各種便利和功能。

數(shù)據(jù)倉(cāng)庫(kù)為數(shù)掘挖掘提供了更廣闊的活動(dòng)空間。數(shù)據(jù)倉(cāng)庫(kù)完成數(shù)據(jù)的收集、集成、存儲(chǔ)、管理等工作、數(shù)據(jù)挖掘面對(duì)的是經(jīng)初步加工的數(shù)據(jù),使得數(shù)據(jù)挖掘能更專注于知識(shí)的發(fā)現(xiàn)。又由于數(shù)據(jù)倉(cāng)庫(kù)所具有的新特點(diǎn),對(duì)數(shù)據(jù)挖掘技術(shù)提出了更高的要求。另一方面,數(shù)據(jù)挖掘?yàn)閿?shù)據(jù)倉(cāng)庫(kù)提供了更好的決策支持,同時(shí)促進(jìn)了數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的發(fā)展。因此,數(shù)據(jù)挖掘和數(shù)據(jù)倉(cāng)庫(kù)技術(shù)要充分發(fā)揮潛力。就必須結(jié)合起來(lái)。

3.數(shù)據(jù)挖掘方法的選擇與應(yīng)用

目前數(shù)據(jù)挖掘方法很多,面對(duì)各層次不同的海量數(shù)據(jù),應(yīng)如何選擇和應(yīng)用其方法,是數(shù)據(jù)挖掘的另一關(guān)鍵問(wèn)題。不同的人對(duì)同樣的數(shù)據(jù)進(jìn)行挖掘,可能產(chǎn)生不同的結(jié)果,甚至差異很大。因此,合理選擇分析方法很重要。數(shù)據(jù)挖掘常用的算法包括:統(tǒng)計(jì)分析、關(guān)聯(lián)規(guī)則、聚類分析、決策樹(shù)、神經(jīng)網(wǎng)絡(luò)、遺傳算法、模糊集等,每種方法都有所側(cè)重,應(yīng)全面了解每種方法的基本原理與優(yōu)劣之處,選擇與要解決問(wèn)題類型相匹配的數(shù)據(jù)挖掘方法。比如,神經(jīng)網(wǎng)絡(luò)、規(guī)則歸納方法、決策樹(shù)學(xué)習(xí)、遺傳算法等適用于分類問(wèn)題;硬均值聚類、模糊均值聚類、神經(jīng)網(wǎng)絡(luò)等適用于聚類;回歸分析、時(shí)間序列、神經(jīng)網(wǎng)絡(luò)等適用于預(yù)測(cè)。實(shí)際應(yīng)用時(shí),還要確定數(shù)據(jù)挖掘方法是直接應(yīng)用還是建模嵌入的開(kāi)發(fā)應(yīng)用。

數(shù)據(jù)挖掘模型是數(shù)據(jù)挖掘算法的實(shí)際應(yīng)用,在流程制造業(yè)領(lǐng)域進(jìn)行數(shù)據(jù)挖掘必須針對(duì)流程制造業(yè)生產(chǎn)過(guò)程中產(chǎn)生的數(shù)據(jù)特點(diǎn)及特定的挖掘目標(biāo),選擇各層次數(shù)據(jù)的合適數(shù)據(jù)挖掘算法。

4.結(jié)果的解釋及評(píng)價(jià)

數(shù)據(jù)挖掘的結(jié)果是不確定的。因此,需要和專業(yè)知識(shí)相結(jié)合才能對(duì)其做出解釋,并在此基礎(chǔ)上評(píng)價(jià)模型的合理性,以提供科學(xué)的決策支持信息。

評(píng)價(jià)模型的合理性,即看模型是否準(zhǔn)確反映數(shù)據(jù)的真實(shí)意義,是否有實(shí)際意義和實(shí)用價(jià)值。評(píng)價(jià)的方法之一是直接使用原來(lái)建立模型的樣板數(shù)據(jù)來(lái)進(jìn)行檢驗(yàn);另一種辦法是另外找一批數(shù)據(jù),已知這些數(shù)據(jù)是反映客觀實(shí)際的規(guī)律性的;再有一種辦法就是在實(shí)際運(yùn)行的環(huán)境中取出新鮮數(shù)據(jù)進(jìn)行檢驗(yàn)。

需要強(qiáng)調(diào)的是,要想真正做好數(shù)據(jù)挖掘,數(shù)據(jù)挖掘工具只是其中的一個(gè)方面。流程制造業(yè)數(shù)據(jù)挖掘的成功要求對(duì)流程制造業(yè)領(lǐng)域有深刻的了解,理解流程制造業(yè)要素?cái)?shù)據(jù)的屬性,了解數(shù)據(jù)采集的過(guò)程,同時(shí)還需要對(duì)流程制造業(yè)生產(chǎn)過(guò)程有足夠的數(shù)據(jù)分析經(jīng)驗(yàn)。

五、結(jié)束語(yǔ)

數(shù)據(jù)挖掘在企業(yè)中的應(yīng)用目前主要集中在市場(chǎng)推廣方面。如客戶特征、購(gòu)物關(guān)聯(lián)分析及客戶關(guān)系管理,這方面技術(shù)相對(duì)來(lái)說(shuō)已經(jīng)比較成熟,很好地解決了企業(yè)的許多商業(yè)信息問(wèn)題,但應(yīng)用于工業(yè)制造生產(chǎn)流程還處于理論研究和初步實(shí)踐階段,起步較晚,并且實(shí)際成功應(yīng)用的事例也較少,基于此,數(shù)據(jù)挖掘技術(shù)更能顯現(xiàn)出它巨大的發(fā)展?jié)摿?,根?jù)流程制造業(yè)的數(shù)據(jù)特點(diǎn),量身定制合適的數(shù)據(jù)挖掘工具,為流程制造業(yè)提供決策依據(jù),解決流程制造業(yè)存在的不同程度的問(wèn)題。

參考文獻(xiàn):

[1] Jiawei Han,Micheline Kanmber. Data Mining: Concepts and Techniques[M]. Morgan Kaufmann Publishers,2001

[2] 朱群雄,麻德賢.過(guò)程工業(yè)中數(shù)據(jù)挖掘技術(shù)的應(yīng)用.計(jì)算機(jī)與應(yīng)用化學(xué)[J].2004

[3] 孟永勝.裝備制造業(yè)產(chǎn)品制造數(shù)據(jù)集成管理研究與應(yīng)用 [博士學(xué)位論文].大連:大連理工大學(xué),2006

[4] 余軍合.面向全生命周期虛擬產(chǎn)品模型的研究與應(yīng)用 [博士學(xué)位論文].杭州:浙江大學(xué),2002

第6篇

[關(guān)鍵詞] 數(shù)據(jù)挖掘工具 個(gè)性化營(yíng)銷 電子商務(wù)企業(yè)

一、引言

一個(gè)成功的電子商務(wù)運(yùn)作過(guò)程,需要完美整合三個(gè)要素――網(wǎng)絡(luò)技術(shù)、商業(yè)模式和營(yíng)銷(網(wǎng)絡(luò)營(yíng)銷)。網(wǎng)絡(luò)營(yíng)銷是企業(yè)營(yíng)銷實(shí)踐與現(xiàn)代信息通訊技術(shù)、計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)相結(jié)合的產(chǎn)物,是指企業(yè)以電子信息技術(shù)為基礎(chǔ),以計(jì)算機(jī)網(wǎng)絡(luò)為媒介和手段而進(jìn)行的各種營(yíng)銷活動(dòng)(包括網(wǎng)絡(luò)調(diào)研、網(wǎng)絡(luò)新產(chǎn)品開(kāi)發(fā)、網(wǎng)絡(luò)促銷、網(wǎng)絡(luò)分銷、網(wǎng)絡(luò)服務(wù)等)的總稱。

具有交互性、跨時(shí)空、低成本、高效性等優(yōu)點(diǎn)的網(wǎng)絡(luò)營(yíng)銷這一概念在中國(guó)出現(xiàn)才剛剛開(kāi)展10年的時(shí)間,雖然理論體系還不完善,上網(wǎng)的企業(yè)數(shù)量還比較少,但是,這種基于互聯(lián)網(wǎng)的新型營(yíng)銷方式已經(jīng)引起廣泛關(guān)注,并對(duì)企業(yè)的經(jīng)營(yíng)戰(zhàn)略產(chǎn)生越來(lái)越大的影響。當(dāng)前各種形式的網(wǎng)絡(luò)廣告、網(wǎng)絡(luò)調(diào)研、網(wǎng)絡(luò)分銷等網(wǎng)絡(luò)營(yíng)銷活動(dòng)正活躍在企業(yè)的市場(chǎng)活動(dòng)中。網(wǎng)絡(luò)營(yíng)銷使得大公司、小公司“同臺(tái)競(jìng)技”“規(guī)模經(jīng)濟(jì)”與“小批量、多品種”生產(chǎn)并存。網(wǎng)絡(luò)營(yíng)銷把企業(yè)帶入小型化、多樣化和復(fù)雜化競(jìng)爭(zhēng)的時(shí)代。

隨著技術(shù)的發(fā)展,信息鋪天蓋地,不僅企業(yè)被淹沒(méi)在大量的信息中,就連顧客也不得不花大量的時(shí)間來(lái)尋找、瀏覽自己感興趣的信息。根據(jù)菲利普?科特勒的顧客讓渡價(jià)值理論,顧客讓渡價(jià)值=總顧客價(jià)值-總顧客成本。總顧客價(jià)值是顧客從某一特定產(chǎn)品或服務(wù)中獲得的一系列價(jià)值,包括產(chǎn)品價(jià)值、服務(wù)價(jià)值、人員價(jià)值和形象價(jià)值??傤櫩统杀臼穷櫩驮跒橘?gòu)買該產(chǎn)品或服務(wù)所耗費(fèi)的費(fèi)用,不僅包括貨幣成本,還包括時(shí)間成本、精神成本、體力成本等非貨幣成本??梢?jiàn)為了購(gòu)買特定產(chǎn)品,在電子商務(wù)這種特殊市場(chǎng)中,瀏覽信息所花費(fèi)的時(shí)間成本、精神成本、體力成本等也直接影響著總顧客讓渡價(jià)值。

Web數(shù)據(jù)挖掘技術(shù)在電子商務(wù)上的應(yīng)用,正是為了更加有效的掌握信息,服務(wù)于顧客,Web數(shù)據(jù)挖掘技術(shù)的路徑分析、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、序列模式發(fā)現(xiàn)、分類規(guī)則的發(fā)現(xiàn)、聚類分析等方法,可以應(yīng)用于發(fā)現(xiàn)潛在顧客、改進(jìn)站點(diǎn)鏈接結(jié)構(gòu)設(shè)計(jì)、對(duì)顧客進(jìn)行聚類分級(jí)從而分析組中顧客的共同特征,并為相應(yīng)的顧客提供優(yōu)質(zhì)個(gè)性化服務(wù),使顧客在瀏覽信息時(shí)有針對(duì)性,節(jié)省時(shí)間成本、精神成本、體力成本等,最終使總顧客成本得以降低。

二、個(gè)性化營(yíng)銷

個(gè)性化營(yíng)銷是把一個(gè)顧客看成一個(gè)顧客群,將鎖定銷售目標(biāo)的活動(dòng)發(fā)揮到極致的程度。充分體現(xiàn)了“顧客至上”,“顧客永遠(yuǎn)是正確的”,“愛(ài)你的顧客而非產(chǎn)品”等現(xiàn)代市場(chǎng)營(yíng)銷觀念。消費(fèi)者選購(gòu)商品時(shí)完全以“自我”為中心,現(xiàn)有商品不能滿足需求,則可向企業(yè)提出具體要求,企業(yè)也能滿足這一要求,這樣既能最大限度滿足消費(fèi)者個(gè)性化需求,又能增強(qiáng)企業(yè)產(chǎn)品的市場(chǎng)競(jìng)爭(zhēng)力。同時(shí)由于和消費(fèi)者保持長(zhǎng)期的互動(dòng)關(guān)系,企業(yè)能及時(shí)了解市場(chǎng)需求的變化,有針對(duì)性的生產(chǎn),不會(huì)造成產(chǎn)品積壓??s短再生產(chǎn)周期,降低流通費(fèi)用,從而提高企業(yè)經(jīng)濟(jì)效益。

在電子商務(wù)環(huán)境下,實(shí)現(xiàn)個(gè)性化營(yíng)銷可以利用的資源包括個(gè)性化網(wǎng)站、顧客數(shù)據(jù)庫(kù),網(wǎng)絡(luò)營(yíng)銷工具。即企業(yè)在互動(dòng)式網(wǎng)站和數(shù)據(jù)庫(kù)為支撐工具的前提下,整合運(yùn)用個(gè)性化的網(wǎng)站、個(gè)性化的E-mail、個(gè)性化的網(wǎng)頁(yè)、顧客的興趣追蹤等相關(guān)工具,既可以與顧客建立親密友好的聯(lián)系,又可以創(chuàng)建個(gè)性化的營(yíng)銷信息,包括每個(gè)顧客的喜好、購(gòu)買模式、針對(duì)他的最有效的溝通技巧等,以此來(lái)提供個(gè)性化的產(chǎn)品和顧客服務(wù),開(kāi)展個(gè)性化營(yíng)銷活動(dòng)。

下圖反映出一個(gè)具備個(gè)性化營(yíng)銷服務(wù)功能的系統(tǒng)功能層次結(jié)構(gòu)。

由圖看出,系統(tǒng)要得到上層所提供的個(gè)性化營(yíng)銷服務(wù),需要從底層數(shù)據(jù)庫(kù)獲取交易數(shù)據(jù)、顧客數(shù)據(jù)、財(cái)務(wù)數(shù)據(jù)、市場(chǎng)數(shù)據(jù)等,將底層數(shù)據(jù)析取到數(shù)據(jù)倉(cāng)庫(kù)中,在數(shù)據(jù)倉(cāng)庫(kù)中建立以顧客、銷售和財(cái)務(wù)等為主題的多維數(shù)據(jù)模型,并在保留原有數(shù)據(jù)的基礎(chǔ)上,不斷刷新數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù),接著進(jìn)行指標(biāo)分析、多維數(shù)據(jù)分析和數(shù)據(jù)挖掘。主要內(nèi)容有顧客分析、忠誠(chéng)度分析、銷售分析、顧客反饋分析、財(cái)務(wù)分析等。

通過(guò)對(duì)顧客屬性特征、交易行為和資金能力的分析,提取各種與顧客交易之靜態(tài)特征和動(dòng)態(tài)特征相關(guān)的知識(shí),對(duì)顧客進(jìn)行必要細(xì)分,從而有針對(duì)性地對(duì)顧客施加1對(duì)1的個(gè)性化營(yíng)銷服務(wù),提高電子商務(wù)企業(yè)的認(rèn)知能力和服務(wù)創(chuàng)新水平,擴(kuò)大其獲利機(jī)會(huì)。

可見(jiàn)上層的個(gè)性化營(yíng)銷功能的獲得是底層數(shù)據(jù)所不能直接提供的,需要經(jīng)過(guò)中間析取到數(shù)據(jù)倉(cāng)庫(kù)中,面向主題對(duì)數(shù)據(jù)進(jìn)行組織與管理后,再利用數(shù)據(jù)挖掘技術(shù)才能實(shí)現(xiàn)的。

三、數(shù)據(jù)挖掘工具及選擇分析

數(shù)據(jù)挖掘技術(shù)讓人們有能力最終認(rèn)識(shí)數(shù)據(jù)的真正價(jià)值,即蘊(yùn)藏在數(shù)據(jù)中的信息和知識(shí)。它使得許多商業(yè)公司充分認(rèn)識(shí)到深層次地分析本公司業(yè)務(wù)數(shù)據(jù)庫(kù)中的數(shù)據(jù)能夠帶來(lái)更多的商業(yè)機(jī)會(huì)。尤其對(duì)于電子商務(wù)企業(yè),它很容易滿足數(shù)據(jù)挖掘所必需要因素:豐富的數(shù)據(jù)源、自動(dòng)收集的可靠數(shù)據(jù),并且可將挖掘的結(jié)果轉(zhuǎn)化為個(gè)性化網(wǎng)絡(luò)營(yíng)銷這樣的商業(yè)行為,商業(yè)投資可以直接評(píng)價(jià)。

在不久以前大部分?jǐn)?shù)據(jù)挖掘工具還只能為專門(mén)技術(shù)人員所操縱,但現(xiàn)在有更多的公司提供了更高級(jí)的數(shù)據(jù)挖掘系統(tǒng),使得非專業(yè)人士也能使用。這些數(shù)據(jù)挖掘工具所基于的技術(shù)主要包括:規(guī)則歸納、神經(jīng)網(wǎng)絡(luò)、遺傳算法、模糊邏輯、規(guī)則發(fā)現(xiàn)、模糊專家系統(tǒng)規(guī)則、決策樹(shù)、基于實(shí)例的推理、歸納邏輯等。

選擇一個(gè)滿足本公司實(shí)現(xiàn)個(gè)性化網(wǎng)絡(luò)營(yíng)銷的數(shù)據(jù)挖掘工具可從以下方面進(jìn)行考慮:

(1)產(chǎn)生的模式種類

數(shù)據(jù)挖掘模式一般有以下六種:

①分類模式:表現(xiàn)為一棵分類樹(shù),根據(jù)數(shù)據(jù)的值從樹(shù)根開(kāi)始搜索,沿著數(shù)據(jù)滿足的分支往上走,走到樹(shù)葉就能確定類別。

②回歸模式:與分類模式相似,其差別在于分類模式的預(yù)測(cè)值是離散的,回歸模式的預(yù)測(cè)值是連續(xù)的。

③時(shí)間序列模式:根據(jù)數(shù)據(jù)隨時(shí)間變化的趨勢(shì)預(yù)測(cè)將來(lái)的值。

④聚類模式:把數(shù)據(jù)劃分到不同的組中,組之間的差別盡可能大,組內(nèi)的差別盡可能小,但它與分類模式不同之處在于,進(jìn)行聚類前并不知道將要?jiǎng)澐殖赏瑐€(gè)組和什么樣的組。

⑤關(guān)聯(lián)模式:描述事物之間同時(shí)出現(xiàn)的規(guī)律的知識(shí)模式。如購(gòu)買A產(chǎn)品與B產(chǎn)品之間的關(guān)聯(lián)性。

⑥序列模式:與關(guān)聯(lián)模式相似,它把數(shù)據(jù)之間的關(guān)聯(lián)性與時(shí)間聯(lián)系起來(lái)。

對(duì)于個(gè)性化營(yíng)銷,公司的需要反映在:跟蹤和學(xué)習(xí)顧客的興趣和行為;為當(dāng)前用戶尋找k個(gè)最相似的鄰居來(lái)預(yù)測(cè)當(dāng)前用戶的興趣;或找出在什么時(shí)間,什么樣顧客對(duì)什么樣的產(chǎn)品感興趣等方面。

以上的六種模式中分類模式可以對(duì)顧客進(jìn)行分類;時(shí)間序列模式可在需求量方面給出預(yù)測(cè)結(jié)果;聚類模式可用于顧客聚類.由于它是根據(jù)相似顧客來(lái)推薦資源的,即根據(jù)最相似的鄰居來(lái)預(yù)測(cè)當(dāng)前顧客的興趣,所以有可能為潛在顧客推薦出新的感興趣的內(nèi)容;關(guān)聯(lián)模式找出A產(chǎn)品與B產(chǎn)品之間的關(guān)聯(lián)性;序列模式則可以反映出需求的季節(jié)性。

(2)易操作性

當(dāng)前有的工具有圖形化界面,引導(dǎo)用戶半自動(dòng)化地執(zhí)行任務(wù);有的使用腳本語(yǔ)言,有些工具提供數(shù)據(jù)挖掘的API,可以嵌入到C、Visual Basic、PowerBuilder等高級(jí)編程語(yǔ)言中。

(3)數(shù)據(jù)存取能力

好的數(shù)據(jù)挖掘工具可以使用SQL語(yǔ)句直接從DBMS中讀取數(shù)據(jù)。這樣可以簡(jiǎn)化數(shù)據(jù)準(zhǔn)備工作。

(4)與其他產(chǎn)品的接口

在需要其他產(chǎn)品輔助企業(yè)理解數(shù)據(jù)、理解結(jié)果時(shí),數(shù)據(jù)挖掘工具與其他產(chǎn)品的接口就顯得很重要了。

總之,數(shù)據(jù)挖掘工具應(yīng)具備多種模式、多種算法、良好的數(shù)據(jù)選擇和轉(zhuǎn)換能力、可視化、擴(kuò)展性等,使之具備更強(qiáng)的解決復(fù)雜問(wèn)題的能力。

當(dāng)前比較著名數(shù)據(jù)挖掘工具有IBM Intelligent Miner、SAS Enterprise Miner、SPSS Clementine等,它們都能夠提供常規(guī)的挖掘過(guò)程和挖掘模式。

其中Intelligent Miner 通過(guò)其世界領(lǐng)先的獨(dú)有技術(shù),例如典型數(shù)據(jù)集自動(dòng)生成、關(guān)聯(lián)發(fā)現(xiàn)、序列規(guī)律發(fā)現(xiàn)、概念性分類和可視化呈現(xiàn),可以自動(dòng)實(shí)現(xiàn)數(shù)據(jù)選擇、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)發(fā)掘和結(jié)果呈現(xiàn)這一整套數(shù)據(jù)發(fā)掘操作。若有必要,對(duì)結(jié)果數(shù)據(jù)集還可以重復(fù)這一過(guò)程,直至得到滿意結(jié)果為止。根據(jù)IDC 的統(tǒng)計(jì),Intelligent Miner 目前是數(shù)據(jù)發(fā)掘領(lǐng)域最先進(jìn)的產(chǎn)品。

SAS Enterprise Miner 能支持包括關(guān)聯(lián)、聚類、決策樹(shù)、神經(jīng)元網(wǎng)絡(luò)和統(tǒng)計(jì)回歸在內(nèi)的廣闊范圍的模型數(shù)據(jù)挖掘工具。SAS Enterprise Miner設(shè)計(jì)為被初學(xué)者和有經(jīng)驗(yàn)的用戶使用。它的GUI界面是數(shù)據(jù)流驅(qū)動(dòng)的,且它易于理解和使用。由于支持多種模型,所以SAS Enterprise Miner允許用戶比較不同模型并利用評(píng)估結(jié)點(diǎn)選擇最適合的。SAS Enterprise Miner被設(shè)計(jì)成能在所有SAS支持的平臺(tái)上運(yùn)行。

SPSS Clementine是一個(gè)開(kāi)放式數(shù)據(jù)挖掘工具,曾兩次獲得英國(guó)政府SMART 創(chuàng)新獎(jiǎng),它不但支持整個(gè)數(shù)據(jù)挖掘流程,從數(shù)據(jù)獲取、轉(zhuǎn)化、建模、評(píng)估到最終部署的全部過(guò)程,還支持?jǐn)?shù)據(jù)挖掘的行業(yè)標(biāo)準(zhǔn)--CRISP-DM。Clementine的可視化數(shù)據(jù)挖掘使得"思路"分析成為可能,即將集中精力在要解決的問(wèn)題本身,而不是局限于完成一些技術(shù)性工作(比如編寫(xiě)代碼)。提供了多種圖形化技術(shù),有助理解數(shù)據(jù)間的關(guān)鍵性聯(lián)系,指導(dǎo)用戶以最便捷的途徑找到問(wèn)題的最終解決辦法。

其它常用的數(shù)據(jù)挖掘工具還有LEVEL5 Quest 、MineSet (SGI) 、Partek 、SE-Learn 、SPSS 的數(shù)據(jù)挖掘軟件Snob、Ashraf Azmy 的SuperQuery 、WINROSA 、XmdvTool 等。

四、總結(jié)

個(gè)性化營(yíng)銷一直是網(wǎng)絡(luò)營(yíng)銷所關(guān)注的領(lǐng)域之一,但總的來(lái)說(shuō)個(gè)性化營(yíng)銷的思想在網(wǎng)絡(luò)營(yíng)銷實(shí)踐中的體現(xiàn)不夠明顯,效果也難以顯著,究其根本原因正是電子商務(wù)企業(yè)沒(méi)有很好地利用數(shù)據(jù)挖掘工具,從底層業(yè)務(wù)數(shù)據(jù)中找到知識(shí)和信息。論文通過(guò)討論數(shù)據(jù)挖掘工具及其實(shí)現(xiàn)模式,結(jié)合個(gè)性化營(yíng)銷的實(shí)現(xiàn)目標(biāo)的分析,以期使電子商務(wù)企業(yè)充分利用豐富的底層數(shù)據(jù)源,真正把數(shù)據(jù)挖掘融入到企業(yè)的經(jīng)營(yíng)決策中。

參考文獻(xiàn):

[1]Claudia Imhoff, Nicholas Galimmo, Jonathan G.Geiger(著),于戈,鮑玉斌,王大玲等譯.數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)[M].北京:機(jī)械工業(yè)出版社,2004.12

[2]王緒林:Web使用挖掘的用戶個(gè)性化服務(wù)研究[J].信息系統(tǒng),2003,1.

[3]Jiawei Han, Micheline Kamber(著), 范明,孟小東等譯.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社.2004

第7篇

論文關(guān)鍵詞:電子商務(wù),數(shù)據(jù)挖掘,聚類分析,關(guān)聯(lián)規(guī)則挖掘



1引言



隨著Internet的普及,電子商務(wù)得到了前所未有的發(fā)展,經(jīng)銷商和客戶之間通過(guò)互聯(lián)網(wǎng)進(jìn)行交易,節(jié)省了大量的費(fèi)用和時(shí)間。但是在電子商務(wù)中充斥著大量的數(shù)據(jù),如何從這些大量的數(shù)據(jù)中挖掘出真正有價(jià)值的信息,幫助企業(yè)經(jīng)銷商制定更好的營(yíng)銷策略是電子商務(wù)急需解決的問(wèn)題。數(shù)據(jù)挖掘,又稱數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Database, KDD),也就是從大量的數(shù)據(jù)中挖掘出有用信息的一種技術(shù)。利用數(shù)據(jù)挖掘技術(shù)可以使經(jīng)銷商從大量的數(shù)據(jù)中挖掘出有用的信息幫助決策,從而在市場(chǎng)競(jìng)爭(zhēng)中獲得優(yōu)勢(shì)地位。



2電子商務(wù)概述



電子商務(wù)指交易當(dāng)事人或參與人利用現(xiàn)代信息技術(shù)和計(jì)算機(jī)網(wǎng)絡(luò)(主要是因特網(wǎng))所進(jìn)行的各類商業(yè)活動(dòng),包括貨物貿(mào)易、服務(wù)貿(mào)易和知識(shí)產(chǎn)權(quán)貿(mào)易?!半娮由虅?wù)”中所包括的“現(xiàn)代信息技術(shù)”應(yīng)涵蓋各種使用電子技術(shù)為基礎(chǔ)的通信方式;“商務(wù)”指不論是契約型還是非契約型的一切商務(wù)性質(zhì)的關(guān)系所引起的種種事項(xiàng)。如果將“現(xiàn)代信息技術(shù)”看作一個(gè)子集,“商務(wù)”看作另一個(gè)子集,電子商務(wù)所涵蓋的范圍應(yīng)當(dāng)是這兩個(gè)子集所形成的交集,即“電子商務(wù)”標(biāo)題之下可能廣泛涉及的因特網(wǎng)、內(nèi)部網(wǎng)和電子數(shù)據(jù)交換在貿(mào)易方面的各種用途。



電子商務(wù)與傳統(tǒng)商務(wù)相比有以下優(yōu)點(diǎn):(1)電子商務(wù)將傳統(tǒng)的商務(wù)流程數(shù)字化、電子化,讓傳統(tǒng)的商務(wù)流程轉(zhuǎn)化為電子流、信息流,突破了時(shí)間空間的局限,大大提高了商業(yè)運(yùn)作的效率。(2)電子商務(wù)簡(jiǎn)化了企業(yè)與企業(yè),企業(yè)與個(gè)人之間的流通環(huán)節(jié),最大限度地降低了流通成本,能有效地提高企業(yè)在現(xiàn)代商業(yè)活動(dòng)中的競(jìng)爭(zhēng)力。(3)電子商務(wù)是基于互聯(lián)網(wǎng)的一種商務(wù)活動(dòng),互聯(lián)網(wǎng)本身具有開(kāi)放性全球性特點(diǎn),電子商務(wù)可為企業(yè)及個(gè)人提供豐富的信息資源,為企業(yè)創(chuàng)造更多商業(yè)機(jī)會(huì)。(4)電子商務(wù)對(duì)大型企業(yè)和中小企業(yè)都有利,因?yàn)榇笾行推髽I(yè)需要買賣交易活動(dòng)多,實(shí)現(xiàn)電子商務(wù)能有效地進(jìn)行管理和提高效率,對(duì)小企業(yè)同樣有利,因?yàn)殡娮由虅?wù)可以使企業(yè)以相近的成本進(jìn)行網(wǎng)上交易,這樣使中小企業(yè)可能擁有和大企業(yè)一樣的流通渠道和信息資源,極大提高了中小企業(yè)的競(jìng)爭(zhēng)力。(5)電子商務(wù)將大部分商務(wù)活動(dòng)搬到網(wǎng)上進(jìn)行,企業(yè)可以實(shí)行無(wú)紙化辦公節(jié)省了開(kāi)支。



3數(shù)據(jù)挖掘技術(shù)



數(shù)據(jù)挖掘(Data Mining,DM)技術(shù)是隨著計(jì)算機(jī)的廣泛應(yīng)用和數(shù)據(jù)的大量積累而發(fā)展起來(lái)的。數(shù)據(jù)挖掘是從大量的數(shù)據(jù)中提取或“挖掘”知識(shí),即發(fā)現(xiàn)其中隱含的,未知的,有意義的信息的過(guò)程,它又被稱為“數(shù)據(jù)庫(kù)中知識(shí)發(fā)現(xiàn)”(KDD),也有人把數(shù)據(jù)挖掘視為數(shù)據(jù)庫(kù)中知識(shí)發(fā)現(xiàn)的一個(gè)基本步驟,知識(shí)發(fā)現(xiàn)過(guò)程由以下步驟組成:(1)數(shù)據(jù)清理(2)數(shù)據(jù)集成(3)數(shù)據(jù)選擇(4)數(shù)據(jù)變換(5)數(shù)據(jù)挖掘(6)模式評(píng)估(7)知識(shí)表示。



從商業(yè)的角度定義,數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術(shù),其主要特點(diǎn)是對(duì)商業(yè)數(shù)據(jù)庫(kù)中的大量業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù)。利用功能強(qiáng)大的數(shù)據(jù)挖掘技術(shù),可以使企業(yè)把數(shù)據(jù)轉(zhuǎn)化為有用的信息幫助決策,從而在市場(chǎng)競(jìng)爭(zhēng)中獲得優(yōu)勢(shì)地位。數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)分析的不同是在沒(méi)有明確假設(shè)的前提下去挖掘信息、發(fā)現(xiàn)知識(shí)。數(shù)據(jù)挖掘所得到的信息應(yīng)具有先前未知、有效和實(shí)用3個(gè)特征。



4數(shù)據(jù)挖掘在電子商務(wù)中的作用



數(shù)據(jù)挖掘技術(shù)之所以可以服務(wù)于電子商務(wù),是因?yàn)樗軌蛲诰虺龌顒?dòng)過(guò)程中的潛在信息以指導(dǎo)電子商務(wù)活動(dòng)。在電子商務(wù)中的作用有7個(gè)方面:(1)挖掘客戶活動(dòng)顧慮,針對(duì)性的在電子商務(wù)平臺(tái)下提供“個(gè)性化”的服務(wù)。(2)可以在瀏覽電子商務(wù)網(wǎng)站的訪問(wèn)者中挖掘出潛在的客戶。(3)通過(guò)電子商務(wù)訪問(wèn)者的活動(dòng)信息的挖掘,可以更加深入的了解客戶需求。(4)通過(guò)挖掘網(wǎng)上顧客的購(gòu)買行為,可以幫助制定合理的產(chǎn)品策略和定價(jià)策略。(5)通過(guò)對(duì)商品訪問(wèn)情況和銷售情況進(jìn)行挖掘,可以幫助制定產(chǎn)品營(yíng)銷策略,優(yōu)化促銷活動(dòng)。(6)優(yōu)化電子商務(wù)網(wǎng)站的信息導(dǎo)航,方便客戶瀏覽。(7)通過(guò)客戶在網(wǎng)絡(luò)上瀏覽時(shí)的擁塞記錄發(fā)現(xiàn)網(wǎng)站的性能瓶頸,從而提高網(wǎng)站的穩(wěn)定性,保證電子商務(wù)購(gòu)物快速進(jìn)行。



5電子商務(wù)中數(shù)據(jù)挖掘的技術(shù)與方法



電子商務(wù)中的數(shù)據(jù)挖掘過(guò)程一般包括3個(gè)主要的階段:數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘、結(jié)果解釋和評(píng)價(jià)。(1)數(shù)據(jù)準(zhǔn)備又可分為數(shù)據(jù)選取和數(shù)據(jù)預(yù)處理兩個(gè)步驟。數(shù)據(jù)選取的目的是確定發(fā)現(xiàn)任務(wù)的操作對(duì)象。即目標(biāo)數(shù)據(jù),是根據(jù)用戶的需要從原始數(shù)據(jù)庫(kù)中抽取的一組數(shù)據(jù)。數(shù)據(jù)預(yù)處理一般包括消除噪聲、推導(dǎo)計(jì)算缺值數(shù)據(jù)、消除重復(fù)記錄、完成數(shù)據(jù)類型轉(zhuǎn)換以及對(duì)數(shù)據(jù)降維。(2)數(shù)據(jù)挖掘階段首先要確定數(shù)據(jù)挖掘的目標(biāo)和挖掘的知識(shí)類型。確定挖掘任務(wù)后,根據(jù)挖掘的知識(shí)類型選擇合適的挖掘算法,最后實(shí)施數(shù)據(jù)挖掘操作,運(yùn)用選定的挖掘算法從數(shù)據(jù)庫(kù)中抽取所需的知識(shí)。(3)結(jié)果的解釋和評(píng)價(jià)。數(shù)據(jù)挖掘階段發(fā)現(xiàn)的知識(shí),經(jīng)過(guò)評(píng)估,可能存在冗余或無(wú)關(guān)的知識(shí),這時(shí)需要將其剔除,也有可能知識(shí)不滿足用戶的需求,需要重復(fù)上述挖掘過(guò)程重新進(jìn)行挖掘。另外,由于數(shù)據(jù)挖掘最終要面臨用戶,因此,還需要對(duì)所挖掘的知識(shí)進(jìn)行解釋,以一種用戶易于理解的方式供用戶所使用。



數(shù)據(jù)挖掘按照其挖掘任務(wù)主要包括分類和預(yù)測(cè)、聚類分析、關(guān)聯(lián)規(guī)則挖掘,回歸發(fā)現(xiàn)和序列模式發(fā)現(xiàn)等技術(shù)。在選擇某種數(shù)據(jù)挖掘技術(shù)之前,首先要將需要解決的問(wèn)題轉(zhuǎn)化成正確的數(shù)據(jù)挖掘任務(wù),然后根據(jù)挖掘的任務(wù)來(lái)選擇使用哪些數(shù)據(jù)挖掘技術(shù)。在電子商務(wù)活動(dòng)中,主要使用下面的一些數(shù)據(jù)挖掘技術(shù)。



5.1分類



分類是找出數(shù)據(jù)庫(kù)中一組數(shù)據(jù)對(duì)象的共同特點(diǎn)并按照分類模式將其劃分為不同的類,其目的是通過(guò)分類模型或分類函數(shù),將數(shù)據(jù)庫(kù)中的數(shù)據(jù)項(xiàng)映射到某個(gè)給定的類別。分類的主要方法有基于決策樹(shù)模型的數(shù)據(jù)分類,貝葉斯分類算法,ID3算法和基于BP神經(jīng)網(wǎng)絡(luò)算法等。



假定現(xiàn)在我們有一個(gè)描述顧客屬性的數(shù)據(jù)庫(kù),包括他們的姓名、年齡、收入、職業(yè)等,我們可以按照他們是否購(gòu)買某種商品(例如,計(jì)算機(jī))來(lái)進(jìn)行分類。如果現(xiàn)在有新的顧客添加到數(shù)據(jù)庫(kù)中,我想將新計(jì)算機(jī)的銷售信息通知顧客,若將促銷材料分發(fā)給數(shù)據(jù)庫(kù)中的每個(gè)新顧客,如此可能會(huì)導(dǎo)致耗費(fèi)較多的精力和物力。而若我們只給那些可能購(gòu)買新計(jì)算機(jī)的顧客分發(fā)材料,可以在較大的程度上節(jié)省成本。為此,可以構(gòu)造和使用分類模型。分類方法的特點(diǎn)是通過(guò)對(duì)示例數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行分析,已經(jīng)建立了一個(gè)分類模型,然后利用分類模型對(duì)數(shù)據(jù)庫(kù)中的其它記錄進(jìn)行分類。



5.2聚類分析



聚類分析是把一組數(shù)據(jù)按照相似性和差異性分為幾個(gè)類別,其目的是使得屬于同一類別的數(shù)據(jù)間的相似性盡可能大,不同類別中的數(shù)據(jù)間的相似性盡可能小。聚類分析的方法是數(shù)據(jù)挖掘領(lǐng)域最為常見(jiàn)的技術(shù)之一。常用的聚類分析方法有:分割聚類方法,層次聚類方法,基于密度的聚類方法和高維稀疏聚類算法等。聚類分析方法與分類方法的不同之處是聚類事先對(duì)數(shù)據(jù)集的分布沒(méi)有任何的了解。因此在聚集之后要有一個(gè)對(duì)業(yè)務(wù)很熟悉的人來(lái)解釋這樣聚集的意義。很多情況下一次聚集你得到的分類對(duì)你的業(yè)務(wù)來(lái)說(shuō)可能并不好,這時(shí)你需要?jiǎng)h除或增加變量以影響分類的方式,經(jīng)過(guò)幾次反復(fù)之后才能最終得到一個(gè)理想的結(jié)果。聚類分析方法在電子商務(wù)中的使用也極其廣泛。其中一個(gè)典型的應(yīng)用是幫助市場(chǎng)分析人員從客戶基本庫(kù)中發(fā)現(xiàn)不同的客戶群,并且用購(gòu)買模式來(lái)刻畫(huà)不同客戶群的特征。通過(guò)對(duì)聚類的客戶特征的提取,把客戶群分成更細(xì)的市場(chǎng),提供針對(duì)性的服務(wù)。



5.3關(guān)聯(lián)規(guī)則挖掘



關(guān)聯(lián)規(guī)則是描述數(shù)據(jù)庫(kù)中數(shù)據(jù)項(xiàng)之間所存在關(guān)系的規(guī)則,即根據(jù)一個(gè)事物中的某些項(xiàng)的出現(xiàn)可導(dǎo)出另一些項(xiàng)在同一事物中也出現(xiàn),即隱藏在數(shù)據(jù)間的關(guān)聯(lián)或相互關(guān)系,比如在一次購(gòu)買活動(dòng)中所買不同商品的相關(guān)性。在電子商務(wù)中,從大量商務(wù)事物記錄中發(fā)現(xiàn)有趣的關(guān)聯(lián)關(guān)系,可以幫助許多商務(wù)決策的制定。關(guān)聯(lián)規(guī)則挖掘最初也是最典型的形式是購(gòu)物籃分析。它通過(guò)發(fā)現(xiàn)顧客放入其購(gòu)物籃中不同商品之間聯(lián)系,分析顧客的購(gòu)買習(xí)慣。例如,在同一次去超級(jí)市場(chǎng),如果顧客購(gòu)買牛奶,他也購(gòu)買面包(包括購(gòu)買什么類型的面包)的可能性有多大?這些信息可以幫助零售商有選擇地經(jīng)銷和安排貨架,引導(dǎo)銷售。例如,將牛奶和面包盡可能放近一些,可以進(jìn)一步刺激一次去商店同時(shí)購(gòu)買這些商品。在電子商務(wù)中,由于Web服務(wù)器的日志文件記錄了用戶的訪問(wèn)記錄,通過(guò)這些記錄利用關(guān)聯(lián)規(guī)則挖掘網(wǎng)上顧客購(gòu)買產(chǎn)品的相關(guān)度,對(duì)某些品牌的喜好和忠誠(chéng),價(jià)格接受范圍,以及包裝要求等,挖掘的結(jié)果可以用來(lái)幫助管理者進(jìn)行網(wǎng)站規(guī)劃、確定商品的種類、價(jià)格和新產(chǎn)品的投入。



5.4序列模式分析



序列模式分析和關(guān)聯(lián)規(guī)則挖掘相似,但側(cè)重點(diǎn)在分析數(shù)據(jù)間的前后序列關(guān)系。它能發(fā)現(xiàn)數(shù)據(jù)庫(kù)中形如在某一段時(shí)間內(nèi),顧客購(gòu)買商品A,接著購(gòu)買商品B,而后購(gòu)買商品C,即序列A-B-C出現(xiàn)的頻度較高的信息。序列模式分析的一個(gè)例子是“九個(gè)月以前購(gòu)買奔騰PC的客戶很可能在一個(gè)月內(nèi)訂購(gòu)新的CPU芯片”。



6結(jié)束語(yǔ)



電子商務(wù)過(guò)程中的各種信息和數(shù)據(jù)是電子商務(wù)活動(dòng)能夠更好的進(jìn)行的基礎(chǔ),通過(guò)選擇合適的數(shù)據(jù)挖掘技術(shù)來(lái)挖掘電子商務(wù)中有價(jià)值的信息,從而使企業(yè)在激烈的市場(chǎng)競(jìng)爭(zhēng)中做出正確的決策,保持有力的競(jìng)爭(zhēng)優(yōu)勢(shì)。隨著數(shù)據(jù)挖掘技術(shù)的不斷發(fā)展,我們相信它在電子商務(wù)中的應(yīng)用將促使其得到更快更高效的發(fā)展。

參考文獻(xiàn)

[1]姚淼.《數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用》.高校圖書(shū)情報(bào)論壇.Mar.2009.Vol.8 No.1

[2]趙雁.張黎明.呂安.趙彥慧.《電子商務(wù)中的數(shù)據(jù)挖掘技術(shù)》.中國(guó)電子學(xué)會(huì)第十屆青年學(xué)術(shù)年會(huì)論文集.2004.9

[3]楊青杰.胡明霞.《數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用研究》.商場(chǎng)現(xiàn)代化.2008年第16期

第8篇

摘 要 面對(duì)當(dāng)前企事業(yè)單位普遍存在各類數(shù)據(jù)龐大,但快速提取有效信息卻十分困難的現(xiàn)狀,如何在海量數(shù)據(jù)中發(fā)現(xiàn)有用的數(shù)據(jù),即所謂的數(shù)據(jù)挖掘技術(shù)便應(yīng)運(yùn)而生。針對(duì)財(cái)務(wù)決策中數(shù)據(jù)海洋的現(xiàn)狀,本文提出了如何采用數(shù)據(jù)挖掘技術(shù),來(lái)提高財(cái)務(wù)決策的效率。

關(guān)鍵詞 數(shù)據(jù)挖掘 財(cái)務(wù)決策 應(yīng)用

隨著計(jì)算機(jī)、網(wǎng)絡(luò)技術(shù)的發(fā)展,獲得有關(guān)資料非常簡(jiǎn)單易行。但對(duì)于數(shù)量大、涉及面寬的數(shù)據(jù),傳統(tǒng)統(tǒng)計(jì)方法無(wú)法完成這類數(shù)據(jù)的分析,特別是公司財(cái)務(wù)數(shù)據(jù)之類。因此,一種智能化的、綜合應(yīng)用各種統(tǒng)計(jì)分析、數(shù)據(jù)庫(kù)、智能語(yǔ)言來(lái)分析龐大數(shù)據(jù)資料的“數(shù)據(jù)挖掘”技術(shù)應(yīng)運(yùn)而生。數(shù)據(jù)挖掘技術(shù)的產(chǎn)生和發(fā)展使得人們可以利用這些數(shù)據(jù)挖掘出有用的、隱藏的商業(yè)和科學(xué)信息。

一、數(shù)據(jù)挖掘含義

1.?dāng)?shù)據(jù)挖掘的定義

目前普遍認(rèn)同的一個(gè)數(shù)據(jù)挖掘(DM-Data Mining)定義是:從數(shù)據(jù)庫(kù)中抽取隱含的、以前未知的、具有潛在應(yīng)用價(jià)值的模型或規(guī)則等有用知識(shí)的復(fù)雜過(guò)程,是一種深層次的數(shù)據(jù)分析方法。

數(shù)據(jù)挖掘可以根據(jù)企事業(yè)單位的既定業(yè)務(wù)目標(biāo)和存在的問(wèn)題,對(duì)大量的業(yè)務(wù)數(shù)據(jù)進(jìn)行探索,揭示隱藏其中的規(guī)律,并將其模型化,指導(dǎo)并應(yīng)用于實(shí)際的企事業(yè)單位經(jīng)營(yíng)管理中。是一個(gè)利用各種分析工具在海量數(shù)據(jù)中發(fā)現(xiàn)模型和數(shù)據(jù)間關(guān)系的過(guò)程,這些模型和關(guān)系可以對(duì)財(cái)務(wù)信息做出預(yù)測(cè)。

2.?dāng)?shù)據(jù)挖掘的主要功能

數(shù)據(jù)挖掘的目標(biāo)是從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)隱含的、有意義的信息,它主要有以下功能:

(1)估計(jì)與預(yù)測(cè):估計(jì)是根據(jù)已有積累的資料來(lái)推測(cè)某一屬性未知的值,預(yù)測(cè)是根據(jù)對(duì)象屬性的過(guò)去觀察來(lái)估計(jì)該屬性未來(lái)之值。數(shù)據(jù)挖掘技術(shù)能夠自動(dòng)在大型數(shù)據(jù)庫(kù)中尋找預(yù)測(cè)性信息。

(2)關(guān)聯(lián)和序列發(fā)現(xiàn):關(guān)聯(lián)是要找出在某一事件或是資料中會(huì)同時(shí)出現(xiàn)的東西;序列發(fā)現(xiàn)與關(guān)聯(lián)關(guān)系很密切,所不同的是序列發(fā)現(xiàn)中相關(guān)的對(duì)象是以時(shí)間來(lái)區(qū)分的。

(3)聚類:數(shù)據(jù)庫(kù)中的記錄可被化分為一系列有意義的子集,即聚類。聚類技術(shù)的要點(diǎn)是在劃分對(duì)象時(shí)不僅考慮對(duì)象之間的距離,還要?jiǎng)澐殖鲱惥哂心撤N內(nèi)涵描述,從而避免了傳統(tǒng)技術(shù)的某些片面性。

(4)偏差檢測(cè):數(shù)據(jù)庫(kù)中的數(shù)據(jù)常有一些異常記錄,從數(shù)據(jù)庫(kù)中檢測(cè)這些偏差很有意義。偏差包括很多潛在的信息,如分類中的反常實(shí)例、不滿足規(guī)則的特例、觀測(cè)結(jié)果與模型預(yù)測(cè)值的偏差、量值隨時(shí)間的變化等①。

二、數(shù)據(jù)挖掘在財(cái)務(wù)決策支持系統(tǒng)的應(yīng)用

1.財(cái)務(wù)決策支持系統(tǒng)

財(cái)務(wù)決策支持系統(tǒng)是在傳統(tǒng)電算化會(huì)計(jì)信息系統(tǒng)的基礎(chǔ)上建立和發(fā)展起來(lái)的,傳統(tǒng)會(huì)計(jì)信息系統(tǒng)輸出的企事業(yè)單位財(cái)務(wù)數(shù)據(jù)及非財(cái)務(wù)數(shù)據(jù)都存在數(shù)據(jù)過(guò)剩而信息不足的情形,而財(cái)務(wù)決策的精確程度又取決于所用信息的正確程度。隨著競(jìng)爭(zhēng)的增加,財(cái)務(wù)決策的時(shí)效性也變得越來(lái)越重要了,面對(duì)這些結(jié)構(gòu)化或半結(jié)構(gòu)化的海量數(shù)據(jù),將數(shù)據(jù)挖掘技術(shù)應(yīng)用到系統(tǒng)中充分有效的預(yù)測(cè)企事業(yè)單位未來(lái)的發(fā)展趨勢(shì),有利于輸出財(cái)務(wù)決策信息供高層管理者使用,提高企事業(yè)單位的競(jìng)爭(zhēng)②。

(1)會(huì)計(jì)信息系統(tǒng)結(jié)構(gòu)

會(huì)計(jì)信息系統(tǒng)可分為三個(gè)層次:會(huì)計(jì)核算層、財(cái)務(wù)管理層和財(cái)務(wù)決策層,分別屬于事后核算、事中控制和事前預(yù)測(cè)與決策過(guò)程。財(cái)務(wù)決策支持系統(tǒng)是最高層,也是會(huì)計(jì)信息系統(tǒng)發(fā)展的最終目標(biāo)。會(huì)計(jì)核算層和財(cái)務(wù)管理層輸出的企事業(yè)單位財(cái)務(wù)數(shù)據(jù)及非財(cái)務(wù)數(shù)據(jù)都存在數(shù)據(jù)過(guò)剩而信息不足的情況,這嚴(yán)重影響了財(cái)務(wù)決策層發(fā)揮有效作用。

(2)財(cái)務(wù)決策支持系統(tǒng)的概念

財(cái)務(wù)決策支持系統(tǒng)(FDSS―Financial Decision Support System)是以現(xiàn)代管理科學(xué)和信息技術(shù)為基礎(chǔ),以電子計(jì)算機(jī)為工具,運(yùn)用經(jīng)濟(jì)學(xué)、模糊數(shù)學(xué)、控制論和模型技術(shù),對(duì)財(cái)務(wù)管理中的結(jié)構(gòu)化、半結(jié)構(gòu)化以及非結(jié)構(gòu)化問(wèn)題進(jìn)行決策分析的人機(jī)交互系統(tǒng)。

在財(cái)務(wù)決策支持系統(tǒng)中,為了支持管理決策,首先必須建立各種數(shù)據(jù)庫(kù)以備決策之需。其次要建立各種數(shù)學(xué)模型,組成模型庫(kù)對(duì)數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行深加工以便探索其內(nèi)部規(guī)律,對(duì)數(shù)據(jù)的運(yùn)算結(jié)果進(jìn)行比較、分析和評(píng)價(jià)。同時(shí),為了充分利用管理者的經(jīng)驗(yàn)、知識(shí)和智慧,系統(tǒng)還設(shè)置人機(jī)交互接口和專家知識(shí)庫(kù),采用人工智能技術(shù)判斷環(huán)境生成方案、評(píng)價(jià)決策。

(3)財(cái)務(wù)決策系統(tǒng)國(guó)內(nèi)外發(fā)展現(xiàn)狀

在國(guó)內(nèi),會(huì)計(jì)核算系統(tǒng)和財(cái)務(wù)管理系統(tǒng)已發(fā)展良好,逐步地為用戶理解和接受,但財(cái)務(wù)決策支持系統(tǒng)的發(fā)展尚處初級(jí)階段。

在國(guó)外,財(cái)務(wù)決策支持系統(tǒng)已較為完善,以財(cái)務(wù)管理為核心構(gòu)造財(cái)務(wù)決策支持系統(tǒng),做到了賬務(wù)系統(tǒng)與管理系統(tǒng)的有機(jī)融合,做到了事前預(yù)測(cè)與決策、事中控制、事后分析為一體的網(wǎng)絡(luò)化、科學(xué)化的決策管理,數(shù)據(jù)挖掘在財(cái)務(wù)決策支持系統(tǒng)中的運(yùn)用也較為成熟。

2.?dāng)?shù)據(jù)挖掘在財(cái)務(wù)決策支持系統(tǒng)的應(yīng)用

數(shù)據(jù)挖掘技術(shù)在財(cái)務(wù)決策支持系統(tǒng)中的應(yīng)用研究始于1995 年,研究?jī)?nèi)容包括將DSS 的結(jié)構(gòu)體系引入過(guò)來(lái),從二庫(kù)、三庫(kù)結(jié)構(gòu)到四庫(kù)、五庫(kù)結(jié)構(gòu)的研究,也就是從傳統(tǒng)的FDSS 研究到智能的或高級(jí)的FDSS 的研究。隨著信息技術(shù)的不斷完善,把數(shù)據(jù)倉(cāng)庫(kù)(DW)、聯(lián)機(jī)分析處理(OLAP)、數(shù)據(jù)挖掘(DM)也引入到財(cái)務(wù)決策支持系統(tǒng)中,出現(xiàn)了基于數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘技術(shù)的財(cái)務(wù)決策支持系統(tǒng)結(jié)構(gòu),數(shù)據(jù)挖掘技術(shù)在財(cái)務(wù)決策支持系統(tǒng)中的應(yīng)用主要包括:

(1)財(cái)務(wù)狀況分析

財(cái)務(wù)狀況分析是財(cái)務(wù)管理的重要組成部分,包括企事業(yè)單位償債能力分析、企事業(yè)單位營(yíng)運(yùn)能力分析、企事業(yè)單位獲利能力分析、企事業(yè)單位發(fā)展能力分析。它是利用已有的財(cái)務(wù)數(shù)據(jù)對(duì)企事業(yè)單位的財(cái)務(wù)狀況、經(jīng)營(yíng)成果進(jìn)行分析與評(píng)價(jià)。財(cái)務(wù)分析系統(tǒng)可以運(yùn)用數(shù)據(jù)挖掘分類、預(yù)測(cè)等技術(shù),根據(jù)企事業(yè)單位過(guò)去和現(xiàn)在的財(cái)務(wù)數(shù)據(jù)做進(jìn)一步的加工、整理、分析和評(píng)價(jià),在預(yù)測(cè)未來(lái)的財(cái)務(wù)狀況的同時(shí)從中取得有用的信息供決策者使用。

(2)財(cái)務(wù)預(yù)測(cè)

財(cái)務(wù)預(yù)測(cè)系統(tǒng)是FDSS 的重要組成部分,其功能分為兩個(gè)方面:一是利用已有的財(cái)務(wù)數(shù)據(jù)對(duì)企事業(yè)單位未來(lái)的財(cái)務(wù)狀況和經(jīng)營(yíng)成果進(jìn)行預(yù)測(cè)。二是利用專家經(jīng)驗(yàn)和專門(mén)知識(shí)對(duì)某項(xiàng)財(cái)務(wù)專題進(jìn)行預(yù)測(cè)。財(cái)務(wù)預(yù)測(cè)的主要內(nèi)容包括銷售預(yù)測(cè)、利潤(rùn)預(yù)測(cè)、成本預(yù)測(cè)、資金預(yù)測(cè)、財(cái)務(wù)指標(biāo)預(yù)測(cè)等。利用回歸,神經(jīng)網(wǎng)絡(luò)等技術(shù)根據(jù)已有的財(cái)務(wù)數(shù)據(jù)預(yù)測(cè)企事業(yè)單位未來(lái)的財(cái)務(wù)狀況,進(jìn)而判斷企事業(yè)單位未來(lái)發(fā)生財(cái)務(wù)危機(jī)的可能性。

(3)籌資決策

籌資是指企事業(yè)單位何時(shí)、采用何種方式、獲得何種規(guī)模資金的過(guò)程。企事業(yè)單位籌資決策主要包括籌資數(shù)量決策、籌資方式?jīng)Q策和債務(wù)償還決策。一般地說(shuō),企事業(yè)單位籌資首先應(yīng)考慮自有資本,即所有者權(quán)益籌資;其次再考慮債務(wù)籌資,其目的是使財(cái)務(wù)風(fēng)險(xiǎn)最小化。利用數(shù)據(jù)挖掘中的分類、聚類等技術(shù)可根據(jù)單位經(jīng)營(yíng)管理的需要進(jìn)行決策信息輸出,確定一個(gè)合理的籌資方案。

(4)投資決策

企事業(yè)單位的投資決策主要包括企事業(yè)單位內(nèi)部長(zhǎng)期投資決策、聯(lián)營(yíng)投資決策和證券投資決策。投資決策問(wèn)題是決策問(wèn)題中較為復(fù)雜的問(wèn)題,其決策問(wèn)題一般分為半結(jié)構(gòu)化或非結(jié)構(gòu)化問(wèn)題。我們可利用預(yù)測(cè)、關(guān)聯(lián)等技術(shù)對(duì)投資時(shí)機(jī)、投資規(guī)模、投資方式等方面來(lái)確定投資方案。通過(guò)在眾多可投資項(xiàng)目中選擇出最具價(jià)值的項(xiàng)目決策信息,實(shí)現(xiàn)投資資金效率最大化。

(5)成本決策

成本決策涉及企事業(yè)單位銷、生產(chǎn)經(jīng)營(yíng)和資本運(yùn)作等各個(gè)領(lǐng)域,可以說(shuō)凡是發(fā)生成本費(fèi)用支出的各項(xiàng)經(jīng)濟(jì)活動(dòng),都存在成本決策問(wèn)題。企事業(yè)單位成本決策包括:存貨成本決策、生產(chǎn)成本決策、資金成本決策、銷售成本決策、服務(wù)成本決策等,其中銷售成本決策和服務(wù)成本決策,其非結(jié)構(gòu)化因素較多,包括促銷費(fèi)用、廣告費(fèi)用、銷貨服務(wù)費(fèi)等,從而使其決策方案的確定更加復(fù)雜化。這就需要利用數(shù)據(jù)挖掘技術(shù)中的時(shí)間序列分析,關(guān)聯(lián)分析等技術(shù)對(duì)歷史數(shù)據(jù)進(jìn)行分析預(yù)測(cè),以確定最優(yōu)方案。

(6)股利分配決策

股利分配是指公司向股東分派股利。股利分配決策的合理與否,將會(huì)對(duì)公司的持續(xù)發(fā)展和股東利益產(chǎn)生重大影響。股利分配決策包括股利發(fā)放決策、股利支付比率決策和股利發(fā)放形式?jīng)Q策等。由于股利分配決策要受到法律、經(jīng)濟(jì)、公司政策、股東利益、以及股票市場(chǎng)等諸多因素的影響,其決策問(wèn)題大多為半結(jié)構(gòu)化和非結(jié)構(gòu)化問(wèn)題,我們可利用數(shù)據(jù)挖掘技術(shù)中的分類技術(shù)來(lái)提供支持。

(7)存貨決策

存貨決策主要是指原材料和產(chǎn)成品的決策,即確定合理的經(jīng)濟(jì)訂貨量以及何時(shí)訂貨才是最佳時(shí)機(jī),力求使存貨上耗費(fèi)的成本最低。銷售的不確定性使得存貨決策成為一種風(fēng)險(xiǎn)性決策,它需要根據(jù)以往的經(jīng)驗(yàn)儲(chǔ)存、歷史統(tǒng)計(jì)資料的分析以及輸入用戶的調(diào)研數(shù)據(jù),運(yùn)用數(shù)據(jù)挖掘技術(shù)中的決策樹(shù)方法幫助決策者確定需求變量的范圍及發(fā)生概率,并提供最優(yōu)方案的參考數(shù)據(jù)。隨著數(shù)據(jù)庫(kù)技術(shù)和網(wǎng)絡(luò)技術(shù)的迅速發(fā)展,傳統(tǒng)會(huì)計(jì)核算層及財(cái)務(wù)管理層的不斷完善,人們獲取數(shù)據(jù)的能力越來(lái)越強(qiáng),將海量的數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)中。將數(shù)據(jù)倉(cāng)庫(kù)(DW)、數(shù)據(jù)挖掘(DM)和聯(lián)機(jī)分析(OLAP)等信息技術(shù)應(yīng)用于財(cái)務(wù)決策支持系統(tǒng),更能將數(shù)據(jù)倉(cāng)庫(kù)里的海量數(shù)據(jù)從執(zhí)行系統(tǒng)中篩選出來(lái),減少冗余,完成一系列轉(zhuǎn)換處理,便于決策者從宏大的信息系統(tǒng)中分辨、析取、整理、挖掘出對(duì)財(cái)務(wù)決策有用的信息,極大提高企事業(yè)單位管理信息系統(tǒng)的工作效率③。

三、數(shù)據(jù)挖掘技術(shù)在財(cái)務(wù)決策支持系統(tǒng)中應(yīng)用的難點(diǎn)與展望

數(shù)據(jù)挖掘技術(shù)在財(cái)務(wù)決策支持系統(tǒng)中的應(yīng)用還是一門(mén)嶄新的技術(shù)或方法,接受數(shù)據(jù)挖掘的概念容易,但將其落在實(shí)處卻比較困難。其中最重要的就是成本問(wèn)題。數(shù)據(jù)挖掘功能對(duì)企事業(yè)單位財(cái)務(wù)數(shù)據(jù)進(jìn)行分析雖然存有優(yōu)勢(shì),但前提條件是具備完整、正確的數(shù)據(jù),即在建立數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)基礎(chǔ)后,與此功能結(jié)合運(yùn)用以達(dá)到事半功倍的效果。但目前單位財(cái)務(wù)部門(mén)提供的數(shù)據(jù)本身就可能存在水分,因此需要數(shù)據(jù)信息使用者在經(jīng)過(guò)會(huì)計(jì)信息質(zhì)量分析等前提下調(diào)整或重新估計(jì),然后再利用數(shù)據(jù)挖掘等技術(shù)應(yīng)用到財(cái)務(wù)決策支持系統(tǒng)中。數(shù)據(jù)挖掘僅依靠計(jì)算機(jī)或者軟件是無(wú)法完成任務(wù)的,更多的是需要依靠專業(yè)人士的職業(yè)判斷。

雖然在單位財(cái)務(wù)決策支持系統(tǒng)中利用數(shù)據(jù)挖掘技術(shù)還不十分成熟,但是伴隨著科學(xué)技術(shù)的迅猛發(fā)展,以及數(shù)據(jù)挖掘技術(shù)在財(cái)務(wù)決策支持系統(tǒng)中的廣闊市場(chǎng)前景,相信基于數(shù)據(jù)挖掘的財(cái)務(wù)決策支持系統(tǒng)必將更加成熟!

但是,數(shù)據(jù)挖掘作為一門(mén)新興的科學(xué)和技術(shù),它的發(fā)展還處于幼年期,要想基于數(shù)據(jù)挖掘的財(cái)務(wù)決策支持系統(tǒng)模型得到更為廣泛的應(yīng)用,面臨的挑戰(zhàn)為:

1.建立基礎(chǔ)的數(shù)據(jù)挖掘理論體系;

2.提高數(shù)據(jù)挖掘算法的效率和處理能力;

3.良好的人機(jī)交互界面;

4.挖掘各種數(shù)據(jù)類型,包括半結(jié)構(gòu)和無(wú)結(jié)構(gòu)數(shù)據(jù)。

注釋:

①何京舟.淺議數(shù)據(jù)挖掘技術(shù)與財(cái)務(wù)分析.中國(guó)集體經(jīng)濟(jì).2009(6):155-156.

②湯九斌.基于數(shù)據(jù)挖掘技術(shù)的決策支持系統(tǒng)及其關(guān)鍵技術(shù)研究.中國(guó)優(yōu)秀博士論文全文數(shù)據(jù)庫(kù).南京理工大學(xué).2009.

③周喜,王加陽(yáng).數(shù)據(jù)挖掘技術(shù)在財(cái)務(wù)決策支持系統(tǒng)中的應(yīng)用研究.湖南商學(xué)院學(xué)報(bào).2009(4):99-101.

參考文獻(xiàn):

[1]何京舟.淺議數(shù)據(jù)挖掘技術(shù)與財(cái)務(wù)分析.中國(guó)集體經(jīng)濟(jì).2009(6).

[2]鄭日軍.數(shù)據(jù)挖掘綜述.科協(xié)論壇(下半月).2008(10).

[3]洪沙,向芳.數(shù)據(jù)挖掘與決策支持系統(tǒng).科學(xué)咨詢(決策管理).2008(4).

亚洲av一区二区三区精品| 欧美日韩校园春色激情偷拍| 超碰在线免费公开中国黄片| 伊人欧美一区二区三区| 伊人久久五月天综合网| 最新国产欧美精品91| 亚洲妇女作爱一区二区三区| 日韩人妻精品免费一区二区三区 | 又大又长又粗又黄国产| 欧美丰满人妻少妇精品| 久久综合日韩精品免费观看| 国产自拍欧美日韩在线观看| 久久精品亚洲欧美日韩| 不卡在线播放一区二区三区| 国产欧美日韩视频91| 日韩亚洲精品国产第二页| 日韩一区中文免费视频| 日韩免费国产91在线| 色婷婷人妻av毛片一区二区三区| 日韩日韩欧美国产精品| 国产午夜福利不卡片在线观看| 精品日韩av一区二区三区| 日本一区二区三区黄色| 国产成人精品视频一区二区三区| 丁香六月啪啪激情综合区| 日本午夜一本久久久综合| 中文字幕欧美视频二区| 欧美午夜一区二区福利视频| 国产成人精品资源在线观看| 激情内射日本一区二区三区| 国产一区二区三区精品免费| 美女黄片大全在线观看| 欧美午夜性刺激在线观看| 99一级特黄色性生活片| 微拍一区二区三区福利| 中文字幕av诱惑一区二区| 99福利一区二区视频| 国产麻豆一线二线三线| 熟女一区二区三区国产| 国产又黄又猛又粗又爽的片| 尹人大香蕉中文在线播放|