亚洲激情综合另类男同-中文字幕一区亚洲高清-欧美一区二区三区婷婷月色巨-欧美色欧美亚洲另类少妇

首頁 優(yōu)秀范文 神經(jīng)網(wǎng)絡(luò)文本分類

神經(jīng)網(wǎng)絡(luò)文本分類賞析八篇

發(fā)布時(shí)間:2023-09-21 16:52:54

序言:寫作是分享個(gè)人見解和探索未知領(lǐng)域的橋梁,我們?yōu)槟x了8篇的神經(jīng)網(wǎng)絡(luò)文本分類樣本,期待這些樣本能夠?yàn)槟峁┴S富的參考和啟發(fā),請(qǐng)盡情閱讀。

神經(jīng)網(wǎng)絡(luò)文本分類

第1篇

Yi Wan,Luo Jing,Li Yong,Guo Shaoying (College of computer science and Information Engineering, Tianjin University of Science & Technology, Tianjin 300222, China) Abstract: According to user search history, the user information of interest by Title Classification, the auto-encoder neural network feature extraction value. Set the learning sample heading up to 25 Chinese characters, coding mode is adopted Chinese characters machine code (GBK code). Use the MATLAB tool for deep learning, will feature in the original space representation is transformed into a new feature space. Key words: Text feature; The auto-encoder neural network; Deep learning; Matlab

基于自編碼神經(jīng)網(wǎng)絡(luò)建立搜索信息模型的目的是根據(jù)用戶搜索信息的歷史,推斷出網(wǎng)頁中的內(nèi)容是用戶關(guān)注的信息并即時(shí)顯示。首先將用戶關(guān)注的歷史信息按標(biāo)題分類,通過自編碼神經(jīng)網(wǎng)絡(luò)建立標(biāo)題特征值數(shù)據(jù)庫。當(dāng)自編碼神經(jīng)網(wǎng)絡(luò)搜索信息模型工作時(shí),按照用戶提供的關(guān)鍵詞順序,打開用戶經(jīng)常瀏覽的網(wǎng)頁,讀入標(biāo)題文本,若具有數(shù)據(jù)庫中的標(biāo)題特征,則將該標(biāo)題的文本內(nèi)容即時(shí)顯示。

直接解析網(wǎng)頁中的標(biāo)題文本,面臨的基本問題是文本的表示。如果把標(biāo)題文本所有的詞都作為特征項(xiàng),那么太多的特征向量維數(shù)導(dǎo)致計(jì)算量太大。例如50個(gè)標(biāo)題,每個(gè)標(biāo)題25個(gè)漢字,特征項(xiàng)將有50×25=1250個(gè)。如果將標(biāo)題中的某個(gè)關(guān)鍵詞作為特征詞,將會(huì)有幾千個(gè)包含關(guān)鍵詞的標(biāo)題,從而導(dǎo)致讀入分析量過于巨大。本文采用自編碼神經(jīng)網(wǎng)絡(luò),用映射變換的方法把原始文本特征變換為較少的新特征,提高信息搜索效率。

1 自編碼神經(jīng)網(wǎng)絡(luò)

1.1 自編碼神經(jīng)網(wǎng)絡(luò)理論

Auto-Encoder(自編碼)[1],自編碼算法是一種基于神經(jīng)網(wǎng)絡(luò)算法的無監(jiān)督學(xué)習(xí)算法,與神經(jīng)網(wǎng)絡(luò)算法的不同之處是將輸入值作為輸出節(jié)點(diǎn)的輸出。自編碼算法的另一個(gè)特征是隱藏層節(jié)點(diǎn)的個(gè)數(shù)一般少于輸入輸出節(jié)點(diǎn)的個(gè)數(shù)。這樣的意義是將輸入的特征通過神經(jīng)網(wǎng)絡(luò)的非線性變換到節(jié)點(diǎn)數(shù)更少的隱藏層。因此,可以通過自編碼神經(jīng)網(wǎng)絡(luò)對(duì)給定的樣本進(jìn)行訓(xùn)練學(xué)習(xí),從而得到輸入數(shù)據(jù)降維后的特征,即為隱藏層的節(jié)點(diǎn)數(shù),省去了人工特征提取的麻煩。

自編碼神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖如圖1所示[2]。這是一種深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),包含了多個(gè)隱含層,整個(gè)網(wǎng)絡(luò)是一種對(duì)稱的結(jié)構(gòu),中心層的神經(jīng)元的個(gè)數(shù)最少。網(wǎng)絡(luò)通過對(duì)樣本的訓(xùn)練可以得到一組權(quán)值系數(shù),而輸入數(shù)據(jù)通過這組權(quán)值系數(shù)表達(dá)成低維形式,從而達(dá)到了用降維后的特征表示出輸入的數(shù)據(jù)。

圖1 自編碼神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)

Fig.1 The structure of auto-encoder neural network

1.1.1 預(yù)訓(xùn)練

(1) 輸入?yún)?shù)的確定:標(biāo)題是作者給出的提示文章內(nèi)容的短語,標(biāo)題一般都簡練、醒目,有不少縮略語,與報(bào)道的主要內(nèi)容有著重要的聯(lián)系。如登陸我的鋼鐵網(wǎng)站,搜索鋼管熱點(diǎn)資訊,顯示的標(biāo)題有“我國自主研制*****油管成功替代進(jìn)口”,學(xué)習(xí)樣本選擇50組標(biāo)題,每個(gè)標(biāo)題不超過25個(gè)漢字,如表1所示。

表1 學(xué)習(xí)樣本

Tab. 1 Learning samples

1

我國自主研制高端耐熱鋼無縫鋼管成功替代進(jìn)口

2

我國自主研制K55石油套管成功替代進(jìn)口

3

我國自主研制J55稠油熱采套管成功替代進(jìn)口

4

我國自主研制專用耐高溫防火船舶用套管成功替代進(jìn)口

5

我國自主研制20G高壓鍋爐管成功替代進(jìn)口

6

我國自主研制特殊用途低溫用管成功替代進(jìn)口

7

我國自主研制起重機(jī)臂架無縫鋼管成功替代進(jìn)口

8

我國自主研制精密合金4J36船用管材成功替代進(jìn)口

9

我國自主研制高強(qiáng)韌性高抗擠毀套管成功替代進(jìn)口

10

我國自主研制三種極限規(guī)格管線管成功替代進(jìn)口

……

50

我國自主研制醫(yī)藥化工用管成功替代進(jìn)口

(2) 語句預(yù)處理[3]:學(xué)習(xí)樣本句子進(jìn)行預(yù)處理是把句子中的每一個(gè)漢字變換成自編碼神經(jīng)網(wǎng)絡(luò)模型能接受的數(shù)字化形式。為了使神經(jīng)網(wǎng)絡(luò)能接受外部數(shù)據(jù),首先要對(duì)句子中的漢字進(jìn)行編碼,編碼方式是采用漢字的計(jì)算機(jī)內(nèi)碼(GBK碼)。每個(gè)漢字機(jī)內(nèi)碼有16位二進(jìn)制,如:“我國自主研制”的二進(jìn)制碼為

1100111011010010 我(GBK碼)

1011100111111010 國(GBK碼)

1101011111010100 自(GBK碼)

1101011011110111 主(GBK碼)

1101000111010000 研(GBK碼)

1101011011000110 制(GBK碼)

將16位二進(jìn)制數(shù)轉(zhuǎn)換為十進(jìn)制數(shù)并進(jìn)行線性變換,映射到實(shí)數(shù)[0 1]之間,作為輸入神經(jīng)元初值。變換公式如下:

式中:maxi和mini;tmax和tmin分別為x(p)i,t(p)量程范圍的最大值和最小值。

(3)預(yù)訓(xùn)練:幾個(gè)獨(dú)立的RBM構(gòu)成“堆?!睒?gòu)成了預(yù)訓(xùn)練部分,而RBM是BM (boltzmannmachine)的一種特殊連接方式。圖2即為RBM的網(wǎng)絡(luò)構(gòu)成。它是一種隱含層神經(jīng)元無連接,并且只有可見層和隱含層兩層神經(jīng)元。

圖2 RBM網(wǎng)絡(luò)構(gòu)成

Fig. 2 Construction of restricted boltzmannmachine

BM的權(quán)值調(diào)整公式為[4]

(1)

式中:在第t步時(shí)神經(jīng)元i、j間的連接權(quán)值為wij(t);η為學(xué)習(xí)速率;T為網(wǎng)絡(luò)溫度;<uihj>+、<uihj>-分別為正向平均關(guān)聯(lián)和反向平均關(guān)聯(lián)。

在RBM中,可見層神經(jīng)元的輸出和隱含層神經(jīng)元輸出的乘積即為平均關(guān)聯(lián)。系數(shù)ε由η和T統(tǒng)一合并而成,迭代步長即由權(quán)值調(diào)整公式ε表示。

圖3 RBM網(wǎng)絡(luò)結(jié)構(gòu)圖

Fig. 3 RBM network structure diagram

(4)MATLAB實(shí)現(xiàn):

本文建立的BP神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)為

[25,15,25],[15,12,15],[12,10,12],[10,8,10],[8,5,8]

設(shè)定網(wǎng)絡(luò)隱含層的激活函數(shù)為雙曲正切S型函數(shù)tansig,輸出層的激活函數(shù)為線性激活函數(shù)purelin,網(wǎng)絡(luò)的訓(xùn)練函數(shù)為Levenberg-Marquardt算法訓(xùn)練函數(shù)trainlm。因此對(duì)應(yīng)的MATLAB神經(jīng)網(wǎng)絡(luò)工具箱的程序語句為

net=newff(minmax(P),[25,25],{‘tansig’,’purelin’}, ’trainlm’);

net=newff(minmax(P),[15,15],{‘tansig’,’purelin’},’trainlm’);

net=newff(minmax(P),[12,12],{‘tansig’,’purelin’},’trainlm’);

net=newff(minmax(P),[10,10],{‘tansig’,’purelin’},’trainlm’);

net=newff(minmax(P),[8,8],{‘tansig’,’purelin’},’trainlm’);

設(shè)定學(xué)習(xí)速率為0.01,最大訓(xùn)練步數(shù)為300,目標(biāo)誤差為0.00001。

(5)預(yù)訓(xùn)練結(jié)果:

預(yù)訓(xùn)練結(jié)果如表2所示。

表2 預(yù)訓(xùn)練結(jié)果

Tab. 2 The results of pre training

誤差

學(xué)習(xí)速率

步長

[25,15,25]

0.003248

0.01

150

[15,12,15]

0.0022809

0.01

125

[12,10,12]

0.0025866

0.01

100

[10,8,10]

0.0039575

0.01

75

[8,5,8]

0.013529

0.01

50

1.1.2 展開

如圖4所示,將各個(gè)RBM連接,得到自編碼神經(jīng)網(wǎng)絡(luò)。預(yù)訓(xùn)練所得到的權(quán)值,將作為整個(gè)自編碼神經(jīng)網(wǎng)絡(luò)的初始權(quán)值,參與整個(gè)網(wǎng)絡(luò)的微調(diào)訓(xùn)練。

圖4 RBM展開圖

Fig. 4 Development of RBM network structure

1.1.3 微調(diào)

微調(diào)訓(xùn)練是在預(yù)訓(xùn)練得到初始權(quán)值的基礎(chǔ)上,對(duì)權(quán)值進(jìn)一步調(diào)整。采用以交叉熵為目標(biāo)函數(shù)[5]的BP算法完成網(wǎng)絡(luò)的微調(diào)訓(xùn)練。交叉熵是用來度量兩個(gè)概率分布間差異性的,它是一個(gè)非負(fù)數(shù),兩個(gè)分布越相似,其越小。原始的交叉熵定義為

(4)

式中:x為隨機(jī)變量;q(x)為已知概率分布;p(x)為估計(jì)概率分布。

對(duì)于隨機(jī)變量x,當(dāng)用q(x)估計(jì)p(x)時(shí),通過調(diào)整受x影響的p(x)來最小化交叉熵D(pq),用于自編碼神經(jīng)網(wǎng)絡(luò)權(quán)值調(diào)整的BP算法交叉熵函數(shù)形式為

(5)

式中:ti目標(biāo)概率分布;yi實(shí)際概率分布。

整個(gè)網(wǎng)絡(luò)訓(xùn)練的目的是調(diào)整權(quán)值以使交叉熵函數(shù)達(dá)到最小,權(quán)值調(diào)整公式為

根據(jù)上面的權(quán)值調(diào)整公式,可以完成網(wǎng)絡(luò)的微調(diào)訓(xùn)練。訓(xùn)練結(jié)果如表3所示。

表3 微調(diào)訓(xùn)練結(jié)果

1.1.4 特征提取

50組標(biāo)題(每個(gè)標(biāo)題不超過25個(gè)漢字)的學(xué)習(xí)訓(xùn)練,通過自編碼網(wǎng)絡(luò)的逐層特征變換,將樣本數(shù)據(jù)約1250(50×25)個(gè)漢字編碼,在原空間的特征表示變換到一個(gè)新特征空間。其中網(wǎng)絡(luò)最深隱含層的輸出值(5個(gè))和權(quán)值矩陣W6(5×8=40個(gè)),共計(jì)45個(gè),為提取標(biāo)題文本1250個(gè)漢字編碼的特征值。

2 實(shí) 例

本文選取10組標(biāo)題文本見表4,分別輸入自編碼神經(jīng)網(wǎng)絡(luò)。預(yù)測結(jié)果表示基本符合要求。

表4 預(yù)測結(jié)果

Tab. 4 The prediction results

序號(hào)

樣本輸入

結(jié)果顯示

1

我國自主研制的蛟龍?zhí)柹钏綔y器成功替代進(jìn)口

2

我國自主研制首臺(tái)3.6萬噸垂直擠壓機(jī)擠合格鋼管成功替代進(jìn)口

我國自主研制首臺(tái)3.6萬噸垂直擠壓機(jī)擠合格鋼管成功替代進(jìn)口

3

我國自主研制的超級(jí)計(jì)算機(jī)系統(tǒng)成功替代進(jìn)口

4

我國自主研發(fā)的1000MPa高壓共軌管成功替代進(jìn)口

我國自主研發(fā)的1000MPa高壓共軌管成功替代進(jìn)口

5

我國自主研制超臨界電站無縫鋼管T92、P92成功替代進(jìn)口

我國自主研制超臨界電站無縫鋼管T92、P92成功替代進(jìn)口

6

我國自主研制重載火車頭下線成功替代進(jìn)口

7

我國自主研制成功特高壓交、直流套管成功替代進(jìn)口

我國自主研制成功特高壓交、直流套管成功替代進(jìn)口

8

我國自主研制的Q355GNH系列耐候鋼成功替代進(jìn)口

我國自主研制的Q355GNH系列耐候鋼成功替代進(jìn)口

9

我國自主研制的渦槳支線飛機(jī)成功替代進(jìn)口

10

我國自主研制釩微合金L290管線鋼成功替代進(jìn)口

我國自主研制釩微合金L290管線鋼成功替代進(jìn)口

3 結(jié) 語

本文按照標(biāo)題文本分類檢索信息,解決了直接按照關(guān)鍵詞搜索信息,網(wǎng)頁中經(jīng)常顯示幾千條包含關(guān)鍵詞內(nèi)容的標(biāo)題本文,從而導(dǎo)致讀入分析信息量過于巨大的問題。通過自編碼神經(jīng)網(wǎng)絡(luò)提取文本特征,在不損傷文本核心信息的情況下盡量減少要處理的單詞數(shù),以此來降低向量空間維數(shù),簡化計(jì)算,提高了文本處理的速度和效率。

第2篇

關(guān)鍵詞:文本分類;支持向量機(jī);核函數(shù)

中圖分類號(hào): TP391; TP18 文獻(xiàn)標(biāo)識(shí)碼:B文章編號(hào):1672-5913(2007)02-0072-04

支持向量機(jī)(Support Vector Machine,簡稱SVM)是Cortes和Vapnik于1995年首先提出的,它在解決小樣本、非線性及高維模式識(shí)別中表現(xiàn)出許多特有的優(yōu)勢,并能夠推廣應(yīng)用到函數(shù)擬合等其他機(jī)器學(xué)習(xí)問題中。傳統(tǒng)統(tǒng)計(jì)模式識(shí)別的方法都是在樣本數(shù)目足夠多的前提下進(jìn)行研究,所提出的各種方法只有在樣本數(shù)趨于無窮大時(shí)其性能才有理論上的保證,而在多數(shù)實(shí)際應(yīng)用中,樣本數(shù)目通常是有限的,很多傳統(tǒng)方法都難以取得理想的效果。Vapnik等人早在20世紀(jì)60年代就開始研究有限樣本情況下的機(jī)器學(xué)習(xí)問題。20世紀(jì)90年代,有限樣本情況下的機(jī)器學(xué)習(xí)理論研究逐漸成熟起來,形成了一個(gè)較完善的理論體系――統(tǒng)計(jì)學(xué)習(xí)理論(Statistical Learning Theory)。1992年到1995年,在統(tǒng)計(jì)學(xué)習(xí)理論的基礎(chǔ)上發(fā)展出了一種新的模式識(shí)別方法――支持向量機(jī)。隨著WWW的迅猛發(fā)展,文本分類成為處理和組織大量文檔數(shù)據(jù)的關(guān)鍵技術(shù)。SVM是繼k-近鄰、神經(jīng)網(wǎng)絡(luò)、相素貝葉斯等方法之后被用于文本分類,并且是在Reuter語料(包括21450版本和Apte給出的集合)上能取得非常好的結(jié)果的文本分類算法之一。

本文重點(diǎn)研究SVM在兩個(gè)不同的語料集上,選擇不同的特征維數(shù),采用四種不同的核函數(shù)的分類性能比較。實(shí)驗(yàn)結(jié)果表明,這種方法削弱了訓(xùn)練樣本分布的不均勻性對(duì)分類性能的影響,可以將微平均準(zhǔn)確率提高大約1%~2%。

本文第1節(jié)將闡述支持向量機(jī)算法的基本思想;第2節(jié)介紹目前廣泛應(yīng)用的三種核函數(shù);第3節(jié)給出了在著名的英文語料集Reuters-21578上的實(shí)驗(yàn)結(jié)果與分析;第4節(jié)是結(jié)論和進(jìn)一步工作展望。

1統(tǒng)計(jì)學(xué)習(xí)理論與支持向量機(jī)

統(tǒng)計(jì)學(xué)習(xí)理論就是研究小樣本統(tǒng)計(jì)估計(jì)和預(yù)測的理論,具有很好的泛化能力,為解決有限樣本學(xué)習(xí)問題提供了一個(gè)統(tǒng)一的框架。它能將很多現(xiàn)有方法納入其中,有望幫助解決許多原來難以解決的問題(比如神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)選擇問題、局部極小點(diǎn)問題等);同時(shí),在這一理論基礎(chǔ)上發(fā)展了一種新的通用學(xué)習(xí)方法――支持向量機(jī)(SVM) 。

SVM是一種建立在統(tǒng)計(jì)學(xué)習(xí)理論基礎(chǔ)上的機(jī)器學(xué)習(xí)方法,有較好的推廣性能和較高的分類準(zhǔn)確率。該算法基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理,將數(shù)據(jù)集合壓縮到支持向量集合(通常為前者的3%~5%),學(xué)習(xí)得到分類決策函數(shù)。其基本思想是構(gòu)造一個(gè)超平面作為決策平面,使正負(fù)模式之間的間隔最大。

SVM方法是從線性可分情況下的最優(yōu)分類面提出的。如圖1所示,圓圈和實(shí)心點(diǎn)分別代表兩類的訓(xùn)練樣本,H為把兩類沒有錯(cuò)誤地分開的分類線,H1、H2分別為過各類樣本中離分類線最近的點(diǎn)且平行于分類線的直線,H1和H2之間的距離叫做兩轉(zhuǎn)類的分類間隔(Margin)。支持向量與超平面之間的距離為1/ω,則支持向量間距為2/ω尋找超平面的問題,可化為求解以下二次規(guī)劃問題:

3.3實(shí)驗(yàn)結(jié)果與分析

為了考察算法的效果,我們采用了VC++6.0實(shí)現(xiàn)本文算法,部分源代碼采用復(fù)旦大學(xué)計(jì)算機(jī)與信息技術(shù)系李榮陸提供的文本分類器系統(tǒng)源代碼。實(shí)驗(yàn)分為三個(gè)階段。

表1、表2實(shí)驗(yàn)結(jié)果表明,不論是在英文語料集還是中文語料集,使用SVM分類系統(tǒng)均能達(dá)到較好的分類效果,而實(shí)驗(yàn)中采用多項(xiàng)式核函數(shù)和Sigmoid函數(shù)進(jìn)行比較,經(jīng)證明,在多數(shù)情況下前者優(yōu)于后者。

4結(jié)束語

本文就文本分類的過程和關(guān)鍵技術(shù)進(jìn)行了論述,并就不同核函數(shù)下文本分類的效果進(jìn)行了實(shí)驗(yàn)驗(yàn)證,證明SVM是一種行之有效的文本分類方法。在今后的研究中,如何提高SVM算法的效率將是工作的重點(diǎn)。

參考文獻(xiàn):

[1] V. Vapnik. The nature of Statistical Learning Theory[J]. Springer, New York, 1995.

[2] Therson Joachims. Text Categorization with Support Vector Machines: Learning with Many Relevant Features. In European Conference on Machine Learning(ECML)[J]. Springer,Berlin, 1998.

第3篇

關(guān)鍵詞:自動(dòng)分類;現(xiàn)狀;類型;文檔分類;方法

中圖分類號(hào):TP391文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2009)04-1020-02

自動(dòng)分類技術(shù)是利用計(jì)算機(jī)系統(tǒng)對(duì)文本集按照一定的分類體系或標(biāo)準(zhǔn)進(jìn)行自動(dòng)類別標(biāo)記,分類工具根據(jù)文檔的信息將其分配到已經(jīng)存在的類別中,也稱“主題”。

隨著網(wǎng)絡(luò)的迅猛發(fā)展,網(wǎng)頁、電子郵件、數(shù)據(jù)庫、聊天室和數(shù)字圖書館等電子文本成幾何級(jí)數(shù)不斷增長,處理這些海量數(shù)據(jù)的一個(gè)重要方法就是將它們分類。當(dāng)我們?yōu)g覽一個(gè)網(wǎng)站查找信息時(shí),如果網(wǎng)頁凌亂的堆積在一起沒有類別供我們查找,會(huì)使我們很難找到自己所需的信息。現(xiàn)在,大型網(wǎng)站都將網(wǎng)頁分類,以方便人們?yōu)g覽。比如,Yahoo就將網(wǎng)頁放在一個(gè)巨大的層次分類結(jié)構(gòu)中,通過組裝維護(hù)這些類別,可以幫助人們查找知識(shí)和信息。網(wǎng)頁自身并沒有類型區(qū)分,這就需要人工分類,將網(wǎng)頁、郵件等各種格式的文檔經(jīng)過文法分析都可以轉(zhuǎn)化為純文本,而自動(dòng)文本分類系統(tǒng)可以幫助人們檢查文本、判斷文本所屬類別。

1 自動(dòng)分類技術(shù)的現(xiàn)狀

到目前為止,國外已在自動(dòng)分類領(lǐng)域進(jìn)行了較為深入的研究。已經(jīng)從最初的可行性基礎(chǔ)研究經(jīng)歷了實(shí)驗(yàn)性研究進(jìn)入實(shí)用階段,并在郵件分類、電子會(huì)議、信息過濾等方面取得了較為廣泛的應(yīng)用[1]。

國內(nèi)對(duì)自動(dòng)分類技術(shù)的研究相對(duì)較晚。1986年,上海交通大學(xué)電腦應(yīng)用技術(shù)研究所開發(fā)的中文科技文獻(xiàn)(計(jì)算機(jī)類)實(shí)驗(yàn)性分類系統(tǒng)。1995年,清華大學(xué)電子工程系研制的漢語語料自動(dòng)分類系統(tǒng)。1998年,東北大學(xué)計(jì)算機(jī)系的新聞?wù)Z料漢語文本自動(dòng)分類模型。1999年,由鄒濤等人開發(fā)的中文技術(shù)文本分類系統(tǒng)CTDS。除此之外,國內(nèi)眾多學(xué)者對(duì)中文文本分類算法也進(jìn)行了深入研究,黃萱箐等提出的基于機(jī)器學(xué)習(xí)的、獨(dú)立于語種的文本分類模型[3],周永庚等研究的隱含語義索引在中文文本處理中的應(yīng)用[4],李榮陸等的最大熵模型[5],張劍等提出的一種以WordNet語言本體庫為基礎(chǔ),建立文本的概念向量空間模型作為文本特征向量的特征提取方法[6],朱靖波等將領(lǐng)域知識(shí)引入文本分類,利用領(lǐng)域知識(shí)作為文本特征,提出一種基于知識(shí)的文本分類方法等[7]。

從20世紀(jì)90年代以來,基于機(jī)器學(xué)習(xí)的文本分類逐漸成為文本分類的主流技術(shù)。近年來文本分類技術(shù)取得了很大的進(jìn)展,提出了多種特征抽取方法和分類方法,如回歸模型、支持向量機(jī)、最大熵模型等,建立了OHSUMED,Reuters等開放的分類語料庫。

2 自動(dòng)分類技術(shù)的類型

根據(jù)目的性,信息自動(dòng)分類包括自動(dòng)聚類和自動(dòng)歸類兩種類型。

2.1 自動(dòng)聚類

由計(jì)算機(jī)系統(tǒng)對(duì)待分類文本進(jìn)行分析并提取有關(guān)的特征,然后對(duì)提取的特征進(jìn)行比較,根據(jù)一定規(guī)則將具有相同或相近特征的對(duì)象定義為一類。自動(dòng)聚類的目的是在已有信息中定義符合實(shí)際情況的類。在網(wǎng)站的非主要分類體系中,也可以用自動(dòng)聚類的方法自動(dòng)生成欄目內(nèi)的類別。

2.2 自動(dòng)歸類

計(jì)算機(jī)系統(tǒng)對(duì)分類文本提取有關(guān)特征,然后與既定分類系統(tǒng)中對(duì)象所具有的公共特征進(jìn)行相關(guān)性比較。將對(duì)象歸入其特征最相近的類中。自動(dòng)歸類的目的是把各種信息納入已建立的分類系統(tǒng)中,用于搜索引擎或網(wǎng)站導(dǎo)航系統(tǒng)的管理和數(shù)據(jù)更新。根據(jù)使用的技術(shù),自動(dòng)歸類通常分為基于詞的自動(dòng)分類(詞典法)和基于專家系統(tǒng)的自動(dòng)分類(知識(shí)法)兩大類,也有人將界于兩種技術(shù)之間的稱為基于信息的自動(dòng)分類。

3 文檔分類關(guān)鍵技術(shù)分類及方法

現(xiàn)有的文本分類技術(shù)主要采用3 種方法:基于連接的方法、基于規(guī)則的方法和基于統(tǒng)計(jì)的方法。

3.1 基于連接的文本分類方法

基于連接的方法主要是利用人工神經(jīng)網(wǎng)絡(luò)來模擬人腦神經(jīng)網(wǎng)絡(luò),并期望其能像大腦一樣地運(yùn)作,一樣地學(xué)習(xí),從而產(chǎn)生智慧。這種方法可以實(shí)現(xiàn)信息的分布存取,運(yùn)算的全局并行,并且可在進(jìn)行非線性處理的同時(shí)具有高容錯(cuò)性等特點(diǎn),適用于學(xué)習(xí)一個(gè)復(fù)雜的非線性映射。但是使用他學(xué)習(xí)所形成的知識(shí)結(jié)構(gòu)是人所難以理解的,系統(tǒng)本身也不具有良好的透明性。

3.2 基于規(guī)則的文本分類方法

基于規(guī)則的方法本質(zhì)上是一種確定性的演繹推理方法。其優(yōu)點(diǎn)在于他能根據(jù)上下文對(duì)確定性事件進(jìn)行定性描述,并且能充分利用現(xiàn)有的語言學(xué)成果。其成立的前提是有大量的知識(shí),而這些知識(shí)必須是人類專家總結(jié)出來的。由于必須有人的參與,這種方法側(cè)重于知識(shí)的可理解性和可讀性,對(duì)于有些統(tǒng)計(jì)方法無法解決的問題,利用基于規(guī)則的方法可以很容易地解決。但是,這種方法在不確定性事件的描述、規(guī)則之間的相容性等方面存在一些缺陷和限制。常用的基于規(guī)則的方法有決策樹、關(guān)聯(lián)規(guī)則等。

3.3 基于統(tǒng)計(jì)的文本分類方法

基于統(tǒng)計(jì)的方法本質(zhì)上是一種非確定性的定量推理方法。基于統(tǒng)計(jì)的方法的優(yōu)勢在于他的全部知識(shí)是通過對(duì)大規(guī)模語料庫分析得到的,可以取得很好的一致性和非常高的覆蓋率,對(duì)語言處理提供了比較客觀的數(shù)據(jù)依據(jù)和可靠的質(zhì)量保證。但由于其是基于概率的一種方法,因此必然會(huì)對(duì)小類別文本即小概率事件造成忽視。常用的基于統(tǒng)計(jì)的方法有KNN、樸素貝葉斯、類中心向量、回歸模型、支持向量機(jī)、最大熵模型等。

3.4 經(jīng)典文本分類方法

3.4.1 KNN算法

KNN算法即k- Nearest Neighbor 分類方法,是一種穩(wěn)定而有效的文本分類方法。采用KNN 方法進(jìn)行文檔分類的過程如下:對(duì)于某一給定的測試文檔d,在訓(xùn)練集中,通過相似度找到與之最相似的k個(gè)訓(xùn)練文檔。在此基礎(chǔ)上,給每個(gè)文檔類打分,分值為k個(gè)訓(xùn)練文檔中屬于該類的文檔與測試文檔之間的相似度之和。也就是說, 如果在這k個(gè)文檔中,有多個(gè)文檔屬于一個(gè)類,則該類的分值為這些文檔與測試文檔之間的相似度之和。對(duì)這k個(gè)文檔所屬類的分值統(tǒng)計(jì)完畢后,即按分值進(jìn)行排序。還應(yīng)當(dāng)選定一個(gè)閾值,只有分值超過閾值的類才予考慮。測試文檔屬于超過閾值的所有類。形式化表示為:

■(1)

其中,dj∈ci時(shí)y(dj,ci)=1;dj?埸c(diǎn)i時(shí)y(dj,ci) 。

bi為閾值,Sim(d,dj)為文檔d和dj的相似度,score(d,ci)為測試文檔d屬于ci類的分值。一般的,bi是一個(gè)有待優(yōu)化的值可以通過一個(gè)驗(yàn)證文檔集來進(jìn)行調(diào)整。驗(yàn)證文檔集是訓(xùn)練文檔集的一部分,根據(jù)公式(1)可確定測試文檔的類別。很顯然,對(duì)于每一個(gè)測試文檔,必須求解其和訓(xùn)練文檔庫中所有文檔的相似度。因此, KNN方法的時(shí)間復(fù)雜度為o(|D|ni)。其中,|D|和ni分別為訓(xùn)練文檔總數(shù)和測試文檔總數(shù)。

3.4.2 SVM

支持向量機(jī)(Support Vector Machine,SVM)是在統(tǒng)計(jì)學(xué)習(xí)理的基礎(chǔ)上發(fā)展而來的一種機(jī)器學(xué)習(xí)方法, 該模型是基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理的方法,把原始數(shù)據(jù)集合壓縮為支持向量集合,其基本思想是構(gòu)造出一個(gè)超平面作為決策平面,使正負(fù)模式之間的空白為最大化。在解決小樣本、非線性及高維模式識(shí)別問題中SVM表現(xiàn)出了許多特有的優(yōu)勢, 并在很大領(lǐng)域得到了成功的應(yīng)用,如:人臉識(shí)別、手寫字體識(shí)別、文本分類等。其中,SVM在文本分類方面的表現(xiàn)尤為突出。

SVM 的基本思想可用圖1的兩維情況進(jìn)行說明。圖1中,圓形實(shí)心點(diǎn)和菱形實(shí)心點(diǎn)代表2類樣本,H為分類線,H1,H2分別為過各類中離分類線最近的樣本且平行于分類線的直線,他們之間的距離叫做分類間隔。所謂最優(yōu)分類線就是要求分類線不但能將兩類正確分開(訓(xùn)練錯(cuò)誤率為0),而且使分類間隔最大。分類線方程為:

x?w+b=0

在此可以對(duì)他進(jìn)行歸一化,使得對(duì)線性可分的樣本集:

(xi,yi),i=1,…,n,x∈R4,y∈{+1,-1}

滿足:yi[(w.xi)+b]-1≥0 i=1,2,…n

此時(shí)分類間隔等于2/w, 使間隔最大等價(jià)于使w2最小。滿足式且使間距為w/2的分類面就叫做最優(yōu)分類面, H1 , H2上的訓(xùn)練樣本點(diǎn)就稱作支持向量。

基本的SVM是針對(duì)兩類分類問題的,為了實(shí)現(xiàn)對(duì)多個(gè)類別的識(shí)別,需要對(duì)SVM進(jìn)行擴(kuò)展。常用的SVM多類分類方法有One-vs-Res, One-vs-One,ECOC( Error Correcting Output Coding)、DAGSVM和二叉樹等方法。實(shí)驗(yàn)結(jié)果表明DAGSVM 方法要優(yōu)于其他2 種方法。Weston和Watkins[2]對(duì)SVM的理論進(jìn)行了擴(kuò)充,使其一次就可以完成多類分類,但是實(shí)驗(yàn)結(jié)果顯示其分類查準(zhǔn)率要低于One-vs-Rest 和One-vs-One方法。

4 技術(shù)的發(fā)展趨勢與展望

本文介紹了文本分類的研究背景,國內(nèi)外關(guān)于文本分類技術(shù)研究的最新動(dòng)態(tài),總結(jié)了近年來文本分類研究的關(guān)鍵技術(shù)。文本分類技術(shù)有著廣泛的應(yīng)用,逐漸趨于實(shí)用。

但隨著自動(dòng)分類技術(shù)相關(guān)應(yīng)用的發(fā)展,及對(duì)其需求的不斷提升,文本分類技術(shù)仍有非常多的問題值得研究:可靠、有效及快速的在線分類;基于語義度量的數(shù)據(jù)模型和分類方法;緩解樣本標(biāo)注瓶頸以及樣本數(shù)據(jù)分布帶來的影響等。隨著數(shù)據(jù)挖掘領(lǐng)域和機(jī)器學(xué)習(xí)理論、技術(shù)研究的不斷深入, 針對(duì)解決不同實(shí)際應(yīng)用和數(shù)據(jù)特征的問題將成為文本分類相關(guān)研究,及其應(yīng)用的主要突破方向和攻克難點(diǎn)。

參考文獻(xiàn):

[1] 李榮陸.文本分類及相關(guān)技術(shù)研究[D].上海:復(fù)旦大學(xué),2005.

[2] 李應(yīng)紅.慰詢楷. 劉建勛.支持向量機(jī)的工程應(yīng)用[M].北京:兵器工業(yè)出版社,2004.

[3] 黃萱菁,吳立德,石崎洋之,等. 獨(dú)立于語種的文本分類方法[J].中文信息學(xué)報(bào),2000,14(6):1-7.

[4] 周水庚,關(guān)佶紅,胡運(yùn)發(fā). 隱含語義索引及其在中文文本處理中的應(yīng)用研究[J].小型微型計(jì)算機(jī)系統(tǒng),2001,22(2):239-244.

[5] 李榮陸,王建會(huì),陳曉云,胡運(yùn)發(fā)等. 使用最大熵模型進(jìn)行中文文本分類[J].計(jì)算機(jī)研究與發(fā)展.2005,42(1):94-101.

[6] 張劍,李春平. 基于WordNet概念空間模型的文本分類[J].計(jì)算機(jī)工程與應(yīng)用.2006(4):174-178.

第4篇

[關(guān)鍵詞]中文分詞 分詞算法 歧義消除 未登錄詞 分詞系統(tǒng)

[分類號(hào)]G354

中文分詞是文本分類、信息檢索、信息過濾、文獻(xiàn)自動(dòng)標(biāo)引、摘要自動(dòng)生成等中文信息處理中的關(guān)鍵技術(shù)及難點(diǎn)。經(jīng)過廣大學(xué)者共同努力,過去2D多年中文分詞取得可喜進(jìn)步,黃昌寧、趙海…在四方面總結(jié)了取得的成績。筆者利用CNKI全文期刊數(shù)據(jù)庫,以“中文and分詞”、“漢語and分詞”、“自動(dòng)and分詞”等為檢索條件,檢索時(shí)段為1987年1月1日~2010年9月1l日,進(jìn)行篇名檢索,經(jīng)篩選分別得到相關(guān)研究論文214、191、165篇,通過文獻(xiàn)歸納總結(jié)出該領(lǐng)域研究現(xiàn)狀、研究內(nèi)容、研究熱點(diǎn)與難點(diǎn),并展望其發(fā)展。

1 中文分詞基礎(chǔ)理論研究

中文分詞理論研究可歸結(jié)為:三種主要分詞算法及組合算法研究、中文分詞歧義消除、未登錄詞識(shí)別與分詞與詞性標(biāo)注評(píng)測研究。

1.1 分詞算法研究

衡量分詞算法優(yōu)劣標(biāo)準(zhǔn)是分詞速度與精度,各種算法圍繞精度與速度展開。目前分詞算法很多,大致可歸納為:詞典分詞方法、理解分詞方法、統(tǒng)計(jì)分詞方法、組合分詞算法。

1.1.1 詞典分詞方法

?算法。詞典分詞方法按照一定策略將待分析漢字串與詞典中的詞條進(jìn)行匹配,若在詞典中找到某個(gè)字符串,則匹配成功,該方法需要確定三個(gè)要素:詞典、掃描方向、匹配原則。比較成熟的幾種詞典分詞方法有:正向最大匹配法、逆向最大匹配法、雙向最大匹配法、最少切分等。實(shí)際分詞系統(tǒng),都是把詞典分詞作為一種初分手段,再通過各種其他的語言信息進(jìn)一步提高切分的準(zhǔn)確率。

詞典分詞方法包含兩個(gè)核心內(nèi)容:分詞算法與詞典結(jié)構(gòu),算法設(shè)計(jì)可從以下幾方面展開:①字典結(jié)構(gòu)改進(jìn);②改進(jìn)掃描方式;③將詞典中的可按由長到短遞減順序逐字搜索整個(gè)待處理材料,一直到分出全部詞為止。

?詞典結(jié)構(gòu)。同典結(jié)構(gòu)是詞典分詞算法關(guān)鍵技術(shù),直接影響分詞算法的性能。三個(gè)因素影響詞典性能:①詞查詢速度;②詞典空間利用率;③詞典維護(hù)性能。Hash表是設(shè)計(jì)詞典結(jié)構(gòu)常用方式,先對(duì)GB2312~1980中的漢字排序(即建立Hash表),然后將其后繼詞(包括詞的屬性等信息)放在相應(yīng)的詞庫表中。

孫茂松等設(shè)計(jì)并實(shí)驗(yàn)考察了三種典型的分詞詞典機(jī)制:整詞二分、TRIE索引樹及逐字二分,著重比較它們的時(shí)間、空間效率。姚興山提出首字Hash表、詞次字Hash表、詞次字結(jié)構(gòu)、詞3字Hash表、詞3字結(jié)構(gòu)、詞4字Hash表、詞4字結(jié)構(gòu)、詞索引表和詞典正文的詞典結(jié)構(gòu),該結(jié)構(gòu)提高查詢速度,但增大存儲(chǔ)開銷。陳桂林等介紹了一種高效的中文電子詞表數(shù)據(jù)結(jié)構(gòu),它支持首字Hash和標(biāo)準(zhǔn)的二分查找,且不限詞條長度,并給出利用近鄰匹配方法來查找多字詞,提高了分詞效率。目前文獻(xiàn)看,圍繞詞典結(jié)構(gòu)提高分詞性能的主流思想是設(shè)計(jì)Hash表,表數(shù)目隨結(jié)構(gòu)不同而不同,數(shù)目越多,空間開銷越大,但查詢速度也相應(yīng)提高,具體設(shè)計(jì)需要在時(shí)間與空間之間權(quán)衡。

1.1.2 理解分詞方法 基本思想是分詞同時(shí)進(jìn)行句法、語義分析;利用句法信息和語義信息來處理歧義現(xiàn)象,理解分詞方法需要使用大量語言知識(shí)和信息。

?人工智能技術(shù)。人工智能技術(shù)主要包括專家系統(tǒng)、神經(jīng)網(wǎng)絡(luò)和生成一測試法三種。分詞專家系統(tǒng)能充分利用詞法知識(shí)、句法知識(shí)、語義知識(shí)和語用知識(shí)進(jìn)行邏輯推理,實(shí)現(xiàn)對(duì)歧義字段的有效切分。何克抗等深入分析了歧義切分字段產(chǎn)生的根源和性質(zhì),把歧義字段從性質(zhì)上劃分為四類,并給出消除每一類歧義切分字段的有效方法。王彩榮設(shè)計(jì)了一個(gè)分詞專家系統(tǒng)的框架:將自動(dòng)分詞過程看作是基于知識(shí)的邏輯推理過程,用知識(shí)推理與語法分析替代傳統(tǒng)的“詞典匹配分詞+歧義校正的過程。”神經(jīng)網(wǎng)絡(luò)摸擬人腦神經(jīng)元工作機(jī)理設(shè)計(jì),將分詞知識(shí)所分散隱式的方法存入神經(jīng)網(wǎng)內(nèi)部,通過自學(xué)習(xí)和訓(xùn)練修改內(nèi)部權(quán)值,以達(dá)到正確的分詞結(jié)果。林亞平、尹鋒利等用BP神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)了一個(gè)分詞系統(tǒng),進(jìn)行大量仿真實(shí)驗(yàn),取得不錯(cuò)分詞效果。

采用神經(jīng)網(wǎng)絡(luò)與專家系統(tǒng)的人工智能分詞算法與其他方法相比具有如下特點(diǎn):①知識(shí)的處理機(jī)制為動(dòng)態(tài)演化過程;②字詞或抽象概念與輸入方式對(duì)應(yīng),切分方式與輸出模型對(duì)應(yīng);③能較好地適應(yīng)不斷變化的語言現(xiàn)象,包括結(jié)構(gòu)的自組織和詞語的自學(xué)習(xí);④新知識(shí)的增加對(duì)系統(tǒng)處理速度影響不大,這與一般機(jī)械匹配式分詞方法有很大區(qū)別;⑤有助于利用句法信息和語義信息來處理歧義現(xiàn)象,提高理解分詞的效果。作為智能分詞技術(shù)的一種探討,將神經(jīng)網(wǎng)絡(luò)與專家系統(tǒng)思想引入中文分詞,是一種有益嘗試,為后續(xù)智能自動(dòng)分詞技術(shù)取得更多進(jìn)展打下良好基礎(chǔ)。

黃祥喜提出“生成一測試”法,通過詞典的動(dòng)態(tài)化、分詞知識(shí)的分布化、分詞系統(tǒng)和句法語義系統(tǒng)的協(xié)同工作等手段實(shí)現(xiàn)詞鏈的有效切分和漢語句子切分與理解的并行。該方法具有通用性,實(shí)現(xiàn)容易,分詞和理解能力強(qiáng)。

由于漢語語言知識(shí)的籠統(tǒng)、復(fù)雜性,難以將各種語言信息組織成機(jī)器可直接讀取的形式,因此目前基于理解的分詞系統(tǒng)還處在試驗(yàn)階段。

?統(tǒng)計(jì)模型技術(shù)。蘇菲等提出基于規(guī)則統(tǒng)計(jì)模型的消歧方法和識(shí)別未登錄詞的詞加權(quán)算法,通過詞頻統(tǒng)計(jì)、加權(quán)技術(shù)與正向逆向最大匹配進(jìn)行消歧與未登錄詞識(shí)別。張茂元等提出基于馬爾可夫鏈的語境中文切分理論,進(jìn)而提出一種語境中文分詞方法,該方法建立在詞法和句法基礎(chǔ)上,從語境角度分析歧義字段,提高分詞準(zhǔn)確率。

1.1.3 統(tǒng)計(jì)分詞方法 統(tǒng)計(jì)方法思想基礎(chǔ)是:詞是穩(wěn)定的漢字的組合,在上下文中漢字與漢字相鄰共現(xiàn)的概率能夠較好地反映成同的可信度。因此對(duì)語料中相鄰共現(xiàn)的漢字的組合頻度進(jìn)行統(tǒng)計(jì),計(jì)算他們的統(tǒng)計(jì)信息并作為分詞的依據(jù)。常用統(tǒng)計(jì)量有如詞頻、互信息、t-測試差,相關(guān)分詞模型有最大概率分詞模型、最大熵分詞模型、N-Gram元分詞模型、有向圖模型等。孫茂松等提出了一種利用句內(nèi)相鄰字之間的互信息及t-測試差這兩個(gè)統(tǒng)計(jì)量解決漢語自動(dòng)分詞中交集型歧義切分字段的方法,并進(jìn)一步提出將兩者線性霍加的新的統(tǒng)計(jì)量md,并引入“峰”和“谷”的概念,設(shè)計(jì)了一種無詞表的自動(dòng)分詞算法。王思力等提出一種利用雙字耦合度和t-測試差解決中文分詞中交叉歧義的方法。孫曉、黃德根提出基于最長次長匹配的方法建立漢語切分路徑有向圖,將漢語自動(dòng)分詞轉(zhuǎn)換為在有向圖中選擇正確的切分路徑。

三種主流方法各有優(yōu)缺點(diǎn),其具體比較見表1。

1.1.4 組合方法 單個(gè)方法有優(yōu)點(diǎn),但也存在不足,

實(shí)際分詞算法設(shè)計(jì)時(shí)需要組合幾種方法,利用各自優(yōu)點(diǎn),克服不足,以更好解決分詞難題。

?字典與統(tǒng)計(jì)組合。翟鳳文等提出了一種字典與統(tǒng)計(jì)相結(jié)合的分詞方法,首先利用字典分同方法進(jìn)行第一步處理,然后利用統(tǒng)計(jì)方法處理第一步所產(chǎn)生的歧義問題和未登錄詞問題。該算法通過改進(jìn)字典的存儲(chǔ)結(jié)構(gòu),提高了字典匹配的速度;通過統(tǒng)計(jì)和規(guī)則相結(jié)合提高交集型歧義切分的準(zhǔn)確率,并且一定條件下解決了語境中高頻未登錄詞問題。

?分詞與詞性標(biāo)注組合。詞性標(biāo)注是指對(duì)庫內(nèi)語篇中所有的單詞根據(jù)其語法作用加注詞性標(biāo)記。將分詞和詞類標(biāo)注結(jié)合起來,利用豐富的詞類信息對(duì)分詞決策提供幫助,并且在標(biāo)注過程中又反過來對(duì)分詞結(jié)果進(jìn)行檢驗(yàn)、調(diào)整,從而極大地提高切分的準(zhǔn)確率。白拴虎將自動(dòng)分詞和基于隱馬爾可夫鏈的詞性自動(dòng)標(biāo)注技術(shù)結(jié)合起來,利用人工標(biāo)注語料庫中提取出的詞性二元統(tǒng)計(jì)規(guī)律來消解切分歧義。佟曉筠等設(shè)計(jì)N-最短路徑自動(dòng)分詞和詞性自動(dòng)標(biāo)注一體化處理的模型,在分詞階段召回N個(gè)最佳結(jié)果作為候選集,最終的結(jié)果會(huì)在未登錄詞識(shí)別和同性標(biāo)注之后,從這N個(gè)最有潛力的候選結(jié)果中選優(yōu)得到。姜濤等對(duì)Kit提出基于實(shí)例的中文分詞一詞性標(biāo)注模型,通過理論上定性分析和實(shí)驗(yàn)證明得出如下優(yōu)點(diǎn):①對(duì)于訓(xùn)練語料相關(guān)的文本(即與訓(xùn)練語料相同、相似或同領(lǐng)域的文本),EBST系統(tǒng)的分詞一詞性標(biāo)注結(jié)果具有極高的準(zhǔn)確率;②EBST系統(tǒng)的分詞一詞性標(biāo)注結(jié)果與訓(xùn)練語料中的分詞一詞性標(biāo)注具有很好的一致性。

1.2 歧義消除研究

1.2.1 歧義類型 歧義是指同一個(gè)字符串存在不止一種切分形式。歧義字段分為交集型歧義字段(交叉歧義)、組合型歧義字段(覆蓋歧義)兩種。據(jù)統(tǒng)計(jì)交叉歧義字段占到了總歧義字段的86%,所以解決交叉歧義字段是分詞要解決的重點(diǎn)與難點(diǎn)。

1.2.2 消歧方法 目前解決歧義消除的典型方法有:

?窮舉法。找出待分析字串所有可能的詞,該方法簡單,但時(shí)間開銷大,實(shí)用性不強(qiáng)。多數(shù)時(shí)候采用雙向匹配算法,正向匹配結(jié)果與逆向匹配結(jié)果一致,分詞正確,否則分詞有歧義。

?聯(lián)想一回溯法。李國臣等提出聯(lián)想一回溯法,先將待切分的漢字符號(hào)串序列依特征詞詞庫分割為若干子串,每個(gè)子串或?yàn)樵~或?yàn)樵~群(幾個(gè)詞組合而成的線性序列),然后利用實(shí)詞詞庫和規(guī)則庫再將詞群細(xì)分為詞。分詞時(shí),利用了一定語法知識(shí)。聯(lián)想和回溯機(jī)制同時(shí)作用于分割和細(xì)分兩個(gè)階段,旨在有效解決歧義組合結(jié)構(gòu)的切分問題。

?詞性標(biāo)注。白拴虎利用馬爾可夫鏈的詞性標(biāo)注技術(shù)結(jié)合分詞算法消解切分歧義,其他學(xué)者也有類似成果出現(xiàn)。

?EM(Expectation Maximization)法。王偉等提出基于EM思想,每個(gè)句子所對(duì)應(yīng)的所有(或一定范圍內(nèi))的分詞結(jié)果構(gòu)成訓(xùn)練集,通過這個(gè)訓(xùn)練集和初始的語言模型可以估計(jì)出一個(gè)新的語言模型,最終的語言模型通過多次迭代而得到。EM是極大似然原則下的建模方法,存在過度擬合問題。

?短語匹配與語義規(guī)則法。姚繼偉、趙東范在短語結(jié)構(gòu)文法的基礎(chǔ)上,提出一種基于局部單一短語匹配和語義規(guī)則相結(jié)合的消歧方法。通過增加短語問的右嵌套規(guī)則和采用有限自動(dòng)機(jī)的實(shí)現(xiàn)方式,解決了短語規(guī)則中存在冗余項(xiàng)的問題,提高了短語匹配效率和歧義消除類型的針對(duì)性。

1.3 未登錄詞研究

1.3.1 未登錄詞類型 未登錄詞大致包含兩大類:①新涌現(xiàn)的通用詞或?qū)I(yè)術(shù)語等;②專有名詞,如中國人名、外國譯名、地名、機(jī)構(gòu)名(泛指機(jī)關(guān)、團(tuán)體和其他企事業(yè)單位)等。未登錄詞識(shí)別指正確識(shí)別未在詞典中出現(xiàn)的詞,未登錄詞出現(xiàn)極大影響了分詞的精度,如何解決未登錄詞識(shí)別問題成為分詞準(zhǔn)確性的一大難題。

1.3.2 未登錄詞識(shí)別 識(shí)別第一類未登錄詞一般是先根據(jù)某種算法自動(dòng)生成一張候選詞表(無監(jiān)督的機(jī)器學(xué)習(xí)策略),再人工篩選出其中的新詞并補(bǔ)充到詞表中。該方法需要大規(guī)模語料庫支持。第二種常用辦法是:首先依據(jù)從各類專有名詞庫中總結(jié)出的統(tǒng)計(jì)知識(shí)(如姓氏用字及其頻度)和人工歸納出的專有名詞的某些結(jié)構(gòu)規(guī)則,在輸入句子中猜測可能成為專有名詞的漢字串并給出其置信度,之后利用對(duì)該類專有名詞有標(biāo)識(shí)意義的緊鄰上下文信息如稱謂,以及全局統(tǒng)計(jì)量和局部統(tǒng)計(jì)量參見下文,進(jìn)行進(jìn)一步鑒定。

歸納起來,未登錄詞解決方案有兩大類:專用方法與通用方法。專用方法主要針對(duì)特定領(lǐng)域的未登錄詞如中文人名、中文地名、中文機(jī)構(gòu)名等識(shí)別,此類方法主要基于專有詞庫與規(guī)則展開。通用方法則重在解決所有類別的未登錄詞識(shí)別問題,前面列舉的機(jī)械分詞、理解分詞、統(tǒng)計(jì)分詞方法就是一種通用方法。

?專有名詞庫。對(duì)中文人名、地名、機(jī)構(gòu)名等分別建立詞庫,該方法需要搜集特定資源并制定特定算法,信息集成難度大。

?啟發(fā)式規(guī)則。通過前后綴的修飾詞發(fā)現(xiàn)人名等未登錄詞。如“先生張三”,前面“先生”就是一個(gè)特定的修飾詞,一般后面緊接著是人名。鄭家恒將中文姓氏用字進(jìn)行歸類,并利用分類信息建立規(guī)則以識(shí)別“小張”、“老李”之類的人名,并且有效地區(qū)分出“張”“李”等字的量詞用法。

?通用解決方案。不針對(duì)特定的未登錄詞設(shè)計(jì)算法,適用于各種類型的未登錄詞。前述三種主流分詞及組合算法則屬于通用解決方案。另外,呂雅娟等對(duì)中同人名、中國地名、外國譯名進(jìn)行整體識(shí)別為目標(biāo),采用分解處理策略降低了整體處理難度,并使用動(dòng)態(tài)規(guī)劃方法實(shí)現(xiàn)了最佳路徑的搜索,較好地解決了未登錄詞之間的沖突問題。秦文、苑春法提出了決策樹的未登錄詞識(shí)別方法,適用各種未登錄詞識(shí)別。

1.4 分詞與詞性標(biāo)注評(píng)測

各種算法優(yōu)劣需要在真實(shí)文本上以較大規(guī)模、客觀、定量的方式進(jìn)行公開公正評(píng)測,它是推動(dòng)中文信息處理研究的重要手段。楊爾弘等介紹了2003年“863中文與接口技術(shù)”漢語自動(dòng)分詞與詞性標(biāo)注一體化評(píng)測內(nèi)容、評(píng)測方法、測試試題的選擇與產(chǎn)生、測試指標(biāo)以及測試結(jié)果,各種測試結(jié)果以精確率、召回率、F值度量,并對(duì)參評(píng)系統(tǒng)的切分和標(biāo)注錯(cuò)誤進(jìn)行了總結(jié)。

2 分詞系統(tǒng)研究

中文分詞系統(tǒng)是利用計(jì)算機(jī)對(duì)中文文本進(jìn)行詞語自動(dòng)識(shí)別的系統(tǒng)。一個(gè)高效的、性能優(yōu)良的中文分詞系統(tǒng)應(yīng)該具備幾個(gè)基本要素:分詞精度、分詞速度、系統(tǒng)可維護(hù)性、通用性、適應(yīng)性?;诜衷~系統(tǒng)特點(diǎn),將分詞系統(tǒng)研究分為早期自動(dòng)分詞系統(tǒng)與現(xiàn)代分詞系統(tǒng)研究兩部分。

2.1 早期自動(dòng)分詞系統(tǒng)

20世紀(jì)80年代初有學(xué)者開始研究自動(dòng)分詞系統(tǒng),陸續(xù)有一些實(shí)用性系統(tǒng)出現(xiàn)。典型的有:CDWS分詞系統(tǒng)、漢語自動(dòng)分詞系統(tǒng)-NEWS L321、書面漢語自動(dòng)分詞專家系統(tǒng)等。由于受硬件條件及分詞技術(shù)影響,早期分詞實(shí)用系統(tǒng)在分詞速度與精度上還不夠理想,實(shí)用性不高。但這些實(shí)用分詞系統(tǒng)的出現(xiàn)為后續(xù)分詞系統(tǒng)設(shè)計(jì)打下了良好基礎(chǔ)。

2.2 現(xiàn)代分詞系統(tǒng)

2.2.1 中國科學(xué)院計(jì)算所漢語詞法分析系統(tǒng) ICT-CLAS ICTCLAS(Institute of Computing Technology.Chinese Lexical Analysis System)是中國科學(xué)院計(jì)算技術(shù)研究所研制,主要功能包括中文分詞,詞性標(biāo)注,命名實(shí)體識(shí)別,新詞識(shí)別;支持用戶同典,繁體中文,GBK、UTF-8、UTF-7、UNICODE等多種編碼格式。目前ICTCLAS3.0分詞速度單機(jī)為996KB/s,分詞精度為98.45%,AP[不超過200KB,各種淵典數(shù)據(jù)壓縮后不到3M。

2.2.2 海量智能分詞研究版 海量智能分詞系統(tǒng)較好地解決了分詞領(lǐng)域中的兩大技術(shù)難題:歧義切分和新詞的識(shí)別,分詞準(zhǔn)確率達(dá)到99.6%,分同效率為2000萬字/分鐘。其中組合歧義的處理一直是分詞領(lǐng)域的難點(diǎn)中的難點(diǎn),海量分詞系統(tǒng)能對(duì)絕大多數(shù)的組合歧義進(jìn)行正確的切分。在新詞的識(shí)別上,針對(duì)不同類型采用不同識(shí)別算法,其中包括對(duì)人名、音譯詞、機(jī)構(gòu)團(tuán)體名稱、數(shù)量詞等新同的識(shí)別,其準(zhǔn)確率比較高。

由于計(jì)算機(jī)硬件技術(shù)的大幅提升,分詞技術(shù)的逐步成熟,現(xiàn)在分詞系統(tǒng)在歧義消除、未登錄詞識(shí)別方面取得較大進(jìn)展,分詞速度與精度明顯提高,實(shí)際性越來越強(qiáng),為中文信息處理帶來極大方便。

第5篇

關(guān)鍵詞:Web挖掘;文本分類;糧食輿情;輿情分析

中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2013)10-2426-03

糧食是人類生存之本,糧食安全問題已經(jīng)成為世界范圍內(nèi)關(guān)注的最重要的問題之一。糧食信息數(shù)據(jù)量大、市場供求信息不明確、技術(shù)保障不到位等因素對(duì)我國糧食安全敲響了警鐘。2009年初中國爆發(fā)了幾十年來最嚴(yán)重的一場旱災(zāi),國內(nèi)市場充斥著糧食供應(yīng)可能趨緊并有可能大量進(jìn)口糧油產(chǎn)品,以及全球糧油價(jià)格將由中國的大量進(jìn)口而出現(xiàn)暴漲等網(wǎng)絡(luò)言論并造成了一定的影響。

因此如何引入新的技術(shù)手段對(duì)糧食情報(bào)信息實(shí)現(xiàn)有效監(jiān)管,如何在海量的糧食網(wǎng)絡(luò)資源信息中,快速有效地挖掘蘊(yùn)含有巨大潛在價(jià)值的糧情知識(shí)和信息,同時(shí)過濾掉大量無用的或不相關(guān)的糧情內(nèi)容,準(zhǔn)確地定位所需要的信息并自動(dòng)分類,以保證糧食安全,已成為一項(xiàng)重要而迫切的研究課題。該文就基于Web挖掘在糧食情報(bào)分析中的應(yīng)用進(jìn)行了一些討論,并提出了一個(gè)基于Web挖掘的糧食輿情分析系統(tǒng)的框架。

1 糧食輿情系統(tǒng)模型設(shè)計(jì)

1.1 Web挖掘簡介和糧食輿情分析難點(diǎn)

Web挖掘是從大量Web文檔集D中發(fā)現(xiàn)隱含的模式W。如果將D看作輸入,P看作輸出,則Web文本挖掘的過程可看作從輸入到輸出的映射,即F:CP。網(wǎng)絡(luò)輿情是公眾利用互聯(lián)網(wǎng)表達(dá)或傳播的對(duì)熱點(diǎn)事件和問題的看法和所持觀點(diǎn)的較有社會(huì)影響力的態(tài)度。利用Web挖掘技術(shù)進(jìn)行主題追蹤的輿情分析成為近年研究的熱點(diǎn)。任海果研究了主題事件的追蹤技術(shù),實(shí)現(xiàn)了對(duì)熱點(diǎn)事件的發(fā)現(xiàn)、演化和趨勢分析[1]。Federico Neri等研究了1000個(gè)關(guān)于意大利公共廣播服務(wù)意見的Facebook網(wǎng)貼,得到了觀眾關(guān)注度和興趣度,并在開源情報(bào)信息和Web挖掘中得到應(yīng)用[2]。Wang等利用垂直搜索技術(shù)收集互聯(lián)網(wǎng)上關(guān)于食品質(zhì)量和安全的網(wǎng)絡(luò)信息,搭建了食品安全的網(wǎng)絡(luò)輿情分析系統(tǒng),滿足了對(duì)食品安全網(wǎng)絡(luò)輿情的有效監(jiān)管[3]。但由于糧食信息的特殊性和復(fù)雜性[4],使得糧食輿情信息的采集不夠全面,現(xiàn)有分析系統(tǒng)的分析不夠深入,總體來說糧食網(wǎng)絡(luò)輿情挖掘扔存在著一下難點(diǎn):

1) 糧食輿情影響因素復(fù)雜。糧食輿情受多種因數(shù)的影響,和糧食直接相關(guān)的有糧食產(chǎn)量、銷售價(jià)格、產(chǎn)地、供求關(guān)系等因數(shù),此外還有氣象條件、病蟲害的等間接影響著糧食安全,目前對(duì)糧食安全因素的挖掘不夠全面。

2) 糧食輿情信息的存儲(chǔ)位置和方式復(fù)雜,沒有統(tǒng)一的系統(tǒng)來采集各種形式的糧食信息。如糧食產(chǎn)業(yè)信息資源,如災(zāi)害史、產(chǎn)量信息、氣象條件等,并發(fā)存儲(chǔ)在各家統(tǒng)計(jì)機(jī)構(gòu)、管理機(jī)構(gòu)、經(jīng)營機(jī)構(gòu)的網(wǎng)絡(luò)環(huán)境中,并且沒有統(tǒng)一的數(shù)據(jù)表示形式,沒有開發(fā)出聯(lián)合采集各家機(jī)構(gòu)和組織中糧食數(shù)據(jù)的采集或者存儲(chǔ)方法和策略,不利于糧食輿情信息的整合和關(guān)聯(lián)分析。

3) 糧食輿情信息牽涉面廣,沒有融合各方面信息處理方面的優(yōu)勢。在糧食信息處理方面,沒有實(shí)現(xiàn)統(tǒng)計(jì)學(xué)、模式識(shí)別、人工智能以及人工神經(jīng)網(wǎng)絡(luò)等多種分析方法融合的決策策略。

4) 沒有提出預(yù)測和預(yù)防模型?,F(xiàn)在的網(wǎng)絡(luò)輿情分析往往注重于熱點(diǎn)的發(fā)現(xiàn),沒有為熱點(diǎn)事件建立等級(jí)級(jí)別區(qū)分管理和提供預(yù)防,同時(shí)對(duì)于發(fā)現(xiàn)的災(zāi)難事件,沒有定量的分析災(zāi)害危害的嚴(yán)重程度和預(yù)警級(jí)別。

利于輿情分析技術(shù)實(shí)現(xiàn)對(duì)糧食輿情信息的監(jiān)控和管理成為一項(xiàng)緊迫的課題。為了解決以上問題,該文設(shè)計(jì)了一個(gè)糧食輿情分析架構(gòu)模型。

1.2.2 輿情信息預(yù)處理模塊

輿情信息預(yù)處理模塊的主要功能是:對(duì)采集到的相關(guān)網(wǎng)頁進(jìn)行去噪處理,如對(duì)廣告、注釋等噪聲數(shù)據(jù)進(jìn)行清理,然后用統(tǒng)一的結(jié)構(gòu)化的格式進(jìn)行文本表示,然后利用分詞技術(shù)、特征提取技術(shù)、權(quán)重計(jì)算技術(shù)等進(jìn)行特征選擇,構(gòu)建糧食數(shù)據(jù)倉庫,利用分類器實(shí)現(xiàn)文本的分類。文本分類技術(shù)是整個(gè)預(yù)處理模塊的核心,其步驟描述如下:

本模型主要包括以下三個(gè)方面功能:

第一、通過對(duì)糧食輿情主題檢測進(jìn)行熱點(diǎn)、敏感信息的發(fā)現(xiàn),并針對(duì)特定的糧食安全主體,如糧食價(jià)格、供求關(guān)系、氣象條件等各個(gè)主題跟蹤技術(shù)處理,同時(shí)設(shè)計(jì)融合各方面因素的分析策略,及時(shí)發(fā)現(xiàn)安全隱患,并提供預(yù)警信息。

第二、對(duì)特定糧食安全事件的公眾所持觀點(diǎn)和關(guān)注度的分析,掌握事件發(fā)生、發(fā)展和加強(qiáng)的可視化時(shí)間序列,開發(fā)基于區(qū)域性輿情的分別匯總,提供實(shí)時(shí)的空間和時(shí)間的網(wǎng)絡(luò)輿情趨勢信息保障,有利于決策者實(shí)施適當(dāng)?shù)拇胧?/p>

第三、利用災(zāi)害預(yù)測、分析和預(yù)防的決策系統(tǒng),對(duì)多發(fā)性的、危害嚴(yán)重的災(zāi)害構(gòu)建主動(dòng)分析、及早預(yù)測和及時(shí)預(yù)警的機(jī)制,提供相關(guān)、相近主題的預(yù)防措施經(jīng)驗(yàn)。同時(shí)針對(duì)災(zāi)害引起的其他方面的問題進(jìn)行關(guān)聯(lián)分析,比如旱災(zāi)有可能引起局部供求關(guān)系失衡,災(zāi)害的嚴(yán)重性導(dǎo)致價(jià)格波動(dòng)的范圍等建立定量的數(shù)據(jù)分析方法發(fā)現(xiàn)彼此存在的聯(lián)系。

2 結(jié)論

利用Web挖掘技術(shù)實(shí)現(xiàn)對(duì)糧食信息的監(jiān)測,有利于充分海量的糧食網(wǎng)絡(luò)信息資源,能夠及時(shí)發(fā)現(xiàn)糧食熱點(diǎn)事件,為糧食安全提供預(yù)警服務(wù)。該文著重分析了當(dāng)前糧食方面輿情分析系統(tǒng)存在的不足,提出了解決方案,構(gòu)造了一個(gè)較完善的糧食輿情分析架構(gòu)。通過各種算法的編碼和改進(jìn),實(shí)現(xiàn)本文所構(gòu)建的系統(tǒng)是進(jìn)一步研究的方向。

參考文獻(xiàn):

[1] 任海果. 基于主題事件的輿情分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].北京:北京郵電大學(xué),2012.

[2 ] Neri F, Aliprandi C,Capeci F,et al. Sentiment Analysis on Social Media[C]. Istanbul, Turke:Advances in Social Networks Analysis and Mining,2012:919-926.

[3]Wang Su, Liang Meiyu, Gao Tian and Du Junping. Realization of Product Quality and Food Security Internet Public Opinion Supervision System[C]. Jinan, China:Proceedings of the 8th World Congress on Intelligent Control and Automation, 2010:2736-2739.

[4] 龍方. 新世紀(jì)中國糧食安全問題研究[J]. 湖南農(nóng)業(yè)大學(xué)學(xué)報(bào):社會(huì)科學(xué)版,2007 (3):7-14.

[5] 孫立偉,何國輝,吳禮發(fā). 網(wǎng)絡(luò)爬蟲技術(shù)的研究[J]. 電腦知識(shí)與技術(shù),2010(15):4112-4115.

第6篇

手語的識(shí)別不但具有深遠(yuǎn)的研究意義,而且具有廣闊的實(shí)際應(yīng)用前景,至少表現(xiàn)在以下幾個(gè)方面:(1)能夠使得聾啞人,尤其是使得文件程度比較低的聾啞人,使用手語和正常人交流;(2)從認(rèn)知科學(xué)的角度,研究人的視覺語言理解的機(jī)制,提高計(jì)算機(jī)對(duì)人類語言的理解水平;(3)利用手勢控制VR中的智能化;(4)機(jī)器人的示范學(xué)習(xí);(5)虛擬現(xiàn)實(shí)系統(tǒng)中的多模式接口等。

從手語輸入設(shè)備來看,手語識(shí)別系統(tǒng)主要分為基于數(shù)據(jù)手套的識(shí)別和基于視覺(圖像)的手語識(shí)別系統(tǒng)。基于數(shù)據(jù)手套的手語識(shí)別系統(tǒng),是利用數(shù)據(jù)手套和位置跟蹤測量手勢在空間運(yùn)動(dòng)的軌跡和時(shí)序信息。這種方法的優(yōu)點(diǎn)是系統(tǒng)的識(shí)別率高。缺點(diǎn)是打手語的人要穿戴復(fù)雜的數(shù)據(jù)手套和位置跟蹤器,并且輸入設(shè)備比較昂貴。利用數(shù)據(jù)手套等典型傳感設(shè)備的方法,臺(tái)灣大學(xué)的Liang等人利用單個(gè)VPL數(shù)據(jù)手套作為手語輸入設(shè)備,可識(shí)別臺(tái)灣手語課本中的250個(gè)基本詞條,識(shí)別率為90.5%。CMU的ChristopherLee和Xu在1995年完成了一個(gè)操縱機(jī)器人的手勢控制系統(tǒng)。Kadous用PowerGloves作為手語輸入設(shè)備,識(shí)別有95個(gè)孤立詞構(gòu)成的詞匯集,正確率為80%。基于視覺的手勢識(shí)別是利用攝像機(jī)采集手勢信息,并進(jìn)行識(shí)別。該方法的優(yōu)點(diǎn)是輸入設(shè)備比較便宜,但識(shí)別率比較底,實(shí)時(shí)性較差,特別是很難用于大詞匯量的手語錄的識(shí)別。在基于視覺的方法方面,具有代表性的研究成果包括:1991年富士通實(shí)驗(yàn)室完成了對(duì)46個(gè)手語符號(hào)的識(shí)別工作。Davis和Shah將戴上指間具有高亮標(biāo)記的視覺手套的手勢作為系統(tǒng)的輸入,可識(shí)別7種手勢。Starner等在對(duì)美國手語中帶有詞性的40個(gè)詞匯隨機(jī)組成短句子識(shí)別率達(dá)到99.2%。Grobel和Assam從視頻錄像中是取特征,采用HMM技術(shù)識(shí)別262個(gè)孤立詞,正確率為91.3%。此外,Vogler與Metaxas將兩種方法結(jié)合用于美國手語識(shí)別,交互采用一個(gè)位置跟蹤器及三個(gè)互相垂直的攝像機(jī)作為手勢輸入設(shè)備,完成了53個(gè)孤立詞的識(shí)別,識(shí)別率為89.9%。

從識(shí)別技術(shù)來看,以往手語識(shí)別系統(tǒng)主要采用基于人工神經(jīng)網(wǎng)絡(luò)(ANN)及基于隱Markov模型(HMM)等方法。神經(jīng)網(wǎng)絡(luò)方法具有分類特性及抗干擾性,然而由于其處理時(shí)間序列的能力不強(qiáng),目前廣泛用于靜態(tài)手勢的識(shí)別。著名的Fels的GloveTalk系統(tǒng)采用神經(jīng)網(wǎng)絡(luò)方法作為識(shí)別技術(shù)。對(duì)于分析區(qū)間內(nèi)的手語信號(hào),通常采取HMM方法進(jìn)行模型化。HMM是眾周知并廣泛使用的統(tǒng)計(jì)方法,一般拓?fù)浣Y(jié)構(gòu)下的HMM具有非常強(qiáng)的描述手語信號(hào)的時(shí)空變化能力,在動(dòng)態(tài)手勢識(shí)別領(lǐng)域一直占有主導(dǎo)地址,如卡內(nèi)基·梅隆大學(xué)的美國手語識(shí)別系統(tǒng)及臺(tái)灣大學(xué)的臺(tái)灣手語識(shí)別系統(tǒng)等均采用HMM作為系統(tǒng)的識(shí)別技術(shù)。另外,Grobel與Assam利用HMM識(shí)別由戴有色手套的用戶通過攝像機(jī)輸入的262個(gè)孤立手語詞,正確率為91.3%。然而正是由于HMM拓?fù)浣Y(jié)構(gòu)的一般性,導(dǎo)致這種模型在分析手語信號(hào)時(shí)過于復(fù)雜,使得HMM訓(xùn)練和識(shí)別計(jì)算量過大。尤其是在連續(xù)的HMM中,由于需要計(jì)算大量的狀態(tài)概率密度,需要估計(jì)的參數(shù)個(gè)數(shù)較多,使得訓(xùn)練及識(shí)別的速度相對(duì)較慢。因而以往手語識(shí)別系統(tǒng)所采用的HMM一般為離散HMM。

在我國,哈爾濱工業(yè)大學(xué)的吳江琴、高文等給出了ANN與HMM的混合方法作為手語的訓(xùn)練識(shí)別方法,以增加識(shí)別方法的分類特性和減少模型的估計(jì)參數(shù)的個(gè)數(shù)。將ANN-HMM混合方法應(yīng)用于有18個(gè)傳感器的CyberGlove型號(hào)數(shù)據(jù)手套的中國手語識(shí)別系統(tǒng)中,孤立詞識(shí)別率為90%,簡單語句級(jí)識(shí)別率為92%。接下來高文等又選取Cyberglove型號(hào)數(shù)據(jù)手套作為手語輸入設(shè)備,并采用了DGMM(dynamicGaussianmixturemodel)作為系統(tǒng)的識(shí)別技術(shù),即利用一個(gè)隨時(shí)間變化的具有M個(gè)分量的混合GaussianN-元混合密度來模型化手語信號(hào),可識(shí)別中國手語字典中274個(gè)詞條,識(shí)別率為98.2%。與基于HMM的識(shí)別系統(tǒng)比較,這種模型的識(shí)別精度與HMM模型的識(shí)別精度相當(dāng),其訓(xùn)練和識(shí)別速度比HMM的訓(xùn)練與識(shí)別速度有明顯的改善。他們?yōu)榱诉M(jìn)一步提高識(shí)別速度,識(shí)別模塊中選取了多層識(shí)別器,可識(shí)別中國手語字典中的274個(gè)詞條,識(shí)別率為97.4%。與基于單個(gè)DGMM的識(shí)別系統(tǒng)比較,這種模型的識(shí)別精度與單個(gè)DGMM模型的識(shí)別精度基本相同,但其識(shí)別速度比單個(gè)DGMM的識(shí)別速度有明顯的提高。2000年在國際上他們首次實(shí)現(xiàn)了5000詞以上的連續(xù)中國手語識(shí)別系統(tǒng)。另外,清華大學(xué)祝遠(yuǎn)新、徐光等給出了一種基于視覺的動(dòng)態(tài)孤立手勢識(shí)別技術(shù),借助于圖像運(yùn)動(dòng)的變階參數(shù)模型和魯棒回歸分析,提出一種基于運(yùn)動(dòng)分割的圖像運(yùn)動(dòng)估計(jì)方法?;趫D像運(yùn)動(dòng)參數(shù),構(gòu)造了兩種表現(xiàn)變化模型分別作為手勢的表現(xiàn)特征,利用最大最小優(yōu)化算法來創(chuàng)建手勢參考模板,并利用基于模板的分類技術(shù)進(jìn)行識(shí)別。對(duì)12種手勢的識(shí)別率超過90%。在進(jìn)一步研究中,他們又給出了有關(guān)連續(xù)動(dòng)態(tài)手勢的識(shí)別,融合手勢運(yùn)動(dòng)信息和皮膚顏色信息,進(jìn)行復(fù)雜背景下的手勢分割;通過結(jié)合手勢的時(shí)序信息、運(yùn)動(dòng)表現(xiàn)及形狀表現(xiàn),提出動(dòng)態(tài)手勢的時(shí)空表現(xiàn)模型,并提出基于顏色、運(yùn)行以及形狀等多模式信息的分層融合策略抽取時(shí)空表觀模型的參數(shù)。最后,提出動(dòng)態(tài)時(shí)空規(guī)整算法用于手勢識(shí)別。對(duì)12種手勢,平均識(shí)別率高達(dá)97%。

盡管已經(jīng)實(shí)現(xiàn)了一些手語識(shí)別系統(tǒng),但中國手語識(shí)別仍然面臨許多挑占性課題,如手勢不變特征的提取、手勢之間的過度模型、手語識(shí)別的最小識(shí)別基于、自動(dòng)分割識(shí)別基元、詞匯量可擴(kuò)展的

識(shí)別方法、手語識(shí)別的輔助信息、非特定人的手語識(shí)別問題、混合手指語和手勢語的手語識(shí)別以及中國手勢語語法等。

2手語的合成

手語的合成是使聾啞人理解正常語言表達(dá)的最有效手段,在手語合成中涉及以下幾個(gè)方面的問題:本文輸入部分、文本切分部分、文本的分析與手語碼轉(zhuǎn)換、手語庫的建立與基于手語詞的手語合成和手語的顯示。

文本輸入部分的功能是編輯輸入漢語句子。文本的切分將句子分成詞,標(biāo)點(diǎn)符合單獨(dú)成詞。系統(tǒng)的分詞過程首先采用最大匹配發(fā)切分,然后利用第一步分詞結(jié)果通過查找詞條的歧義標(biāo)志位調(diào)用詞規(guī)則,進(jìn)而進(jìn)行歧義校正。文本分析與手語碼轉(zhuǎn)換是手語合成的重要部分。雖然中國手語是參考漢語制定的,但是兩種語言的差別主要體現(xiàn)在四個(gè)方面:語言表達(dá)形態(tài)、基本詞匯、句子結(jié)構(gòu)和構(gòu)詞方法。在語言表達(dá)形態(tài)上:漢語是靠語音/聽覺交際的有聲語言。中國手語是一種靠動(dòng)作/視覺交際的可視化語言。在基本詞匯上:漢語的詞匯大約有近五萬多個(gè)字組成,總的詞匯量可達(dá)十萬多個(gè)。中國手語的詞匯僅由3330個(gè)手勢語組成。中國手語的手勢詞語與漢語的詞語不完全存在一一對(duì)應(yīng)的關(guān)系。在句子的語法結(jié)構(gòu)上:手語句子與漢語句子的詞序有所不同,此外還省略了日常語言的某些詞如量詞。因此從漢語轉(zhuǎn)換到中國手語,主要解決的基本詞匯上的差別,同時(shí)考慮部分詞匯的差別。手語詞庫記錄了每個(gè)手語詞的手語運(yùn)動(dòng)信息,是手語合成的重要基礎(chǔ)。建立手語詞庫不僅工作量大,而且其質(zhì)量也直接影響合成手語的結(jié)果。目前建立手語詞庫的方法有兩種:運(yùn)動(dòng)跟蹤方法和手工編輯方法。也有人綜合使用這兩種方式。運(yùn)動(dòng)跟蹤的方法是對(duì)腕關(guān)節(jié)及各手指關(guān)節(jié)的運(yùn)動(dòng)由數(shù)據(jù)手套獲取,肩關(guān)節(jié)與肘關(guān)節(jié)的運(yùn)動(dòng)由位置跟蹤傳感器獲取。而手工的方法是通過手工實(shí)驗(yàn)來獲取手勢的參數(shù)。手語是一種可視語言,合成的手語只有顯示出來,觀察者才能“讀”取手語的信息與意義。手語的合成與顯示的實(shí)現(xiàn)的方法是:在VRML中有一部分是專門用于描述三維人體模型H-Anim標(biāo)準(zhǔn),根據(jù)此標(biāo)準(zhǔn)對(duì)虛擬人的定義,一個(gè)虛人有47關(guān)節(jié)96個(gè)自由度,只要確定這96個(gè)自由度的角度值,應(yīng)用運(yùn)動(dòng)學(xué)的方法和計(jì)算機(jī)圖形學(xué)的方法,就可以計(jì)算出虛擬人每個(gè)肢體的位置和方向,由此確定虛擬人的一個(gè)姿態(tài)。一個(gè)手語運(yùn)動(dòng)是一個(gè)人體手勢的序列,按照預(yù)定的時(shí)間間隔連續(xù)顯示一個(gè)手語運(yùn)動(dòng)中的每一個(gè)手勢,既可以生成對(duì)應(yīng)的手語運(yùn)動(dòng)。

3手語的網(wǎng)絡(luò)通訊

當(dāng)今,網(wǎng)絡(luò)通訊已經(jīng)成為一種重要的通訊手段。研究啞語通訊,使聾啞人更好地融入網(wǎng)絡(luò)社會(huì),感受科技的進(jìn)步,更好地為他們服務(wù)并且方便了他們的生活。而手語作為一種動(dòng)作語言,從廣義上講,它的應(yīng)用不僅僅局限于聾啞人之間,聾啞人與非聾啞人之間,以及異語種間健常人的交流都可能應(yīng)用到動(dòng)作語言。從這個(gè)意義上,研究啞語的表達(dá)與通訊,具有更加廣泛的社會(huì)意義和實(shí)際應(yīng)用前景。

更實(shí)現(xiàn)手語的網(wǎng)絡(luò)通訊,必須采用一種恰當(dāng)?shù)募夹g(shù),它既能完成手語圖像動(dòng)畫表示,它既能完成手語圖像的三維動(dòng)畫表示,產(chǎn)生的數(shù)據(jù)、文件應(yīng)該盡可能地短小,且便于壓縮,以利于網(wǎng)絡(luò)傳輸,提高網(wǎng)絡(luò)傳輸速度,避免網(wǎng)絡(luò)擁塞,實(shí)現(xiàn)實(shí)時(shí)反應(yīng)??梢允褂萌S動(dòng)畫技術(shù)來實(shí)現(xiàn)手語動(dòng)畫,但一般的三維動(dòng)畫技術(shù)形成的圖像雖然可能滿足生動(dòng)逼真的要求,卻不適合網(wǎng)絡(luò)應(yīng)用。因?yàn)樗鼈冇糜趫D像和動(dòng)畫的文件格式是基于像素的,大小和行為都是固定的,為了得到特體的三維印象,至少需要兩幅圖解,這使傳輸量巨大且不能實(shí)現(xiàn)交互。同時(shí),基于HTTP、HTML標(biāo)準(zhǔn)的WWW只能表示和傳遞二維信息,不能滿足對(duì)三維環(huán)境和三維顯像具有特定要求的應(yīng)用需求。鑒于這種應(yīng)用的特殊要求,提出采用VRML技術(shù)。VRML(VirtualRealityModelingLanguage)是一種可以在WWW上操作的三維圖形可視化工具,VRML2.0于1996年8月,它能夠靈活有效的方式,將二維、三維圖形和動(dòng)畫、影片、聲響和音樂等多種效果調(diào)和在一起,形成一個(gè)綜合性的單一媒體,在環(huán)球網(wǎng)上創(chuàng)建動(dòng)態(tài)世界。VRML本身不是一種傳統(tǒng)的編程語言,它是一種建模語言,有它自己的文件格式,人們可以用它描述三維場景。它不但能滿足圖像質(zhì)量的要求,而且存儲(chǔ)和傳輸?shù)闹皇俏锢淼娜S坐標(biāo),圖像本身是在本地生成的,這就大大減少了網(wǎng)絡(luò)傳輸量,也便于進(jìn)行交互操作。同時(shí),使用VRML技術(shù)生成的文件格式是ASCII碼,能被有效地壓縮,這就進(jìn)一步減輕了網(wǎng)絡(luò)壓力,提高了傳輸效率,能夠?qū)崿F(xiàn)手語圖像在網(wǎng)絡(luò)上高速傳輸。

另外,日本北海道大學(xué)的青木由直教授是研究手語通訊的倡導(dǎo)者,他通過建立一個(gè)不同語言的手語翻譯字典在Internet實(shí)現(xiàn)了日語和韓語的手語的聊天系統(tǒng),進(jìn)一步又研究了日本與中國的手語變換,手語手成的二維及三維動(dòng)畫,以及帶有面部表情和嘴唇形狀的日語和韓語的手語聊天系統(tǒng)等。

4手的運(yùn)動(dòng)約束

人手的組成是一個(gè)非常復(fù)雜的結(jié)構(gòu)。手是由骨頭,連接骨頭的韌帶,作為拉力動(dòng)力服務(wù)的肌肉,運(yùn)動(dòng)時(shí)連接肌肉與骨頭的腱,以及覆蓋著保護(hù)的軟組織和皮膚。骨頭通過關(guān)節(jié)連接起來并且不能改變大小,肌肉產(chǎn)生扭矩和關(guān)節(jié)通過拉力運(yùn)動(dòng)都存在一塊或更多的肌肉群為其服務(wù)。因此,手的運(yùn)動(dòng)極其復(fù)雜的。由于真實(shí)手的生理特點(diǎn),手的運(yùn)動(dòng)受到一些限制和約束。分析手的運(yùn)動(dòng)約束,就可以更好研究虛擬三維人手的運(yùn)動(dòng)。這樣一來就可以在有關(guān)手的動(dòng)畫片中避免一些不真實(shí)的動(dòng)作,使其更加擬人化。

第7篇

機(jī)器學(xué)習(xí)作為人工智能的核心內(nèi)容而存在。簡單來講就是在模擬人類行為的基礎(chǔ)上,通過學(xué)習(xí)來使計(jì)算機(jī)獲得更多的新技能、新知識(shí),變得更加聰明更加智能,以此來實(shí)現(xiàn)其組織結(jié)構(gòu)性能上的不斷優(yōu)化。而機(jī)器學(xué)習(xí)作為一項(xiàng)極為智能化的過程,具體該如何實(shí)現(xiàn)屬于機(jī)器的特有“學(xué)習(xí)”行為呢?關(guān)于這一點(diǎn),不同專業(yè)學(xué)者基于自身專業(yè)研究內(nèi)容的不同,因此眾說紛紜,但總結(jié)來講,機(jī)器學(xué)習(xí)與推理過程之間的緊密關(guān)系還是得到了大多數(shù)學(xué)者的一致認(rèn)同,因此,我們可以將機(jī)器學(xué)習(xí)策略分為事例學(xué)習(xí)、類比學(xué)習(xí)、傳授學(xué)習(xí)、機(jī)械學(xué)習(xí)。基于計(jì)算機(jī)功能的復(fù)雜性,機(jī)器學(xué)習(xí)涉及范圍較廣,是在多種知識(shí)、技術(shù)的交叉和共同作用下的結(jié)果,如,概率論、凸分析、統(tǒng)計(jì)學(xué)、算法復(fù)雜度理論、逼近論等多專業(yè)學(xué)科都涉及其中。就機(jī)器學(xué)習(xí)的分類來講我們可以將其分為以下幾種:(1)基于學(xué)習(xí)策略分類——機(jī)械學(xué)習(xí)、示教學(xué)習(xí)、演繹學(xué)習(xí)、類比學(xué)習(xí)、基于解釋的學(xué)習(xí)、歸納學(xué)習(xí);(2)基于所獲取知識(shí)的表示形式分類——代數(shù)表達(dá)式參數(shù)、決策樹、形式文法、產(chǎn)生式規(guī)則、形式邏輯表達(dá)式、圖和網(wǎng)絡(luò)、框架和模式、計(jì)算機(jī)程序和其它的過程編碼、神經(jīng)網(wǎng)絡(luò)、多種表示形式的組合;(3)按應(yīng)用領(lǐng)域分類——自然語言、圖像識(shí)別、認(rèn)知模擬、故障診斷、數(shù)據(jù)挖掘、專家系統(tǒng)、規(guī)劃和問題求解、網(wǎng)絡(luò)信息服務(wù)等領(lǐng)域;(4)綜合分類——經(jīng)驗(yàn)性歸納學(xué)習(xí)、分析學(xué)習(xí)、類比學(xué)習(xí)、遺傳算法、連接學(xué)習(xí)、增強(qiáng)學(xué)習(xí);(5)學(xué)習(xí)形式分類——監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)。

2機(jī)器學(xué)習(xí)在網(wǎng)絡(luò)安全中應(yīng)用的意義

從機(jī)器學(xué)習(xí)的本質(zhì)上來講,它是在大數(shù)據(jù)集中的基礎(chǔ)上通過對(duì)數(shù)學(xué)技術(shù)的引入,來構(gòu)建機(jī)器行為模型,并通過不斷輸入新的數(shù)據(jù)資料,使機(jī)器在對(duì)各時(shí)段數(shù)據(jù)進(jìn)行分析、運(yùn)算的基礎(chǔ)上,來實(shí)現(xiàn)對(duì)未來的科學(xué)預(yù)測。就機(jī)器學(xué)習(xí)在網(wǎng)絡(luò)安全中應(yīng)用的意義來講,主要體現(xiàn)在,機(jī)器學(xué)習(xí)基于自身極強(qiáng)的數(shù)據(jù)分析能力,在應(yīng)用的過程中,可以幫助用戶來有效的對(duì)網(wǎng)絡(luò)安全事件作出及時(shí)的響應(yīng),尤其是在團(tuán)隊(duì)安全技能不足的情況下,可以通過自動(dòng)執(zhí)行來替代團(tuán)隊(duì)執(zhí)行一些瑣碎的系統(tǒng)安全任務(wù),有助于切實(shí)保障用戶的網(wǎng)絡(luò)安全。同時(shí)機(jī)器學(xué)習(xí)與傳統(tǒng)電子科技產(chǎn)品的融合,有助于清除產(chǎn)品中的惡意軟件,進(jìn)而達(dá)到提升產(chǎn)品安全系數(shù)和運(yùn)行穩(wěn)定性的目的。

3機(jī)器學(xué)習(xí)在網(wǎng)絡(luò)安全中的應(yīng)用

3.1安全入侵檢測

網(wǎng)絡(luò)安全入侵檢測是一種較早出現(xiàn)的計(jì)算機(jī)系統(tǒng)自我安全防護(hù)技術(shù),其在不對(duì)網(wǎng)絡(luò)性能以及用戶的計(jì)算機(jī)操作構(gòu)成影響的情況下,通過對(duì)網(wǎng)絡(luò)運(yùn)行數(shù)據(jù)、安全日志等信息的分析和檢測,來判斷系統(tǒng)是否受到了安全威脅,以此來實(shí)現(xiàn)對(duì)計(jì)算機(jī)系統(tǒng)的實(shí)時(shí)保護(hù)。機(jī)器學(xué)習(xí)憑借自身性能的智能化,在安全入侵檢測中的應(yīng)用,能夠有效提升網(wǎng)絡(luò)安全入侵檢測反應(yīng)靈敏度,使防護(hù)系統(tǒng)可以在短短的幾秒鐘內(nèi),就準(zhǔn)確的檢測到惡意攻擊位置,并予及時(shí)的進(jìn)行準(zhǔn)確、有效的防護(hù),將惡意攻擊對(duì)系統(tǒng)的傷害降到最低。

3.2垃圾郵件檢測

機(jī)器學(xué)習(xí)在垃圾郵件檢測中的應(yīng)用,根據(jù)其特殊的運(yùn)行原理,我們可以將其看作是機(jī)器學(xué)習(xí)當(dāng)中的分類問題。如,我們將郵件整體定義在{-1,1}之間,1就代表是垃圾郵件,而-1則說明是非垃圾郵件。而在對(duì)垃圾郵件進(jìn)行文本分類問題定義的過程中,我們首先就需要通過一定的數(shù)值來對(duì)垃圾郵件的文本信息予以表達(dá),并用向量來對(duì)各條消息進(jìn)行表示,垃圾郵件的特征值則集中表現(xiàn)在各特征向量元素當(dāng)中。同時(shí),由于系統(tǒng)對(duì)于垃圾郵件的檢測屬于在線應(yīng)用范疇,因此,機(jī)器學(xué)習(xí)對(duì)于郵件的自動(dòng)識(shí)別和分類能夠極大的提升系統(tǒng)對(duì)于垃圾郵件的檢測效率,降低出錯(cuò)率。

3.3域名檢測

作為互聯(lián)網(wǎng)重要的核心應(yīng)用系統(tǒng),域名系統(tǒng)基于自身對(duì)整個(gè)網(wǎng)絡(luò)安全所起到的重要意義,經(jīng)常成為被黑客和不法分子惡意攻擊的目標(biāo)。以往我們多通過防火墻、黑名單攔截、域名系統(tǒng)等的作用下,來實(shí)現(xiàn)對(duì)域名惡意攻擊的檢測。以機(jī)器學(xué)習(xí)為主的域名檢測則通常是在在線模型、離線模型的雙重組合作用下,來實(shí)現(xiàn)其域名檢測和防御功能。其中,離線模型,通過對(duì)惡意域名、合法域名訓(xùn)練數(shù)據(jù)集的建立,來從中提取出基于區(qū)域的特征、基于DNS應(yīng)答的特征、基于域名信息的特征等,之后通過X-Means聚類算法、決策樹等模型的構(gòu)建,結(jié)合網(wǎng)站提供的已知域名數(shù)據(jù)集來對(duì)所構(gòu)建的模型予以進(jìn)一步的調(diào)整和驗(yàn)證。以此來判斷其是否屬于惡意域名。在線監(jiān)測模型,是在網(wǎng)絡(luò)系統(tǒng)對(duì)域名的自動(dòng)查詢分析作用下,來對(duì)被檢測域名的主要特征、信息等進(jìn)行獲取,其特征顯示已標(biāo)記的則視為已知域名信息,進(jìn)行繼續(xù)訓(xùn)練操作,特征顯示無標(biāo)簽的則視為未知域名,需要在分類器的作用下,對(duì)其是否屬于惡意域名進(jìn)行繼續(xù)判斷。

參考文獻(xiàn)

[1]張蕾,崔勇,劉靜,江勇,吳建平.機(jī)器學(xué)習(xí)在網(wǎng)絡(luò)空間安全研究中的應(yīng)用[J/OL].計(jì)算機(jī)學(xué)報(bào),2018:1-35.

第8篇

關(guān)鍵詞:支持向量機(jī);信息熵;半監(jiān)督學(xué)習(xí);去噪;歐氏距離

中圖分類號(hào) TP181 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2013)25-5705-03

隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)上的數(shù)據(jù)呈幾何指數(shù)增長,而這些數(shù)據(jù)大部分是未標(biāo)記的。已標(biāo)記數(shù)據(jù)非常有限,如網(wǎng)絡(luò)上存在的新聞報(bào)道,面對(duì)海量的新聞種類,獲取有標(biāo)記樣本十分困難,未標(biāo)記數(shù)據(jù)不能為學(xué)習(xí)算法提供有效幫助。其他如圖像處理,文本分類,語音識(shí)別等領(lǐng)域,也存在這樣的情況。

監(jiān)督學(xué)習(xí)利用一組足夠多的已標(biāo)記的樣本來發(fā)現(xiàn)屬性和類別之間的聯(lián)系,使其可以達(dá)到理想的關(guān)聯(lián)模式,并用這些模式來觀測未知數(shù)據(jù)的類別屬性,但是大量的有標(biāo)記樣本是非常難獲得的。無監(jiān)督學(xué)習(xí)事先沒有明確的關(guān)聯(lián)模式,而是通過某種算法發(fā)現(xiàn)數(shù)據(jù)中存在的內(nèi)在結(jié)構(gòu),典型的算法有聚類。半監(jiān)督[1]學(xué)習(xí)是一種新的學(xué)習(xí)問題,結(jié)合了監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)優(yōu)點(diǎn),適合已標(biāo)記樣本小,具有大量未標(biāo)記樣本的分類問題,它討論如何將龐大的未標(biāo)記樣本和少量的已標(biāo)記樣本結(jié)合起來從而提高學(xué)習(xí)器的泛化能力[2]。

現(xiàn)有的分類算法主要有支持向量機(jī)[3]、決策樹[4]、貝葉斯[5]、最近鄰[6]、神經(jīng)網(wǎng)絡(luò)[7]和基于關(guān)聯(lián)規(guī)則[8]的分類等。支持向量機(jī)是Vapnik提出的一種新學(xué)習(xí)方法,根據(jù)結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則,以最大化分類間隔構(gòu)造最優(yōu)分類超平面,非常好的解決了數(shù)據(jù)中存在的非線性、高維性、局部極小點(diǎn)等問題。

分類后樣本可能含有噪聲數(shù)據(jù),把這些數(shù)據(jù)加入有標(biāo)識(shí)樣本重新訓(xùn)練,一是會(huì)加大訓(xùn)練時(shí)間,二是噪聲樣本會(huì)影響分類精度,在半監(jiān)督分類模式下,循環(huán)加入有噪聲樣本會(huì)加劇降低預(yù)測準(zhǔn)確率。

本文采用半監(jiān)督支持向量機(jī)算法來訓(xùn)練分類器,在已標(biāo)記樣本少的情況下,用大量的未標(biāo)記樣本提高分類器性能,并對(duì)分類后的數(shù)據(jù)提出了加權(quán)去噪的方法,建立了最優(yōu)分類器。

1 支持向量機(jī)的構(gòu)建

支持向量機(jī)通過確定最優(yōu)分類面實(shí)現(xiàn)數(shù)據(jù)分類,可分別對(duì)線性和非線性數(shù)據(jù)進(jìn)行分類,對(duì)于非線性的數(shù)據(jù),需要通過核函數(shù)把數(shù)據(jù)映射到高維空間,讓數(shù)據(jù)在高維空間線性可分,從而實(shí)現(xiàn)對(duì)數(shù)據(jù)進(jìn)行類別預(yù)測,實(shí)現(xiàn)分類。

以兩個(gè)類別的訓(xùn)練樣本數(shù)據(jù)為例,設(shè)給定的樣本數(shù)據(jù)集D為[(X1,Y1),(X2,Y2),…,(XD,YD)],其中[Xi]是訓(xùn)練元組,[yi]是相關(guān)聯(lián)的類標(biāo)號(hào),[yi∈{+1,-1},i=1,2,...,n]代表樣本類別,[K(?)]為核函數(shù)。

2 噪聲過濾機(jī)制

2.1 噪聲數(shù)據(jù)的影響

由于受到噪聲的干擾,影響支持向量機(jī)的性能。為獲得高精度的分類結(jié)果,必須減少噪聲干擾,提高訓(xùn)練樣本正確率,消除噪聲因素對(duì)分類結(jié)果的影響。在此基礎(chǔ)上,提出了對(duì)預(yù)測好的樣本去噪的方法,減少數(shù)據(jù)中存在的噪聲樣本數(shù)量,避免對(duì)重新生成的分類器有較大影響,提高分類準(zhǔn)確率。

在所有算法中,新產(chǎn)生的已標(biāo)識(shí)數(shù)據(jù)直接加入到已標(biāo)識(shí)樣本集合中,會(huì)加入正確的數(shù)據(jù),同樣也會(huì)給訓(xùn)練集帶來噪聲數(shù)據(jù),隨著循環(huán)次數(shù)不斷增加,積累的噪聲數(shù)據(jù)會(huì)影響更新后的分類器的性能[9]。在已標(biāo)識(shí)樣本少的情況下,分類器不是最優(yōu)的,機(jī)器自動(dòng)分類時(shí),可能會(huì)錯(cuò)分未標(biāo)記樣本,把分類后的樣本直接加入到訓(xùn)練集重新訓(xùn)練,會(huì)使分類器精度下降。引入噪聲過濾機(jī)制,提高分類精度。

2.2 基于信息熵權(quán)值的確定

2.4 基于加權(quán)歐氏距離的去噪方法

每個(gè)類為一個(gè)簇,分類后結(jié)果簇內(nèi)的相似度高,而簇間的相似度低?;舅枷胧牵哼x擇[k]個(gè)對(duì)象為初始點(diǎn),每個(gè)初始對(duì)象代表一個(gè)簇的中心或平均值,對(duì)于剩余的對(duì)象,用加權(quán)歐氏距離計(jì)算每個(gè)對(duì)象到簇中心的距離,最小的屬于該簇則分類正確,如果距離大于到其他簇中心的距離,則該對(duì)象不屬于該簇即分類錯(cuò)誤,是噪聲數(shù)據(jù)。

傳統(tǒng)的方法中,沒有考慮對(duì)象中每個(gè)屬性所體現(xiàn)的不同作用,而是將它們等同看待,用歐氏距離只能計(jì)算數(shù)據(jù)間相隔的遠(yuǎn)近,不能準(zhǔn)確地表示簇間相似度,因?yàn)橄嗨撇粌H依賴樣本間的相近程度,而且還依賴于樣本間的內(nèi)在性質(zhì)[10]。

3 實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)所用數(shù)據(jù)從UCI標(biāo)準(zhǔn)數(shù)據(jù)集中選取,選用四個(gè)數(shù)據(jù)集來進(jìn)行實(shí)驗(yàn),為了避免不平衡數(shù)據(jù)對(duì)分類性能的影響,在每個(gè)數(shù)據(jù)集的類別中選取兩類樣本數(shù)據(jù),樣本數(shù)目平衡且比較多,對(duì)構(gòu)造的支持向量機(jī)分類器訓(xùn)練和測試。所用實(shí)驗(yàn)詳細(xì)數(shù)據(jù)集如表1所示:

分別選取每個(gè)數(shù)據(jù)集中大致選取80%的樣本作為訓(xùn)練集,剩余20%數(shù)據(jù)作為測試集。用支持向量機(jī)構(gòu)建分類器,做測試時(shí),把每個(gè)數(shù)據(jù)集分為N等份。在80%的訓(xùn)練集中首先選取20%作為初始已標(biāo)識(shí)樣本用來訓(xùn)練分類器,剩余60%數(shù)據(jù)分為6等分。把類標(biāo)號(hào)去掉,作為訓(xùn)練時(shí)的未標(biāo)識(shí)樣本。數(shù)據(jù)集Abalone有1323個(gè)數(shù)據(jù),選取324個(gè)數(shù)據(jù)作為初始訓(xùn)練集,把其中800個(gè)數(shù)據(jù)分為4分作為訓(xùn)練分類器時(shí)所用數(shù)據(jù),留取200個(gè)數(shù)據(jù)作為測試集。在數(shù)據(jù)集bank有1042個(gè)數(shù)據(jù),選取242個(gè)作為已標(biāo)識(shí)樣本訓(xùn)練分類器,在訓(xùn)練過程中,每次對(duì)100個(gè)數(shù)據(jù)進(jìn)行分類,對(duì)分類后的數(shù)據(jù)進(jìn)行加權(quán)去噪后加入訓(xùn)練集,直到未標(biāo)識(shí)樣本分類完成。對(duì)20%的數(shù)據(jù)測試后加入人工反饋的方法,把分類錯(cuò)誤的樣本數(shù)據(jù)人為的加入正確的類別。表2給出了支持向量法算法在加權(quán)去噪前后的比較。

實(shí)驗(yàn)結(jié)果表明用加權(quán)去噪的半監(jiān)督支持向量機(jī)訓(xùn)練方法提高了分類精度,優(yōu)于只使用支持向量機(jī)算法,初始已標(biāo)記樣本少的情況下,在訓(xùn)練分類器過程中用去噪的半監(jiān)督思想多次加入未標(biāo)識(shí)樣本來擴(kuò)大訓(xùn)練集,優(yōu)化分類器性能,提高分類精度。

4 結(jié)論

該文提出一種信息熵加權(quán)去噪的方法,刪除分類有誤的數(shù)據(jù),現(xiàn)實(shí)數(shù)據(jù)中,存在大量的未標(biāo)識(shí)數(shù)據(jù),而已標(biāo)識(shí)數(shù)據(jù)較少的情況下,不利于對(duì)數(shù)據(jù)進(jìn)行分類,該文用半監(jiān)督思想,先用已標(biāo)識(shí)樣本訓(xùn)練分類器,然后用大量的未標(biāo)識(shí)樣本來提高分類器性能,由于分類后的樣本中可能存在噪聲數(shù)據(jù),用基于加權(quán)歐氏距離算法對(duì)樣本進(jìn)行去噪,選取置信度較高的樣本加入訓(xùn)練集重新訓(xùn)練。在四個(gè)UCI數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,該文提出的方法效果明顯,具有良好的預(yù)測精度。

參考文獻(xiàn):

[1] David R Anderson,Dennis J Sweeney.Statistics for business and economics[M].Beijing:China Machine press,2010:327-330.

[2] 門昌騫,王文劍.一種基于多學(xué)習(xí)器標(biāo)記的半監(jiān)督SVM學(xué)習(xí)方法[J].廣西師范大學(xué)學(xué)報(bào),2008,26(1).

[3] Zhang Xuewen,Li Yangjun. Self-adjusted particle swarm optimization algorithm based economic load dispatch of power system[J].Power System Technology,2006,30(18):8-13.

[4] Bissantz N,Hagedorn J.Data mining [J].Business and Information Systems Engineering,2009(1):118-122.

[5] Jing Y,Pavlovic V,Rehg J.Boosted Bayesian network classifiers[J].Machine Learning,2008,73(1):155-184.

[6] 陳黎飛,郭躬德.最近鄰分類的多代表點(diǎn)學(xué)習(xí)算法[J].模式識(shí)別與人工智能,2011,24(6).

[7] Janssens D,Wets G,Brijs T,et al.Improving the performance of a multi-agent rule-based model for activity pattern decisions using Bayesian networks[J].Journal of the Transportation Research Board,2004,1894(1):75-83.

[8] 張揚(yáng),周子勇.基于關(guān)聯(lián)規(guī)則的面向?qū)ο蟾叻直媛视跋穹诸怺J].遙感技術(shù)與應(yīng)用,2012,27(3).

久久综合日韩精品免费观看| 亚洲专区中文字幕视频| 日本 一区二区 在线| 黑人巨大精品欧美一区二区区 | 国产性情片一区二区三区| 中文字幕日产乱码一区二区| 91人妻人人做人碰人人九色| 成人免费视频免费观看| 中日韩美一级特黄大片| 韩国日本欧美国产三级 | 国产又粗又猛又长又大| 99少妇偷拍视频在线| 日本 一区二区 在线| 国产精品激情在线观看| 我的性感妹妹在线观看| 国产精品制服丝袜美腿丝袜| 日韩国产中文在线视频| 熟女高潮一区二区三区| 老熟妇乱视频一区二区| 99久只有精品免费视频播放| 日韩精品人妻少妇一区二区| 亚洲精品偷拍视频免费观看| 久久精品国产一区久久久| 日韩午夜老司机免费视频| 国产精品亚洲一级av第二区| 成人免费在线视频大香蕉| 九九热最新视频免费观看| 色婷婷激情五月天丁香| 亚洲欧美日本国产有色| 久久成人国产欧美精品一区二区 | 欧美日不卡无在线一区| 日韩专区欧美中文字幕| 91天堂免费在线观看| 国产精品一区二区三区黄色片| 国产原创中文av在线播放 | 亚洲一区二区欧美激情| 男人的天堂的视频东京热| 精品精品国产自在久久高清| 91亚洲国产—区=区a| 欧美日韩乱一区二区三区| 亚洲一区二区精品国产av|