- 相關(guān)推薦
支持向量機(jī)在數(shù)據(jù)挖掘中的應(yīng)用研究論文
摘 要:支持向量機(jī)(Support Vector Machine, SVM)是數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)中的一個(gè)很有效的工具。結(jié)合支持向量機(jī)在數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)中的應(yīng)用, 介紹了支持向量機(jī)的基本原理, 發(fā)展方向及其研究熱點(diǎn)。
關(guān)鍵詞:支持向量機(jī); 數(shù)據(jù)挖掘; 機(jī)器學(xué)習(xí)オ
1 SVM的提出和基本思想
支持向量機(jī)是Vapnik等人提出的,在解決小樣本、非線(xiàn)性及高維模式識(shí)別問(wèn)題中表現(xiàn)出許多特有的優(yōu)勢(shì),已應(yīng)用于手寫(xiě)體識(shí)別、三維目標(biāo)識(shí)別、人臉識(shí)別、文本圖像分類(lèi)等實(shí)際問(wèn)題中,性能優(yōu)于已有的學(xué)習(xí)方法,表現(xiàn)出良好的學(xué)習(xí)能力。它是從線(xiàn)性可分情況下的線(xiàn)性分類(lèi)面發(fā)展而來(lái)的,接著利用核函數(shù)很好的解決了非線(xiàn)性可分情況。
2 支持向量機(jī)的幾個(gè)發(fā)展
。1)模糊支持向量機(jī),引入樣本對(duì)類(lèi)別的隸屬度函數(shù),這樣每個(gè)樣本對(duì)于類(lèi)別的影響是不同的,這種理論的應(yīng)用提高了SVM的抗噪聲的能力,尤其適合在未能完全揭示輸入樣本特性的情況下。
。2)最小二乘支持向量機(jī)。這種方法是在1999年提出,經(jīng)過(guò)這幾年的發(fā)展,已經(jīng)應(yīng)用要很多相關(guān)的領(lǐng)域。研究的問(wèn)題已經(jīng)推廣到:對(duì)于大規(guī)模數(shù)據(jù)集的處理;處理數(shù)據(jù)的魯棒性;參數(shù)調(diào)節(jié)和選擇問(wèn)題;訓(xùn)練和仿真。
。3)加權(quán)支持向量機(jī)(有偏樣本的加權(quán),有偏風(fēng)險(xiǎn)加權(quán))。
。4)主動(dòng)學(xué)習(xí)的支持向量機(jī)。主動(dòng)學(xué)習(xí)在學(xué)習(xí)過(guò)程中可以根據(jù)學(xué)習(xí)進(jìn)程,選擇最有利于分類(lèi)器性能的樣本來(lái)進(jìn)一步訓(xùn)練分類(lèi)器,特能有效地減少評(píng)價(jià)樣本的數(shù)量。
(5)粗糙集與支持向量機(jī)的結(jié)合。首先利用粗糙集理論對(duì)數(shù)據(jù)的屬性進(jìn)行約簡(jiǎn),能在某種程度上減少支持向量機(jī)求解計(jì)算量。
。6)基于決策樹(shù)的支持向量機(jī)。對(duì)于多類(lèi)問(wèn)題,采用二岔樹(shù)將藥分類(lèi)的樣本集構(gòu)造出一系列的兩類(lèi)問(wèn)題,每個(gè)兩類(lèi)構(gòu)造一個(gè)SVM。
。7)分級(jí)聚類(lèi)的支持向量機(jī)。基于分級(jí)聚類(lèi)和決策樹(shù)思想構(gòu)建多類(lèi)svm,使用分級(jí)聚類(lèi)的方法,可以先把n-1個(gè)距離較近的類(lèi)別結(jié)合起來(lái),暫時(shí)看作一類(lèi),把剩下的一類(lèi)作為單獨(dú)的一類(lèi),用svm分類(lèi),分類(lèi)后的下一步不再考慮這單獨(dú)的一類(lèi),而只研究所合并的n-1類(lèi),再依次下去。
(8)算法上的提高。Vapnik在1995年提出了一種稱(chēng)為“chunking”的塊算法,即如果刪除矩陣中對(duì)應(yīng)Lagrange乘數(shù)為0的行和列,將不會(huì)影響最終結(jié)果。Osuna提出了一種分解算法,應(yīng)用于人臉識(shí)別領(lǐng)域。Joachims在1998年將Osuna提出的分解策略推廣到解決大型SVM學(xué)習(xí)的算法。Platt于1998年提出了序貫最小優(yōu)化每次的工作集中只有2個(gè)樣本。
。9)核函數(shù)的構(gòu)造和參數(shù)的選擇理論研究;诟鱾(gè)不同的應(yīng)用領(lǐng)域,可以構(gòu)造不同的核函數(shù),能夠或多或少的引入領(lǐng)域知識(shí)。現(xiàn)在核函數(shù)廣泛應(yīng)用的類(lèi)型有:多項(xiàng)式逼近、貝葉斯分類(lèi)器、徑向機(jī)函數(shù)、多層感知器。參數(shù)的選擇現(xiàn)在利用交叉驗(yàn)證的方法來(lái)確認(rèn)。
。10)支持向量機(jī)從兩類(lèi)問(wèn)題向多類(lèi)問(wèn)題的推廣。Weston在1998年提出的多類(lèi)算法為代表。在經(jīng)典svm理論的基礎(chǔ)上,直接在目標(biāo)函數(shù)上進(jìn)行改進(jìn),重新構(gòu)造多值分類(lèi)模型,建立k分類(lèi)支持向量機(jī)。通過(guò)sv方法對(duì)新模型的目標(biāo)函數(shù)進(jìn)行優(yōu)化,實(shí)現(xiàn)多值分類(lèi)。
一對(duì)多(one-against-rest)——Vapnik提出的,k類(lèi)——k個(gè)分類(lèi)器,第m個(gè)分類(lèi)器將第m類(lèi)與其余的類(lèi)分開(kāi),也就是說(shuō)將第m類(lèi)重新標(biāo)號(hào)為1,其他類(lèi)標(biāo)號(hào)為-1。完成這個(gè)過(guò)程需要計(jì)算k個(gè)二次規(guī)劃,根據(jù)標(biāo)號(hào)將每個(gè)樣本分開(kāi),最后輸出的是兩類(lèi)分類(lèi)器輸出為最大的那一類(lèi)。不足:容易產(chǎn)生屬于多類(lèi)別的點(diǎn)(多個(gè)1)和沒(méi)有被分類(lèi)的點(diǎn)(標(biāo)號(hào)均為-1)——不對(duì),訓(xùn)練樣本數(shù)據(jù)大,訓(xùn)練困難,推廣誤差無(wú)界。
層(數(shù)分類(lèi)方法),是對(duì)一對(duì)一方法的改進(jìn),將k個(gè)分類(lèi)合并為兩個(gè)大類(lèi),每個(gè)大類(lèi)里面再分成兩個(gè)子類(lèi),如此下去,直到最基本的k個(gè)分類(lèi),這樣形成不同的層次,每個(gè)層次都用svm來(lái)進(jìn)行分類(lèi)——1對(duì)r-1法,構(gòu)建k-1個(gè)分類(lèi)器,不存在拒絕分類(lèi)區(qū)。
3 主要研究熱點(diǎn)
從上面的發(fā)展中,我們可以總結(jié)出,目前支持向量機(jī)有著幾方面的研究熱點(diǎn):核函數(shù)的構(gòu)造和參數(shù)的選擇;支持向量機(jī)從兩類(lèi)問(wèn)題向多類(lèi)問(wèn)題的推廣;更多的應(yīng)用領(lǐng)域的推廣;與目前其它機(jī)器學(xué)習(xí)方法的融合;與數(shù)據(jù)預(yù)處理(樣本的重要度、屬性的重要度、特征選擇等)方法的結(jié)合。
參考文獻(xiàn)
[1]@張學(xué)工.統(tǒng)計(jì)學(xué)習(xí)理論的本質(zhì)[M].北京:清華大學(xué)出版社,2000.
[2]@NelloCristianini,JohnShawe-Taylor.支持向量機(jī)導(dǎo)論[M].北京:電子工業(yè)出版社,2004.
【支持向量機(jī)在數(shù)據(jù)挖掘中的應(yīng)用研究論文】相關(guān)文章:
支持向量機(jī)在大氣污染預(yù)報(bào)中的應(yīng)用研究05-01
支持向量機(jī)在機(jī)載設(shè)備故障診斷及預(yù)測(cè)中的應(yīng)用研究04-26
支持向量機(jī)在害蟲(chóng)預(yù)測(cè)預(yù)報(bào)中的應(yīng)用05-02
支持向量機(jī)在飛機(jī)狀態(tài)監(jiān)控中的應(yīng)用04-27
支持向量機(jī)在短期氣候預(yù)測(cè)中的應(yīng)用04-30
支持向量機(jī)在海洋隨機(jī)資料分析中的應(yīng)用05-02
支持向量機(jī)在城市震后火災(zāi)損失預(yù)測(cè)中的應(yīng)用05-02
支持向量機(jī)在大慶齊家凹陷測(cè)井解釋中的應(yīng)用04-29
數(shù)據(jù)挖掘論文04-29