- 相關(guān)推薦
數(shù)據(jù)挖掘技術(shù)與用戶(hù)知識(shí)獲取
摘 要 題】實(shí)踐研究【英文摘要】This paper discusses the commonly-used technologies in data mining,and explores&n……
【 正 文】
1 數(shù)據(jù)挖掘技術(shù)概述
隨著信息技術(shù)的迅速發(fā)展,數(shù)據(jù)庫(kù)的規(guī)模不斷擴(kuò)大,從而產(chǎn)生了大量的數(shù)據(jù)。為給決策者提供一個(gè)統(tǒng)一的全局視角,在許多領(lǐng)域建立了數(shù)據(jù)倉(cāng)庫(kù)。但大量的數(shù)據(jù)往往使人們無(wú)法辨別隱藏在其中的能對(duì)決策提供支持的信息,而傳統(tǒng)的查詢(xún)、報(bào)表工具無(wú)法滿(mǎn)足挖掘這些信息的需求。因此,需要一種新的數(shù)據(jù)分析技術(shù)處理大量數(shù)據(jù),并從中抽取有價(jià)值的潛在知識(shí),數(shù)據(jù)挖掘(Data Mining)技術(shù)由此應(yīng)運(yùn)而生。數(shù)據(jù)挖掘技術(shù)也正是伴隨著數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的發(fā)展而逐步完善起來(lái)的。
數(shù)據(jù)挖掘是指從數(shù)據(jù)集合中自動(dòng)抽取隱藏在數(shù)據(jù)中的那些有用信息的非平凡過(guò)程,這些信息的表現(xiàn)形式為:規(guī)則、概念、規(guī)律及模式等。它可幫助決策者分析歷史數(shù)據(jù)及當(dāng)前數(shù)據(jù),并從中發(fā)現(xiàn)隱藏的關(guān)系和模式,進(jìn)而預(yù)測(cè)未來(lái)可能發(fā)生的行為。數(shù)據(jù)挖掘的過(guò)程也叫知識(shí)發(fā)現(xiàn)的過(guò)程,它是一門(mén)涉及面很廣的交叉性新興學(xué)科,涉及到數(shù)據(jù)庫(kù)、人工智能、數(shù)理統(tǒng)計(jì)、可視化、并行計(jì)算等領(lǐng)域。數(shù)據(jù)挖掘是一種新的信息處理技術(shù),其主要特點(diǎn)是對(duì)數(shù)據(jù)庫(kù)中的大量數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模型化處理,并從中提取輔助決策的關(guān)鍵性數(shù)據(jù)。數(shù)據(jù)挖掘是KDD(Knowledge Discovery in Database)中的重要技術(shù),它并不是用規(guī)范的數(shù)據(jù)庫(kù)查詢(xún)語(yǔ)言(如SQL)進(jìn)行查詢(xún),而是對(duì)查詢(xún)的內(nèi)容進(jìn)行模式的總結(jié)和內(nèi)在規(guī)律的搜索。傳統(tǒng)的查詢(xún)和報(bào)表處理只是得到事件發(fā)生的結(jié)果,并沒(méi)有深入研究發(fā)生的原因,而數(shù)據(jù)挖掘則主要了解發(fā)生的原因,并且以一定的置信度對(duì)未來(lái)進(jìn)行預(yù)測(cè),用來(lái)為決策行為提供有利的支持。
2 數(shù)據(jù)挖掘的常用技術(shù)
機(jī)器學(xué)習(xí)、數(shù)理統(tǒng)計(jì)等方法是數(shù)據(jù)挖掘進(jìn)行知識(shí)學(xué)習(xí)的重要方法。數(shù)據(jù)挖掘算法的好壞將直接影響到所發(fā)現(xiàn)知識(shí)的好壞,目前對(duì)數(shù)據(jù)挖掘的研究也主要集中在算法及其應(yīng)用方面。統(tǒng)計(jì)方法應(yīng)用于數(shù)據(jù)挖掘主要是進(jìn)行數(shù)據(jù)評(píng)估;機(jī)器學(xué)習(xí)是人工智能的另一個(gè)分支,也稱(chēng)為歸納推理,它通過(guò)學(xué)習(xí)訓(xùn)練數(shù)據(jù)集,發(fā)現(xiàn)模型的參數(shù),并找出數(shù)據(jù)中隱含的規(guī)則。其中關(guān)聯(lián)分析法、人工神經(jīng)元網(wǎng)絡(luò)、決策樹(shù)和遺傳算法在數(shù)據(jù)挖掘中的應(yīng)用很廣泛。
1)關(guān)聯(lián)分析法。從關(guān)系數(shù)據(jù)庫(kù)中提取關(guān)聯(lián)規(guī)則是幾種主要的數(shù)據(jù)挖掘方法之一。挖掘關(guān)聯(lián)是通過(guò)搜索系統(tǒng)中的所有事物,并從中找到出現(xiàn)條件概率較高的模式。關(guān)聯(lián)實(shí)際上就是數(shù)據(jù)對(duì)象之間相關(guān)性的確定,用關(guān)聯(lián)找出所有能將一組數(shù)據(jù)項(xiàng)和另一組數(shù)據(jù)項(xiàng)相聯(lián)系的規(guī)則,這種規(guī)則的建立并不是確定的關(guān)系,而是一個(gè)具有一定置信度的可能值,即事件發(fā)生的概率。關(guān)聯(lián)分析法直觀、易理解,但對(duì)于關(guān)聯(lián)度不高或相關(guān)性復(fù)雜的情況不太有效。
2)人工神經(jīng)元網(wǎng)絡(luò)(ANN),是數(shù)據(jù)挖掘中應(yīng)用最廣泛的技術(shù)。神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘方法是通過(guò)模仿人的神經(jīng)系統(tǒng)來(lái)反復(fù)訓(xùn)練學(xué)習(xí)數(shù)據(jù)集,從待分析的數(shù)據(jù)集中發(fā)現(xiàn)用于預(yù)測(cè)和分類(lèi)的模式。神經(jīng)元網(wǎng)絡(luò)對(duì)于復(fù)雜情況仍能得到精確的預(yù)測(cè)結(jié)果,而且可以處理類(lèi)別和連續(xù)變量,但神經(jīng)元網(wǎng)絡(luò)不適合處理高維變量,其最大的缺點(diǎn)是不透明性,因?yàn)槠錈o(wú)法解釋結(jié)果是如何產(chǎn)生的,及其在推理過(guò)程中所用的規(guī)則。神經(jīng)元網(wǎng)絡(luò)適合于結(jié)果比可理解性更重要的分類(lèi)和預(yù)測(cè)的復(fù)雜情況,可用于聚類(lèi)、分類(lèi)和序列模式。
3)決策樹(shù)(DT)是一種樹(shù)型結(jié)構(gòu)的預(yù)測(cè)模型,其中樹(shù)的非終端節(jié)點(diǎn)表示屬性
[1] [2] [3]
【數(shù)據(jù)挖掘技術(shù)與用戶(hù)知識(shí)獲取】相關(guān)文章:
數(shù)據(jù)挖掘中抽樣技術(shù)的應(yīng)用04-29
數(shù)據(jù)挖掘04-29
數(shù)據(jù)挖掘論文04-29
淺談數(shù)據(jù)挖掘05-02
基于數(shù)據(jù)挖掘技術(shù)的交通事故分析04-26
網(wǎng)絡(luò)營(yíng)銷(xiāo)中數(shù)據(jù)挖掘技術(shù)的應(yīng)用論文11-27
數(shù)據(jù)挖掘中的決策樹(shù)技術(shù)及其應(yīng)用04-26
數(shù)據(jù)挖掘技術(shù)在遼河水文預(yù)報(bào)中的研究04-30
數(shù)據(jù)挖掘技術(shù)在遼河水文預(yù)報(bào)中的研究04-30
在動(dòng)手中獲取知識(shí)04-30