- 相關(guān)推薦
基于數(shù)據(jù)挖掘的社交網(wǎng)絡(luò)分析與研究論文
摘要:在計算機網(wǎng)絡(luò)越來越普及的社會中造就信息傳播的便利性提高,也讓社交網(wǎng)絡(luò)漸漸發(fā)展成為虛擬社群形態(tài),從早期的電子布告欄(BBS)到現(xiàn)在的社交網(wǎng)站(SocialNetworkSites),都可以讓人們密切討論與互動。本文將主要探討基于數(shù)據(jù)挖掘模型的社交網(wǎng)絡(luò)關(guān)聯(lián)預(yù)測分析,并對相關(guān)技術(shù)進行闡述。
關(guān)鍵詞:數(shù)據(jù)挖掘;社交網(wǎng)絡(luò);關(guān)聯(lián)預(yù)測
在社交網(wǎng)絡(luò)上,依據(jù)先前國外學(xué)者Viswanath,Mislove,ChaandGummadi和NguyenandTran都是針對theNewOrleans地區(qū)社群使用者發(fā)布數(shù)據(jù)來研究使用者發(fā)布的關(guān)系,而臺灣地區(qū)針對使用者社群發(fā)布的分析多以問卷方法居多,故本研究欲使用直接抓取頁面數(shù)據(jù)與卷標(biāo)的方法,觀察使用者社群網(wǎng)站上發(fā)布行為,利用先前用學(xué)者所提數(shù)據(jù)呈現(xiàn)方式,結(jié)合關(guān)鍵詞標(biāo)記方式來了解使用者在社群網(wǎng)絡(luò)上的發(fā)布關(guān)系。而其中社群人數(shù)拓展最快速就是微信平臺,利用了社交網(wǎng)絡(luò)的特性讓使用者能更有效率的在網(wǎng)絡(luò)上找到有關(guān)系的親朋好友,將這世界的每個人、每個群體透過各種關(guān)系快速的串連起來[1]。
1數(shù)據(jù)挖掘模型的概述
當(dāng)要對HDFS讀寫數(shù)據(jù)時,檔案將被切割成小的64MBBlock,NameNode將告知每個DataNode,切割后的block是存放在哪,DataNode將負(fù)責(zé)做本地端檔案的block數(shù)據(jù)對應(yīng),并且同時DataNode將對其他DataNode進行數(shù)據(jù)復(fù)制備份的動作。Hadoop系統(tǒng)的容錯率和可擴充性來自于DataNode,當(dāng)DataNode出錯意外關(guān)機,其它節(jié)點上的數(shù)據(jù)將依然存在,且當(dāng)需動態(tài)增刪系統(tǒng)的運算量,只需增加DataNode節(jié)點或停止DataNode運作。在進行社群資料收集與前處理之前,要先了解一下信息擷取與信息過濾的不同之處。在社群網(wǎng)站上隨機尋找開放目錄上的使用者,而后進行下載該使用者發(fā)布數(shù)據(jù)的動作是謂信息擷;而將使用者涂鴉墻上大筆數(shù)據(jù)寫進本地端的HDFS系統(tǒng)后,并通過預(yù)先設(shè)定的一些篩選條件式和過濾方法,剔除雜亂的數(shù)據(jù),變成對本研究有用的信息,以利后續(xù)卷標(biāo)計算與關(guān)鍵詞計算,這個過程就叫信息過濾[2]。
2基于數(shù)據(jù)挖掘模型的社交網(wǎng)絡(luò)關(guān)聯(lián)預(yù)測分析
關(guān)鍵詞分析部份則是針對個人涂鴉墻頁面和使用者自訂信息頁面進行關(guān)鍵詞標(biāo)記,其關(guān)鍵詞來源是使用者自訂信息頁面上含的運動、音樂、書籍、電影、電視、游戲、宗教、政治八組關(guān)鍵詞。相關(guān)度計算是利用本研究所提相關(guān)度公式來進行個人涂鴉墻頁面、使用者自訂信息頁面和模擬頁面間的關(guān)聯(lián)運算,利用頁面間所含的關(guān)鍵詞,計算出仿真頁面與使用頁面間的相關(guān)度。并在相關(guān)度計算階段把社群發(fā)布分析與關(guān)鍵詞分析的結(jié)果做個交叉分析。之后對此分析結(jié)果進行研究評估。使用者自訂信息頁面有讓使用者自己標(biāo)記自己興趣的分類項目,分為大四大類自訂選項,其自訂選項下,包含子項目讓使用者自訂標(biāo)記自己的興趣,而該表的使用者自訂分類項目就是本研究挑選關(guān)鍵詞的依據(jù),本研究挑選運動、音樂、書籍、電影、電視、游戲、宗教、政治這八個字作為關(guān)鍵詞標(biāo)記投擲的項目,在此就不考慮同義不同字、字面背后意涵等問題,只考慮第一層的字義[3]。
3社交網(wǎng)絡(luò)關(guān)聯(lián)預(yù)測的相關(guān)技術(shù)與應(yīng)用
社交網(wǎng)絡(luò)分析一直以來都是個熱門的話題,所有團體成員彼此之間社交關(guān)系的集合就是這個團體的社交網(wǎng)絡(luò),而透過社交網(wǎng)絡(luò)分析可以了解團體成員之間的互動,這分析可應(yīng)用在各種與人有關(guān)的領(lǐng)域上。在學(xué)校里,學(xué)生之間小團體的組成及班級中領(lǐng)導(dǎo)人物與被孤立者的存在,一直都是教育者相當(dāng)關(guān)心的部份。在團體精神治療中,成員之間的交流情況是分析治療成果的指標(biāo)之一。在網(wǎng)絡(luò)社群中,了解使用者群體之間的互動可以幫助廠商開發(fā)更人性化的網(wǎng)絡(luò)產(chǎn)品。人格特質(zhì)分析也是個熱門的話題,每個人的行為都有一套固定的行為模式,而分析這行為模式就是所謂的人格特質(zhì)分析,這分析也可應(yīng)用在各種與人有關(guān)的領(lǐng)域上。在學(xué)校里,不同類型的學(xué)生需要不同方式的教育。在公司面試上,公司透過分析應(yīng)征者的人格模式來錄取所需要的人才[4]。然而,一般心理學(xué)使用的社交網(wǎng)絡(luò)分析與人格特質(zhì)分析都是透過紙筆測驗,使用大量的人力去取得人際互動的信息,考慮團體成員間友好的互動關(guān)系,并使用方向性的連結(jié)來表達人們之間的互動關(guān)系。目前使用計算機視覺技術(shù)的社交網(wǎng)絡(luò)分析系統(tǒng),僅考慮人們同時出現(xiàn)頻率當(dāng)作親密程度的指針,而且使用無方向性的連結(jié)來表示人們之間的互動關(guān)系。因此,我們使用擁有計算機視覺技術(shù)的多攝影機系統(tǒng),透過分析人們之間的互動行為,互動行為包含互動的對象、所表達的肢體語言與情緒信息,根據(jù)分析所有的互動得到團體內(nèi)所有成員之間的社交態(tài)度,而這就是這團體的社交網(wǎng)絡(luò)。除了友好的互動關(guān)系之外,我們還考慮了厭惡的互動關(guān)系,并且使用方向性的連結(jié)來表達人們之間的互動,這讓我們的社交網(wǎng)絡(luò)分析能更貼切現(xiàn)實的互動情況。通過分析一個人所有的社交互動行為,可以得知此人的行為擁有何種傾向,而這行為模式就是這個人的人格特質(zhì)。
總之,我們可以根據(jù)觀察分析人們的互動行為,得到與人們觀察得到的結(jié)果大同小異的社交網(wǎng)絡(luò)分析,證明我們能透過計算機視覺技術(shù)取得貼近現(xiàn)實的社交網(wǎng)絡(luò)分析,并且比起一般心理學(xué)的社交網(wǎng)絡(luò)分析省下許多不必要的人力。
參考文獻:
[1]王云馳,鄧倩妮.關(guān)聯(lián)信息在社交網(wǎng)絡(luò)中傳播的競爭模型[J].微型電腦應(yīng)用,2015,(3):22-24.
[2]魏爽,高華玲.利用數(shù)據(jù)挖掘方法進行社交網(wǎng)絡(luò)關(guān)聯(lián)預(yù)測[J].電腦知識與技術(shù),2015,(12):46-48.
[3]李陽,王曉巖,王昆,沙瀛.基于社交網(wǎng)絡(luò)的安全關(guān)系研究[J].計算機研究與發(fā)展,2012,(S2):124-130.
[4]向程冠,熊世桓,王東.基于關(guān)聯(lián)規(guī)則的社交網(wǎng)絡(luò)好友推薦算法[J].中國科技論文,2014,(1):87-91.
【基于數(shù)據(jù)挖掘的社交網(wǎng)絡(luò)分析與研究論文】相關(guān)文章:
基于仿真與數(shù)據(jù)挖掘的故障診斷方法研究04-28
數(shù)據(jù)挖掘論文04-29
基于空間特性的地形圖數(shù)據(jù)挖掘研究04-29
飛機實時監(jiān)控數(shù)據(jù)挖掘方法研究04-27
基于決策樹的我國農(nóng)業(yè)數(shù)據(jù)挖掘分析05-01
地理作用和集聚演化:基于數(shù)據(jù)挖掘的分析05-02
地理作用和集聚演化:基于數(shù)據(jù)挖掘的分析04-29
基于數(shù)據(jù)挖掘技術(shù)的交通事故分析04-26
數(shù)據(jù)挖掘04-29