- 相關推薦
R語言論文
統(tǒng)計計算
分類數(shù)據(jù)的列聯(lián)表分析
信計1002班 王秋燕 201020310216
分類數(shù)據(jù)的列聯(lián)表分析
第一部分:
統(tǒng)計學中根據(jù)變量取值類型的不同,把變量分為兩大類:離散型變量和連續(xù)型變量。離散型變量又稱為定量變量,可分為區(qū)間變量和比率變量。
稱變量為名義變量,如果變量的可能取值是沒有次序之分的幾個水平或狀態(tài)。稱變量為有序變量,如果變量的可能去只是有次序之分的幾個水平或狀態(tài)。
稱變量為連續(xù)型變量,如果變量的可能取值是某個連續(xù)區(qū)間。 對離散型變量進行抽樣取得的數(shù)據(jù)稱為分類數(shù)據(jù),也稱為屬性數(shù)據(jù)。 統(tǒng)計運用于我們?nèi)粘I畹姆椒矫婷,尤其是在社會科學中,常常采用列聯(lián)表來記錄我們所獲得資料,列聯(lián)表的資料看起來只是一個一個的資料,但這些由兩個或兩個以上的類別交叉組合得出的格子,行變量的類別用 r 表示,ri表示第
i個類別,列變量的類別用c
表示,cj表示第j個類別,每種組合的觀察頻次用fij
表示,表中列出了行變量和列變量的所有可能的組合,所以稱為列聯(lián)表,一個r行
c列的列聯(lián)表稱為r?c列聯(lián)表。通過運用統(tǒng)計檢驗方法,能夠幫助我們更清晰地
分析社會現(xiàn)象。
列聯(lián)表獨立性檢驗是卡方擬合優(yōu)度檢驗的一個特例,人們將兩個或多個特征分類數(shù)據(jù)即交叉分類數(shù)據(jù)以表格形式列出即列聯(lián)表,從而利用這些數(shù)據(jù)用來研究兩種或多種分類之間是否有某種聯(lián)系。
第二部分:
我們用統(tǒng)計理論來解決這個問題。 方法一:我們采用獨立性的?2檢驗。
?2檢驗(Chi-square test)是現(xiàn)代統(tǒng)計學的創(chuàng)始人之一,K. Pearson(1857-1936)于1900年提出的一種具有廣泛用途的統(tǒng)計方法,可用于兩個或多個率(或者構成比)之間的比較,計數(shù)資料的關聯(lián)度分析,擬合優(yōu)度檢驗等。 ①?2檢驗用途:
比較稱名變量的次數(shù),具體來講,就是比較實際次數(shù)與期望次數(shù)(或理論次數(shù))之間是否有相助差異,或研究檢驗觀察值與理論值之間的緊密程度。?2擬合檢驗就是用來確定事件出現(xiàn)的頻數(shù)分布與某一理論分布之間的差別是否是隨
機性的。
②?2分布基本思想: 第一,屬連續(xù)型分布,第二,可加性是其基本性質(zhì),第三,唯一參數(shù),即自由度。
(1)自由度為1的?2分布,若Z~N(0,1),則Z2的分布稱為自由度為1的?2
2(Chi-square distribution),記為?(1)或?2(1)。
(2)Z1,Z2......Zv互相獨立,均服從N(0,1),則Z12?Z22?......?Zv2的分布稱自由度為V的?
2?(2v)近
的正態(tài)分布。
圖一
2
③?2檢驗(chi-square distribution)基本公式:? ??T,
(A?T)
2
??(R?1)(C?1)
上述基本公式由K. Pearson提出,因此許多統(tǒng)計軟件上常稱這種檢驗為Pearson’s Chi-square test,其他卡方檢驗都是在此基礎上發(fā)展起來的\。 ④?2檢驗主要有三個:適應性檢驗,正態(tài)性檢驗以及獨立性檢驗。
(1)適合性檢驗為單樣本卡方檢驗,它只是記一個變量,但數(shù)據(jù)要分成若干相互排斥的組和范疇。其目的是檢驗時間次數(shù)與期望次數(shù)是否吻合。
? np( 實統(tǒng)計量: 2 (n i ) ,實質(zhì)是: 測 頻 數(shù) ? 理 論 頻 數(shù) ) 2
???i???npi理論頻數(shù)i?1i?1
k
2
k
2
適合性檢驗是用樣本提供的信息去推斷總體分布是否適合某種已知的規(guī)律。 (2)正態(tài)性檢驗,用卡方檢驗進行正態(tài)性檢驗其實也是一種適合性檢驗,即檢驗實際次數(shù)分布與期望次數(shù)分布是否有顯著性差異。
(3)獨立性檢驗就是檢驗兩個特征或兩個分類標準是互相獨立的還是互有聯(lián)系的。用于獨立性檢驗的數(shù)據(jù)一般整理成“列聯(lián)表”的形式,即一個分類標準把
數(shù)據(jù)分為若干列,另一個分類標準把數(shù)據(jù)分為若干行,行列交叉形成一個個的方格。每一行和每一列都有一個總計,書寫在一行或一列的末尾,稱為“邊際總和”。所有邊際和加起來就是全部數(shù)據(jù)的個數(shù)或樣本容量(N)。 獨立性檢驗的分析步驟: 第一步:建立假設與備擇假設:
H0:pij=pi?pj(行變量與列變量獨立); H1: pij=pi?pj(行變量與列變量不獨立)。 第二步:確定適當?shù)臋z驗統(tǒng)計量為chi-square;
第三步:規(guī)定顯著性水平?,查表得出拒絕域和臨界值; 第四步:運用R語言命令運行;?
第五步:作出判斷將檢驗統(tǒng)計量的值與?水平的臨界值進行比較,得出接受或拒絕原假設的結論:若樣本統(tǒng)計量的值落入拒絕域,則拒絕原假設,接受備擇假設
H1;否則,接受H0。
?2統(tǒng)計量用于檢驗列聯(lián)表中變量之間是否存在顯著性差異,或者用于檢驗變量之間是否獨立。當n很大,每格eij都不太小時,服從自由度k?(r?1)(c?1)的
?分布,計算公式為: ,其自由度為(r?1)(c?1),nij一列聯(lián)
2
eij一列聯(lián)表只第表中第i行第j列類別的實際頻數(shù),i行第j列類別的實際頻數(shù)。 2rc
方法二:Fisher精準檢驗
??
2
??
i?1
j?1
(nij?eij)
eij
Fisher精準檢驗是列聯(lián)表行變量和列變量獨立性的另一種檢驗方法,F(xiàn)isher精準檢驗是在行與列邊際總數(shù)固定的假設下,利用超幾何分布,用枚舉法計算列聯(lián)表可能出現(xiàn)情況的概率,此時要檢驗的問題仍是
HO:行變量和列變量相互獨立。 (1) 首先介紹多元幾何的多元推廣,它是超幾何分布的多元推廣。 定義:設隨機向量X=(x1,x2,???xr)滿足條件:
(1)0?Xi?Ni(i=1,2,...,r),且N1?N2?...?Nr?N,
r
(2)m1,m2,...,mr為r個非負整數(shù),o?mi?Ni且?mi?m(0?m?N),事件概率
i?1
由下式給出:
(
P((X1,X2,...XR)?(m1,m2,...mr))?
N1m1
)(
N2m2(N
)...()
Nrmr
r
)?
m!(N?m)!?Ni!
i?1
r
,則稱X
m
N!?mi!(Ni?mi)!
i?1
服從多元超幾何分布,記為X~MH(N1,N2,...Nr;m).
多元超幾何分布的背景如下,共有N個個體分為r類,其中第i(i?1,2,...,r)類有Ni個,現(xiàn)從總體中等可能無放回的抽取m個個體,用Xi表示m個個體中屬于第i類的個數(shù),則X?(X1,X2,...,Xr)服從多元超幾何分布。特別當r?2時,多元超幾何分布就是超幾何分布。
①2?2表Fisher精準檢驗:觀測表(Table)概率,雙側(Twosided)p值,左側(Leftsided)p值,右側(Rightsided)p值。
觀測表概率是按超幾何分布計算的所觀測到表格的概率。較小的雙側p值有利于行變量和列變量有關聯(lián)的備擇假設。對于2?2表,當行列邊際總數(shù)固定時,如表1,n11的數(shù)值完全決定了整個表格,n11記為(1,1)單元格可能出現(xiàn)的頻數(shù),則Fisher精準檢驗的左側p值是事件{n11?F}的概率,右側值是事件{n11?F}的概率。
表1
n11?F Leftsided p=
p(n11)?p(n11?F)
P(n11)?
n11?F
p(n11), Rightsided p=
?
n11?F
p(n11)。
如表1,在行邊際總數(shù)固定條件下,可以把row1和row2兩行看成兩個獨立的二項分布總體,則檢驗問題(1)中的H0相當于row1和row2有相同的二項分布,所以檢驗問題(1)寫成
H0:p(Y?coll)?p(Y?collX?row1)?p(Y?collX?row2),結合表1,則
HO:p?1?
p1p1?
1
?
p
21
p2?
。 (2)
由此不難理解,在Fisher精準檢驗中,與檢驗水平?相比較,小的左側p值有利于備擇假設:對于row1總體,觀測屬于coll的概率,小于其期望概率;小的右側p值有利于備擇假設:對于row1總體,觀測屬于coll的概率,大于其期望概率。即左側p值和右側p值分別對應檢驗問題(2)的如下備擇假設;
?H1:p11p1??p?1,Leftside?
?H2:P11P1??P?1,Rightside
p,p,
,
綜上所述,對2?2表,F(xiàn)isher精準檢驗的左側p值小于檢驗水平,說明row1的coll風險小于row2的coll風險,即p?p12,又等價于OR(Odds Ratio,優(yōu)比比率)大于1。右側p值小于檢驗水平,說明row1的coll風險大于row2的coll風險,即p?p12。
第三部分:
用R語言解決
> x dim(x) rcl rcl (輸出結果) V1 v2 2 4 3 6
> dimnames(rcl)[[1]] dimnames(rcl)[[2]] rcl(輸出結果) b1 b2 a1 2 6 a2 5 7
> Chisq.test(rcl)(用皮爾松卡方檢驗)
Pearson's Chi-squared test with Yates' continuity correction data: rcl
X-squared = 0.0824, df = 1, p-value = 0.774(輸出結果)
最后看p-value值,p-value0.05,接受原假設,兩者是獨立的,沒有關系。 從結論看,p-value = 0.774,接受原假設,兩者是獨立沒有關系的。
第四部分
例子:為了調(diào)查吸煙是否對肺癌有影響,某腫瘤研究所隨機地調(diào)查了9965人,得到如下結果(單位:人)。
> dim(s)=c(2,2) > s
[,1] [,2] [1,] 7775 42 [2,] 2099 49 > rcl rcl V1 V2 1 7775 42 2 2099 49
> dimnames(rcl)[[1]]
> dimnames(rcl)[[2]] rcl
do not get lung cancer lung cancer do not smoke 7775 42 smoke 2099 49 > chisq.test(rcl)
Pearson's Chi-squared test with Yates' continuity correction data: rcl
X-squared = 54.721, df = 1, p-value = 1.389e-13
從最后的p-value可以看出,p-value
【R語言論文】相關文章:
學科術語 R05-04
論文化語言學中的語言與文化04-28
華茲華斯詩歌的語言特色論文04-28
根據(jù)R基因保守區(qū)分離小麥R基因類似序列05-03
《zh ch sh r》的教案08-26
淺談R&D活動04-28
HexTOOL(R)的初步驗證試驗04-28
天文術語 R-S05-04
簡述語言模因與網(wǎng)絡語言論文12-15