預(yù)防醫(yī)學(xué)/均數(shù)的抽樣誤差和總體均數(shù)的估計

跳轉(zhuǎn)到: 導(dǎo)航, 搜索

醫(yī)學(xué)電子書 >> 《預(yù)防醫(yī)學(xué)》 >> 計量數(shù)據(jù)分析(二) >> 均數(shù)的抽樣誤差和總體均數(shù)的估計
預(yù)防醫(yī)學(xué)

預(yù)防醫(yī)學(xué)目錄

目錄

一、均數(shù)的抽樣誤差

第十六章講了總體與樣本的關(guān)系。抽樣研究的目的是用樣本信息推斷總體特征。假設(shè)要了解某地20歲健康男大學(xué)生身高的總體均數(shù),我們在該地隨機抽取了110名健康男大學(xué)生,得身高的樣本均數(shù)為172.73(cm),可用它估計該地20歲健康男大學(xué)生身高的總體均數(shù)。由于存在變異,用樣本算得的樣本均數(shù)x往往不等于總體均數(shù)μ;若再從該地20歲健康男大學(xué)生中隨機抽取含量皆為110人的很多個樣本,因各樣本包含的個體不同,所得的各個樣本均數(shù)也不一定都相等,這種由抽樣而造成的樣本均數(shù)與總體均數(shù)之差異或各樣本均數(shù)之差異稱為均數(shù)的抽樣誤差。

在抽樣研究中,抽樣誤差是不可避免的,但可以估計其大小,可通過下面的模擬試驗說明?,F(xiàn)把例18.2中110名20歲健康男大學(xué)生的身高寫在110個玻璃球上,把該110個身高數(shù)值作為假設(shè)的有限總體,其總體均數(shù)μ=172.73(cm),標準差σ為4.09(cm)。將這些玻璃球放在布袋中作隨機抽樣試驗,每次從中隨機抽取10個玻璃球為一樣本,記錄下數(shù)據(jù)并計算其均數(shù)、標準差、然后把10個玻璃球再放入布袋,充分混勻后再抽,共重復(fù)100次,求得100個樣本均數(shù)x和標準差s,其樣本均數(shù)入表19-1。

表19-1 100個球樣本均數(shù)

173.22 172.06 170.89 174.07 172.60 173.14 172.61 172.26 171.93 172.85
175.23 173.76 174.77 172.57 171.76 172.74 173.36 173.69 171.10 173.40
173.87 172.70 173.23 173.08 172.46 171.54 171.72 170.95 172.89 173.43
170.61 173.82 171.02 173.11 172.51 172.07 171.60 171.79 172.98 172.05
171.11 173.66 171.21 173.15 172.12 172.53 173.21 173.25 172.03 172.42
175.02 171.45 173.76 176.02 173.52 172.28 170.59 171.93 173.54 172.44
172.05 173.44 174.01 172.77 174.04 171.37 172.07 173.85 173.06 170.41
171.88 173.38 172.83 170.89 174.55 171.45 174.11 171.88 172.78 173.73
171.73 172.58 174.50 172.58 172.89 173.40 174.21 172.34 171.18 171.19
172.70 172.77 173.47 172.13 172.56 172.13 169.63 170.71 172.63 172.14

上述模擬試驗的結(jié)果表明,在抽樣研究中抽樣誤差是不可避免的。反映均數(shù)抽樣誤差大小的指標是樣本均數(shù)x的標準差,簡稱標準誤(standard error)。

二、標準誤的計算

按照前述標準差的加權(quán)計算法,將表19-1的資料歸納成表19-2,可看出樣本均數(shù)的分布仍服從正態(tài)分布,然后按式(18.2),(18.14)計算樣本均數(shù)的均數(shù)(記作x)和樣本均數(shù)的標準差(記作sx)。

表19-2 100個樣本均數(shù)的頻數(shù)表及x、sx計算表

身高組段(cm) 頻數(shù)f 組中值f fX FX2
169~ 1 169.5 169.5 28730.25
170~ 7 170.5 1193.5 203491.75
171~ 19 171.5 3258.0 558832.75
172~ 36 172.5 6210.0 1071225.00
173~ 26 173.5 4511.0 782658.50
174~ 8 174.5 1396.0 243602.00
175~ 2 175.5 351.0 61600.50
176~177 1 176.5 176.5 31152.25
合計 100 17266.0 2981293.00

數(shù)學(xué)上可以證明:①各樣本均數(shù)的均數(shù)x等于μ;②標準誤σx(理論值)按式(19.1)計算

σx=σ/x公式(19.1)

式中,σ為總體標準差,n為樣本含量。

本試驗各樣本試驗均數(shù)的均數(shù)x=172.66(cm)與μ=172.73(cm)相近,按式(19.1)算得的σx=4.09/x=1.29(cm)與本試驗所得的樣本均數(shù)的標準差sx=1.21(cm)也很接近。

在實際的抽樣研究中,σ常屬未知,通常用單一樣本標準差s來估計,得出標準誤sx(估計值),其計算公式為:

sx=s/x 公式(19.2)

例如模擬試驗中1號樣本的標準差s=4.05(cm),其標準誤sx(估計值)=4.05/x=1.28(cm)。

標準誤sx用來說明抽樣誤差的大小。由式(19.1)、(19.2)可知,標準誤的大小與標準差的大小成正比,與x成反比。

三、t分布(t-distribution)

在前一章正態(tài)分布中曾提到,為了應(yīng)用方便,常將正態(tài)變量進行變量變換-u變換[u=(X-μ)/σ],使一般的正態(tài)分布變換為標準正態(tài)分布。上述抽樣模擬試驗表明,在正態(tài)分布總體中以固定n(本試驗n=10)抽取若干樣本時,樣本均數(shù)x的分布仍服從正態(tài)分布,即N(μ,σx)。那末,對此進行u變換[u=(x-μ)/σx],也可變換為標準正態(tài)分布N(0,1),如圖19-1。

標準正態(tài)分布示意圖


圖19-1 標準正態(tài)分布示意圖

由于實際工作中,σ往往是未知的,常用sx作為σx的估計值,為與u變換區(qū)別,稱為t變換[t=(x-μ)/sx],t值的分布為t分布。t分布的特征:①是以0為中心的對稱分布的曲線;②其形態(tài)變化與n(確切地說與自由度v)大小有關(guān)。自由度v越大,t分布越接近u分布;自由度越小,t 分布中間越低平且兩端向外伸展,所以t分布不是一條曲線,而是一簇曲線,如圖19-2。因此,t曲線下面積為95%或99%的界值不是一個常量,而是隨自由度大小而變化的。為了便于應(yīng)用,統(tǒng)計學(xué)上根據(jù)自由度大小與t曲線下面積的關(guān)系,換算出t值表(附表19-1)以備參考。因t分布是以0為中心的對稱分布,故附表19-1只列出正值,若算得的t值為負值時,可用其絕對值查表。

自由度分別為1、5、∞的t分布


圖19-2 自由度分別為1、5、∞的t分布

四、總體均數(shù)可信區(qū)間(confidence interval)的估計

用樣本指標(統(tǒng)計量,statistic)來估計總體指標(參數(shù),parameter),稱為參數(shù)估計。是抽樣研究的主要目的之一。參數(shù)估計的方法有兩種。一是點(值)估計(point estimation),如用樣本均數(shù)估計總體均數(shù)。該法簡單,但未考慮抽樣誤差,而抽樣誤差在抽樣研究中又是不可避免的;二是用區(qū)間估計(interval estimation),即按一定的可信度估計未知總體均數(shù)所在范圍。統(tǒng)計上習(xí)慣用95%(或99%)可信區(qū)間表示總體均數(shù)μ有95%(或99%)的可能在某一范圍。下面以總體均數(shù)μ的95%可信區(qū)間為例,介紹其計算公式。σ已知時按正態(tài)分布原理計算,σ未知時按t分布原理計算。

(一)σ已知時:由u分布可知,正態(tài)曲線下有95%的u值在±1.96之間,即:

-1.96≤u≤+1.96

Gum5oflt.jpg


移項后,x-1.96σx≤μ≤x+1.96σx,故總體均數(shù)μ的95%可信區(qū)間為

(x-1.96σx,x+1.96σx) 公式(19.3)

(二)σ未知,但n足夠大(如n>100)時:由t分布可知,當自由度v越大,t分布越逼近u分布,此時t曲線下有95%的t值約在±1.96之間,即

-1.96≤t≤+1.96

Gum5oi63.jpg


x-1.96σx≤μ≤x+1.96σx,故總體均數(shù)μ的95%可是信區(qū)間為

(x-1.96sx,x+1.96sx)公式(19.4)

(三)σ未知且n小時:某自由度v的t曲線下有95%的t值在±t0.05(v)之間,即

-t0.05(v)≤t≤t0.05(v)

Gum5odb6.jpg


x-t0.05(v)sx≤μ≤x+t0.05(v)sx,故總體均數(shù)μ的95%可信區(qū)間為

(x-t0.05(v)sx,x+t0.05(v)sx)公式(19.5)

例19.1 由例18.2某地110名20歲健康男大學(xué)生的身高資料,算得身高均數(shù)x為172.73(cm),標準差為4.09(cm),試估計該地20歲健康男大學(xué)生身高均數(shù)的95%可信區(qū)間。

該例n=110,n較大,按式(19.4)計算

(172.73-1.96×4.09/Gum5o601.jpg ,172.3+1.96×4.09/Gum5o601.jpg )=(171.79,173.49)該地20歲健康男大學(xué)生身高均數(shù)的95%的可信區(qū)間為171.97~173.49(cm)。

例19.2 由例18.1的11名20歲健康男大學(xué)生身高資料得出x為172.25(cm),s為3.31(cm),試估計該地20歲健康男大學(xué)生身高均數(shù)的95%可信區(qū)間。

該例n=11,n較小,按式(19.5)計算。V=11-1=10,由t值表查得t0.05(10)=2.228。

(172.25-2.228×3.31/Gum5o601.jpg ,172.25+2.228×3.31/Gum5o601.jpg )=(170.03,174.47)該地20歲健康男大學(xué)生身高均數(shù)的95%可信區(qū)間為170.03~174.47(cm)。

32 計量數(shù)據(jù)分析(二) | 假設(shè)檢驗的基本步驟 32
關(guān)于“預(yù)防醫(yī)學(xué)/均數(shù)的抽樣誤差和總體均數(shù)的估計”的留言: Feed-icon.png 訂閱討論RSS

目前暫無留言

添加留言

更多醫(yī)學(xué)百科條目

個人工具
名字空間
動作
導(dǎo)航
推薦工具
功能菜單
工具箱