抽样方法案例
太原人事考试-骨干教师事迹材料
附件二:
国家卫生服务总调查样本地区和样本个体的抽取方法
一、概 述
1.1 国家卫生服务总调查抽查的原则是既要兼顾调查设计的科学性即样本地区和样本个体
对全国和不同类型地区有足够的代表性,又不致于过多增加样本量而加大调查的工作量,即经
济有效的
原则。
1.2 抽样的方法是多阶段分层整群随机抽样法。第一阶段分层是以县(市或市区)为样
本
地区;第二阶段分层是以乡镇(街道)为样本地区;第三阶段分层以村为样本地区;最后是住
户为样本个体。
二、第一阶段分层整群抽样
2.1 第一阶段抽样着重解决
两个基本问题:一是由于全国各县、市差异极大,如何确定第
一阶段分层的基准;二是抽样比例,多大的
县、市样本量能经济有效地代表全国和不同类型的
地区。
2.2 第一阶段分层基准的确定
第一阶段分层的指标是通过专家咨询法和逐步回归法筛选的10个与卫生有关的社会经
济、文化教育、人口结构和健康指标。10个指标的主成份分析结果如表1。
表⒈ 主要社会经济和人口动力学指标的主成份因子模型
变
量 单位 主成份1 主成份2 主成份3
第一产业就业率 % 0.82* -0.49 0.17
14岁人口比例 % 0.80* -0.10
-0.49
文 盲 率 % 0.69*
0.32 0.22
粗 出 生 率 ‰ 0.69*
0.35 -0.10
粗 死 亡 率 ‰ 0.67*
0.51 0.33
婴儿死亡率 ‰ 0.67*
0.60* -0.02
人均工农业产值 (元) -0.65*
0.53* 0.12
第二产业就业率 % -0.84*
0.45 -0.10
初中人口比例 % -0.92*
0.02 -0.04
65 +人口比例 % -0.10
-0.19 0.93*
从主成份分析中可以看出主成份1与绝大多数变量有十分显著的关联,意义十分明确,而
且代表
10 个变量整体信息的 51.22%。其值的大小可以综合反映一个地区社会经济、文化
教育、人口
及其健康的发展。因此,确定主成份1为分层的基准称它为分层因子。
2.3
第一阶段的聚类分层
在计算各县、市分层因子的得分后,用 K-Means聚类分析方法将
总体分为组间具有异质
性和组内具有同质性的五类地区即五层。聚类分层的结果第一层有 201
个县(市或市区),占
整个县(市或市区)的 8.2%;第二层有 650个县(市或市区),占
26.5%;第三层有 698
个县(市或市区),占 28.5%;第四层有
691个县(市或市区),占 28.2%;第五层有 212,
占 8.6%。
1
表⒉显示了各层因子得分和选择的社会经济等变量的均值,可见各层呈明显的梯
度。可以
认为,第一层所在的市县,是社会经济、文化教育和卫生事业发展以及人群健康状况好的地区,
第二层是比较好的地区,第三层是一般性地区,第四层是比较差,第五层是差的地区。
表2 主要社会经济和人口动力学指标的主成份因子模型
市县
因 子 得 分 社会经济和人口动力学指标
层别 数 均 数 距 离 GNP AEP ILLIT
CDR IMR
1 201 -2.4354 3210.28 3330 15.7
19.7 5.1 17.5
2 650 -0.6638 2164.66 835 64.6
23.7 5.7 26.2
3 698 0.0692 1655.00 450 83.5
32.4 6.3 31.4
4 691 0.5776 1264.57 341 88.1
43.6 7.4 49.1
5 212 1.7457 539.61 319 90.0
66.8 11.7 121.4
2.4 第一阶段分层等概率多种样本容量的抽样
用经济有效的样本代表总体是抽样调查的精髓。样本量的确定基于以往的经验和其他国家
抽样调查样本的设计,首先给定一个样本量大小的范围,确定抽取样本量为
120,90,60,
45,30 五个大小不等的样本。为了保证各层每一个县(市或市区)都有同等
被抽取为样本的
概率,必须考虑不同大小样本量的样本在各层的分配,即按比例的分层抽样。见表⒊。
表⒊ 不同大小样本量样本在各层的分配
层 数
全 国 不同大小样本量样本的分配:
合计 (%) 120 90 60 45 30
201
(8.2)
10 8 5 4 2
第一层
650
(26.5)
32 23 16 11 8
第二层
698
(28.5)
34 26 17 13 9
第三层
691
(28.2)
34 25 17 13 8
第四层
212
(8.6)
10 8 5 4 3
第五层
按系统随机抽样方法,每个不同大小样本量的样本抽取 6 次。同一样本量的 6 次抽样,
通过计算
每次抽样样本各变量的统计量,分别与总体各变量参数进行比较,从中筛选出与总体
参数最为接近的那个
样本,作为该样本量的最佳抽取样本。
2.5 第一阶段最佳样本量样本的选择与评价
⑴ 不同样本量样
本各变量均值与总体均数的比较:如果将不同样本量样本各变量的均值
与总体各变量的均数绝对误差,绝
对误差与总体均数之比为相对误差,同一样本各变量的相对
误差具有可加性,其均数称为该样本各变量的
平均相对误差。平均相对误差可作为判断不同大
小样本量样本对总体代表性的一个尺度。同时,用“1-
平均相对误差”作为精确度。
表⒋显示了不同样本量样本各变量的均数,与总体各变量比较的
相对误差、平均相对误差
和精确度。从不同样本量样本来看,平均相对误差随着样本量的减少而增大。如
样本量从120
减少到60,平均相对误差由1.4%
增加到2.7%,增加了62%,而样本量从60 减少到30,
平均相对误差从2.7%
增加到5.6%,增加了一倍以上。样本量为 120,90,60 的样本精
确度均大
95%,也就是说样本量大于 60 就可对总体有较好的代表性。
⑵ 不同样本量样本各
变量的分布与总体分布的比较:样本变量的分布与总体分布是否吻
合也是衡量样本对总体代表性的一个尺
度。表⒌列出了不同样本量各变量分布与总体分布卡方
检验的结果。从不同样本各变量分布与总体分布的
结果,平均卡方值小于 9.49这一差异有显
著性水平的样本量为 120,90 和
60。鉴于上述分析,故可认为,样本量大于 60
的样本,
各变量的分布大多与总体分布相拟合,对总体有较好的代表性。见表5。
2
⑶ 不同样本量样本分散度的评价:样本分散度指样本中各层的变量统计量对
总体各层的
代表性。在第一层中,样本量为 120 和 90 的样本,平均每个指标的精确度均大于
95%;
样本量为 60 的样本,精确度为 89.4%。从第二层到第四层,样本量为 120 和
90 的各个
样本,平均每个指标的精确度都大于95%;第五层样本量为 120,90和
60的各样本,精确
都分别为94.1%,92.5%和 93.9%,与上述四层相比,精确度略差一
些。也就是说,要对
总体各层有较好的代表性,样本量至少为 90 。详见表6。
2.6
考虑到经济有效的原则和对全国、不同类型的地区和上述每个指标的代表性,国家卫
生服务总调查的县(
市或市区)样本容量取90。具体抽出的县、市或市区见附件5。
三、第二阶段整群随机抽样
3.1 在上述抽取的90个“样本县(市或市区)”中,以
乡镇(街道)为第二阶段整群系统
随机抽样单位。全国每个乡镇(街道)被抽取为“样本乡镇(街道)”
的概率是1∶160。第二
阶段整群系统随机抽样全国共抽取 450个乡镇(街道)。平均每个“样本
县(市或市区)”抽5
个乡镇(街道)。第二阶段分层整群抽样具体由各样本县(市或市区)按下述方法
抽取。
3.2 第二阶段整群随机抽样的基准
由于一个县(市或市区)内社
会经济、文化教育和卫生状况的差异远小于全国各县、市之
间的差异,因而确定县(市或市区)的抽样基
准相对容易。根据我国各县(市或市区)的基本
特征、实际的可操作性和以往抽样调查常用的指标,确定
采用人口数(或人均收入)作为分层
基准。
3.3 第二阶段整群随机抽样的的方法
①
将样本县(市或市区)所有的乡镇(街道)按人口数的多少(或人均收入的大小)由多
到少依次排序;
② 由多到少依次计算人口数(或人均收入)的累计数;
③
计算抽样间隔,用累计的人口总数(或人均收入累计总数)除于抽取的样本数(累计总
数/5);
④ 用纸币法(随便拿出一张人民币,看人民币的号码与最初累计数哪一个数接近,取这个数为开始数)随机确定第一个样本乡镇(街道),然后加上抽样距离确定第二个样本乡镇(街道),
依次类推确定第三至五个样本乡镇(街道)。
3.4 第二阶段整群随机抽样实例
某个样本县共有 18个乡、镇,要从该样本县抽取5乡镇作为样本。根据抽样方案的要求,
第一步人口
数的多少由大到小排序,并计算累计数(该县人口累计数即人口总数为210100),
见表6;
第二步计算抽样间隔,用人口总数除于抽样的样本数,248600/5 =
49720,该县乡镇
整群抽样的抽样间隔为49720;
第三步确定第一个随机数,取一张人民币,其编号的为FP59243854,取后5位数是
4385
4,所取的后5为数不能大于抽样间隔数,如大于再取一张人民币.该后5位随机数接近
第2编号即平湖
镇后面的累计数,因此确定第2号平湖镇为第一个样本;
第四步用第一个样本的累计数加抽样间隔,即 43000 + 49720 = 92720,
该数接近第5编号即新龙乡的累计数,确定第5号新龙乡为第二个样本。
第五步用第二个样本的累计数加抽样间隔,即 100900+49720=142920,该数接近第8
编号新原乡的累计数,确定第8号新原乡为第三个样本;同样的方法确定第⒔号和第⒙号即桐
连乡和四
顶乡。这样,五个样本乡镇就确定了。
3
表6. 第二阶段整群随机抽样的实例
编号乡镇 人口数 累计 编号乡镇 人口数
⒈城关镇
22000 22000
⒎平原乡
16400
⒉平湖镇
21000 43000
*⒏新原乡
15000
⒊玉阳镇
20000 63000
⒐古农乡
14000
⒋五一乡
19500 82500
⒑王店乡
11000
*⒌新龙乡
18400 100900
*⒒双莲乡
10500
⒍湖泊乡
17600 118500
⒓桐连乡
10100
累计 编号乡镇 人口数 累计
134900
⒔新店镇
10000
205500
149900
*⒕定安乡
9500 215000
163900
⒖五岖乡
8900 223900
174900
⒗五庙乡
8500 232400
185400
⒘双山乡
8200 240600
195500
*⒙四顶乡
8000
248600
四、 第三阶段随机抽样
4.⒈第三阶段随机抽样的基准和样本容量
⑴ 在同一个乡镇(街道)内,各村(居委会)的经济发展和卫生状况基本上变异不大。因此,第三阶段不用分层,直接采用随机整群抽样的方法从“样本乡镇(街道)”中抽取样本村
(居
委会)。但是,抽样时应按各村人均收入或人口数作为标识进行排序。第三阶段随机抽样由
调查指导员负
责。
⑵ 每个“样本乡镇(街道)”整群随机抽取2个村(居委会),全国共抽取
900个村(居
委会),全国每村(居委会)被抽为样本的概率为 1:1120。
4.2第三阶段整群随机抽样的的方法
①
将样本乡镇(街道)所有的村(居委会)按人均收入的多少(或人口数的大小)由多到
少依次排序;
② 由多到少依次计算人均收入(或人口数)的累计数;
③
计算抽样间隔,用累计总数除于抽取的样本数(累计总数/2);
④ 用纸币法(随便拿出一
张人民币,看人民币的号码与最初累计数哪一个数接近,取这个
数为开始数)随机确定第一个样本村(居
委会),然后加上抽样距离确定第二个样本村。
4.3.第三阶段随机整群抽样的实例
第一步将所有的村按人均收入的多少由大到小排序,并计算累计数;第二步计算抽样间隔:
73372
= 3669 ;第三步确定第一个随机数,取一张人民币,其编号的后 4 位数是 2273,
这个
随机数接近第4编号的累计数,因此确定第4号村为第一个样本;第五步用第二位的累计
数加抽样间隔(
2805 + 3669 =6474),接近第⒑编号的累计数,确定第⒑号为第二个样本。
表7. 第三阶段随机整群抽样实例
编号 村 人均收入
累计数 编号 村 人均收入 累计数
724 724 4606
⒈ 镇西店村 ⒎
长生庙村
589
721 1445 5180
⒉ 唐家铺村 ⒏ 王甸子村
574
689 2134 5751
⒊ 镇东村 ⒐ 民生村
571
671 2805 6295
*⒋
镇北村
*⒑
清平村
544
610 3415 6829
⒌ 李家店村 ⒒ 老平埠村
534
602 4017 7337
⒍ 湖泊村 ⒓ 高坝村
508
* 为随机抽取的样本数。
五、样本个体的抽样
5.1
最终的抽样单位是住户。在每个“样本村(居委会)”中按 20%的比例随机抽取住户,
平均每个村抽
60户,全国共抽取54000户。全国平均每户被抽取为样本的概率为
5400028000万,约五千户中抽一户。如果按每户四个人计算,人口抽样比为1:5000
左右。
5.2
抽户方法是各样本乡镇(街道)的调查指导员上述抽样比例在样本村(居委会)随机
抽取,具体方法:
4
①
按人口普查的编码顺序,按门牌号、楼号、单元号、门号从小到大排列;
②对同一门牌号,同
一个大院和楼号的,按门号从小到大排列,对同一门牌号内没有门号
的按从左到右、从外到里、从下到上
的原则编码。一经编码不许变动;
③编好住户码列入住户清单表式中:
序号
户主姓名
1 张三
2 李四
3 王五
4 赵六
5 陈七
。
。
300 赵末
家庭住址
*村*组
*村*组
*村*组
*村*组
*村*组
*村*组
门牌号码 家庭人口数 累计人口数
5 5
东1
4 9
东2
4 13
东3
3 17
东4
5 22
东5
1200
6
北6
抽中住户
*
④根据抽样比例计算应抽的户数(一般
平均每个样本村60户),然后系统随机抽取。方法
同上:第一步将所有住户的人口累计数、本村的平均
人口数(1200300=4)和本村应抽取的
住户数(300*20%=60);第二步计算抽样距离
(120060=20);第三步确定第一个随机数(如
取一张人民币,其编号的后两位数是 12,这
个随机数接近第3编号的累计数,因此确定第3
号住户为第一个样本;第五步用第3号的累计数加抽样距
离(13 + 20 =33),看 33 最接近
第几编号住户,并确定这家住户为第二个样本,同理
用第二个样本住户对应的累计数加抽样距
离确定第三个样本。同样确定以后各样本住户。
⑸
抽样时可多抽取六户,作为备用。抽取方法是在上述抽取完毕以后,按上述步骤再从未
抽取的住户中抽取
6户。
表8. 国家卫生服务总调查样本容量和抽样概率
_______________________________________
_____________
单位名称 全国总数
抽样样本数 抽样概率
2450 90 1:27
县/市区
70000 450 1:160
乡镇/街道
1000000 900
1:1120
村/居委会
280000000 54000 1:5000
户
1200000000 216000 1:5000
人
全国每一户家庭被抽群为样本的概率模型:
90/2567 * 450 *
ST/<(902567)*280000000> * 2/ST280 * 60/280 =
1:5000
-------- ---
------------------------- -------- -------
↑ ↑ ↑ ↑
↑ 在样本村每户
| | |
| 被抽取的概率
| |
一个乡被抽取为样本的概率 一个村被抽取为样本的概率
|
样本乡镇(街道)数
一个县(市或市区)被抽取为样本的概率 ( ST:
乡镇(街道)户数的大小)
5
表4.
不同大小样本社会经济和人口动力学指标的均数以及与总体均数的相对误差
全 国 不 同 大 小
样 本 的 均 数
指 标
均 数 120 90 60 45 30
指标均数:
33.6 33.3 33.6 33.5 33.0
31.9
%
0-14岁人口比例
4.9 4.9 4.9 4.9 5.0
5.2
岁人口比例 %
26.2 26.6 26.9 26.7 25.8 27.6
15-49岁妇女比例
%
806 795 767 702 756 813
人均工农业总产值 (元)
74.4 74.5 75.5 76.4 76.2 75.4
第一产业就业率 %
15.4 15.5 15.2 15.0 16.1 14.0
第二产业就业率 %
32.1 33.4 33.4 33.0 33.2 34.6
文盲和半文盲率 %
18.2 18.3 18.5 18.2 19.5 18.5
初中学历人口比例 %
粗出生率 每千人口
22.5 22.7 23.3
22.5 21.3 21.4
6.3 6.3 6.3 6.3 6.0 6.2
粗死亡率 每千人口
婴儿死亡率 每千出生
32.4 30.5 30.2
30.2 26.2 26.9
(二)相对误差 %
0.9 0.0 0.3 1.8 5.1
%
0-14岁人口比例
0.0 0.0 0.0 2.0 6.1
%
65+岁人口比例
1.5
2.7 1.9 1.5 5.3
15-49岁妇女人口
%
1.4 4.8
13.0 6.2 0.9
人均工农业总产值 (元)
0.1 1.5 2.7 2.4
1.3
第一产业就业率 %
0.6 1.3 2.6 4.6 9.1
第二产业就业率 %
4.1 4.1 2.8 3.4 7.8
文盲和半文盲率
%
0.6 1.9 0.1 7.1 2.1
初中学历人口比例 %
0.9
3.6 0.0 5.3 4.9
粗出生率 每千人口
0.0 0.0 0.0 4.8
1.6
粗死亡率 每千人口
5.9 6.8 6.8 19.0 17.0
婴儿死亡率 每千出生
16.1 26.5 30.0
58.2 61.2
相对误差合计 (%)
1.46 2.41 2.73 5.29
5.56
平均相对误差 (%)
98.54 97.59 97.27 94.71
94.44
精确度 (%)
6
表5. 不同大小样本量样本社会经济和人口动力学指标的频数分布
与总体分布的拟合度检验
不 同 大 小 样 本 的 卡 方 值 :
指 标
120 90 60 45 30
平均人口数县(市)人口大小 0.47 1.20 2.83
5.07 14.82**
0-14岁人口数0-14岁人口比例 4.74
4.36 7.19 4.56 26.12**
65+ 岁人口数65+
岁人口比例 9.10 8.83 21.7** 13.21* 20.90**
15-49岁妇女数15-49岁妇女比例 3.79 3.88 5.01
10.96* 32.47**
样本数人均工农业总产值
2.92 6.27 6.69 12.56* 28.39**
第一产业人数第一产业就业率 2.81 7.19 9.32
8.20 25.40**
第二产业人数第二产业就业率 3.21
6.06 4.26 24.24** 30.38**
文盲半文盲人数文盲半文盲率 4.37 4.87 8.44
7.28 32.62**
初中以上人数初中以上人口比例 3.13
4.23 3.74 6.23 18.42**
出生人数粗出生率
2.89 3.49 4.21 4.94 29.33**
死亡人数粗死亡人数 1.91 2.03 5.77
15.16** 19.96**
婴儿死亡人数婴儿死亡率 6.77
11.6* 14.8** 45.45** 51.02**
卡方值平均数
3.61 5.02 7.26 12.30* 25.39**
与总体分布无显著性差异的指标数 13 12 11
7 1
* X 95%(4)=9.49 ** X
99%(4)=13.2
7
表⒐ 不同大小样本社会经济和人口动力学指标的均数以及与各层均数的相对误差(1)
_______________________________________
______________________
90 60
变 量 各层均数
120
第一层
24.58 25.24 25.42
25.77
0-14岁人口比%
4.60 4.46 4.43 4.50
65岁及以上人口比%
3330 3378 3505 2463
人均工农业产值(元)
18.72 20.15 21.48 25.83
第一产业就业率%
55.91 54.21 54.55 51.88
第二产业就业率%
13.69 14.96 14.95 16.98
文盲半文盲率%
32.15 32.50 32.69 31.74
初中以上人口比%
16.71 16.30 16.14 14.78
粗出生率‰
5.11 5.16 5.26 5.25
粗死亡率‰
17.45 19.50
20.63 17.25
婴儿死亡率‰
精确度%
96.8%
95.6% 89.4%
32.36 32.96 33.72 32.24
0-14岁人口比%
4.77 4.55 4.47 4.91
65岁及以上人口比%
835 780 777 764
人均工农业产值(元)
64.62 66.10 66.28 65.56
第一产业就业率%
21.24
20.33 19.88 20.67
第二产业就业率%
23.69 22.72
22.42 22.35
文盲半文盲率%
21.65 22.38 22.34
22.80
初中以上人口比%
19.90 20.09 19.47 18.45
粗出生率‰
5.71 5.64 5.53 5.92
粗死亡率‰
26.20 25.34 25.72 23.82
婴儿死亡率‰
精确度%
96.9% 96.2% 95.8%
8
表⒐不同大小样本社会经济和人口动力学指标的均数以及与各层均数的相对误差(2)
变 量
不 同 样 本 容 量
各层均数
120 90 60
第三层
0-14岁人口比%
35.48 34.54 34.60 34.65
65岁及以上人口比%
4.86 5.11 5.11 5.03
人均工农业产值(元)
450 429 410 437
第一产业就业率%
83.50 84.95 86.20 85.21
第二产业就业率%
8.18
7.75 6.83 7.25
文盲半文盲率%
32.41 32.59 32.03
30.57
初中以上人口比%
16.55 16.68 16.70 16.40
粗出生率‰
21.73 20.90 21.22 21.84
粗死亡率‰
6.28 6.23 6.10 6.28
婴儿死亡率‰
31.39 30.59
30.83 30.57
精确度%
97.2% 96.4% 95.7%
第四层
0-14岁人口比%
37.13 36.49
36.50 36.64
65岁及以上人口比%
4.64 4.76 4.88 4.61
人均工农业产值(元)
341 345 346 338
第一产业就业率%
88.13 88.79 89.24 88.74
第二产业就业率%
4.84
4.35 4.06 4.24
文盲半文盲率%
43.58 44.05 44.57
43.68
初中以上人口比%
12.65 12.64 13.28 12.20
粗出生率‰
21.75 20.37 20.69 20.10
粗死亡率‰
7.40 7.31 7.33 7.29
婴儿死亡率‰
49.14 46.26
45.80 46.94
精确度%
97.1% 95.8% 96.8%
第五层
0-14岁人口比%
40.16 40.50
41.05 41.06
65岁及以上人口比%
4.43 4.45 4.40 4.82
人均工农业产值(元)
319 304 274 344
第一产业就业率%
90.00 86.84 86.47 86.64
第二产业就业率%
2.41
2.83 2.26 2.78
文盲半文盲率%
66.83 62.23 63.25
64.64
初中以上人口比%
5.40 6.29 6.26 5.27
粗出生率‰
32.20 36.30 36.61 37.71
粗死亡率‰
11.70 10.96 10.88 11.30
婴儿死亡率‰
121.45
112.00 100.67 122.80
精确度%
93.1% 92.5%
93.9%
9