PPS抽样方法在我国出口贸易预测中的应用
佚名 2015-04-21
论文导读::通过对我国31个省市自治区的出口贸易额进行不等概率抽样,抽取了13个对象作为研究样本,预测了2008年我国出口贸易总额及抽样方差,同时与简单随机抽样的效果进行了对比,结果发现PPS抽样方法在总体单元之间差异比较大的情况下,能够取得很好的估计效果。 论文关键词:PPS抽样,简单随机抽样,出口 一、引言 自2001年中国加入WTO以来,我国的对外贸易得到了飞速的发展,从2000年,我国的进出口总额4743亿美元,到2008年则高达25632亿美元,比2000年增长了5倍多,进出口贸易总额以年均16.3%的速度增长,大大超过了同期国民经济的年均约11%的增长速度。其中,出口贸易作为拉动我国经济增长的三驾马车之一,对促进我国综合国力的提高和保持整个国民经济健康稳定发展的作用日趋显著。正因为目前的中国经济对国际市场的依赖程度越来越深,为保证宏观经济的持续稳定增长。出口贸易的增长问题正受到前所未有的关注。本文通过对我国31个省市自治区的货物进出口总额进行不等概率抽样(PPS抽样),抽取了8个省市作为研究样本,以此来预测2008年我国各地区出口贸易总额及抽样方差,并与简单随机抽样的预测结果进行比较,以期得到较为准确的预测结果,为宏观决策层更准确地把握各项促进出口政策的实施力度提供依据。 二、PPS抽样方法简介 从抽样发展的历史来看论文服务,最初提出的是代表性样本,这是一种主观有意识的抽样。但是,这种方法无法计算抽样误差,因此进一步发展到等概率随机抽样,以使总体中的每一个单元处于平等地位,有同样的机会被抽中,从而可以科学地计算和控制抽样误差。当总体单元之间的差异不大时,简单随机抽样是简便的、有效地。但是当总体单元之间的差异非常大时,简单随机抽样效果并不好,例如,要反映一个城市的经济发展情况,大型企业对城市的影响是比较大的,因而在抽样中是否抽中这些企业,对推断总体的结果也有很大影响。而对一些名不见经传的小企业是否抽中则无足轻重,因而在抽样中如果把它们处在同等地位,显然也是有缺陷的。因此就需要引入不等概率抽样。 1、不等概率抽样的基本含义 不等概率抽样是指在抽取样本前给总体的每一个单元赋予一定的被抽中概率。不等概率抽样分为放回与不放回两种情况。在有放回的不等概率抽样中,最常用的是按总体单元的规模大小来确定抽选的概率。设总体中第个单元的规模度量为,总体的总规模度量为,则该单元的抽选概率应为。这种不等概率抽样称作按与规模大小成比例的概率抽样,英文为probability proportional to size,简称PPS抽样。但是,总体单元大小的度量往往不止一个,比如度量一个企业的大小,可以是资金大小,也可以是产值或销售额的大小,还可以是人员的多少,因此通常用表示规模大小的抽选概率。由于每个单元均有被抽中的概率,,因此也称作PPZ抽样。 2、PPS抽样的实施方法 PPS抽样的实施方法有累积总和法、拉希里方法、规模累积等距抽选的方法和分裂法,本文这里选用规模累积等距抽选的方法。这种方法是在累积和的基础上采取等距抽样的方法。具体如下: 设总体单元数为,其规模度量分别为,论文服务,…,,进行累积,直至。若欲抽取样本的容量为n,则先求得等距抽样的间隔,然后在之间随即等概率抽取一个数,假设为,则所在的单元代码区间相应的单元即为被抽中的单元。以后每隔个度量值,即等数字所在的单元代码区间的相应单元,即为被抽中的单元。 这种抽样方法的特点是当所有单元的度量时,它是不重复的抽样;当某个时,则第i个单元有可能被重复抽中;当时,则第个单元肯定会被重复抽中。这种方法抽取样本比较容易,每个单元的被抽中概率与的大小成比例,因而在我国得到广泛的应用。 3.Hansen-Hurvitz估计量 (1)总体总量的估计 1943年,汉森和赫维茨对PPS抽样提出了估计总体总量的估计量为: 其中为入样的第个单元的变量值,为第个单元根据其规模大小的入样概率。通常情况下若以该单元包含的元素单位为度量时,,其中,是总体总量的一个无偏估计量。 (2)方差估计量为: 三、实证分析 1、数据收集与处理 各地区按经营单位所在地分货物出口总额 单位:万美元
地区
2007年
2008年
地区
2007年
2008年
全 国
121777576
143069307
河 南
837492
1071890
北 京
4892639
5749961
湖 北
817294
1170891
天 津
3807405
4210299
湖 南
651540
841288
河 北
1700041
2400412
广 东
36931609
40566447
山 西
653249
925312
广 西
510916
734744
内蒙古
294439
359185
海 南
136446
158720
辽 宁
3532409
4206950
重 庆
450721
572205
吉 林
385706
477163
四 川
860596
1313249
黑龙江
1225712
1680624
贵 州
146547
190078
上 海
14384611
16914514
云 南
476828
498441
江 苏
20360978
23802941
西 藏
32636
70757
浙 江
12826397
15429623
陕 西
467525
538082
安 徽
881373
1136411
甘 肃
165866
160135
福 建
4993757
5699184
青 海
38591
41910
江 西
544459
772666
宁 夏
108567
125837
山 东
7511011
9319479
新 疆
1150217
1929910
表1中为2007年与2008年各地区按经营单位所在地分货物出口总额的原始数据,根据2007年货物出口总额采用PPS等距抽样法抽取13个省市做样本,以2007年货物出口总额作为规模,并进行累计,得下表。
地区
2007年出口额
累积和
代码范围
地区
2007年出口额
累积和
代码范围
北 京
4892639
4892639
1~4892639
湖 北
817294
79648972
78831679~79648972
天 津
3807405
8700045
4892640~8700045
湖 南
651540
80300512
79648973~80300512
河 北
1700041
10400085
8700046~10400085
广 东
36931609
117232121
80300513~117232121
山 西
653249
11053334
10400086~11053334
广 西
510916
117743036
117232122~117743036
内蒙古
294439
11347774
11053335~11347774
海 南
136446
117879482
117743037~117879482
辽 宁
3532409
14880183
11347775~14880183
重 庆
450721
118330203
117879483~118330203
吉 林
385706
15265888
14880184~15265888
四 川
860596
119190799
118330204~119190799
黑龙江
1225712
16491601
15265889~16491601
贵 州
146547
119337345
119190800~119337345
上 海
14384611
30876211
16491602~30876211
云 南
476828
119814173
119337346~119814173
江 苏
20360978
51237189
30876212~51237189
西 藏
32636
119846810
119814174~119846810
浙 江
12826397
64063587
51237190~64063587
陕 西
467525
120314334
119846811~120314334
安 徽
881373
64944960
64063588~64944960
甘 肃
165866
120480200
120314335~120480200
福 建
4993757
69938717
64944961~69938717
青 海
38591
120518791
120480201~120518791
江 西
544459
70483176
69938718~70483176
宁 夏
108567
120627359
120518792~120627359
山 东
7511011
77994187
70483177~77994187
新 疆
1150217
121777576
120627360~121777576
河 南
837492
78831678
77994188~78831678
将除以样本量,得到抽样间隔。在之间抽一随机数R=2751684,处于北京的代码范围,因此北京作为抽中的样本。按照规模累积等距抽样法,依次抽到其他省市,分别是辽宁、上海、江苏、浙江、福建、山东、广东。其中广东作为出口大省被重复抽中4次,则广东省应入样4次,应计量4次;上海、江苏分别被抽中2次,则各入样2次论文服务,应计量2次。即总共8个省市入选。 2、总体总量的估计 这8个省市被抽选的概率为,分别为北京0.0402、辽宁0.0290、上海0.1181、江苏0.1672、浙江0.1053、福建0.0410、山东0.061678、广东0.3033,用这8个样本省市来估计2008年全国出口贸易总额,采用汉森—赫维茨估计量,由公式得: 故估计推断,全国31个省市2008年出口贸易总额为140837723万美元。 抽样的方差: 置信度为95%的置信区间为: 即:所以置信区间为(137718364.1~143957081.9) 2008年,这31个省市的实际出口贸易总额为143069307万美元,位于置信区间内。 3、与简单随机抽样估计方法的比较分析 (1) 基于简单随机抽样的估计 用随机数抽取13个地区作为样本,具体如下所示:
地区
2008年出口额
地区
2008年出口额
天津
4210299
山东
9319479
河北
2400412
湖北
1170891
内蒙古
359185
湖南
841288
上海
16914514
重庆
572205
江苏
23802941
四川
1313249
福建
5699184
云南
498441
青海
41910
总体总量估计: 总体方差估计: 置信度为95%的置信区间为即 所以置信区间为(63437605.68~256787614.32) 将上面两种方式估计的结果汇总到下表:
抽样方式
总体总量的估计量
总体方差的估计值
95%的置信区间
简单随机抽样
160112610
(63437605.68~256787614.32)
PPS抽样
140837723
(137718364.1~143957081.9)
实际值
143069307
四、小结 通过对2007年我国31个省市自治区出口贸易额进行PPS抽样,估计出2008年全国出口贸易总额为140837723,置信区间为(137718364.1~143957081.9),而2008年实际值为143069307,在置信区间内。通过与简单随机抽样方法的比较可以看出,无论是总体总量的估计还是抽样误差,PPS抽样的效果都优于简单随机抽样。所以,对于总体单元之间差异非常大时,用PPS抽样可以的到更好的估计效果。