——由上海统计年鉴2012提供的数据诠释洛仑兹曲线和基尼系数的概念——
有关民生的话题越来越被各界人士聚焦关注。基尼系数和洛伦兹曲线是反映社会收入差距大小、贫富两极分化程度的重要统计工具,最近基尼系数又在媒体和网络热议。但人们似乎只是谈论基尼系数的数值,对基尼系数是怎样计算出来的并不关心,更不关心基尼系数与洛伦兹曲线的关系,只不过是“在数言数”,似乎这些都是很神秘、很高深的理论。其实,了解一下什么是洛伦兹曲线、了解一下洛伦兹曲线与基尼系数的关系,并不是什么难事。我们草民了解一下基尼系数是怎样计算出来的,还是很有好处的,不仅可以知其然,而且可以知其所以然。对于庞大数据搜集整理量、繁杂的模拟测算的细节,可以知道得更加清楚,对于数据误差的来源也可以分析得较为具体,不至于被忽悠。
洛伦兹曲线和基尼系数长期以来被神秘化,几乎成了只有专家才能使用的束之高阁的阳春白雪。其实,绘制洛伦兹曲线和测算基尼系数,并不需要太高深的专业知识,如果有了数据,只要能坐得下来安心学习,一般人都可以掌握,当然基本功还是要的,除了需要数学中的运算、图形和面积的基本知识外,还需要使用一些统计学和高等数学中的基本知识。好在可以用Excel中散点图的添置趋势线方式自动拟合方程,来模拟解决洛仑兹曲线方程的问题;而微积分中的公式也只是使用比较简单的幂函数的积分公式。在现代社会,Office工具已为大家熟识,大学一年级的微积分也已成为最基本的常识,只需稍许回忆,便可记起,使用起来难度不是很大。关键是我们普通人手头没有调查数据,好在现在各省市的统计部门都会在每年一定时间发布上一年度的统计数据,在网上发布某年某地的统计年鉴,既然已经公开,我们就可以使用其进行测试。
下面言归正传。
在民生问题中测定收入差距、贫富悬殊程度时,经常使用洛仑兹曲线和基尼系数,它们是在整理大量调查数据后,使用统计工具处理数据,将所整理的相关数据绘制成图形、制作模拟曲线,然后再进行计算。这些曲线和数据可以用来在一定程度上、在一定范围内说明当时当地被测群体的收入差距大小,贫富两极分化程度。本篇文字使用“上海统计年鉴2012”提供的数据说明一下洛伦兹曲线和基尼系数的概念;以后的续篇再使用“福建统计年鉴2012”提供的数据详细说明使用Excel绘制洛伦兹曲线和计算基尼系数的方法。
洛伦兹曲线
洛仑兹曲线研究的是国民总收入在国民之间的分配问题,这是美国统计学家洛仑兹提出来的。它先将某一国或某一地区一定数量的人口按收入由低到高顺序排队,分为人数相等的n组,然后计算各组的人口占总人口的百分比和该组人口所获得的收入占全部人口总收入的百分比。随后,从第一组开始,逐组累计人口百分比和收入百分比,例如最低的20%、40%、60%、80%的人口所得到的收入比例分别为9.34%、22.81%、39.85%、61.98%,依此类推,直到到最后一组100%的人口获得了100%的收入。再将这样得到的人口累计百分比和收入累计百分比的对应关系制成图表,即得到洛仑兹曲线。数据处理过程用实例说明比较容易理解,下面以“上海统计年鉴2012”提供的数据为例来说明:
(http://www.stats-sh.gov.cn/tjnj/nj12.htm?d1=2012tjnj/C0912.htm )
表-1
上述表-1中“可支配收入”一项中含“工资性收入”、“经营净收入”、“财产性收入”、和“转移性收入”等,对于这些收入来源的细节我们并不在意,我们关心的是户收入的额度,于是,我们将表-1中相关的红色矩形框出的数据单独列出,如表-2所示:
表-2
因为我们关心的是其中相关数据所占总体的比率,所以增加一列总计,并为了计算各组所占总体的比率,增加“各组户数占总户数比率(%)”和“各组可支配收入合计占总收入比率(%)”两行;再由低到高逐组对增加的两行百分比做一个百分比的累加,如表-3中两行黄色的数据所示
表-3
为简单明确地阅读数据,并为后续作图的方便,将图-3中黄色的两行单独列出,如表-4所示:
表-4
对表-4可以这么解读:将所有参与统计的户数按收入由低到高排队分组,
对上表累计20%以下的低收入户获得全部分配的9.34%的收入;
累计40%以下的低收入户和中低收入户获得全部分配的22.81%的收入;
累计60%的低收入户、中低收入户和中等收入户获得全部分配的39.85%的收入;
累计80%的低收入户、中低收入户、中等收入户和中高收入户获得全部分配的61.98%的收入;
当然累计100%的所有户获得全部分配的100%的收入(可以从表-3看到最高收入组的20%的户数获得了全部分配的38.02%的收入)。
根据表-4的数据,选取单元格区域J21:K21绘制以J20:K20为x轴标志的带平滑线和数据点的散点图,图-1中所示的红色曲线就是洛伦兹曲线:
图-1
洛伦兹曲线毕竟只是一条曲线,又怎么能反映反映社会收入差距大小,贫富两极分化程度?这就要引入基尼系数。谈基尼系数之前,先看看收入分配的两种极端化现象的洛伦兹曲线的表现,即绝对平均的理想化状态和完全不均等的贫富绝对两极分化状态的洛伦兹曲线。
收入分配的理想化状态和极端化状态
绝对平均的理想化分配状态:
如果我们希望社会上人们的收入分配是绝对平均的(当然这只是一种理想化的状态):
每1%的人口都得到全部分配的1%的收入,
将每个百分比段内的做一个累计,那么:
累计2%的人口获得全部分配的2%的收入;
累计3%的人口获得全部分配的3%的收入;
……
累计50%的人口获得全部分配的50%的收入;
……
累计99%的人口获得全部分配的99%的收入;
乃至于累计100%的人口获得全部分配的100%的收入。
则收入分配是完全平等的,将这样得到的人口累计百分比和收入累计百分比的对应关系制成表,如表-5所示:
表-5
将表-5数据绘成带平滑线和数据点的散点图,这条斜率为1,倾角为45°的第一象限的角平分线在区间[0,1]上的线段OB就是绝对平均的理想化的洛伦兹曲线,如图-2所示:
图-2
反之,如果社会上人们的收入分配是绝对不平均的极端的贫富两极分化的状态:
即99%的人口只得到了全部分配的1%的收入,而1%的富人得到了99%的财富,如表-6所示:
表-6
那么据此也可绘出这种状态下的洛仑兹曲线是折线OAB,如图-3所示。
图-3
实际情况的洛伦兹曲线(图-1)是介于上述两种极端情况(图-2与图-3)的线条之间的一条曲线,将上面三种情况放在一张图中,如图-4所示:
图-4
一般来说,一个国家、一个地区的收入分配,既不是完全不平等,也不是完全平等,而是介于两者之间,那么在图-4中相应的洛仑兹曲线,既不是折线OAB,也不是对角线OB,而是介于两者之间的就是中间那条向横轴突出的曲线。洛仑兹曲线的弯曲程度具有重要意义,一般来说它的弯曲程度反映了收入的不平等程度,弯曲程度越大,收入分配程度越不公平。
在图-4中可见:洛伦兹曲线和对角线OB之间的有块弓形区域(图中斜线区域),这块弓形区域面积大小,可以用来表征实际收入分配与理想境界的差距:这块弓形区域面积越大,洛伦兹曲线弯曲度越大,弓形弯得越大,它和对角线OB离开得越远,说明收入差距越大,贫富两极分化越严重;反之,这块弓形区域面积越小,洛伦兹曲线越平缓,弓形弯得越小,它和对角线靠得越近,说明社会收入差距越小,贫富两极分化越不明显。
洛伦兹曲线只是从直观上定性地描绘了一个现象,不能定量地进行判断,为了设定一个量化指标,引出了基尼系数。
基尼系数
洛伦兹曲线常用来形象化地说明问题,它不可能用一个确切的数字来表示收入差异的总体水平,国际通用的衡量这种水平的最常用的是基尼系数。基尼系数是从洛伦兹曲线推导出来的,用以测定洛伦兹曲线背离完全均等状况的程度。基尼系数的计算是这样的:
设:洛伦兹曲线和对角线之间的那块弓形区域(图中斜线区域)面积为S,
绝对不均等折线和绝对均等对角线围成的直角三角形OAB区域的面积为P,通常这个P是个定值。
基尼系数G=S/P=弓形区域(图中斜线区域)面积/SRt△OAB
在本例中,通过计算:
于是,在本例中:
基尼系数G=S/P=弓形区域(图中斜线区域)面积/SRt△OAB
=0.141657/0.5
=0.2833
关于基尼系数的解读,应该注意以下几点:
①当收入分配完全均等时,S=0,于是,G=0;
②当收入分配完全不均等时,S=P,G=1;
③现实生活中,基尼系数总是介于0和1之间,即0<G<1;基尼系数越大说明收入分配越不平等,基尼系数越小,表明收入分配越趋于均等。
④联合国有关组织规定:若
收入的基尼系数<0.2表示收入分配绝对平均;
收入的基尼系数介于0.2~0.3表示比较平均;
收入的基尼系数介于0.3~0.4表示相对合理;
收入的基尼系数介于0.4~0.5表示收入差距较大;
收入的基尼系数>0.6以上表示收入分配差距悬殊。
前面使用Excel作为工具,简单测算出2011年上海市城市居民家庭按家庭为单位可支配收入测算的基尼系数为0.28,说明被测群体的收入分配处于比较平均状态。但是对此数据的解读一定要注意到:这些数据来源于上海市区,而且明确界定是城市居民家庭。不包括农村、不包括外省市来沪务工人员、而且是以家庭为单位,所以解读时必须考虑这些限制性条件,更何况是我们草民用简单方法计算,毋谈权威性。所以,本篇文字仅仅是尝试使用“上海统计年鉴2012”提供的数据说明一下洛伦兹曲线和基尼系数的概念,对测试数据无意、也无权进行解读和评说。
为了避免冲淡主题,本篇对于使用Excel绘制洛伦兹曲线和计算基尼系数的具体详细的方法尚未涉及,譬如洛伦兹曲线的模拟方程的确定和曲边三角形面积的定积分计算,都未详解,这些具体步骤在以后的续篇中再使用“福建统计年鉴2012”提供的数据详细说明。
【附录】我的博客中与洛伦兹曲线与基尼系数有关的文章及其链接地址:
《走下神坛的基尼系数——由上海统计年鉴2012提供的数据诠释洛仑兹曲线和基尼系数的概念》
http://shuchonghui.blog.163.com/blog/static/1511563201302344208/
http://blog.sina.com.cn/s/blog_a20c88b6010155m6.html
《使用Excel计算基尼系数的实例剖析——由福建统计年鉴2012提供的数据计算基尼系数的详解》
http://shuchonghui.blog.163.com/blog/static/1511563201302470918/
http://blog.sina.com.cn/s/blog_a20c88b6010155mf.html
《亚洲四国洛伦兹曲线对比的绘制实例》
http://shuchonghui.blog.163.com/blog/static/151156320130272851788/
http://blog.sina.com.cn/s/blog_a20c88b6010155mk.html
《基尼系数递减性及其图例解析》
http://shuchonghui.blog.163.com/blog/static/151156320130274054781/
http://blog.sina.com.cn/s/blog_a20c88b6010155mt.html
《用Excel表达贫富不均——洛仑兹曲线的绘制及基尼系数的定积分计算》:
http://shuchonghui.blog.163.com/blog/static/151156320095272211692/
《使用Excel计算曲线下面积》
http://shuchonghui.blog.163.com/blog/static/1511563200961295223931/
《答MZY:Excel指定区间的曲线下面积》
http://shuchonghui.blog.163.com/blog/static/1511563201162382330927/
评论