1990~2013年我国省域人口死亡率估计及变动趋势研究

1990~2013年我国省域人口死亡率估计及变动趋势研究①
唐爽 刘乐平 李凤伟
(天津财经大学 统计学院,天津 300222)
橄榄采摘机
[摘要]为深入了解我国省域人口死亡率变化规律,本文以1990、2000和2010年三次人口普查数据为基础,
结合我国台湾地区和日本人口死亡数据,利用我国省域5岁以下儿童死亡率,采用SVD-Comp 模型估计
1990~2013年我国省域分性别、分年龄人口死亡率,并对高龄人口数据进行修正,最后计算不同地区分
性别新生儿预期寿命。结果表明,我国省域人口预期寿命水平呈“东高西低”的空间格局,女性高于男
性的性别特征;研究期内我国地区间人口预期寿命差异逐渐缩小后保持稳定,性别间预期寿命差距逐渐
扩大至5.8岁后再减小;预期寿命并非匀速增长,其增长经历先加速再减速后匀速(0.2岁/年)的过程。
[关键词]人口死亡率;预期寿命;省域差异;SVD-Comp 模型
[中图分类号] C92-05    [文献识别码] A      [文章编号] 1004-1613(2021)02-0017-14
①[基金项目]国家自然科学基金项目“基于机器学习的长期护理保险精算预测模型与风险分析”(71771163)。
[收稿日期]2020-09-24
[作者简介]唐爽,男,天津财经大学统计学院博士研究生,研究方向:人口统计分析;刘乐平,男,天津财经大学统计学院教授,博导,研究方向:风险管理与精算;李凤伟,男,天津财经大学统计学院硕士研究生,研究方向:算法建模。
② 本文表述若无特殊说明,预期寿命特指新生儿预期寿命。
2021年第2期
第36卷
(总164期)南 方 人 口SOUTH CHINA POPULATION No.2  2021Vol.36General No.1641 研究背景
由于经济发展水平、自然地理环境和人文风俗习惯等因素不同,各国(地区)人口死亡水平存在差异,国家(地区)层面上对此问题的讨论由来已久
[1-4],考虑到我国地域辽阔、民族众多,省域分年龄人口死亡率的演变差异同样值得研究。
目前,数据质量最高的省域人口死亡数据,可通过人口普查资料获得,而我国至今仅有六次人口普查,且前两次普查并未注意收集死亡人口信息,因此省域死亡数据时序较短且跨度较大,若采取简单平均的方法估计区间内死亡水平,则默认了人口预期寿命②均匀增长的假设,该假设是否合理?真实状况究竟如何?这都需要通过比较严谨的估计测算予以回答。另外,人口死亡数据应用范围不仅局限于人口学,该数据匮乏也会使相关非人口理论在省域层面的研究受到限制[5-6]。
对省域人口死亡状况的讨论并不少见,相关研究按使用数据类型可大致分为两类:一是针对某一次普查资料的单独研究,二是结合几次普查资料的分析。早在1988年,郝虹生等人利用我国第三次人口普查(简称“三普”)资料,通过模型生命表法对原始数据进行调整修正,对分省死亡
率进行了较为系统的分析[7]。
路磊等人利用“四普”资料,设法解决时期选择和死亡人口分布的难题,给出1990年我国分省简略生命表[8]。Congdon 提出一种Bayesian 随机效应模型,利用“五普”分省死亡数据,分析了我国人口死亡状况的空间聚集性和省域差异[9],杨贵军和刘帅则使用上述模型对“六普”数据分析并与Congdon 的研究进行比较[10]。针对“六普”数据,舒星宇等人利用生
2021 年第2期南 方 人 口
命表法和模型生命表法分别计算省域人口预期寿命,发现原始数据往往会高估预期寿命[11];杨明旭和鲁蓓则利用我国五岁以下儿童死亡率,对省域死亡率修正后计算不同岁组预期寿命并进行分析[12]。结合几次普查资料进行研究,既可考察人口死亡水平的大致变动趋势,又可相互检验不同批次普查资料的数据质量。任强等人认为对不同时点的死亡数据采用统一方法进行调整、修正十分必要,他们结合“三普”、“四普”和“五普”资料,通过假设两次普查间死亡水平具有线性变化,利用内外插补法研究了人口死亡水平的区域差异[13]。刘会敏等人同样利用上述三次普查资料,使用空间统计分析技术,按死亡水平变化趋势,对各省分类后进行讨论[14]。黄荣清基于“四普”和“五普”资料,阐明死亡人口漏报的社会原因,并计算两次普查中死亡人口的漏报程度[15]。王金营则利用“四普”、“五普”和“六普”资料,采用队列留存法和模型生命表法,对这三次普查资料的死亡漏报情况深入讨论,并对死亡率和预期寿命进行重新估计[16]。
虽然我国省域数据相对匮乏,但自1995年来,全国水平和市镇乡人口死亡数据可从《中国人口和就业统计年鉴》上轻易获取,因此人口死亡率的动态演变在该层面的讨论相对广泛[17-18],省域层面的研究相对不足,其主要原因之一就是数据不易获取。
本文的工作,即利用Clark提出的SVD-Comp模型[19],通过结合多源相关数据,在统一方法下,同时完成对省域死亡数据的估计补全与数据修正,并进一步分析省域人口死亡规律,希望对相关学术研究和政策制定有所裨益。本文工作还可以从另外两个角度进行归纳:一是死亡数据质量评估与测算,二
是死亡率模型的研究与应用。
死亡数据质量评估与测算。拥有可靠数据是进行相关研究的基础,由于死亡数据不易获取和计算,即使是权威数据平台之一的人类死亡率数据库(HMD)③,其数据质量也会受到质疑[20]。我国数据质量最高的死亡数据即通过人口普查获得,但普查数据却仍含瞒报、漏报等情况[21-24],个别年龄段数据具有特殊价值,吸引许多学者进行专门测算与修正[25-28]。不同方法对已有数据的估计与修正,有助于理解数据背后的真实状况。
死亡率模型的研究与应用。分年龄死亡率预测有两类代表性方法,一类是模型生命表方法[1] [29],一类是随机死亡率模型[30-31]。两类方法目的相同,但思路和使用情景却不相同,模型生命表法需要有大量已观察到的不同人口死亡数据,从而可对死亡模式进行归纳,这样即使目标人口仅拥有较少信息,仍可通过选择合适的死亡模式进而预测得到分年龄死亡数据;随机死亡率模型则需要目标人口拥有连续时序的分年龄死亡数据,此时不需要依赖其他数据即可完成预测。两类方法各有优势,针对任意一种方法的研究与应用都浩如烟海,本文重点不在此故不赘述,SVD-Comp 模型可看作是两类方法的结合,这种做法并不少见,如联合国人口展望项目(WPP)预测死亡率使用的方法[32],黄匡时则将随机死亡率模型应用于扩展模型生命表[33]。
2 研究方法
本文以Lee-Carter模型[30]和Log-Quad模型[29]为例,简介随机死亡率模型和模型生命表法预测死亡率的工作原理,说明SVD-Comp模型方法[19]如何插补死亡率数据,介绍Kannisto模型
③ /
如何修正高龄人口死亡率,并给出所用预期寿命的计算方法。
2.1 Lee-Carter 模型与Log-Quad 模型
偏心井口Lee-Carter 模型,作为最早和经典的随机死亡率模型,其形式十分简洁:
其中变量x 和t 分别表示年龄和时间,m (x,t )为中心死亡率④,α(x )描述特定年龄人口的平均死
亡率水平,
k (t )描述分年龄人口死亡率水平,b (x )则描述了特定年龄人口死亡率对k (t )变化的敏感程度。需要注意的是,该模型等式右边全为待估参数,为解决模型识别问题,通常需要对待估参数施加约束,以得到唯一解:
该模型参数求解方法并不唯一,常见解法包括奇异值分解(SVD)法、最小二乘法和极大似然法等。选择合适方法完成参数求解后,再对参数k (t )建立合适的时间序列模型进行外推预测,将预测年份t f 对应的k (t f )返带入公式(1),即可得到该年分年龄死亡率预测结果。
Log-Quad 模型,由于随机死亡率模型的使用需要目标人具有一定连续长度的死亡数据,而大部分发展中国家(地区)的死亡率数据搜集工作往往开始较晚,甚至无法获取分年龄死亡数据,此时仅拥有一些基础的生命指标如:五岁以下儿童死亡率(sq 0)、成人死亡率(45q 15)、新生儿预期寿命(e 0)等,因此Log-Quad 模型具有如下形式:
其中x 为年龄,m (x )为中心死亡率,h 为可观测生命指标的对数(如,log(s q 0),α(x )、b (x )和c (x )为与年龄有关的二次模型系数,v (x )是特定年龄的校正因子,k 是其系数。
该模型需要已知一定量生命表信息,用于m (x )和h 的二次模型拟合,求出参数a (x )、b (x )和c (x ),
而v (x )k 其实为(logm (x )- α(x )-b (x )h -c (x )h 2)SVD 分解后的第一主成分。模型参数完成校准之后,只要给出h 和k,则可计算对应的分年龄死亡率。
两类模型从形式上看都属于广义线性模型,而随机死亡率模型特点是降维处理,其只需目标人死亡数据;模型生命表类似回归模型,它尝试寻相关数据与分年龄死亡数据之间关系,故需有一定量多种人的真实生命表和相关数据信息作为基础。
2.2 SVD-Comp 模型
SVD-Comp 模型使用方法如下:
记Q 为A×L 的矩阵,矩阵Q 由L 列相关且同性别人口的分年龄死亡率(对数)合并形成,A 是分年龄死亡率岁组的组数,利用SVD 方法对其分解可得:
其中s 是由奇异值s i 从大到小排列形成的对角矩阵,
U 是左奇异向量u i 按列合并形成的矩阵,v 是右奇异向量v i 按列合并形成的矩阵,ρ为奇异值个数。由于SVD 分解性质,矩阵Q 常可用前c 个奇异值进行近似。
  ④ 本文表述若无特殊说明,死亡率特指中心死亡率。
1990~2013年我国省域人口死亡率估计及变动趋势研究
2021 年第2期南 方 人 口
通过进一步推导,矩阵Q的第l列向量qt可表示为:
其中v li表示右奇异向量v i中第l个数值,列向量q l即为一组分年龄死亡率数据,当保持s i和u i不变时,通过v li数值变动即可得到不同的分年龄死亡率。nhdt-471
将v li与可观测生命指标h l进行拟合建模,h l为分年龄死亡率q l对应的同期数据:
选择合适的fi(·)函数形式完成参数化后,只需将生命指标h带入公式(6),得,与h对应
的同期分年龄死亡率即可通过公式(5)获得:
农业交易
本文后续实证,考虑到所用数据特征和建模效果,参考Clark的研究方法[19],公式(6)中的f i(·)函数采用如下形式:
同时发现取前两个奇异值即可完成较好的建模效果,即c=2,iε{1,2}。
太阳能锅炉2.3 Kannisto模型扩展高龄人口死亡率
对于我国高龄人口死亡率,由于人口暴露数较少,且瞒报、漏报等情况时有发生,因此本文利用Kannisto模型对高龄人口死亡率进行扩展修正[12][27]。
有三种常见的死亡指标:中心死亡率m x,死亡概率q x和死亡力u x;三者之间存在联系,也可互相转换,高龄人口中常用死亡力u x建模,Kannisto模型形式如下:
本文用60—85岁死亡力u x数据拟合模型,求出参数α和β后,即可完成85岁以上人口死亡力扩展。三种死亡指标通过以下两式可以转换:
其中,公式(10)是简化sacher估计;公式(11)参数w x描述了死亡人口的分布情况,本文取w x=0.5,即假设全年龄段上死亡人口在单位时间内是均匀分布的,n表示年龄组距。
2.4 预期寿命计算方法
本文后续由插补所得全年龄死亡率(中心死亡率),根据生命表方法计算新生儿预期寿命e
,其中涉及如下指标:m x中心死亡率,q x队列死亡概率,l x幸存人口数,d x死亡人口数,L x平均0
生存人年数,T x平均生存总人年数,e x平均预期寿命。根据本文估计所得m x,再通过公式(12)至公式(17),依次计算各指标,最终可得到预期寿命:
其中n 表示年龄组距,通常一岁一组的情况下(n =1),计算的生命表叫完全生命表,本文所用为简略生命表,其中0岁组,年龄组据为n =1;1-4岁组,年龄组据为n =4;其余岁组,年龄组距n =5。
值得说明的是,0岁组中心死亡率和0岁组死亡概率(婴儿死亡率)对预期寿命的计算影响较大,且
两者通过公式(12)转化时,
文具盒生产过程w x =0.5的假设不再适用,参考杜本峰和张寓的研究设定[36],此时令w 0=0.3。3 数据来源及说明
本文所用数据,主要由三部分构成:1990、2000和2010年我国人口普查资料⑤,人类死亡率数据库(HMD)以及国家卫生健康委员会的妇幼卫生监控(MCHS)⑥数据。
人口普查资料。该数据是获取我国省域人口死亡状况的重要来源。1990年分省死亡率数据本文采用路磊等修正后数据[8],而2000和2010年死亡率数据均由相应普查资料中表6-1(省、自治区、直辖市分性别、年龄的死亡人口)和表1-7(省、自治区、直辖市分性别、年龄的人口)两张表计算所得。其中1990年最高年龄分组为85+岁组,而2000和2010年最高年龄分组为100+岁组。
图1中国大陆与和日本人口死亡模式的对比
资料来源:中国大陆数据由《1990年中国分省简略生命表》[8]、2000和2010年人口普查资料整理、计算所得;和日本数据源于HMD 数据库。
  ⑤ v/tjsj/pcsj/
  ⑥ /
  ⑦                                                                计算获得。α=x (1-1q α)5q 0通过公式5q x =1-Πx
+41990~2013年我国省域人口死亡率估计及变动趋势研究

本文发布于:2024-09-21 21:57:40,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/163175.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:人口   死亡   数据   死亡率   模型   年龄   研究   预期
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议