基于数据挖掘技术的温州市财政收入的影响因素分析及预测
Analysis and Prediction of Influencing Factors of Fiscal Revenue in Wenzhou Based on Data Mining Technology

作者: 庄亮亮 , 黄辉林 * , 吴 统 :温州大学数学与信息科学学院,浙江 温州;

关键词: Lasso回归GM (1 1)BP神经网络财政收入Lasso Regression GM (1 1) BP Neural Network Financial Revenue

摘要:
本文首先建立了Lasso变量选择模型,挑选出了影响温州市财政收入的四个关键性因素,即在岗职工工资总额、城镇居民人均消费性支出、地区生产总值和税收。在此基础上,分别针对这四个影响因素建立GM (1, 1)模型,得到它们2016~2018年的预测值。最后,我们通过训练合适的BP神经网络模型,给出了温州市财政收入在2016~2018年的预测值。

Abstract: This paper established a Lasso model, which selects four key factors affecting the financial reve-nue of Wenzhou, such as the total wages of staff and workers, per capita consumption expenditure of urban residents, GDP and tax. On this basis, we also get the forecast values of above four factors especially from 2016 to 2018 by using GM (1, 1) model. Finally, we give the forecast values of financial revenue of Wenzhou from 2016 to 2018 by building an appropriate BP neural network model.

1. 引言

地方财政收入是区域国民经济的综合反映,也是市场经济国家的政府进行宏观调控的基础。随着我国社会主义市场经济体制的初步建立,特别是我国加入世界贸易组织,地方财政收入的分析与预测等问题越来越被社会各级领导所重视。地方财政收入分析及预测建模研究,不仅涉及区域经济发展、财税体制改革规则等方面的理论与实践,而且对有关部门制定合理的财政预算和财政政策,强化地方财政收入的监督管理,促进国民经济快速、健康、协调发展均有十分重要的实际应用价值。因此对地方财政收入进行预测,不仅是必要的,而且也是可能的。科学、合理的预测地方财政收入,对于克服年度地方预算收支规模的随意性和盲目性,正确处理地方财政收入与经济的相互关系具有十分重要的指导意义。温州作为最具有中国特色的民营经济体,其经济发展在全国经济中的地位举足轻重。

众所周知,从2015年1月1日起我国开始施行的新《预算法》强调各级政府必须建立跨年度预算平衡机制。基于宏观经济预测以及财政政策以及相关变动,对多年的财政收入与支出进行合理预测一直是我们政府在财政管理实践中需要解决的问题,准确的预测可以有效提高政府预算编制质量和财政管理效率。对温州政府而言,及时对我市的财政收入进行合理有效的预测,不仅可以有力贯彻“依法治税”的精神,还可以有效帮助我市解决预决算偏离度过大的问题。目前,温州市在财政收入规模和结构等方面还存在不断完善发展的空间。我们拟尝试在假定现行政策制度不变的情况下,通过引入当前先进的数据挖掘技术,建立科学合理的地方财政收入预测模型,并结合温州市的实际数据对温州市“十三五”期间的财政收入进行预测。

我国很多学者对财政收入的预测已经进行了很多研究。丁文斌(2003) [1] 以北京市的月度数据为基础,采用计量经济学中的协整分析方法对北京市地方财政收入与GDP的协整关系进行了详细分析。韦邦荣、杨玉生(2006) [2] 利用协整理论对中国财政收入与GDP之间的关系进行实证研究,研究表明中国财政收入与GDP之间存在长期均衡的协整关系和短期动态调整机制,并且二者之间相互促进。梁蕾(2009) [3] 利用我国1952~2007年的GDP和财政收入数据对二者之间的协整关系进行了实证研究。郭秀、路勇(2004) [4] 详细介绍了如何建立一种地方财政收入的预测模型。张伦俊(1999) [5] 通过三种时间序列、线性回归、自回归模型三种方式对税收收入进行预测,并比较了三种方法的预测精度,在此基础上对原模型进行修改和改进。程毛林、张伦俊(2005) [6] 通过两种多元非线性回归模型的预测方法研究了全国财政收入与三次产业增加值之间的关系。白萍(2005) [7] 通过对财政收入与三次产业增加值、社会从业人员以及收入水平等自变量之间的多元回归,利用岭回归方法解决其中存在的异方差、多重共线性等问题。孙元、吕宁(2007) [8] 针对浙江省样本数据,利用传统的时间序列、多元线性回归和基于学习理论的SVM理论,分别对该省一般预算收入和主要税种建立单项预测模型,最后应用组合预测将上述方法综合,对浙江省十一五期间的财政收入做出最终预测。范敏、石为人等人(2008) [9] 基于地方财政收入受到多因素影响和经济系统非线性的性质,通过将灰色预测模型和神经网络模型结合起来的方法进行实证分析,实证结果显示该方法在地方财政预测中是可行的。崔志坤、朱秀变(2010) [10] 通过分析影响财政收入的因素,运用简单的线性回归方程和AR模型,对我国近期和中长期财政收入进行了预测,并通过预测的财政收入中长期数据和中国社会发展现状,得到一些结论和启示。聂少林、杜卓等人(2011) [11] 基于提高预测精度的考虑,将时间序列模型、收入结构模型、月度预测模型和线性回归模型进行组合,对辽宁省样本数据进行了实证分析。

综上可以看出,我国财政收入预测方面的研究成果较为丰富,近年来各地方政府也越来越重视建立各省、市地方财政收入预测模型,但是由于研究起步晚,研究成果还处在初级阶段,各种研究的实用性和系统性还有待进一步发展。研究内容和研究所侧重的角度也有很大的拓展空间。特别地,我国很多学者已经在财政收入的影响因素分析方面(如刘欣竹等(2012) [12] 、王辉等(2015) [13] 、许林(2006) [14] )进行了很多研究,但他们大多数或者建立财政收入与影响因素之间的多元线性回归模型,要么对数据取对数以后建立相应的多元线性回归模型。多元线性回归模型通常使用普通的最小二乘法对回归模型的系数进行估计,预测变量的选取则采用逐步回归。事实上,不论是最小二乘法还是逐步回归,都有其不足之处。他们一般都局限于局部最优解而不是全局最优解。如果预测变量过多,子集选择的计算过程具有不可实行性,且子集选择具有内在的不连续性,从而导致子集选择极度多变。近几十年来,现代统计技术不断发展和完善,对新的数据运用新的研究方法来考察地方财政收入的影响因素是很有必要的。我们拟在已有研究的基础上应用Lasso变量选择方法建立影响温州市财政收入的因素选择模型。Tibshirani (1996) [15] 所提出的Lasso算法则是一种能够实现指标集合精简的估计方法。利用该方法我们可以找出温州市财政收入的关键性影响因素。其次,本课题将针对温州市财政收入的关键性影响因素分别建立单影响因素的灰色预测模型GM (1, 1) (刘思峰等人(2014))。最后,我们还将建立基于神经网络技术的温州市地方财政收入的分析预测模型,从而对温州市2016~2018年的财政总收入进行合理预测。

2. 变量选取和数据初探

2.1. 变量选取

在综合已有研究工作的基础上,结合经济理论对财政收入的诠释,通过查询温州市统计局统计年鉴,本文初步选择了1994~2015年度以下各因素为温州市财政收入(y)的解释变量,详见表1

x 1 :在岗职工工资总额(亿元),指一定时期内职工的工资水平,可以用来反映社会分配情况。

x 2 :社会消费品零售总额(亿元),反映了社会整体消费状况。通常人们的消费需求扩大会引起税收以及经济系统中其他方面发生变化,从而拉动财政收入的增长。

x 3 :城镇居民人均可支配收入(元),城镇居民人均可支配收入越高就表示人们能用于平常生活中的收入越高,日常消费越大,财政收入的增加值也就越多。

x 4 :城镇居民人均消费性支出(元),城镇居民人均消费支出越大说明人们的消费水平越高,消费的越多,财政收入也会相应增加。

x 5 :年末总人口(万人),人口和经济的关系是双向的,在其余因素不变的情况下,地方总人口数越多,人均财政收入越少。

x 6 :全社会固定资产投资额(亿元),是社会固定资产再生产的主要手段,能调整经济结构,增强经济实力,在一定程度上影响着财政收入。

x 7 :地区生产总值(亿元),等于各行业增加值的总和,反映一个地区的经济发展水平,通常地区经

Table 1. Financial revenue and related data of Wenzhou

表1. 温州市财政收入及其相关数据

济越发达,生产总值就越高,财政收入就越多。

x 8 :第一产业总值(亿元),随着我国产业结构的转型升级,第一产业总值占生产总值的比例减小,对财政收入的影响日益减弱。

x 9 :税收(亿元),税收是财政收入的主要来源。

x 10 :第三产业与第二产业产值比,表示温州市的现有产业结构,产业结构的优化会刺激财政收入的增长。

2.2. 数据描述性分析

首先对数据进行描述分析,了解数据的总体特征,结果如表2所示。由表2我们发现,城镇居民人均可支配收入x3、城镇居民人均消费性支出x4、全社会固定资产投资额x6、地区生产总值x7标准差都在770以上,说明各年数值间差异性非常大。财政收入的均值和标准差为252.64和212.34,这说明温州市各年份财政收入平均值252.64亿元,且各年份财政收入存在较大差异。

2.3. 相关分析

相关系数是用来反映两变量间线性相关关系。表3是10个解释变量与被解释变量财政收入之间的Pearson相关系数矩阵,由表3可知各影响因素与财政收入存在较高的正相关关系。

2.4. 多重共线性检验

通过传统最小二乘方法建立多元线性回归模型,计算各个解释变量的方差膨胀因子 V I F i = 1 / ( 1 R i 2 ) ,见表4。通常情况下,如果VIF值大于100,则认为有严重的多重共线性。表4中的结果表明各个变量之间都具有较为严重的多重共线性现象。

Table 2. Descriptive statistics of the main variables

表2. 主要变量的描述性统计

Table 3. Pearson correlation coefficient matrix

表3. Pearson相关系数矩阵

Table 4. Variance expansion factor of each variable

表4. 各个变量方差膨胀因子

3. 模型建立和实证分析

3.1. Lasso回归模型建立

Lasso回归模型(Trevor Hastie et al. (2008) [16] , P. 68)是目前比较流行的高维数据分析方法之一,它可以很好的克服多重共线性问题,并且还可以同时进行变量选择和参数估计,其参数估计方程如下:

β lasso = arg min β { i = 1 N ( y i β 0 j = 1 p x i j β j ) 2 + λ j = 1 p | β j | } (1)

利用R语言中的glmnet包中的glmnet()函数,我们通过交叉验证选出Lasso回归的最佳 λ 值等于2.553376,如图1所示。

我们将样本的3/4作为训练样本,剩余的1/4样本作为测试样本。通过交叉验证选取最优的参数 λ = 2.553 ,此时我们可以获得Lasso回归的参数估计结果以及测试均方误差MSE和测试均方根误差RMSE如表5最后一列所示。我们将Lasso回归的结果与传统的最小二乘方法、向前逐步回归以及向后逐步回归方法的参数估计结果进行了对比,通过观察比较这些方法所获得的测试均方误差(MSE)和测试均方根误差(RMSE)我们发现,Lasso回归的测试MSE = 110.216,其RMSE = 10.498,这两个数值相比于最小二乘、向前逐步回归以及向后逐步回归所获得的MSE和RMSE要小得多,这说明Lasso回归在多重共线性非常严重时,除了是一种非常好的变量选择方法外,其所建立的方程预测效果相比于这三种方法更是具有得天独厚的优势。同样,我们还可以将Lasso回归结果和岭回归结果进行比对,通过交叉验证,我们选择最优岭回归参数 λ = 18.437 ,此时所获得的岭回归模型的测试均方误差MSE = 118.906,而RMSE = 10.904。这表明针对温州市1994~2015年的财政收入及其影响因素数据而言,Lasso回归的预测效果略胜于岭回归的预测效果。

表5中最后一列结果,我们可以获得温州市财政收入(y)的Lasso回归方程如下:

y ^ = 32.644 + 0.315 x 1 + 0.002 x 4 + 0.092 x 7 + 0.054 x 9 (2)

由此,我们得到温州市财政收入的4个主要影响因素,它们分别是: x 1 ——在岗职工工资总额(亿元), x 4 ——城镇居民人均消费性支出(元), x 7 ——地区生产总值(亿元), x 9 ——税收(亿元)。

3.2. 建立灰色系统模型GM (1, 1) (详细介绍可参考刘思峰等人(2014) [17] )

我们拟通过GM (1, 1)模型预测四个关键性因素2016~2018年的值。

灰色预测,是指对系统行为特征值的发展变化进行的预测,对既含有已知信息又含有不确定信息的系统进行的预测,也就是对在一定范围内变化的、与时间序列有关的灰过程进行预测。尽管灰过程中所显示的现象是随机的、杂乱无章的,但毕竟是有序的、有界的,因此得到的数据集合具备潜在的规律。灰色预测是利用这种规律建立灰色模型对灰色系统进行预测。目前使用最广泛的灰色预测模型就是关于数列预测的一个变量、一阶微分的GM (1, 1)模型。它是基于随机的原始时间序列,经按时间累加后所形成的新的时间序列呈现的规律可用一阶线性微分方程的解来逼近。经证明,经一阶线性微分方程的解逼近所揭示的原始时间序列呈指数变化规律。因此,当原始时间序列隐含着指数变化规律时,灰色模型GM (1, 1)的预测是非常成功的。

Figure 1. Cross-validation

图1. 交叉验证

Table 5. Parameter estimation and error estimation results of five different methods

表5. 五种不同方法的参数估计以及误差估计结果

为方便理解起见,我们对GM (1, 1)先做个简短的介绍。令 X ( 0 ) 为GM (1, 1)建模序列,

X ( 0 ) = ( x ( 0 ) ( 1 ) , x ( 0 ) ( 2 ) , , x ( 0 ) (n) )

X ( 1 ) X ( 0 ) 的1-AGO序列,

X ( 1 ) = ( x ( 1 ) ( 1 ) , x ( 1 ) ( 2 ) , , x ( 1 ) ( n ) )

x ( 1 ) ( k ) = i = 1 k x ( 0 ) ( i ) , k = 1 , 2 , , n

Z ( 1 ) X ( 1 ) 的紧邻均值(MEAN)生成序列

Z ( 1 ) = ( z ( 1 ) ( 2 ) , z ( 1 ) ( 3 ) , , z ( 1 ) ( n ) )

z ( 1 ) ( k ) = 0.5 x ( 1 ) ( k ) + 0.5 x ( 1 ) ( k 1 )

则GM (1, 1)的灰微分方程模型为

x ( 0 ) ( k ) + a z ( 1 ) ( k ) = b (3)

式中 a 称为发展系数, b 为灰色作用量。设 α ^ 为待估参数向量,即 α ^ = ( a , b ) T ,则灰微分方程(3)的最小二乘估计参数列满足

α ^ = ( B T B ) 1 B T Y n

其中

B = [ z ( 1 ) ( 2 ) 1 z ( 1 ) ( 3 ) 1 z ( 1 ) ( n ) 1 ] Y n = [ x ( 0 ) ( 2 ) x ( 0 ) ( 3 ) x ( 0 ) ( n ) ]

d x ( 1 ) d t + a x ( 1 ) = b (4)

为灰色微分方程 x ( 0 ) ( k ) + a z ( 1 ) ( k ) = b 的白化方程,也叫影子方程。

如上所述,则有

a)白化方程 d x ( 1 ) d t + a x ( 1 ) = b 的解也称时间响应函数为

x ^ ( 1 ) ( t ) = ( x ( 1 ) ( 0 ) b a ) e a t + b a

b) GM (1, 1)灰色微分方程 x ( 0 ) ( k ) + a z ( 1 ) ( k ) = b 的时间响应序列为

x ^ ( 1 ) ( k + 1 ) = [ x ( 1 ) ( 0 ) b a ] e a k + b a k = 1 , 2 , , n

C) 取 x ( 1 ) ( 0 ) = x ( 0 ) ( 1 ) ,则

x ^ ( 1 ) ( k + 1 ) = [ x ( 0 ) ( 1 ) b a ] e a k + b a k = 1 , 2 , , n

d) 还原值

x ^ ( 0 ) ( k + 1 ) = x ^ ( 1 ) ( k + 1 ) x ^ ( 1 ) (k)

上式即为预测方程。

下面我们建立灰色系统模型GM (1, 1),通过R语言编程,计算在岗职工工资总额x1、城镇居民人均消费性支出x4、地区生产总值x7、税收x9等因素的2016~2018年的预测值,并对其预测精度给予评级,结果如表6

表6的结果显示,我们通过灰色系统模型GM (1, 1)得到近三年2016~2018年度在岗职工工资总额x1、城镇居民人均消费性支出x4、地区生产总值x7和税收x9等4个关键因素的预测值,同时由于它们后验差比值检验C值均小于0.35,故而我们给予这些因素预测精度评估等级为好。

3.3. 温州财政收入神经网络预测模型

BP神经网络是一种按误差逆传播算法训练的多层前馈网络,能实现任何复杂非线性映射。本文我们综合考虑温州市预测财政收入的各种因素的影响,以便反映各种因素的综合效应。我们将结合Lasso变量选择的结果以及四个关键性影响因素在岗职工工资总额x1、城镇居民人均消费性支出x4、地区生产总值x7和税收x9的2016~2018年的预测值,训练合适的BP神经网络模型,我们拟在充分考虑各个关键因素的历史信息的综合效应后得到温州市财政收入2016~2018年的预测值。我们将BP神经网络的参数设置如下:误差精度设为 10 7 ,学习次数为10,000次,神经元个数为Lasso变量选择的变量个数4个。通过R语言编程,我们可以获得温州市财政收入2016~2018年的预测值分别为763.05646亿,769.90083亿,769.52872亿元。从图2我们可以看出,BP神经网络在预测温州市财政收入时具有非常好的效果,其真实值曲线和预测值曲线几乎重合。

4. 结论和启示

本文建立了Lasso变量选择模型、GM (1, 1)以及BP神经网络模型的组合预测模型。一方面,我们通过Lasso回归模型方程式(2)深入刻画了在岗职工工资总额、城镇居民人均消费性支出、地区生产总值以及税收等4个因素与温州市财政收入的量化关系,由此我们得出的结论如下:1) 温州市在岗职工工资总额对温州市财政收入具有较大的正向刺激作用,它每增加一个亿,温州市财政收入将增加3150万,所以温

Table 6. The forecast value and prediction accuracy of the financial revenue in Wenzhou

表6. 灰色预测模型温州财政收入相关因素预测值及预测精度表

Figure 2. Comparison of real value and neural network predictive value of local fiscal revenue in Wenzhou

图2. 温州地方财政收入真实值和神经网络预测值对比图

州市政府应努力吸引高端人才,努力创造更多的就业岗位,为高精尖人才创造好的工作和生活环境,鼓励企业为高精尖人才提供好的待遇,让温州本土的人才愿意留下来,同时还能吸引外面的人才走进温州,为温州的经济建设添砖加瓦,让温州市的经济发展有人可用,有才可依;2) 城镇居民人均消费性支出也可正向刺激温州市财政收入的增加,政府可适度因地制宜,逐步扩大温州市内需,以消费内需刺激经济增长,逐步引导温州市的经济走出疲态从而形成一个良性循环;3) 温州市GDP和税收收入也是影响温州市财政收入增长的正向因子,由方程式(2)我们可以看出温州市地区生产总值每增加一个亿,温州市财政收入将增加920万,而温州市税收每增加一个亿,温州市财政收入将增加540万,温州市政府应制定平衡稳定温州市经济发展的方针政策和策略,必要的话可适时推进相关税制改革。另一方面,我们通过建立GM (1, 1)和BP神经网络两个模型的组合预测模型,给出了温州市财政收入在2016~2018年的预测值,这可为温州市政府编制未来的财政支出预算提供决策依据。

基金项目

该工作得到了浙江省自然科学基金(No.LY17A010013)、温州市科技局软科学项目(No.R20160005)、国家自然科学基金(No.11201344)、温州大学2017大学生创新创业项目(No.DC2017043)的大力支持,对此表示诚挚感谢。

文章引用: 庄亮亮 , 黄辉林 , 吴 统 (2017) 基于数据挖掘技术的温州市财政收入的影响因素分析及预测。 社会科学前沿, 6, 1510-1519. doi: 10.12677/ASS.2017.612212

参考文献

[1] 丁文斌. 北京市地方财政收入与GDP的协整关系分析[J]. 北京统计, 2003(8): 48-51.

[2] 韦邦荣, 杨玉生. 中国财政收入与GDP之间关系的协整分析与误差修正模型研究[J]. 统计与信息论坛, 2006(1): 49-53.

[3] 梁蕾. 我国财政收入与GDP之间协整关系的分析[J]. 华北电力大学学报(社会科学版), 2009(1): 62-64.

[4] 郭秀, 路勇. 构建一种地方财政收入的预测模型[J]. 价值工程, 2004, 23(3): 98-100.

[5] 张伦俊. 税收预测模型的拟合与分析[J]. 数理统计与管理, 1999(1): 5-8.

[6] 程毛林, 张伦俊. 多元非线性经济预测模型的建立方法[J]. 统计与决策, 2005(5): 20-21.

[7] 白萍. 影响我国财政收入的多元回归线性模型[J]. 统计与决策, 2005(5): 92-94.

[8] 孙元, 吕宁. 地方财政一般预算收入预测模型及实证分析[J]. 数量经济技术经济研究, 2007(1): 38-45.

[9] 范敏, 石为人, 梁勇林, 等. 组合预测模型在地方财政收入预测中的应用[J]. 重庆大学学报, 2008, 31(5): 536-540.

[10] 崔志坤, 朱秀变. 中国近期及中期财政收入预测分析[J]. 统计与决策, 2010(11): 112-115.

[11] 聂少林, 杜卓, 於良, 等. 辽宁地方财政收入现状及增长预测[J]. 地方财政研究, 2011(2): 43-47.

[12] 刘心竹, 李昊, 刘青青, 等. 我国地方财政收入影响因素的实证分析[J]. 中国集体经济, 2012(9): 84-85.

[13] 王辉, 宋翔, 庄园. 影响我国财政收入的主要因素的实证分析[J]. 新经济, 2015(10): 16-17.

[14] 许林. 地方财政收入的影响因素分析——以重庆市为例的实证研究[J]. 特区经济, 2006(09): 277-278.

[15] Tibshirani, R. (1996) Regression Shrinkage and Selection via the Lasso. Journal of the Royal Statistical Society: Series B, 58, 267-288.

[16] Hastie, T., Tibshirani, R. and Friedman. F. (2008) The Elements of Statistical Learning, Data Mining, Inference, and Prediction. 2nd Edition, Springer, New York.

[17] 刘思峰, 曾波, 刘解放, 等. GM (1, 1)模型的几种基本形式及其适用范围研究[J]. 系统工程与电子技术, 2014, 36(3): 501-508.

分享
Top