失眠网,内容丰富有趣,生活中的好帮手!
失眠网 > python数据分析与挖掘实战(财政收入影响因素分析及预测)

python数据分析与挖掘实战(财政收入影响因素分析及预测)

时间:2023-12-31 17:58:44

相关推荐

python数据分析与挖掘实战(财政收入影响因素分析及预测)

导言

随着信息化的发展和科学技术的进步,数据分析与挖掘技术开始得到广泛应用。人们无时无刻不面对着海量的数据,这些海量数据中隐藏着人们所需要的具有决策意义的信息。数据分析与挖掘技术的产生和发展就是帮助人们利用这些数据,并从中发现隐藏的有用的信息。

在此背景下,本文主要运用数据分析与挖掘技术对市财政收人进行分析,挖掘其中隐藏的运行模式,并对未来两年的财政收入进行预测,希望能够帮助政府合理地控制财政收支,优化财源建设,为制定相关决策提供依据。

这篇文章采用了ARIMA灰色预测算法(GM11+SVR)两种算法进行财政收入模型的构建和预测。

一、ARIMA算法:

导包,读取数据集,将数据用图像表示出来

import pandas as pdimport numpy as npdata = pd.read_csv('D:\\WeChat_Documents\\WeChat Files\\FileStorage\\File\\-03\\data.csv')#原数据图像import matplotlib.pyplot as plt plt.rcParams['font.sans-serif'] = ['SimHei'] # 用来正常显示中文标签plt.rcParams['axes.unicode_minus'] = False # 用来正常显示负号x = ['1994','1995','1996','1997','1998','1999','2000','2001','2002','','','','','','','','','','','']y = data['y']plt.figure(figsize=(14,9)) plt.plot(x,y,color='green')plt.title('3001')plt.show()

自相关、平稳性检测、差分的代码和图像:

#自相关图from statsmodels.graphics.tsaplots import plot_acfplot_acf(y.dropna()).show()plt.title('3001')# 平稳性检测from statsmodels.tsa.stattools import adfuller as ADFprint('ADF检验结果为:', ADF(y))# 差分结果df = y.diff()plt.figure(figsize=(14,9)) plt.plot(x,df)plt.title('3001')plt.show()

接下来对得到的财政收入差分结果进行自相关、平稳性、白噪声检测。

df=df.dropna() # 自相关图plot_acf(df).show()plt.title('3001')# 平稳性检测print('差分序列的ADF检验结果为:', ADF(df)) # 白噪声检验from statsmodels.stats.diagnostic import acorr_ljungboxprint('差分序列的白噪声检验结果为:', acorr_ljungbox(df, lags=1))

最后进行定阶、模型的构建、输出预测结果:

from statsmodels.tsa.arima_model import ARIMA# 定阶pmax = int(len(df)/10) # 一般阶数不超过length/10qmax = int(len(df)/10) # 一般阶数不超过length/10bic_matrix = [] # BIC矩阵for p in range(pmax+1):temp = []for q in range(qmax+1):try: temp.append(ARIMA(y, order=(p,1,q)).fit().bic)except:temp.append(None)bic_matrix.append(temp)bic_matrix = pd.DataFrame(bic_matrix) # 从中可以找出最小值p,q = bic_matrix.stack().astype(float).idxmin() # 先用stack展平,然后用idxmin找出最小值位置。print('BIC最小的p值和q值为:%s、%s' %(p,q)) model = ARIMA(y, order=(p,1,q)).fit() # 建立ARIMA模型key = model.forecast(3)[0]print('未来3年的预测结果如下:', '\n',key[0],'\n',key[1],'\n',key[2])

我们可以将预测结果保存到文件中,并将其用图像表示出来:

#输出文件data.index = range(1994,)data.loc[,'y_pred'] = key[0]data.loc[,'y_pred'] = key[1]data.loc[,'y_pred'] = key[2]data.to_csv('D:\\WeChat_Documents\\WeChat Files\\FileStorage\\File\\-03\\new_data.csv')#原图像与预测图象plt.figure(figsize=(14,9)) x = ['1994','1995','1996','1997','1998','1999','2000','2001','2002','','','','','','','','','','','','','','']plt.plot(x,data['y'],label='y',marker='o')plt.plot(x,data['y_pred'],color='red',label='y_pred',marker='s')plt.legend() #显示实例plt.title('3001')plt.show()

二、灰色预测算法:

描述性统计分析:

import pandas as pdimport numpy as npimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif'] = ['SimHei'] #用来正常显示中文标签#plt.rcParams['axes.unicode_minus'] = False #用来正常显示负号data = pd.read_csv("D:\\WeChat_Documents\\WeChat Files\\wxid_jv3alwxs4zwr22\\FileStorage\\File\\-03\\data.csv")#描述性统计分析#依次计算最小值、最大值、均值、标准差describtion = [data.min(),data.max(),data.mean(),data.std()]#将结果存入数据框describtion = pd.DataFrame(describtion,index = ['Min','Max','Mean','STD']).Tprint('描述性统计结果:\n',np.round(describtion,2))#保留两位小数

求解原始数据的Pearson相关系数矩阵:

#代码清单6-2corr = data.corr(method='pearson') #计算相关系数矩阵print('相关系数矩阵为: \n',np.round(corr,2))

绘制相关热力图:

#代码清单6-3import matplotlib.pyplot as pltimport seaborn as snsplt.subplots(figsize=(10,10)) #设置画面大小sns.heatmap(corr,annot=True,vmax=1,square=True)plt.title('相关性热力图')plt.title('3001')plt.show()plt.close

Lasso回归选取关键属性:

#代码清单6-4import numpy as npimport pandas as pdfrom sklearn.linear_model import Lassodata = pd.read_csv('D:\\WeChat_Documents\\WeChat Files\\FileStorage\\File\\-03\\data.csv')#读取数据lasso = Lasso(1000) #调用函数lasso.fit(data.iloc[:,0:13],data['y'])print('相关系数为:',np.round(lasso.coef_,5)) #输出结果,保留5位小数print('相关系数非零个数为:',np.sum(lasso.coef_ !=0)) #计算相关系数非零的个数 mask = lasso.coef_ !=0 #返回一个相关系数是非为零的布尔数组print('相关系数是否为零: ',mask)#mask = np.append(mask,True)new_reg_data = data.iloc[:,mask]new_reg_data.to_csv('D:\\WeChat_Documents\\WeChat Files\\FileStorage\\File\\-03\\new_reg_data.csv')print('输出数据的维度为:',new_reg_data.shape) #查看输出数据的维度

构建灰色预测模型并预测(GM11):

import syssys.path.append('D:\\WeChat_Documents\\WeChat Files\\FileStorage\\File\\-03') #设置路径import numpy as npimport pandas as pdfrom GM11 import GM11inputfile1 = r'D:\\WeChat_Documents\\WeChat Files\\FileStorage\\File\\-03\\new_reg_data.csv' # 输入的数据文件inputfile2 = r'D:\\WeChat_Documents\\WeChat Files\\FileStorage\\File\\-03\\data.csv' # 输入的数据文件new_reg_data = pd.read_csv(inputfile1, index_col = 0,header =0) # 读取经过特征选择后的数据data = pd.read_csv(inputfile2, header=0) # 读取总的数据new_reg_data.index = range(1994, )new_reg_data.loc[] = Nonenew_reg_data.loc[] = Nonenew_reg_data.loc[] = Nonel = ['x1', 'x3', 'x4', 'x5', 'x6', 'x7', 'x8', 'x13']for i in l:f = GM11(new_reg_data.loc[range(1994, ),i].values)[0]new_reg_data.loc[,i] = f(len(new_reg_data)-1) # 预测结果new_reg_data.loc[,i] = f(len(new_reg_data)) # 预测结果new_reg_data.loc[, i] = f(len(new_reg_data)+1) # 预测结果new_reg_data[i] = new_reg_data[i].round(2) # 保留两位小数y = list(data['y'].values) # 提取财政收入列,合并至新数据框中y.extend([np.nan,np.nan,np.nan])new_reg_data['y'] = youtputfile = 'D:\\WeChat_Documents\\WeChat Files\\FileStorage\\File\\-03\\new_reg_data_GM11.xls' # 灰色预测后保存的路径new_reg_data.to_excel(outputfile) # 结果输出print('预测结果为:\n',new_reg_data.loc[:,]) # 预测结果展示

构建支持向量回归预测模型(SVR):

import matplotlib.pyplot as pltfrom sklearn.svm import LinearSVRinputfile = 'D:\\WeChat_Documents\\WeChat Files\\FileStorage\\File\\-03\\new_reg_data_GM11.xls' # 灰色预测后保存的路径data = pd.read_excel(inputfile, index_col=0, header=0) # 读取数据feature = ['x1', 'x3', 'x4', 'x5', 'x6', 'x7', 'x8', 'x13'] # 属性所在列#data.index = range(1994, )data_train = data.loc[range(1994,)].copy() # 取前的数据建模data_mean = data_train.mean()data_std = data_train.std()data_train = (data_train - data_mean)/data_std # 数据标准化x_train = data_train[feature].values # 属性数据y_train = data_train['y'].values # 标签数据linearsvr = LinearSVR() # 调用LinearSVR()函数linearsvr.fit(x_train,y_train)x = ((data[feature] - data_mean[feature])/data_std[feature]).values # 预测,并还原结果。data['y_pred'] = linearsvr.predict(x) * data_std['y'] + data_mean['y']data.to_excel('D:\\WeChat_Documents\\WeChat Files\\FileStorage\\File\\-03\\new_reg_data_GM11_revenue.xls')print('真实值与预测值分别为:\n',data[['y','y_pred']])fig = data[['y','y_pred']].plot(subplots = False, style=['b-o','r-*']) # 画出预测结果图plt.title('3001')plt.show()

如果觉得《python数据分析与挖掘实战(财政收入影响因素分析及预测)》对你有帮助,请点赞、收藏,并留下你的观点哦!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。