失眠网 > 拓端tecdat|用R语言实现神经网络预测股票实例

拓端tecdat|用R语言实现神经网络预测股票实例

时间：2024-06-30 05:11:17

原文链接：/?p=5725

原文出处：拓端数据部落公众号

神经网络是一种基于现有数据创建预测的计算系统。

如何构建神经网络？

神经网络包括：

输入层：根据现有数据获取输入的层隐藏层：使用反向传播优化输入变量权重的层，以提高模型的预测能力输出层：基于输入和隐藏层的数据输出预测

用神经网络解决分类问题

在这个特定的例子中，我们的目标是开发一个神经网络来确定股票是否支付股息。

因此，我们使用神经网络来解决分类问题。通过分类，我们指的是按类别对数据进行分类的分类。例如，水果可分为苹果，香蕉，橙等。

我们的自变量如下：

fcfps：每股自由现金流量income_growth：过去一年的盈利增长（％）de：债务与权益比率mcap：股票的市值current_ratio：流动比率（或流动资产/流动负债）

我们首先设置目录并将数据加载到R环境中：

setwd("你的工作文件目录")attach(mydata)

形成神经网络时最重要的过程之一是数据标准化。这涉及将数据调整到一致的比例，以便准确地比较预测值和实际值。无法对数据进行标准化通常会导致所有观察结果中的预测值保持不变，而与输入值无关。

我们在下面实现了这两种技术，但选择使用max-min标准化技术。

缩放标准化

scaleddata <-scale（mydata）

最大最小标准化

对于此方法，我们调用以下函数来标准化我们的数据：

normalize < - function（x）{ return（（x - min（x））/（max（x） - min（x）））}

然后，我们使用lapply在我们现有的数据上运行该函数（我们将数据集称为加载到R中的数据集为mydata）：

我们现在已经标准化了我们的新数据集并将其保存到名为maxmindf的数据框中：

我们的训练数据（训练集）基于80％的观测值。测试数据（测试集）基于剩余的20％的观察结果。

＃训练和测试数据trainset <- maxmindf[1:160, ]testset <- maxmindf[161:200, ]

用神经网络训练模型

我们现在将神经网络库加载到R.

使用神经网络将依赖的“红利”变量“回归”到其他自变量

根据hidden =（2,1）公式将隐藏层数设置为（2,1）给定自变量对因变量（被除数）的影响假设是非线性的，linear.output变量设置为FALSE阈值设置为0.01，这意味着如果迭代期间的误差变化小于1％，则模型不会进行进一步的优化

确定神经网络中隐藏层的数量并不是一门精确的科学。事实上，有些情况下，没有任何隐藏层，准确度可能会更高。因此，反复试验在这一过程中起着重要作用。

一种可能性是比较预测的准确性如何随着我们修改隐藏层的数量而改变。例如，对于该示例，使用（2,1）参数配置最终产生92.5％的分类准确度。

nn $ result .matrix plot（nn）

我们的神经网络看起来像这样：

我们现在生成神经网络模型的误差，以及输入，隐藏层和输出之间的权重：

测试模型的准确性

如前所述，我们的神经网络是使用训练数据创建的。然后，我们将其与测试数据进行比较，以评估神经网络预测的准确性。

temp_test < - subset（testset，select = c（“fcfps”，“earnings_growth”，“de”，“mcap”，“current_ratio”）） head（temp_test） nn.results < - compute（nn， temp_test）结果< - data.frame（actual = testset $ dividend，prediction = nn.results $ net.result）

将预测结果与实际结果进行比较：

0.999985252611

混淆矩阵

然后，我们使用sapply对结果进行舍入，并创建一个混淆矩阵来比较真/假阳性和阴性的数量：

table（actual，prediction）prediction actual 0 1 0 17 0 1 3 20

混淆矩阵用于确定由我们的预测生成的真实和错误的数量。该模型生成17个真阴性（0），20个真阳性（1），而有3个假阴性。

最终，我们在确定股票是否支付股息时产生92.5％（37/40）的准确率。

使用神经网络解决回归问题

在这个例子中，我们希望分析解释变量容量，汽油和小时数对因变量消费的影响。

数据标准化

同样，我们将数据标准化并分为训练和测试数据：

#最大最小标准化normalize < - function（x）{ } ＃训练和测试数据trainset < - maxmindf [1:32，] testset < - maxmindf [33：40，]

神经网络输出

然后我们运行我们的神经网络并生成我们的参数：

Intercept.to.1layhid1 1.401987575173 capacity.to.1layhid1 1.307794013481 gasoline.to.1layhid1 -3.102267882386 hours.to.1layhid1 -3.246720660493 Intercept.to.1layhid2 -0.897276576566 capacity.to.1layhid2 -1.934594889387 gasoline.to。 1layhid2 3.739470402932hours.to.1layhid2 1.973830465259 Intercept.to.2layhid1 -1.12596855 1layhid.1.to.2layhid1 3.175227041522 1layhid.2.to.2layhid1 -2.419360506652 Intercept.to.consumption 0.683726702522 2layhid.1.to.consumption -0.545431580477