失眠网 > 隐马尔科夫模型(HMM)择时应用的量化策略

隐马尔科夫模型(HMM)择时应用的量化策略

时间：2023-05-17 20:49:08

HMM模型

隐马尔科夫模型(HMM)择时应用的量化策略。仅为研究学习使用，不作为任何投资策略建议。

文章内容从各处整理汇总而成，感谢各位大神分享。具体策略代码均调试通过。

一、从大奖章讲起

Renaissance & Medallion（文艺复兴科技和大奖章）量化圈都非常熟悉了。Simons一群物理学家和数学家碰撞在一起，1989年到的yearly return达到35.6%。文艺复兴大概一百多个员工，AUM：50亿美金，在全球金融危机的08年，大部分对冲基金都亏损，而大奖章的return高达80%。

神秘的文艺复兴科技和神秘的大奖章基金，到底一群数学家和物理学家聚在一起搞出了什么赚钱利器？外界猜测众说纷纭。而隐马尔科夫模型也由于一些原因被推举出来。

成立初期的创始人中，有一位科学家发明了广泛应用在语音识别等领域的鲍姆-威尔士算法，用来确定不可确知的变量可能出现的概率。今天要介绍的HMM模型，也是在语音识别中运用非常成功的模型，最早是由鲍姆等人提出的。

之前拜读人大的一位教授写的一本书，解密复兴科技：基于隐蔽马尔科夫模型的时序分析方法（亚马逊链接），书中介绍了为什么觉得HMM是Renaissance使用的模型，并且含有详细的公式推导和运算，以及附上了一些些实证结果（个人认为还有很多有待补充和粗糙的地方）。感兴趣推荐研读。

二、认识模型

HMM模型，又叫隐马尔科夫模型。要正确的理解和搞懂模型，教材里有很多经典的例子。我从自己理解后的角度尽量浅显的给大家做一个解释，方便大家快速理清概念投入应用。

（摘自某次做汇报的PPT）

我们能观测到的序列

Y1,...,YnY1,...,Yn称为可观测序列，如股价，成交量，资金净额等等。

而每一个可观测值的产生对应着市场状态序列

Z1,...,ZnZ1,...,Zn，每个状态通过不同的分布函数来产生观测值。

通过HMM模型，可以用简单的输入，来得出对目前市场状态的判断，从而帮助我们进行择时选择。因为市场状态不是显性可观测的，属于隐藏状态，我们通过对可观测变量的处理来进行推测。

这里对HMM模型进行了扩展得到HMS-GMD模型，因为收益率序列尖峰厚尾的特性导致的非正态分布，引入了混合高斯分布作为状态到观测值之间产生关系的分布函数。

将HMM模型看作一个黑箱子，这个黑箱子可以利用极其方便、简洁的数据，处理后得出：

每个时刻对应的状态序列；混合分布的均值和方差矩阵；混合分布的权重矩阵；状态间转移概率矩阵。

而黑箱子需要事先给定两个参数：状态数目、混合高斯分布的成分数目。

当然，输入这里是拿单一的价格序列举例。输入也可以是并行的数据矩阵，比如从价格、成交量、资金净额等多个角度来看。

总结一下，使用模型需要在初期设定：

隐藏状态数目输入的观测变量混合高斯分布成分数目

三、A股市场实证

下面拿A股市场来做检验。

模型的设定如下：

隐藏状态数目：8输入变量：当日对数收益率，五日对数收益率，当日对数高低价差（其他备选因素成交量、成交额等大家可以自行尝试）混合高斯分布成分数目：1（为了简便，假定对数收益率服从单一高斯分布）

HMM模型的算法使用hmmlearn模块。

数据与观测序列准备

from hmmlearn.hmm import GMMHMM,GaussianHMMimport datetimeimport numpy as npimport pandas as pdimport seaborn as snsfrom matplotlib import cmfrom matplotlib import pyplotstartdate = '-01-01'enddate = '-12-31'#data = get_price('000300.XSHG',start_date=startdate, end_date=enddate,frequency='1d')#print(data[0:6])df = get_price(['000300.XSHG'], start_date=startdate, end_date=enddate, frequency='daily', fields=['open','close','volume','high','low','money'])open=df['open']['000300.XSHG'][5:]close = df['close']['000300.XSHG'][5:]high = df['high']['000300.XSHG'][5:]low = df['low']['000300.XSHG'][5:]volume = df['volume']['000300.XSHG'][5:]money = df['money']['000300.XSHG'][5:]datelist = pd.to_datetime(close.index[:])#logreturn = (np.log(np.array(close[1:]))-np.log(np.array(close[:-1])))#logreturn5 = np.log(np.array(close[5:]))-np.log(np.array(close[:-5]))logreturn = np.append(np.array([0]),np.log(np.array(close[1:]))-np.log(np.array(close[:-1])))logreturn5 = np.append(np.array([0,0,0,0,0]), np.log(np.array(close[5:]))-np.log(np.array(close[:-5])))diffreturn = (np.log(np.array(high))-np.log(np.array(low)))closeidx = close[:]X = np.column_stack([open,close,high,low,volume])#X = np.column_stack([diffreturn,logreturn,logreturn5])print('open:'+str(len(open))+',close:'+str(len(close))+', high:'+str(len(high))+', low:'+str(len(low))+',volume:'+str(len(volume)) )print('X: '+str(len(X))+', datelist: '+str(len(datelist))+', closeidx: '+str(len(closeidx)) )print('diffreturn: '+str(len(diffreturn))+', logreturn: '+str(len(logreturn))+', logreturn5: '+str(len(logreturn5)) )

输出：

生成隐含状态序列

hmm = GaussianHMM(n_components = 8, covariance_type='diag',n_iter = 10000).fit(X)latent_states_sequence = hmm.predict(X)#print(hmm.startprob_)#print(hmm.transmat_)#print(hmm.mean_)#print(hmm.covars_)#latent_states_sequence=hmm.decodeprint(len(latent_states_sequence))print(latent_states_sequence)print(hmm.score(X))

输出：

sns.set_style('white')plt.figure(figsize = (15, 8))for i in range(hmm.n_components):state = (latent_states_sequence == i)print(i,len(state),len(datelist[state]),len(closeidx[state]))plt.plot(datelist[state],closeidx[state],'.',label = 'latent state %d'%i,lw = 1)plt.legend()plt.grid(1)

输出：

以上。我们看到了八个状态的HMM模型输出的市场状态序列。需要注意的是：HMM模型只是能分离出不同的状态，具体对每个状态赋予现实的市场意义，是需要人为来辨别和观察的。

下面我们来用简单的timming策略来识别8种latent_state所带来的效果。

data = pd.DataFrame({'datelist':datelist,'logreturn':logreturn,'state':latent_states_sequence}).set_index('datelist')plt.figure(figsize=(15,8))for i in range(hmm.n_components):state = (latent_states_sequence == i)idx = np.append(0,state[:-1])data['state %d_return'%i] = data.logreturn.multiply(idx,axis = 0) plt.plot(np.exp(data['state %d_return' %i].cumsum()),label = 'latent_state %d'%i)plt.legend()plt.grid(1)

输出：

上图可以看出：

状态0——蓝色——牛市上涨状态1——绿色——牛市下跌状态2——红色——牛市下跌状态3——紫色——小幅的上涨状态4——黄色——震荡下跌状态5——浅蓝色——震荡下跌

以上的意义归结是存在一定主观性的。因为HMM模型对输入的多维度观测变量进行处理后，只负责分出几个类别，而并不会定义出每种类别的实际含义。所以我们从图形中做出上述的判断。

四、择时策略

我们根据模拟出来的隐藏状态，来进行择时。

1. 理论版：股指期货可卖空。

策略是这样设计的：

当天处在状态0，3时，买入指数基金；当天处在状态1，2，4，5时，卖空股指期货；

我们来看一下收益效果：

buy = (latent_states_sequence == 1) + (latent_states_sequence == 2)buy = np.append(0,buy[:-1])sell = (latent_states_sequence == 0) + (latent_states_sequence == 3) \+ (latent_states_sequence == 4) + (latent_states_sequence == 5)sell = np.append(0,sell[:-1])data['backtest_return'] = data.logreturn.multiply(buy,axis = 0) \- data.logreturn.multiply(sell,axis = 0)plt.figure(figsize = (15,8))plt.plot_date(datelist,np.exp(data['backtest_return'].cumsum()),'-',label='backtest result')plt.legend()plt.grid(1)

输出：