本报告完成时间 | 2021年02月26日
摘要
2016年以来,IC与IH当月合约的价差呈现下行趋势,上证50中市场龙头企业强者恒强带领指数稳健上行,5年时间上涨59%,而中证500内的中小企业受经济和政策影响较大,呈现高波动特征,在2018年去杠杆政策下大幅下跌,又在2019与2020年低利率环境下快速上行,中证500指数5年下跌9%,因此两指数特征迥异,是通过风格研究进行套利的理想研究标的。
在上一篇系列报告中,我们从经济增长、外部因素、市场风格和资金面4个角度出发分析,用特征筛选方法(一元线性回归、逐步递回归、LASSO和全子集回归)、非线性特征筛选方法(决策树、随机森林和Adaboost)从宏观经济数据中筛选出显著有效性的指标。值得注意的是,这其中也包含了平时关注度不高或认为可能存在较强自相关性的指标。我们在这里将上一篇报告中筛选出的这些待定指标纳入待定因子池,同时为了使模型产生的信号便于实际策略运用,我们聚焦于分类算法领域,尝试嵌套采用PCA主成分分析、Logistic回归,KNN(最邻近结点算法),K均值聚类算法进行建模。
主要结论:
1、使用日频基本面因子在机器学习模型中很难预测出价差走势,但是若增加因子可以微弱提升模型预测效果,更多的因子对预测效果会有提升;
2、使用前20大机构持仓净多空单量可以为预测价差提供有效信息,这或是机构研究更专业和资金推动共同令期货价差出现变化的结果。
一
研究准备
2016年以来,IC与IH当月合约的价差呈现下行趋势,上证50中市场龙头企业强者恒强带领指数稳健上行,5年时间上涨59%,而中证500内的中小企业受经济和政策影响较大,呈现高波动特征,在2018年去杠杆政策下大幅下跌,又在2019与2020年低利率环境下快速上行,中证500指数5年下跌9%,因此两指数特征迥异,是通过风格研究进行套利的理想研究标的。
在上一篇系列报告中,我们从经济增长、外部因素、市场风格和资金面4个角度出发分析,用特征筛选方法(一元线性回归、逐步递回归、LASSO和全子集回归)、非线性特征筛选方法(决策树、随机森林和Adaboost)从宏观经济数据中筛选出显著有效性的指标。值得注意的是,这其中也包含了平时关注度不高或认为可能存在较强自相关性的指标。我们在这里将上一篇报告中筛选出的这些待定指标纳入待定因子池,同时为了使模型产生的信号便于实际策略运用,我们聚焦于分类算法领域,尝试嵌套采用PCA主成分分析、Logistic回归,KNN(最邻近结点算法),K均值聚类算法进行建模。
二
数据处理
考虑到建模过程中,数据的时间跨度和公布的时间都是影响模型构建的因素,因此为了保证策略实际跟踪中不存在时间滞后差异的问题,上一篇系列报告中我们筛选所得的指标全部为交易日当天收盘后能获得的日频数据,预测的标的为第二交易日与第一交易日的变化方向。
我们对数据进行了如下处理:
1. 取变化率:取每日因子与IC-IH价差的变化率,使用当日相对上日的变化率对下一个交易日是否开仓做出判断,数据范围为2016年1月1日-2020年12月31日;
2. 3Sigma筛选:将因子的最大值最小值控制在样本集历史均值的3Sigma范围内;
3. Na填充:线性插值法对日频变化率中Na值填充,以减少部分自变量数据缺失对整体模型信息量的影响;
4. 标准化处理:对因子标准化处理;
5. 信号处理:若样本内价差变化率大于零记为1,样本内价差变化率小于零记为-1,另外我们在KNN和Logistic模型中对信号进行混合,即用训练集准确度作为权重,加权各大类因子给出的信号,若小于样本中价差变化率中位数的30%,记为-1,若大于70%,记为+1,其他记为弱信号,并不给出信号记为0。
三
KNN模型
KNN算法属于惰性算法,其特点是不必事先建立全局的判别公式或规则,当新样本需要分类时,根据每个新样本和原样本之间的距离,取最近的K个样本点的众数或均值作为新样本的预测值。由于KNN算法对于解释变量的类型没有限制,最主要的超参数就是K,我们运用交差验证的方法,在样本内确定最优参数K,力求在拟合和泛化能力上取得平衡。
从结果来看,我们发现使用更多因子的效果虽然可以部分提升最终组合净值,但是仍然不够稳定,我们通过使用混合信号(在数据准备中提到了构建方法,即根据训练集内的胜率,加权平均各类因子给出的信号),最终稳定性仍然难以提升,胜率无法稳定达到50%以上,我们考虑了主观经验上比较符合逻辑的策略,也就是IC净多单量与IH净多单量的差值去预测下一日的IC-IH价差变化率,即前20机构投资者更加专业,更能代表市场的看法,并且期货端也可以影响合约走势,若模型给出的信号为1,而代表IC净多单减去IH净多单量的Delta小于0,我们就不去买入,若模型信号为1且Delta大于0,则我们买入IC-IH价差,可以发现该策略筛选后对最大回撤和胜率有明显的提升。
另外值得注意的是,在单一类别因子的基本面回测中,我们发现不同类型因子不同时间段表现存在差异。如果采用单因子模型难以提供稳定收益,这也符合指标在不同行情周期下的有效性规律。若将所有因子放入模型中后,我们发现其效果基本要优于单一类别,收益和风险控制上表现都有所提升。
四
Logistic模型
跨品种套利聚焦价差的相对变化位置,离散型变量相对于连续型变量在模型预测方面提供了更灵活的空间,输出结果与套利的方向操作有较大的兼容性。因此我们我们对因变量做二分类处理,扩大记为‘1’,缩小记为‘0’。Logistic回归不同于线性回归,它不要求模型变量间具有线性的相关关系,不要求服从协方差矩阵相等和残差项服从正态分布等,使得模型较为简洁高效。通常来讲,logistic回归基于极大似然估计方法逐步选择重要的解释变量,无法避免多重共线性和对原始数据依附性的问题。由于在该案例中,原始数据已经由上述步骤所得的三个独立的主成分代替,规避了类似问题。
我们首先使用Logistic对四大类因子做预测,后将因子全部纳入模型,可以发现加入更多的因子后,不管是样本外还是样本内的胜率都是有所提升的,并且在回撤、夏普比率上都有提升,这与KNN模型预测结论相符,即使用更多因子可以增加模型效果。此外,我们继续使用Delta筛选法则可以有效提升混合信号的效果,不仅对净值有所增益,也减少了最大回撤。
五
PCA聚类
Pca和K-Means作为非监督学习的两大经典方法,能够较为客观地从高维数据中提取具有代表性的特征,在减少白噪声干扰的同时平滑了建立模型过程中的输入条件。
为了避免多重共线性,实现数据降维的同时最大程度减少原始数据信息的丢失,我们首先引入主成分分析法,基本思路是:从p个相关的解释变量中提起出k个不相关的主成分,每一个主成分都是原始变量的线性拟合,第一个主成分最大程度地解释了原始变量数据的方差,具有最大的特征值。第二主成分与第一主成分之间不存在线性关系,它最大程度解释了剩余方差,以此类推。因此,参照(1)中的六个解释变量,我们从原始数据中提取出前六个主成分,分别可以解释样本中38.3%、11.4%、8.0%、7.6%、6.0%和5.0%的方差,共计可以解释76%的方差。
我们将以上使用的所有因子先使用PCA处理,得到前六个能够解释因变量的因子类,再放入同样的Logistic模型和KNN模型中,最终虽然可以提升测试集胜率,但是盈亏比较低,仍然未能有效减少回撤和提升收益。
六
K-Means聚类
K-Means算法:随机选择K个聚类的初始中心;对任意一个样本点,求其到K个聚类中心的距离,将样本点归类到距离最小的中心的聚类,如此迭代n次;每次迭代过程中,利用均值等方法更新各个聚类的中心点(质心);迭代更新后,如果位置点变化很小(可以设置阈值),则认为达到稳定状态,迭代结束,对不同的聚类块和聚类中心可选择不同的标注。
将K-Means分别加入到KNN和Logistic都并没有能够显著提升模型预测效率,但是如果我们按照前面加入Delta筛选的话,可以提升模型预测的准确度和减少回撤。
七
结论与展望
综上,我们可以得到如下结论:
1. 使用日频基本面因子在机器学习模型中很难预测出价差走势,但是若增加因子可以微弱提升模型预测效果,更多的因子对预测效果会有提升;
2. 使用前20大机构持仓净多空单量可以为预测价差提供有效信息,这或是机构研究更专业和资金推动共同令期货价差出现变化的结果。
接下来,我们将使用量价因子,并且借鉴本篇报告中前20机构持仓的有效信息,从资金博弈的角度去挖掘影响IC-IH价差的因子,并且在之后会使用到我们在第一篇报告中特征筛选出来的月度因子,结合相对短周期的模型,探究是否可以通过“看大做小”挖掘IC-IH价差的投资机会。
作者姓名:严晗
yanhan@csc.com.cn
电话:023-86769759
期货投资咨询从业证书号:Z0014172
研究助理:张仕康
zhangshikang@csc.com.cn
电话:021-58304077
期货从业证书号:F3076198
研究助理: 王锴
wangkaiqh@csc.com.cn
电话:021-86769759
期货从业证书号:F3075456
重要声明
本报告中的信息均来源于公开可获得资料,中信建投期货力求准确可靠,但对这些信息的准确性及完整性不做任何保证,据此投资,责任自负。本报告不构成个人投资建议,也没有考虑到个别客户特殊的投资目标、财务状况或需要。客户应考虑本报告中的任何意见或建议是否符合其特定状况。
全国统一客服电话:400-8877-780
网址:www.cfc108.com
点个【赞】、【在看】· 遇见更多精彩