【华泰金工林晓明团队】再探回归法测算基金持股仓位——华泰基金仓位分析专题报告

原创华泰金工组华泰金融工程

摘要

本研究对回归法测算基金仓位的各项方法和细节进行测试比较

回归法是测算基金持股仓位的常用方法，以基金日收益率为因变量，指数日收益率为自变量，拟合多元线性回归模型，对回归系数求和以估计基金仓位。本研究测试了含回归系数约束的二次规划法、结合上期持仓的二次规划法、Lasso回归、逐步回归四种回归模型，并对自变量选取、样本加权方式、回归模型超参数、回归时间窗口等细节进行探讨。结果表明采用结合上期持仓的二次规划法，同时对各环节加以优化，能够有效提升仓位预测的准确程度。

结合上期持仓的二次规划法引入增量信息，预测效果较好

关于回归模型的选取：含回归系数约束的二次规划法预测仓位的误差较大；Lasso回归和逐步回归的预测表现接近，Lasso回归稍好；结合上期持仓的二次规划法预测效果较好，原因在于该模型引入了准确的历史仓位信息，相当于在历史信息的“锚”附近进行线性回归拟合，提升了预测的准确程度。建议使用结合上期持仓的二次规划法。

行业指数在结合上期持仓的二次规划法上表现优于宽基指数

关于自变量指数的选取：宽基指数和行业指数在含回归系数约束的二次规划法、Lasso回归、逐步回归上表现接近；行业指数在结合上期持仓的二次规划法上表现优于宽基指数，原因在于宽基指数成份股存在交集，并且其并集是全A股票池的真子集，导致基金在各指数的上期持仓不是一个合理的“锚”。建议使用行业指数日收益率作为回归自变量。

样本加权方式衰减加权稍优于等权，回归时间窗口越长预测效果越好

关于样本加权方式：样本按时间衰减加权（WLS回归）的表现稍好于等权（OLS），并且WLS对回归时间窗口长度不敏感，建议使用WLS。关于回归时间窗口长度：我们发现回归时间窗口越长，预测误差越小；理论上看，回归时间窗口过长可能增大回归模型的滞后性；实践上看，滞后性带来的影响有限，可以通过时间衰减加权的方式规避；建议使用尽可能长的回归时间窗口。

风险提示：本报告中所采用的基金仓位测算方法仅基于日频基金净值数据和宽基指数数据，没有利用基金报告中公布的重仓股、行业分布等信息，存在一定局限性。本报告中所采用的基金仓位测算方法仅在普通股票型基金和偏股混合型基金中进行实证，在其它类别基金中可能不适用。

本文研究导读

基金仓位是指基金持有的股票资产占基金资产的比例。公募基金作为A股市场重要的机构投资者，其持股动向一直受到市场关注。一方面，出于对基金经理投资能力的认可，股票投资者一般认为公募基金的仓位变动反映了市场情绪变化等关键信息；另一方面，基金投资者也会随时关注其持有基金的仓位变动情况，辅助进行投资决策。然而，公募基金只在每个季度末对其资产配置情况进行披露，这就使得投资者与基金管理者之间存在一种相对的信息不对称性。因此对基金仓位的测算研究成为一项有意义的工作。

在华泰金工《基于回归法的基金持股仓位测算》（20181017）报告中，我们基于传统意义上的指数模拟法，以基金日收益率为因变量，29个中信一级行业指数日收益率为自变量，拟合线性回归模型，对回归系数求和预测基金仓位。为了缓解自变量多重共线性问题，我们采用主成分回归、逐步回归、岭回归、Lasso回归四种回归模型，比较上述方法对普通股票型和偏股混合型基金仓位的预测效果，发现Lasso回归和逐步回归表现较好，主成分回归其次，岭回归相对较差。

回顾该篇报告，我们发现此前的研究存在一些未尽之处：

1. 关于回归模型的选取：除了上述四种回归模型之外，二次规划法也是常用的回归方法。二次规划法的本质是带约束条件的最优化问题，优化目标可以是经典的损失函数，例如多元线性回归的均方误差，也可以是自定义的损失函数。二次规划法预测基金仓位的效果如何？

2. 关于自变量的选取：除采用行业指数之外，另一种常见的方式是采用宽基指数。以宽基指数代替行业指数能否带来改进？

3. 关于样本加权方式：此前的报告采用基于普通最小二乘（OLS）的线性回归。OLS假设某段时间内基金的持仓情况不变，对每个交易日样本赋予相同权重，然而这只是理想化的假设。实际上应该对近期样本赋予更高权重，对远期样本赋予更低权重，对样本按时间衰减加权，此时基于加权最小二乘（WLS）的线性回归模型可能是更合理的选择。使用WLS代替OLS能否带来改进？

4. 关于Lasso回归的正则化系数λ：此前的报告根据损失项和正则化项的数量级，直接取λ = 0.002。实际上Lasso回归结果对λ取值较敏感，更为合理的λ选取方法是进行交叉验证。经过交叉验证的λ取值和此前报告相比是否有区别？

5. 关于回归时间窗口长度：此前的报告采用30天，并且以预测误差均值为评价指标进行参数敏感性分析。考虑到误差的方向可能为正也可能为负，使用均方根误差代替误差均值作为评价指标可能是更合理的选择。此时参数敏感性分析结果是否发生改变，回归时间窗口取多少为宜？

本篇报告将尝试回答上述问题，对回归法测算基金仓位的多个技术细节进行详尽测试，为投资者提供更为扎实的实证结果。

基金仓位测算方法

数据和线性回归模型

我们选择 Wind开放式基金分类下的普通股票型基金和偏股混合型基金，针对以下几种情形进行调整：1. 同一只基金可能存在 A 类、 C 类或其它类别份额，不同类别份额可以各自对应于独立的基金代码，出于分析简便考虑只选择A类份额；2. 剔除沪港深基金等非主要投资于 A 股市场的基金；3. 剔除2017年以后成立的基金。经过以上三步筛选，共保留179只普通股票型基金和480只偏股混合型基金作为测试样本。

我们选取29个中信一级行业指数作为行业指数的代表，选取上证50、沪深300、中证500、中证1000、创业板指作为宽基指数的代表。以基金日收益率为因变量，以行业指数或宽基指数日收益率为自变量，回归方程如下：

其中Rf,t为基金f在t日的收益率，Ri,t为指数i在t日的收益率，γi为待拟合的回归系数，ε为残差项。回归法将γi视为基金投资于指数i股票的比例，Σiγi为基金持有的全部股票资产占基金资产的比例，即基金持股仓位预测值。

上述线性回归方法应用于基金仓位测算的缺陷在于，自变量间的共线性较强，使得回归问题较为病态，难以得到可靠结果。我们计算2016年9月30日至2018年11月30日5个宽基指数或29个行业指数两两之间日收益率的Pearson相关系数，得到的相关系数矩阵如图1和图2所示。宽基指数间相关系数为0.74±0.20（均值±1倍标准差，取矩阵上三角部分计算，不包含对角线，下同），行业指数间相关系数为0.67±0.16。

为了降低自变量共线性对线性回归的影响，我们在《基于回归法的基金持股仓位测算》（20181017）研究报告中采用了主成分回归、逐步回归、岭回归、Lasso回归四种回归模型，发现Lasso回归和逐步回归的预测效果较好。另外，二次规划法也是测算基金仓位的常用方法。本篇报告我们将对以下四种回归模型进行测试和比较：1）含回归系数约束的二次规划法；2）结合上期仓位的二次规划法；3）Lasso回归；4）逐步回归。

含回归系数约束的二次规划法

一般的二次规划问题可以表示成如下形式：

其中：

x为需要求解的目标向量

P为最优化问题二次项系数的对称半正定矩阵

q为与线性目标方程有关的系数向量

G为约束等式与非等式的系数矩阵

h为约束值的向量矩阵

回归法测算基金仓位可以转化为二次规划问题，其本质是带约束的线性回归。含回归系数约束的二次规划法所涉及到变量的符号、含义和维度如下表所示。

需要求解的目标向量为单只基金投资于N个指数的股票资产比例γ，即仓位向量；优化目标为一段时间窗口T内回归方程的均方误差（MSE）：

约束条件为：

1. 单只基金投资于各指数的股票资产比例总和上下限约束：

2. 单只基金投资于单个指数的股票资产比例约束：

等价于以下形式（注意这里上标T的含义为向量或矩阵转置，不是回归时间窗口）：

转化为二次规划的标准型：

对照二次规划的标准型（1）式：

实际测算过程中，我们借助基于Python的凸优化库cvxopt（1.2.2版）中的求解二次规划函数solvers.qp，将指数日收益率、基金日收益率、总仓位上下限等原始数据转换为与二次规划标准形式相匹配的变量P、q、G、h，进而解出仓位向量γ（即变量x），最后对γ求和即可得到基金持股仓位预测值。

结合上期持仓的二次规划法

下面我们考虑含回归系数约束的二次规划法的改进版本：结合上期持仓信息的二次规划法。含回归系数约束的二次规划法的优化目标为回归方程的均方误差，即基金日收益率预测值和真实值的误差越小越好。这里的优化目标是唯一的。除此以外，还存在其它合理的优化目标，例如我们假设单只基金在相邻两个报告期的仓位变动不会太大。此时可以增加第二项优化目标：仓位向量γ和上期真实仓位向量γprev的差距越小越好。第二项优化目标的权重通过系数λ调节。新增变量的符号、含义和维度如下表所示。

将上述两项优化目标相加，得到新的优化目标：

约束条件不变。

等价于以下形式：

约束条件不变。

转化为二次规划的标准型：

对照二次规划的标准型（1）式：

实际测算过程中，我们同样借助cvxopt库的函数solvers.qp，计算相应的变量P、q、G、h，进而解出仓位向量γ，最后对γ求和即可得到基金持股仓位预测值。λ作为自由参数，对预测结果有较大影响，我们将对λ进行参数敏感性分析，选择合理的λ取值。

上期持仓的计算方法

结合上期持仓的二次规划法其本质是以历史上准确的持仓信息为“锚”，在“锚”附近进行线性回归拟合。这一模型依赖基金在上一报告期投资于各指数的真实持仓比例。下面我们讨论如何更合理地采用上期持仓信息。根据证监会《证券投资基金信息披露管理办法》规定，基金的全部持仓明细只在半年报、年报中公布，基金的股票仓位在每个季度的报告中公布。基金的季度报告在每季度结束之日起15个工作日内公布（四个季度均有季报），半年报在上半年结束之日起60日内公布，年报在每年结束之日起90日内公布。

假设我们只参考半年报和年报公布的持仓明细，那么这里的“锚”存在严重的滞后性。例如在预测2017年四季度末仓位时，最近的持仓明细为2017年半年报，时间相隔6个月，而事实上2017年三季报已公布基金的股票仓位；如果能引入三季报信息，那么“锚”的滞后期将缩短至3个月。

因此我们考虑以下的上期持仓计算方法：

1. 预测一季度末/三季度末基金仓位时，直接采用最近一期年报/半年报的持仓明细（滞后3个月），计算基金在各宽基指数或行业指数的真实持仓比例。

2. 预测二季度末/四季度末基金仓位时，历史信息来源分为两部分；持仓明细来源于最近一期的年报/半年报（滞后6个月），股票仓位来源于最近一期的一季报/三季报（滞后3个月）。采用等比例缩放的方法，用6个月前的持仓明细结合3个月前的股票仓位估算3个月前的持仓明细。具体而言，假设某只基金于年报/半年报公布的在股票i的仓位比例为si,q，全部股票仓位比例为sq，于一季报/三季报公布的全部股票仓位比例为sq+1，那么估测该基金于一季报/三季报截面日在股票i的仓位比例：

随后根据估算的持仓明细计算基金在各宽基指数或行业指数的持仓比例。

下表展示了各预测季末截面日使用的上期持仓信息来源。

Lasso回归及正则化系数选择

Lasso回归是引入L1正则化项的线性回归，是多元线性回归的有偏估计，适用于共线性数据。对于回归方程：

记回归时间窗口长度为T，因变量即基金日收益率向量RF=(Rf,1,Rf,2,...Rf,T)T，自变量即各指数日收益率矩阵RI=(R1,R2...,RN)，其中单个指数日收益率向量Ri=(Ri,1,Ri,2...,Ri,T)T，待拟合的回归系数即仓位向量γ=（γ1,γ2,....γN）T，则线性回归的损失函数为：

其中||x||2表示向量x的2范数，即x各元素平方和再开根号。损失函数达到最小值时的系数γ就是上面回归方程的解，γ的解析解为：

RI的列向量之间存在多重共线性，RITRI即可能是一个病态矩阵，造成该回归问题求解困难或解析解不稳定。我们在Lasso回归损失函数中引入L1正则化项：

其中||x||1表示向量x的1范数，即x各元素绝对值之和；λ为超参数，称为正则化系数。λ越大，对回归系数L1范数||γ||1的惩罚力度越大，从而导致更多的回归系数为0，只有少数回归系数为非零值。

Lasso回归的主要作用是使回归系数稀疏化，寻找有用的解释变量，减少冗余，提高回归预测准确性。实际上，稀疏约束更为直观的形式应为采用L0惩罚项，即以回归系数中非零元个数之和作为惩罚项，然而L0范数不连续且非凸，是一个NP难问题，难以求解。L1范数是L0范数的最优凸近似，在一定条件下，用L1范数替代L0范数也可以达到稀疏约束的效果。L1范数易于求解，所以大部分用到稀疏约束的场景均使用L1范数。

Lasso回归从逻辑上看适用于预测基金仓位。由于指数日收益率向量间存在多重共线性，Lasso回归可以将部分指数前的回归系数设成0，提取出一组“回归效果最好”的自变量作为解释变量，而不依赖于自变量的预设排序或人工选择过程。

Lasso回归的结果对正则化系数λ取值敏感。实际使用过程中，需要通过交叉验证选择合适的λ值。以K折交叉验证为例，将样本随机分成K份，每次取K-1份作为训练样本拟合Lasso回归模型，计算该模型在剩余1份验证样本的均方误差；重复K次，得到该模型在K组验证样本的均方误差均值。对一定范围内可能的λ值进行遍历，选择验证样本均方误差均值最小的λ值，作为最终的Lasso回归正则化系数。

逐步回归

逐步回归是建立最优多元线性回归模型的一种方法，和Lasso回归一样能够产生稀疏解。其基本思想是有进有出，每次引入或剔除自变量，都对原模型和新模型进行F检验。如果新自变量的引入能够显著提升模型的解释能力，那么引入该自变量；如果原自变量的剔除不会显著降低模型的解释能力，那么剔除该自变量。直到不再有变量被选入或剔除为止，保证最后所得的回归子集是最优子集。

逐步回归的具体方法分为以下3步：

1. 拟合初始模型；本研究的初始模型不包含任何自变量。

2. 对每一个未被引入的自变量，将该自变量引入原模型，视作新模型；对新模型和原模型进行F检验，如果p值低于变量被保留的p值阈值（本研究使用0.05），说明引入该自变量能显著提升模型的解释能力，则引入该自变量；如果多个自变量满足上述条件，那么取p值最小的那个自变量，随后重复第2步；如果没有自变量满足条件，那么进入第3步。

3. 对每一个已经引入的自变量，将该自变量剔除出初始模型，视作新模型；对新模型和原模型进行F检验，如果p值高于变量被剔除的p值阈值（本研究使用0.1），说明剔除该自变量不会显著降低模型的解释能力，则剔除该自变量；如果多个自变量满足上述条件，那么取p值最大的那个自变量，随后返回第2步；如果没有自变量满足条件，那么拟合结束。

在逐步回归的过程中，我们逐渐剔除掉共线性较强的成份（宽基指数或行业指数），保留相对独立的成份，假设基金只在这些成份上进行配置，将这些成份的回归系数加总得到基金仓位预测值。

通过样本加权对各模型进行改进

以上四种回归模型的本质均为基于普通最小二乘（OLS）的多元线性回归。OLS假设回归时间窗口T内基金的持仓情况不变，对每个交易日样本赋予相同权重，然而这只是理想化的假设。实际上应该对近期样本赋予更高权重，对远期样本赋予更低权重，按时间衰减加权，此时基于加权最小二乘（WLS）的线性回归模型可能是更合理的选择。

OLS回归方程为：

我们将回归时间窗口内各个交易日由远及近表示为t = 1、2、……T，将t日样本的权重设为（t/T）^1/2，此时WLS回归方程为：

理论上看，WLS比OLS的前提假设更为合理，随后的测试部分我们分别将WLS和OLS应用于四种回归模型，比较这两种样本加权方式的实际表现。

基金仓位测算模型的构建细节

本研究针对179只普通股票型基金和480只偏股混合型基金，在2017年二季度末至2018年三季度末，共6个季末截面日的持股仓位情况进行测算。取截面日前T个交易日（包含截面日当天）的基金日收益率、宽基指数或行业指数日收益率，采用含回归系数约束的二次规划法、结合上期持仓的二次规划法、Lasso回归、逐步回归四种回归模型，得到基金在季末截面日的持股仓位预测值，并且将预测值与真实值进行对比（真实值通过基金季报得到）。

根据证监会《公开募集证券投资基金运作管理办法》规定，普通股票型基金持股仓位下限为80%，偏股混合型基金持股仓位下限为60%，因此我们对两类基金仓位预测值范围进行限定，普通股票型基金为[0.8, 1]，偏股混合型基金为[0.6, 1]。如果Lasso回归和逐步回归得到的预测值超出范围，那么将预测值取为相近的边界值。含回归系数约束的二次规划法和结合上期持仓的二次规划法本身即已包含对仓位范围的约束。

另需说明的是，如果基金某个季末截面日的真实仓位低于持仓下限，我们认为该基金正在建仓期或者即将清盘，那么不对该基金下个季末截面日的仓位进行预测，同时在计算当前季末截面日预测误差时也暂不纳入该基金。

除了四种回归模型外，我们还对自变量指数选择、样本加权方式、结合上期仓位的二次规划法超参数λ、Lasso回归正则化系数λ、回归时间窗口长度等影响测算效果的因素进行详细测试比较，各影响因素及其在本研究中的取值如下表所示。

回归模型比较

我们计算每个季末截面日各基金仓位预测均方根误差，随后对6个季末截面日的均方根误差取均值。对回归时间窗口长度进行遍历，得到每种回归模型的均方根误差均值曲线。我们首先选择宽基指数作为自变量，样本按时间衰减加权（WLS），比较四种回归模型的预测效果。

如下图所示，含回归系数约束的二次规划法的预测误差相对较大；Lasso回归和逐步回归接近，Lasso回归稍好；结合上期持仓的二次规划法的预测误差相对较小。我们认为结合上期持仓的二次规划法表现较好的原因在于，相较于其它三种模型，该模型引入了增量的、准确的历史信息，基金在各行业指数的上期持仓相当于一个“锚”，对当前持仓的预测围绕“锚”上下浮动，从而使得预测值更为合理。反观Lasso回归和逐步回归，尽管两种模型在此前的报告中表现较好，但是仍然会出现预测值超出仓位上下限因而强行取边界值的情况，因而表现不如结合上期持仓的二次规划法。

宽基指数和行业指数比较

下面我们选择宽基指数作为自变量，样本按时间衰减加权（WLS），展示四种回归模型的预测效果。观察可知，含回归系数约束的二次规划法的预测误差相对较大，Lasso回归和逐步回归表现接近，Lasso回归稍好。和上一节行业指数的明显区别在于，选择宽基指数作为自变量时，结合上期持仓的二次规划法的预测效果不佳。

我们认为宽基指数表现不佳的原因在于，本研究使用的宽基指数（上证50、沪深300、中证500、中证1000、创业板指）的指数成份股存在交集，并且其并集是全A股票池的真子集，从而导致基金在各宽基指数的持仓之和不等于基金真实仓位。例如，如果基金集中配置这些宽基指数交集对应的股票，那么各宽基指数持仓之和应远大于真实仓位；如果基金集中配置这些宽基指数并集以外的股票，那么各宽基指数持仓之和应远小于真实仓位。此时基金在各宽基指数的上期持仓不再是一个合理的“锚”，削弱了结合上期持仓的二次规划法的预测效果。

为了更直观地比较使用宽基指数和行业指数预测基金仓位的效果，我们抽取回归时间窗口长度等于10、20、……、90这9种取值情况，将每一种回归模型下宽基指数和行业指数的均方根误差均值呈现在相邻的两行，如下表所示。对于结合上期持仓的二次规划法，采用行业指数作为自变量时的预测误差明显低于宽基指数；对于其它三种回归模型，行业指数的表现也稍优于宽基指数。推荐研究者使用回归法测算基金仓位时，选择行业指数，而非宽基指数。

样本加权方式比较

下面我们选择行业指数作为自变量，样本加权方式采用等权（OLS），展示四种回归模型的预测效果。对于两类基金，含回归系数约束的二次规划法的预测误差相对较大，Lasso回归和逐步回归表现接近，Lasso回归稍好，结合上期持仓的二次规划法表现相对较好。OLS和WLS的预测效果较为接近，区别仅在于WLS（图7和图8）得到的预测误差随回归时间窗口变化的曲线相比OLS（图12和图13）更为平滑。我们认为原因在于：WLS对于近期样本赋予更高的权重，当延长回归时间窗口时，相当于引入了一部分权重较低的远期样本，对回归方程的拟合结果影响较小，从而导致WLS对回归时间窗口长度不敏感。

为了更直观地比较使用OLS和WLS预测基金仓位的效果，我们抽取回归时间窗口长度等于10、20、……、90这9种取值情况，将每一种回归模型下OLS和WLS的均方根误差均值呈现在相邻的两行，如下表所示。对于结合上期持仓的二次规划法，WLS效果优于OLS；对于其它三种回归模型，OLS和WLS表现接近。考虑到WLS对回归时间窗口不敏感的优势，我们认为样本按时间衰减加权能够带来一定程度的改进，推荐使用WLS。

结合上期持仓的二次规划法超参数λ取值比较

下面我们讨论结合上期持仓的二次规划法超参数λ的取值。该模型的目标函数是两项损失项的加总，第一项是基金日收益率预测值与真实值的均方误差，第二项是基金在各指数的预测仓位与上期真实仓位的误差平方和，λ是第二项损失项前的系数。考虑两种极端情形：当λ取0时，第二项损失项的权重为0，此时完全退化为含回归系数约束的二次规划法，不依赖上期持仓信息；当λ取正无穷时，第一项损失项的权重趋向于0，相当于直接使用上期仓位预测当前仓位。

上图展示了选择行业指数作为自变量，样本按时间衰减加权（WLS）时，结合上期持仓的二次规划法取不同λ值的预测效果。随着λ值的增大，预测误差减小。较为意外的是，完全采用上期持仓预测当前仓位（相当于λ取正无穷）的预测误差最小。我们认为该结果并不能说明λ取值越大越好，显然单纯用上期持仓预测当前仓位没有意义。λ取正无穷时预测误差小的原因可能在于：回归法测算基金仓位的缺陷是回归系数之和可能超出基金仓位上下限，二次规划法的约束条件使得部分基金的仓位预测值落在上下限，此时预测误差相对较大；而单纯采用上期持仓时，上期仓位本身即已落在合理的仓位范围，几乎不会落在上下限，导致预测误差相对较小，尽管此时仓位预测缺乏实际意义。

总的来看，当λ值过小，结合上期持仓的二次规划法预测误差大；当λ值过大，尽管预测误差小，但是会使得模型丧失实际意义；因此需要找到合理的λ值。通过下图对不同λ取值下误差曲线的比较，我们发现当λ值超过1000时，误差曲线的形态和取值基本和λ取正无穷的形态一致；当λ取100时，既能使得预测误差较小，同时能保证预测结果具有实际应用价值。

Lasso回归正则化系数λ取值

本研究中，每只基金每个预测季末截面日Lasso回归的正则化系数λ均通过10折交叉验证确定，λ备选范围为1e-6、2e-6、5e-6、……、0.1、0.2、0.5、1。我们统计全部基金在全部6个预测季末截面日的最优λ值频率分布，如下图所示。大部分log10(λ)值集中在[-2,-1.5)区间段，对应λ值约在[0.01,0.032)区间段。由此看来，此前报告中λ取固定值0.002可能过于简单，更合理的取法是针对每次拟合通过交叉验证选择最优λ。

回归时间窗口长度选择

观察本章展示的预测误差随回归时间窗口变化曲线，我们发现结合上次持仓的二次规划法对回归时间窗口长度不敏感，而对于其它三种回归模型，预测误差随时间窗口长度的增大而减小。从理论的角度看，对于多元线性回归问题，样本量越大，对回归模型参数的估计越精确；然而对于测算基金仓位问题，回归时间窗口过长可能增大回归模型的滞后性。从实践的角度看，滞后性带来的影响可能有限，并且能够通过时间衰减加权的方式规避，增大回归时间窗口可以降低预测误差，提升预测效果。

基金仓位测算结果

详细预测结果展示

通过上一章的对比分析，我们发现选择行业指数作为自变量，样本按时间衰减加权（WLS）时，四种回归模型的整体表现较好；回归时间窗口取90天时预测效果较好；在四种回归模型中，结合上期持仓的二次规划法表现相对较好，其中超参数λ取100。在明确了模型的各项细节后，我们将借助上述模型测算6个季末截面日普通股票型基金和偏股混合型基金的持股仓位，以各基金仓位均值衡量全市场基金持股仓位水平。下表展示了6个季末截面日四种回归模型对全市场平均仓位水平的测算结果。

下表展示了6个季末截面日四种回归模型对全部基金持股仓位预测误差的均值和标准差。对比可知，相较于其它三种回归模型，结合上期持仓的二次规划法的误差均值更接近0，误差标准差更小。

下面我们以误差频次分布图的形式，考察每个季末截面日的基金持股仓位预测效果。

总的来看，结合上期持仓的二次规划法全面优于其它三种模型；其它三种模型都出现了高估仓位的倾向，高估的原因需要进一步研究。

近期基金仓位测算观察

下面我们对基金每个交易日的持股仓位进行测算。在使用结合上期持仓的二次规划法时，与预测季末截面日相比，预测每个交易日所需的上期持仓信息来源更为复杂，需要更细致的拆分，如下表所示。

需要说明的是，由于我们的目标是对每个交易日基金仓位水平进行类似“样本外”的估计，而站在每个交易日时点，我们并不能预知基金仓位是否低于规定的仓位下限，只能通过上期仓位猜测该基金是否处于建仓期或者即将清盘。因此，如果某只基金在最近一期已公布的季报中显示仓位低于下限，那么在计算全市场平均仓位水平时将不纳入该基金；如果某只基金在最近一期季报中显示仓位在正常水平，而事实上当前仓位已低于下限，那么计算市场平均水平时仍会纳入该基金。

我们选择行业指数作为回归自变量，WLS作为样本加权方式，回归时间窗口取90天，采用四种回归模型对2017年一季度末至2018年12月14日每个交易日基金平均持股仓位进行测算，结果如下图所示。基金仓位在今年二季度持续下降，三季度有所回升，四季度以来继续下降。

总结

通过对回归法测算基金持股仓位的四种模型以及多处细节的探讨，我们可以回答本研究开头提出的问题：

1. 关于回归模型的选取：含回归系数约束的二次规划法预测仓位的误差较大；Lasso回归和逐步回归的预测表现接近，Lasso回归稍好；结合上期持仓的二次规划法的预测效果较好，原因在于该模型引入了增量的、准确的历史仓位信息，相当于在历史信息的“锚”附近进行线性回归拟合，提升了预测的准确程度。建议使用结合上期持仓的二次规划法。

2. 关于自变量指数的选取：行业指数在结合上期持仓的二次规划法上表现优于宽基指数，原因在于宽基指数成份股存在交集，并且其并集是全A股票池的真子集，导致基金在各指数的上期持仓不是一个合理的“锚”。建议使用行业指数日收益率作为回归自变量。

3. 关于样本加权方式：等权（OLS）和时间衰减加权（WLS）的表现接近，WLS稍好；WLS对回归时间窗口长度更不敏感。建议使用WLS。

4. 关于Lasso回归的正则化系数λ：每次Lasso回归拟合均采用交叉验证选择λ，得到最优λ值集中在[0.01,0.032)区间段，从模型比较的角度看，上述方法相较于直接取固定λ值更为合理。建议采用交叉验证确定Lasso回归的正则化系数λ。

5. 关于回归时间窗口长度：我们发现时间窗口越长，预测误差越小。理论上看，回归时间窗口过长可能增大回归模型的滞后性；实践上看，滞后性带来的影响有限，可以通过时间衰减加权的方式规避。建议使用尽可能长的回归时间窗口。

总的来看，回归法作为测算基金仓位的常用方法，其优点是思路清晰，实施简单，但是在单个基金层面上的预测能力有限。即使是本研究中效果相对较好的模型，其均方根误差仍然在5%~7%的水平。通过引入上期持仓信息，并且对各项细节进行优化，能够在有限的范围内提升预测效果。本研究的一个不完善之处在于仅使用6个季末截面日数据评估各模型的优劣，如能增大样本数量，将进一步加强结论的可靠程度。

免责申明

本公众平台不是华泰证券研究所官方订阅平台。相关观点或信息请以华泰证券官方公众平台为准。根据《证券期货投资者适当性管理办法》的相关要求，本公众号内容仅面向华泰证券客户中的专业投资者，请勿对本公众号内容进行任何形式的转发。若您并非华泰证券客户中的专业投资者，请取消关注本公众号，不再订阅、接收或使用本公众号中的内容。因本公众号难以设置访问权限，若给您造成不便，烦请谅解！本公众号旨在沟通研究信息，交流研究经验，华泰证券不因任何订阅本公众号的行为而将订阅者视为华泰证券的客户。

本公众号研究报告有关内容摘编自已经发布的研究报告的，若因对报告的摘编而产生歧义，应以报告发布当日的完整内容为准。如需了解详细内容，请具体参见华泰证券所发布的完整版报告。

本公众号内容基于作者认为可靠的、已公开的信息编制，但作者对该等信息的准确性及完整性不作任何保证，也不对证券价格的涨跌或市场走势作确定性判断。本公众号所载的意见、评估及预测仅反映发布当日的观点和判断。在不同时期，华泰证券可能会发出与本公众号所载意见、评估及预测不一致的研究报告。

在任何情况下，本公众号中的信息或所表述的意见均不构成对客户私人投资建议。订阅人不应单独依靠本订阅号中的信息而取代自身独立的判断，应自主做出投资决策并自行承担投资风险。普通投资者若使用本资料，有可能会因缺乏解读服务而对内容产生理解上的歧义，进而造成投资损失。对依据或者使用本公众号内容所造成的一切后果，华泰证券及作者均不承担任何法律责任。

本公众号版权仅为华泰证券股份有限公司所有，未经公司书面许可，任何机构或个人不得以翻版、复制、发表、引用或再次分发他人等任何形式侵犯本公众号发布的所有内容的版权。如因侵权行为给华泰证券造成任何直接或间接的损失，华泰证券保留追究一切法律责任的权利。本公司具有中国证监会核准的“证券投资咨询”业务资格，经营许可证编号为：91320000704041011J。

林晓明

执业证书编号：S0570516010001

华泰金工深度报告一览

金融周期系列研究（资产配置）

【华泰金工林晓明团队】周期轮动下的BL资产配置策略

【华泰金工林晓明团队】周期理论与机器学习资产收益预测——华泰金工市场周期与资产配置研究

【华泰金工林晓明团队】市场拐点的判断方法

【华泰金工林晓明团队】2018中国与全球市场的机会、风险 · 年度策略报告（上）

【华泰金工林晓明团队】基钦周期的量化测度与历史规律 · 华泰金工周期系列研究

【华泰金工林晓明团队】周期三因子定价与资产配置模型（四）——华泰金工周期系列研究

【华泰金工林晓明团队】周期三因子定价与资产配置模型（三）——华泰金工周期系列研究

【华泰金工林晓明团队】周期三因子定价与资产配置模型（二）——华泰金工周期系列研究