随着可用数据和计算能力的普及,量化方法在金融和投资领域得到越来越多的关注和应用。更多的数据和更强大的算力可以帮助我们更好地发现和理解一些隐藏的规律;同时却让“过拟合”的现象越来越严重(尽管机器学习里有交叉验证机制)。当我们为一个投资策略尝试几百、几千甚至几百万个不同的参数组合(算力的提高让更高数量级的组合成为可能),我们总会找到一个“统计显著”的策略。
数据分析和量化模型的恰当使用,需要建立在对数据和模型假设的理解上。我们将分享一些金融数据分析中经验和教训,希望能对感兴趣的朋友有所帮助。
时间序列分析的两大基石:
平稳性和遍历性
在基础统计学里,对于一个随机变量X,我们可以通过大量观察(抽样),得到一些列的观察值:
只要样本足够多,我们就可以用它们的平均值:
来估计X的期望值(大数定律)。同时,中心极限定律告诉我们,如果总体的均值和方差存在且有限,那么不管总体的分布是什么,在大样本下,样本均值趋于总体均值,且服从正态分布。
在金融投资领域,我们获得的数据仅代表一条已经实现的路径,我们不可能回到过去,改变一个变量,看看结果会有怎样的差异。这就带来两个问题:我们得到的数据能否构成一个有意义的样本;更进一步,这个样本能否代表总体?
也就是说,对于一个时间序列:
我们可以用时间序列的均值,(E.2)来估计总体均值吗?
时间序列要有统计分析的意义,首先需要满足平稳性(stationary)要求。简单说,平稳性要求时间序列的统计性质/分布在时间轴上是不变的。如果时间序列的统计性质随着时间的推移发生变化,那么由历史数据得到的统计量,对未来毫无意义。
一个时间序列能够作为样本代表总体,还要满足遍历性(ergodicity)要求。简单说,遍历性要求时间序列的路径在时间上足够长,应该经历所有可能的状态或结果,概率空间是完整的。比如,均值遍历要求上述(E.2)的结果要趋于(E.1)的结果。
因为时间序列只是一条已实现的路径,我们不可能时间倒流多次采样,平稳性保证了分布不会随时间变化,遍历性则保证时间序列尽可能的遍历各种状态。在这两个条件下,时间序列才能作为样本代表总体,由此计算的统计量才有意义。
在金融投资领域,很多数据是不满足以上两个条件的。比如,股票价格是个随机游走的过程,不满足平稳性要求。对于不平稳的时间序列,我们通常通过差分处理让让它变得平稳,比如把股票价格取对数变成收益率的序列。然而,即便金融资产的收益率,往往也不能满足平稳性要求。
满足平稳性要求的时间序列,可能会因为其分布性质,使得我们得到的时间序列不满足遍历性要求。许多学者认为金融资产的收益率分布是肥尾的,肥尾特性意味着尾部和峰部的值出现的概率会比想象中要高。肥尾特征意味着,我们可能无法通过获取到的样本来做出可靠的推断。塔勒布在《肥尾效应》一书中,详细讨论了肥尾分布对统计学两大基石:大数定律和中心极限定律的影响,在肥尾分布中,样本均值并不是总体均值的恰当估计,除非我们有比我们实际数量级更多的数据。
更高频的金融数据是否能提供更长的样本,“遍历性”更好?对很多研究目的来说,提高取样频率往往并不能得到更多的信息,反而会得到冗余和噪音。比如,如果我们要估计地球的曲率,更高的抽样频率可能会误导我们得出结论地球是平的。
因果还是关联?
如果时间序列是非平稳的,或者是非遍历的,那么不论样本有多大,两个独立的随机变量,也可能会呈现出关联关系。这一影响提醒我们,对纯粹基于金融数据挖掘出来的规律或投资策略,不论它是基于传统时间序列模型,还是基于深度学习模型,持怀疑主义的态度是明智的。
“相关性不是因果关系”,我们可能对这句话已经烂熟于心,但即使是那些理解并且赞成这个说法的学者,有时候也会把相关性当成因果关系。投资文献里大部分的文章,做出的都是关联性断言,然后基于这个关联性断言设计投资策略。比如,作者可能发现X经常先于Y发生,然后确定X和Y之间的相关性是“统计显著”的,然后基于这个相关性设计一个交易规则。问题是,X经常先于Y发生并不能提供证据,证明X是Y发生的原因。因此,X和Y之间的关联可能是巧合,是不可靠的。
同样,基于Fama-French三因子或五因子模型的因子模型和回测检验,也是一种关联性断言,它们并没有回答为什么持有低估值或小市值股票会带来超额收益。要回答“为什么”的问题,需要一个可证伪的因果机制,大部分关于因子模型的文献资料都没有涉及。关于因子模型的介绍和宣传,大都是基于归纳论证。比如,研究发现低估值和动量策略在很多年份、很多国家和地区都存在超额收益。这种关联性发现引导我们预期,不管其中的因果机制是怎样的,历史总会重演的,尽管这种信念缺少科学演绎的基础。
在缺少因果理解的情况下,我们可能需要搜集足够长的样本外数据,才能确定这个关联性是错误的。很多基于关联性所做的预测都以失败而告终,无论这些关联性是否存在对应的因果关系。因为不了解这一关联规律的作用机制是什么,我们无法预测这个关联规律什么时候会被打破。使用关联性的风险之一在于,对于两个变量之间的任何相关性,我们都可能会找到一些理由来解释这种相关性是如何产生的,从而导致人们对结果过分自信。这个过程对很多投资者来说,代价可能是高昂的。
面对可疑的数据质量和可疑的统计关系,积累基本的定性和先验知识,多问“为什么”,理解其中的因果机制,并且把投资决策建立在可理解的因果规律之上,对投资而言至关重要。
$中泰研究精选6个月持有股票A(OTCFUND|016444)$
$中泰沪深300增强A(OTCFUND|008238)$
$中泰星元灵活配置混合A(OTCFUND|006567)$
作者简介
李玉刚,中泰研究精选6个月持有股票A/C、中泰沪深300指数增强A/C基金经理,现任中泰证券资管研究部总经理,北京大学经济学硕士。
曾任国泰君安证券研究所金融工程部研究员、衍生产品部及资产管理部量化研究总监、国泰君安资管量化投资部总经理、中泰证券资管对冲基金部总经理。
基金管理人承诺以诚实信用、勤勉尽责的原则管理和运用基金资产,但不保证基金一定盈利,也不保证最低收益。投资有风险,基金过往业绩不代表其未来表现。基金管理人管理的其他基金的业绩不构成对本基金业绩表现的保证。投资者投资基金时应认真阅读基金的基金合同、招募说明书、基金产品资料概要等法律文件。基金管理人提醒投资者基金投资的“买者自负”原则,请投资者根据自身的风险承受能力选择适合自己的基金产品。
本文作者可以追加内容哦 !