1.3 数据挖掘在量化投资中的应用

目前在量化投资领域,数据挖掘技术主要应用在宏观经济分析、估价、量化选股、量化择时、算法交易等方面。

1.3.1 宏观经济分析

股市的影响因素很多,但中国股市对宏观政策尤其敏感,从根本上说,股市的运行与宏观经济运行应当是一致的,经济的周期决定着股市的周期,股市周期的变化反映了经济周期的变动。经济周期包括衰退、危机、复苏和繁荣四个阶段。按照常理来说,在经济衰退时期,股价指数会逐渐下跌;在经济危机时期,股价指数跌至最低点;当经济开始复苏时,股价指数又会逐步上升;到经济繁荣时,股价指数则上涨至最高点。由此看来,宏观经济走势影响着股市的波动,但宏观经济走势与股市趋势的变动周期也不是完全同步的。所以,无论从量化投资角度还是传统投资方式角度,对宏观经济进行深入的分析是必要的。

在量化投资领域,数据挖掘技术可以做如下几个方面的工作。

(1)分析GDP对股市及个股的影响。GDP是指在一个既定的时期内一个国家或地区在其经济领土范围内生产的所有最终物品和提供劳务的市场价值。GDP指标在宏观经济分析中占有重要地位。一般来说,GDP对股市的影响表现为,当GDP持续、稳定地增长,股票的内在含金量及投资者对股票的需求增加,促使股票价格上涨,证券市场会呈现上升趋势。从以往的统计数据来看,1990—2009年,不限起始年份,共有16个5年期,中国GDP和上证指数的5年期累计涨幅平均值分别为87%和92%,5年期年复合增长率平均值分别为12.9%和11.4%;尽管5年期股市累计涨幅大,年复合增长率平均值却更小,可见股市波动率比GDP大得多。但是,以5年期计算,平均而言,无论是累计涨幅,还是年复合增长率,中国股市涨幅和GDP涨幅相当接近。从长期看,股价的变动趋势与GDP的变化趋势是吻合的。

(2)分析货币供应量对股票价格及个股的影响。该影响的主要表现有三种:一是货币供应量增加,可以促进生产,稳定物价水平,阻止商品利润下降,使得对股票的需求增加,促进股票市场的繁荣;二是货币供应量增加引起社会商品价格的上涨,股份公司的销售收入及利润相应增加,使得以货币形式表现的股利会有一定幅度的上升,使股票需求增加,股票价格也相应上涨;三是货币供应量的持续增加引起通货膨胀,通货膨胀带来的往往是虚假的市场繁荣,造成企业利润普遍上升的假象,保值意识使人们倾向于将货币投向贵重金属、不动产和短期债券,股票需求量也会增加,从而使股票价格相应增加。由此可见,货币供应量的变动是影响股市变化的重要因素之一。当投资者在进行投资分析时,一定要综合考虑当下市场货币供应量的具体情况。

(3)分析利率对股市及个股的影响。利率是指在接待期内所形成的利息额与本金的比率,反映出信用关系中债务人支付给债权人的资金使用代价,是资本成本的重要组成部分。利率是宏观经济影响股市行情的重要因素之一,无论是加息或降息都会在短期内影响股市行情的发展。一般来说,当利率下降时,股票的价格上涨;当利率上升时,股票的价格下跌。但是,在现实经济中,利率的变化与股市的变动并不能总结为简单的负相关的关系。事实上,利率与股市行情的关系和投资者的直觉相反,当利率上升时股价也在上升,而当利率下跌时股价也在下跌。出现这种反常的情况的原因为,利率上升大都发生在经济繁荣时期,企业公司的经营状况很好,同时预期的现金流会增加,公司的股票价格当然也会随之上升。相反,如果中国人民银行下调利率,居民得到这个政策信息的第一反应是经济仍然处于萧条时期,缺乏投资机会,股市也不景气。

(4)分析汇率对股市及个股的影响。汇率是外汇市场上一国货币与他国货币兑换的比率。汇率变动对股市的影响可以从如下两个方面分析:一方面,从实体经济层面分析,如果本国货币升值,则国内商品的生产成本和价格都会上涨,这对于出口,尤其是经济附加值较低的劳动密集型产业十分不利,企业的销售受到阻碍,利润空间缩小,造成股价面临下行的压力,相反,股价上涨;另一方面,从资金面分析,如果本国货币升值,则本国货币在国际市场上变得有吸引力,这会吸引国外大量的资金流入本国进行投资,股市资金充足,股价上涨,进一步吸引更多国外资金的流入,推动股市上行。从这两个方面来看,汇率的变动对股市的影响是模糊的,具体的股市行情要具体分析。

在宏观经济分析方面,经常用到回归、关联分析、分类、预测等方法。比如利用回归、预测等技术确定经济周期,并研究不同股票与各经济周期的关联性,这样就可以在不同的经济周期制定不同的投资策略,从而在不同的经济周期实现持续盈利,还可以规避风险。比如有的投资机构在2008年之前就利用数据挖掘技术确认当时的经济周期,提前减仓,改变投资策略,不仅避免了风险,而且实现了高额收益。其实,将2008年前后的宏观经济数据可视化之后(见图1-5),就会发现这个时期的经济环境。

图1-5 2008年前后的宏观经济趋势图

1.3.2 估价

国内外大量实证研究结果表明:上市公司定期公布的财务报告具有很大的信息量,而当期会计盈余数据的信息在披露前后会在股票市价中迅速得以体现。因此,对于中长期投资者来说,重要的是预见未来。质地优良且未来具有较高盈利增长能力的公司是中长期投资者(包括普通投资者、证券投资基金和券商)普遍关注的对象,因为只有这类公司才能给投资者较高的回报。

通过对上市公司的价值的评估来进行股票的选择,是现在占据主流地位的基本面分析的基本方法。通过各种不同的方法对上市公司的价值进行评估,然后结合股票市场中的表现来决定股票市场中的价格是否被低估或者高估。如果低估则买入,如果高估则卖出。中国市场现在还没有卖空的途径,刚刚获批的融资融券业务也只是在限定标的的情况下进行部分卖空,所以中国市场还是主要以买入为主。于是,投资者应选择那些价格被低估的股票,分析未来股票发行和上市价格的合理定位。

数据挖掘技术在估价方面的应用就是去挖掘价值被低估的股票,比如可以用最近邻方法确定基本面相似的股票的市场估价,然后根据实际价格就可以很容易地确定哪些股票被低估或者高估。该方法对于新股的认购也同样非常有帮助,因为用该方法可以评估新股的合理价格区间。

1.3.3 量化选股

量化选股是数据挖掘在量化投资领域研究和应用最多的课题,毕竟选股是量化投资最重要的内容。上文介绍的多因子模型就是主要靠数据挖掘中的回归方法得到的。当然量化选股的内容不仅限于此,数据挖掘技术在选股上有多重应用,有时是为策略提供决策基础,有时是根据策略进行挖掘。比如,可以用聚类方法对股票进行聚类,从而对股票进行分池,在选股的时候从上涨概率比较大的池子中选择股票。又如,可以用神经网络方法预测股票的涨跌概率,这些内容都将会在本书中进行介绍。

1.3.4 量化择时

在量化投资领域中,一个好的选股策略是比较容易实现的。这是因为在长时间跨度里能够跑赢市场的一些投资组合一般会满足某种特性,如低估值、高成长、小市值、隐形资产低估等。但相对而言,择时就不会那么简单。这里有一个简单的问题:大盘明天是涨还是跌?

这个看似简单的问题从量化的角度其实并不好回答,而从传统的策略研究——技术面+基本面+政策面会更好回答一些。为什么?因为量化择时无法处理来自政策面的消息。另外,量化择时经常会有很强的时域特性,太短的时域预测,如一天,太长的时域预测,如一年,量化择时是很难处理的。

正因为择时比较难处理,所以采用数据挖掘技术,用大量的数据去寻找最佳的卖点相对显得更理性。比如,用上述SVM方法进行择时,或采用神经网络预测近期的涨跌趋势,又或采用分类方法判断近期的最佳交易周期。

1.3.5 算法交易

算法交易(Algorithmic Trading),是指把一个指定交易量的买入或者卖出指令放入模型,该模型包含交易员确定的某些目标。根据这些特殊的算法目标,该模型会产生执行指令的时机和交易额。而这些目标往往基于某个基准、价格或时间。这种交易有时候被称为“黑箱交易”。算法交易通过程序系统交易,将一个大额的交易拆分成数十个小额交易,以此来尽量减少对市场价格造成的冲击,降低交易成本,还能帮助机构投资者快速增加交易量。

算法交易系统的核心是通过一套计算机程序,在一秒内产生数千个交易指令,其中许多指令瞬间就可以被取消或被新的指令取代,从而把大额委托化整为零,减少对市场的冲击,并且可以寻求最佳的成交执行路径,以减少交易成本。但程序的核心是交易算法,而这种敢于在市场上进行实操的算法往往是从大量的历史交易数据中挖掘到的,然后经过严格的测试,确定算法可靠且有效后方可投入实际的算法交易。在算法交易方面,可用到的数据挖掘技术比较广,往往涉及多种方法的综合。在算法交易方面,目前用得比较多的数据挖掘方法是集成决策树,其核心是当不同的指标(信号)出现不同的情况时,给出具体的交易操作(买入或卖出)。采用这种方法不仅稳定、灵活,还可以采用优化算法对其进行优化,从而提高收益。图1-6为采用遗传算法优化交易指标的迭代效果图。

图1-6 采用遗传算法优化交易指标的迭代效果图