控弦

本科毕业于清华大学,在美国留学工作十多年,致力于数学建模在工程上的应用,目前回国和清华校友(华尔街海归)一起成立了杭州希维信息科技有限公司,是一家专注于大数据挖掘,为金融机构提供另类数据服务的金融科技公司。在交易方面,其本人曾获全国期货实盘大赛程序组前十、永安东方智慧程序化大赛前四。团队创始合伙人也曾是华尔街投行衍生品交易部的负责人,在金融工程领域经验丰富。

精彩观点

交易的决策就是在不确定性中寻找相对的确定性,追逐利润的同时实现对风险的控制,也可以说,这就是一场资金的博弈。

投资要做得好,要么比别人聪明一点,要么比别人知道得多一点,要么比别人知道得早一点。

比别人知道得更多和更早也可以说是另类数据出现的缘起,因为公开和通用信息基本上大家都在同一起跑线上,已经被充分挖掘并利用,想从中获取超额收益的难度就很大。

来自大数据挖掘的另类数据,一个主要目标就是为用户提供一个领先市场和对手的有效手段,从而形成信息不对称的局部优势,信息差套利也就是拥有信息优势的一方猎杀信息滞后的一方。

参考另类数据做出的策略会和原来单纯基于行情数据做出的策略有明显的低相关性,这对投资者的策略组合是非常有益的。

交易所公布的交割仓库的仓单其实就不能准确反映实际的仓单状况,我们通过大数据挖掘更加准确地估算实际仓单的规模。

我们挖掘的多空情绪指数和多空信息集中度指数可以用在期货交易中,有很好的过滤作用,也可以单独用来构建交易策略。

我们可以根据钢厂附近污染指数的变化,以及对环保监测压力指数的跟踪,预测环保限产政策的可能出台,从而构建事件驱动类的策略。

(多空情绪指数和多空信息集中度指数)对于程序化交易者,他们可以把这些指数纳入他们的现有策略,形成自己特有的指标,作为交易信号的过滤,也可以独立形成信号。

(程序化交易)结合基本面(包括类基本面的另类数据)、情绪面进行量化,可以有效过滤掉一些无效交易,我觉得可能是一个方向。

国内这两年资管行业和量化总体处于一个低潮,我觉得这也正好是时候打造更加精良的武器,当机会来临的时候,就能够占得先机。

    相关链接:如何利用“多空情绪”赚钱?独家数据,助你盈利!

七禾网1、控弦先生您好,感谢您和七禾网进行深入对话。您在美国留学工作十多年,是什么原因和动力,使您转而回国创业,将大数据挖掘应用到投资当中?

控弦:最初是被美国的公司派回国,后来看到国内的发展机会更多,国内有很多同学、朋友、家人,感觉留在国内更有归属感。最开始做另类数据挖掘也是探索性的,没有什么现成的模式可以参考,在技术上、商务上也都趟过不少坑,但好奇心和兴趣驱使自己坚持下来,自己本身对交易也十分感兴趣。后来发现另类数据在投资领域的应用受到一些投顾机构的认可后,更加坚定了自己往这个方向走的信心。

七禾网2、应用大数据挖掘的方式做投资,和大部分普通投资者以公开的数据为依据做投资相比,有哪些优势和好处?

控弦:交易的决策就是在不确定性中寻找相对的确定性,追逐利润的同时实现对风险的控制,也可以说,这就是一场资金的博弈。一位前华尔街对冲基金经理(Princeton的数学博士)曾和我说过:投资要做得好,要么比别人聪明一点,要么比别人知道得多一点,要么比别人知道得早一点。要比别人聪明是很难的一件事情,剩下比别人知道得更多和更早也可以说是另类数据出现的缘起,因为公开和通用信息基本上大家都在同一起跑线上,已经被充分挖掘并利用,想从中获取超额收益的难度就很大。而来自大数据挖掘的另类数据,一个主要目标就是为用户提供一个领先市场和对手的有效手段,从而形成信息不对称的局部优势,信息差套利也就是拥有信息优势的一方猎杀信息滞后的一方。另外另类数据的源头很多不是来自市场的行情,这样参考另类数据做出的策略会和原来单纯基于行情数据做出的策略有明显的低相关性,这对投资者的策略组合是非常有益的。

七禾网3、您做的大数据挖掘其中的数据来源于哪里?如何保证数据的有效性和准确度?

控弦:数据来源于以下几个方面:(1)我们和国内领先的BAT级别数据体量的大数据公司进行合作,覆盖中国90%以上的手机用户(数量>9亿);

(2)我们也会购买一些我们认为非常有价值的原始数据成为我们私有数据库的一部分;

(3)通过网络爬虫。

数据有一定历史可以回溯,可以回测其有效性,我们很多数据模型在2017年6月左右做出,跟踪一年以来,一些采用我们数据的机构也能证实这个数据的有效性。比如我们2017年6月建好的一个模型:以股民行为的研究来预警股市的风险区间,结果如下图所示

黑色部分代表风险区间,可以看到从2015年到2017年底,基本上都非常及时提示了大幅度下跌风险的到来。2018年最近的下跌,我们这个模型是4月8日给出的风险预警,4月8日是星期日,如果4月9日把A股平仓,这段时间应该不会太受伤。

七禾网4、请您举例介绍一下,用您挖掘的另类数据在期货投资当中的应用?

控弦:(1)期货仓单。因为期货交割仓库的费用比较高,一些待交割的现货往往没有直接放在交割仓库,而是存放在周边一些便宜的仓库,等到交割日期临近才会转到交割仓库,而交易所公布的交割仓库的仓单其实就不能准确反映实际的仓单状况,我们通过大数据挖掘更加准确地估算实际仓单的规模;

(2)我们可以通过大数据挖掘来实现对相关企业运营状况的日度跟踪,从个体企业到行业,其运营规模到生产销售环节的趋势进行推算和估计;

(3)我们挖掘的多空情绪指数和多空信息集中度指数可以用在期货交易中,有很好的过滤作用,也可以单独用来构建交易策略;

(4)我们可以根据钢厂附近污染指数的变化,以及对环保监测压力指数的跟踪,预测环保限产政策的可能出台,从而构建事件驱动类的策略。

七禾网5、请您举例介绍一下,用您挖掘的另类数据在股票投资当中的应用?

控弦:有很多例子:(1)黄山旅游是一家上市公司,我们每天跟踪景区人流量的变化就可以了解这家公司的运营状况,从而及时发现投资的价值和察觉公司运营的风险;

(2)我们可以在大数据中去挖掘一个上市公司被基金经理、研究人员调研的密度,发现这与其在二级市场表现的相关性。

(3)跟踪一些APP用户规模、活跃度可以对那些在美国或者香港上市的移动互联公司(MOMO、WEIBO、TANTAN、途牛、58同城、京东、唯品会等),比如去年我们从大数据中挖掘到京东和唯品会的用户规模和活跃度的一个明显差异,可以理性地做出交易决策,做多京东、做空唯品会,后面的走势也证明这样的策略是成功的,是有基本面逻辑支撑的。而这种日度跟踪APP活跃度的另类数据,相对于从通用数据的角度分析,发现投资机会要及时得多。

(4)还有更多的例子,对于专业机构研究部门,他们对所研究的行业比我们更深入,对我们提供的另类数据他们也能比我们更加有效地利用。比如下面的一些例子

利用大数据挖掘的螺纹钢全国消费总量的日度频次数据和行业公布的数据比对(虚线为行业公布的数据,蓝线为大数据挖掘的数据) 

下图则是我们挖掘的一家企业的运营状况,明显一路下滑,虽然这家公司的财报显示营收有增长,但我们认为疑似财务造假,这家公司发行的债券也最终违约。

七禾网6、据我们了解,您制作了期货和股票的多空情绪指数和多空信息集中度指数,请您介绍一下这两种指数背后的原理。

控弦:我们通过网络爬虫对公众号、微博、相关论坛等社交媒体进行爬取,然后用自然语言处理技术来分析市场的情绪,对不同的词性进行量化打分,对不同的人群进行权重分配,从而构建了这两个指数。多空情绪指数比较好理解,就是看多和看空的情绪。而多空信息集中度则是高度专业、有效的信息从专业人士向投资大众扩散过程的一个建模。

七禾网7、多空情绪指数和多空信息集中度指数,对于程序化交易者而言,可以提供哪些帮助?对程序的改良可以起到哪些作用?

控弦:对于程序化交易者,他们可以把这些指数纳入他们的现有策略,形成自己特有的指标,作为交易信号的过滤,也可以独立形成信号,这个看每个人的思路。可以把这四个指数和价格走势对照看,从中找出规律,形成自己的策略。我们自己以及国内一些知名量化团队的研究表明,采用这四个指数过滤一些现有经典能有效提高夏普比例、平滑资金曲线。

七禾网8、多空情绪指数和多空信息集中度指数,对于主观手工交易者而言,应该如何应用,以辅助投资决策?

控弦:对于主观交易者而言,和将这四个指数纳入程序化策略并没有区别,都是建立起规则,然后主观交易者可以通过K线图结合情绪指数、信息集中度指数来指导自己的交易决策。

七禾网9、当前网络非常发达,信息传播速度非常快,盘中有可能会有一些突发事件、新闻等,导致市场发生较大变化。多空情绪指数和多空信息集中度指数是每日更新的,您认为多空情绪指数和多空信息集中度指数的时效性如何?是否有必要提高更新频率,比如每半日更新一次?

控弦:我们目前只能做到每日更新。

七禾网10、您也做程序化交易,曾获全国期货实盘大赛程序组前十,永安东方智慧程序化大赛前五。您当前的实盘交易中,总共有多少个交易策略?在您目前的实盘交易当中,是否已经把数据挖掘技术应用进去?

控弦:因为现在希维作为一家基于移动互联大数据挖掘的金融科技公司,为金融机构提供另类数据,这要求我们自己不再交易。我们去年都拿了私募牌照,后来主动注销了牌照。我们现在的主要任务是挖掘有价值的另类数据提供给金融机构和职业的交易人员。

七禾网11、近一两年以来,大多数CTA策略普遍表现不好,您认为主要原因是什么?

控弦:我不是分析师,所以只能是一家之言。因为现在CTA策略的趋同性,大家用同样的数据,做出来的策略相关性很高,一两年以来行情在一个区间盘整,以趋势为主的CTA策略自然比较难受。

七禾网12、对于这种现象,以及面对当前的市场行情,您认为程序化交易者应该如何调整和改变自己的投资策略?

控弦:结合基本面(包括类基本面的另类数据)、情绪面进行量化,可以有效过滤掉一些无效交易,我觉得可能是一个方向。

七禾网13、您在美国留学工作十多年,美国的量化交易策略,和国内大部分人所使用的以分析价格和成交量的技术分析方法为主的量化策略相比,有哪些不同?

控弦:我看过文艺复兴创始人詹姆斯.西蒙斯的访谈,从某个意义上,他们也是在基于各种各样数据挖掘来寻找市场相关性,并以此构建各种不同交易策略。希维科技的合伙人是我的清华校友、Cornell金融工程的博士,回国前在华尔街的花旗集团任衍生品交易部副总裁,他对这方面的了解比我要多。他了解到的趋势是最近4、5年之内,另类数据的使用非常热,目的就是取得领先市场和领先对手。J.P.摩根公司2017年出了一份报告—— 《大数据和人工智能策略-面向投资的机器学习和另类数据方法》(Big Data and AI Strategies-Machine Learning and Alternative Data Approach to Investing) ,这个近300页的报告比较系统地向我们展示了华尔街这些年以来发展的路径和方向,有兴趣的朋友可以参考。国内这两年资管行业和量化总体处于一个低潮,我觉得这也正好是时候打造更加精良的武器,当机会来临的时候,就能够占得先机。

七禾网14、就您的经历和体验来看,美国量化投资的发展和成熟度,和国内相比有哪些优势?

控弦:我觉得我没有资格去做这样的判断,现在国内有大量的高素质人才涌现,也有大量的华尔街专业人士回国,国内现在CTA市场中性策略都迅速在和国际接轨,因为国内衍生品不是很发达、品种也不多,可能现在国内在期权等衍生品交易这块还没有国外那么成熟和普及。

七禾网15、近一年数字货币和区块链很火,受到了很多人的关注。您对于数字货币和区块链怎么看?它们是否代表了未来的发展方向?

控弦:我认可区块链的技术理念,我认为区块链有它的未来。我们在区块链这块可能也会参与,主要还是为这个产业服务的思路。区块链目前发币的项目很多都是从移动互联网的一些应用来的,我们可以对这些APP的活跃度进行跟踪,来发现哪些项目是真正是有价值的、哪些只是空气。

七禾网16、一年前AlphaGo战胜了目前人类世界围棋排名第一的柯洁,未来可能人工智能在期货交易中的应用也会越来越广泛和深入。您对人工智能的前景,以及人工智能在期货交易中的应用怎么看?

控弦:目前在大数据挖掘中要用到很多经典的统计建模,也需要用到机器学习来进行分类和特征提取。我们目前能接触到真正海量的大数据,这为机器学习提供了必要的条件。在金融领域,对行情和价格的展开有很多的影响因素,又很难找到必然的逻辑,在这里机器学习和优化类似,容易陷入过度拟合的陷阱。而在我们大数据挖掘中也要用到机器学习,主要是对人群身份特征进行研究,人的行为和身份特征的区别存在较大的确定性差别,机器学习的结果往往能产生很好的效果,比如说白领和货车司机在手机使用习惯和轨迹特征的区别上是有巨大的区分度,在这个领域运用机器学习就会产生比较明确的结论。对于机器学习和另类数据在投资上的应用,我建议有兴趣的朋友可以参阅上面提到的J.P.摩根公司的报告,我相信您一定会有很多收获。

七禾网17、国内量化交易发展迅速,有越来越多的人参与到量化交易中来,您是如何看待量化交易在国内的发展前景的?

控弦:我认为量化交易不是局限在程序化和自动交易上,很多依据基本面交易的人,有着自己既定的规则,依据数据来解读市场并进行交易都算是量化交易。随着资本市场机构参与度的提高,参与者专业程度的提高,量化交易占的比重应该会越来越高,博弈的强度也会越来越大。

七禾网18、将大数据挖掘应用到投资当中,目前在国内还是一个比较新的领域,请谈谈您未来在这一领域的发展规划。

控弦:我们希望能和众多的投资个体和机构进行深入的合作,在投资这个领域里面提供一个不常被看到的数据面,挖掘没有被市场充分挖掘的Alpha。