2014西湖品学大数据峰会---Greg Kobrick :基于大数据的经济信号



大家觉得在大数据在经济领域应用多吗?我们的观念是经济学家和华尔街卖方买方时在经济分析上乱用一气,实际上美国应用大数据都是公司的营销,比如说美国票据联盟就用大数据帮助他们卖票。正如这张幻灯片所示,我们每时每刻都在数据的海洋当中,比如说交通、卫星识别信号等等,他们无时无刻不在创造新的数据,电子商务和社交网络也造成了大量的数据,如果可以通过一些手段充分应用数据,他们不仅可以帮助我们更好的认识世界,也可以极大地的完善服务流程。实际上,这就是大数据当中的应用,获取了数据以后,把大数据存起来,并做相关的分析,最后应用于决策。麻省理工大学最近有一项研究,它发现大数据支持的决策可以使生产力提高5%到6%,我们认为这是相对比较保守的估计,因为目前的应用都只是大数据的冰山一角,在我们和硅谷大量接触过程中发现,目前的共识认为这是非常巨大的市场,并且在于每年的数据监控。
大数据在经济和金融领域应用的滞后
为什么大数据在经济和金融领域应用如何滞后呢?我们也不知道原因,但是我们猜想,以目前力所能及的范围内知道在美国有几家公司,国内有北大和清华的研究室做研究,但目前还没有用大数据作为经济决策和金融决策。我们得出结论,因为我们公司服务是全球的共同基金,通过和客户的接触了解到这些公司作出决策还是用80年代初的数据分析手段,主要是excel表和电话销售。这种老旧的分析法在数据量的时候可以勉强凑合,但在今天信息爆炸时代,数据的已经成为一个数量级,所以需要关注客户解决的问题是如何让他们在正确的时间拿到正确的数据,得出处理信号。
我认为,出问题不在数据这端,而是在过程端。在金融行业,一个研究室是刚刚数据来的工作,更重要的是沟通决策的过程,比如说对数据做沟通,分析市场出现的情况,这样的工作浪费了大量的时间。以我个人为例,作为一个资产组合管理者,我们团队管理大概有100亿美元的资产,负责400多只大股票,每个人分析员每天要受到500封电子邮件,有大量的会议要参加,作为这样的人能在每天工作结束的时候可以有时间看哪只股票涨、哪只股票跌就已经很不错了。由于有这么多琐事来做,在最后有时间勉强搜索分析一下和投资组合相关的数据,这样时候得到的数据也是以网页形式存在的,做数据分析的人知道,如果要对数据进行统计分析都是要进行手工填写才能做统计分析,这就更消耗时间了。
因此,我认为,在目前华尔街经济金融和经济分析中,人工处理噪音耗费了大量时间,所谓的结果是我们管理者公募基金在全美是排前几位,但收益率却远远没有达到平均水平。我们需要做的是将这种低附加值的重复性劳动进行机器智能化处理,然后把相关数据植入统计中,使客户直接作出投资决策。如果用传统的方法雇佣更多积极分析员、浏览更多的excel文件或者雇佣更多的支持人员,他们仍然不会产生相对的基于大数据规模效应。
大数据的市场需求
在我们看来,客户进行研究未来的知识应该是能够在云计算的基础上永久性、持续性、自动行进行组合数据,这样客户不仅可以得出数据,还可以做可视化处理,这样可以帮助他们把主要精力释放出来,投入高附加值的活动中。
这里我要为大家举一个例子,这个例子里面将会展示一个及时应用的投资信号中将会用到的一些技术工具,比如说数据信号识别和优化,再语言加工、机器学习和模式识别等等技术起到了的关键性作用,只有这样才能持续性的改善信号质量和决策指向。
下面要向大家展示的是两个我们公司开发的经济信号产品。第一个案例是和美国住宅市场价格走势相关,在美国衡量最广泛的指标是Case-Shiller指数,它类似中国国家统计局每个月发布的住宅价格指数。Case-Shiller指数是耶鲁大学罗伯特希勒(音)教授和哈佛大学卡尔佩斯(音)教授合作构建,从1990年以来这个指数一直被投资界作为美国住宅市场的风向标使用。我们的问题是能不能在每个月Case-Shiller指数发布之前就能够提前了解美国房地产市场这个月的运行状态呢?我相信任何一个关注美国房产经济走势的人都会对这个问题有兴趣,因为在美国和在中国都一样,房地产行业直接影响到宏观经济中大约50个子行列,比如说钢铁、装修、水泥、玻璃等等,因为房地产涉及面非常广泛,同时房地产行业也可以帮助人们判断经济周期的更替和宏观经济的冷暖。
另外,华尔街的投资者也有非常大的动力希望提前知道房地产市场的走势,它可以帮助投资人提前判断房地产行业的房地产企业收入走势,根据传统股价定价规则,股价和基本利润连接,利润和收入连接在一起,所以收入的状态可以判断房地产企业的走势,如果提前知道房价走入上行和下行阶段,投资者就可以知道是减持相关股票或者是增持相关股票。
基于这样的市场需求,我们和一家数据伙伴公司Altos合作得出了一组数据,中文翻译是DISCERN房价指数,它可以作为Case-Shiller指数的先行指标,我们用测试表明美国房价七次房价指标当中,有六次提前于Case-Shiller指数预知,而且每次都是提前几周。
这是如何编制的呢?首先我们跟踪美国房地产网站中每天发布的信息,这些信息来自全美50多个州两万多个邮政编码对应的房屋地址,应用数据加重指数,我们每周更新超过两百万的实体交易,每时每刻都可以实时更新市场行情。后台工程师通过数据加工和提炼,运用相关数据集成技术建立高频率的时间序列,使我们可以提前几个月知道Case-Shiller指数走势,并成功预测美国住宅市场的价格趋势,这也是我们公司卖得比较成功的产品之一,但部分华尔街客户都非常喜欢这款产品。如您看到的,如果没有大数据的技术,这款产品开发是不可能的。
第二个案例是我们公司的工程师为美国一家排名前十的公募基金管理公司完成的独家项目,这个项目里面做的是心脏瓣膜的,这家公司的基金经理从小道知道这家医院心脏瓣膜设备的趋势,但相关主流传媒并没有相关报道。
我们在2012年4月份做相关数据分析,2014年5月份做了数据分析,并和两家小的媒体有相关消息出现,但这两个网站并不是主流媒体,他们只是业内专业性较强的网站。遗憾的是谷歌的关健词并没有延伸到这么小、这么专业的地方,因此我们的客户一般手动搜索用的是谷歌的软件,就搜索不到美国心脏学会或者是调频家相关信息,根据我从旧金山工程师那里了解到,基于技术问题仍然是美国工程师面临的巨大问题,很少有公司可以成功解决这些问题。
故事还没有结束,我们向客户通知这一搜索结果之后,华尔街日报在30天之后报道了这家公司存在的缺陷,这个报道一出,该公司当天的股价缩水了6%。同时我们用数据做了一些回溯测试,我们发现2012年英国监管机构就发布了该设备的警告,但似乎没有人注意到这则警告的存在,这则警告发布之后这家公司在美国的股价仍然持续上扬。它给投资者的教训就是即使有时候监管机构发现了问题,没有经过主流媒体的报道,华尔街仍然注意不到这样的事情,针对这样的个案,即使投入更多的人力或者更多数据终端进行更多人力调查,仍然无法优化投资决策,在这事情中唯一可以得到的办法是通过大数据做出的科学决策。
阿里巴巴正在通过大数据和云计算,试图把大数据和云计算技术引入到商业和金融领域,这是非常激动人心的实行,我们认为阿里巴巴既有广泛的数据和顶尖的技术,如果合二为一,将会为金融和经济领域带来振奋人心的消息!

没有评论: