2014西湖品学大数据峰会---吕本富 :大数据分析的经济价值



经常有人引用这一段话:大数据就是年轻人谈性,我说你做过,你说我做过,大家谁都没有做过。
很多传统企业都是这么说,如果大数据并不是年轻人谈性,就要提一个问题是“价值在哪里”。价值并不是忽悠,要从企业竞争角度创造了什么价值,所以价值在哪里,应该是所有大数据做经济分析中最重要的关健词,在哪里存活,在这里就是价值。
应用需求驱动商业模式,商业模式带来里经济价值,这就是大数据的立足点。互联网承载了太多的信息和信号,大众的情绪、消费者喜好、市场潮流、不同人群的关注点等等。
从商业模式的角度看,把它分为三类:第一类是圈定用户和针对营销,就是谁是我的客户、谁不是;第二类,用户的关联分析,在用户群当中是老的、少的,他们有什么关系;第三类,完全个性化定制或者个性化分析,就是先确定大圈子,然后圈子中分类,然后个性化。
应该说,不同情况下有不同的价值,不管对哪个学派或者实践都认为管理的本质是决策,而决策最重要的本质是受信息不对称的影响,信息越对称决策价值越大,如果可以通过大数据的挖掘分析可以作出决策,最根本是能不能有助于决策,这是核心。由于决策之后会使得企业的竞争规则发生变化,我们知道大部分学过MBA的同学都知道迈克尔波特说过竞争的价值取决于经济价值。如果创新会带来一些竞争优势,但是容易被别人山寨,我们知道我们山寨能力很强,我的成功可以复制,我的复制可以成功,什么才是持久的能力呢?低成本高效率,过去认为是战术性,过去认为低成本高效率是战术型,现在看来是一个国家和企业的长期竞争,就是差异化、低成本,但如果不和运营效率放在一起就不是长久的竞争力。低成本高效率就是大数据的弹性商业过程,各个过程无缝隙、无摩擦的对接。
首先生产体系是对接,第二,、各个体系摩擦成本降到最低,所以我们把数据价值分为三类:第一,数据驱动的决策;第二数据驱动的流程;第三数据驱动的产品。
第一个就是提高预测概率,提高决策成功率。今天上午有一个阿里金融的说计划经济比市场经济优越,因为可以有大数据、定制、预售,其实就是第一个说的,数据驱动的决策可以提高预测的概率。讲一件专业的事情,不知道各位是否知道“最大最小定制”。什么意思呢?传统双方博弈的时候,比如说你是踢球员,我和守门员,我们两方的博弈就是我们两方的概率应该是对等。大数据就是最大最小定制,我要对你的细致了解,因为我不是博弈性质和概率性质,所以决策可以提高预测概率。
第二个是数据驱动流程,就像今天上午老师说的我们要形成闭环营销的成功率,就是我划了圈子,所有客户都在圈子里,所有营销对折他来,还要和漏斗转化结合,这就是数据驱动流程。
第三个产品是迭代的创新,创新有颠覆性创新和迭代的创新,经常有人说把谁谁颠覆了,我不喜欢听这个词,我喜欢迭代,就是小步快跑,大数据一般指导的是小步快跑的迭代创新,现在微信为什么很牛,因为迭代很强,就是今天改一个功能明天改一个功能,这三类会带来价值。
针对这三类,因为大数据最重要的是决策和优化,对企业来说决策和优化可以代替效率,可以把迭代和优化分为三个层级:第一谁在圈子内,第二属于圈子内的哪个族群,第三个是圈子消耗。广告界有一句话名言叫做“我知道我的广告费有50%恩浪费了,但不知道哪一半”。现在就是要通过大数据排除非相关人员,确定圈子和利益相关者,这是有效影响,其他没有有效影响的基本上和我没有关系。不知道在座有没有看过郭敬明的《小时代》,我看不懂,就写了骂他,但他照样卖3个亿,我就不是他的客户,不是他的圈子。现在不要全国人民拥护我,只要圈子拥护我就发财了。然后是不管是哪一类数据,圈定了就有价值。
第一个层级是针对一个具体的应用,依据性别、收入、地域、年龄等特点,签订相近的人群。比如在电子商务网站内,预测什么地方的人买东西最疯狂或是预测什么型号手机最好卖,麦当劳、肯德基以及苹果公司器件专卖店的位置精准选址,针对这个全体如何进一步打磨广告、市场营销等等,就可以优化定价策略和产品线。
第二个层级就是通常说的在确定圈子以后,需要把商品和人群分为不同的族群的通过族群和消费者当中确定消费人群,购物篮是最常见的大数据分析技术,过去就是打印单上家庭主妇放在什么地方一块儿买了,比如说塔吉特针对怀孕的妇女,做了一个“怀孕指数”,就像中国有一句话叫酸儿辣女,通过怀孕指数可以知道预产期。我们经常会说通过过程数据和结果数据进行关联性分析。并不是关联性分析很容易,其实也有难点。比如说对书、手机、家电的Hard Line的产品可以认为是标品,通过时间序列预测是比较准的,但对服装、装饰等是软性商品,无法通过时间预测,因为这类东西受到干扰东西太多,比如说颜色、合不合身,还有朋友的意见,而且买得人多了就不买了,所以这样软性产品的预测非常困难,比如说从术语来说是多维变量,就比较难。
第三个层级确定圈子个体的特征,由此提供个性化的定制、产品和服务,比如说有一个电影叫《点石成金》,里面就是专门算哪一个球手,比如说我这个球队进攻最弱,就把进攻最强的球员买过来。比如说我有一个芯片安装在汽车上就可以测试驾驶习惯,拐弯是不是很急,刹车是不是很稳,确定每年效率税率,过去中国人完全说看客下菜碟,从消费者来说为每一个人定价才是最好的,基本上所有的生产者剩余都拿到自己的手里,过去没有这个条件,现在大数据就可以进行个性化定价。所以航空公司和快递公司可以提供体贴入微的服务,沃尔玛利用数据分析提供最优的价值。确定圈子、确定关系、确定定价以前就有,只是通过大数据确定价值,带来新的增量。
既然数据的科学,大家觉得大数据完全是忽悠的概念,经过最近实践探讨,我们觉得它确实和原来的统计不一样,但是和原来数据挖掘的方法论不一样,它确实有点新的问题,问题就是解决任何问题都有一个叫方法,在过去问题多样性手段是丰富的,不同的行业特性、不同的企业规模、不同的成长阶段产生了很多共同特点,又有个性鲜明的问题。在解决管理学的问题,工具非常多,过去有人统计世界上有200多种研究的方法。这些盲人都要和数据结合在一起,正好演讲开始就讲了气象,其实作1913年一个叫理查森就找到了空气动力学方程,他为了帮助中国打一站,根据他的方程可以预测出第二天的天气,问题是准备数据需要6个星期,所以一直到一战结束的时候理查森的数据没有准确过。一直到20世纪,现在对过去天气的统计可以精确到5%,刚才演讲者说可以达到85%了,所以我们检测的时候数据还是那个数据,但方法不一样了。
所以在大数据背景下,方向不一样了。问题从预测、选择、优化、仿真重点转向了关联和决策,现在最重要找关联关系能不能决策变成问题最重要的方式了,其实这也是中国人所擅长的,我原来做大数据演讲的时候,有人说大数据西方怎么好,我就告诉他也不是这样的,中国人搞中医不就是大数据吗?中医只管关联不管过程的,按摩好了不管中间的机理,但是那个药吃死多少人不知道,中医就是大数据,只管相关关系,不管过程。数据就是从小样本转减模型大数据的研究范式,所以对数据结构的深入分析将会成为重点。
数据有些什么问题呢?
我们经常在做数据分析的时候发现两个相关,就是高频数据和低频数据需要统一。比如说淘宝的交易数据是每秒、每个小时、每日,高频数据的研究是对时间尺度极小的,低频数据的研究是时间尺度极大的,经济危机是三十年一个循环就是很大的数据周期,所以高频数据和低频数据是怎么,流感传播是以一个星期,对接不好了就会出问题。
还有高阶数据和低阶数据,因为我们在商品预测上很多,过去不仅取决于过去的财富量还取决于当前的财富,如果把财富看成Y,那么财富的一阶导就是当期的收入,财富的二阶导就是拐点,就是未来的收入,所以决定消费者的表征就是C=C(y,y’,y’’)所以经济系统当中引入高阶变相和低阶变量,即未来变量和滞后变量,都非常重要。过去小数据没有这样的条件,小数据都不知道哪个是未来哪个是当期,大数据可以找出。
还有微观变量,我们和阿里做消费者信息指数的时候发现,如果把全网加起来做指数非常难,因为类目老是变动。一般来说,热力学类型的数据,我们学物理都知道,热力学类型的数据都是宏观数据,比如说压气等等,都是事物趋势和可能。动力学类型的微观数据,比如说速率、类目等,反应是一个事物的实现性,这是微观数据。比如说我们和阿里做消费者信息指数的时候一定不能做微观数据。动力学和数据和热力学不能混同,如果混同就会有问题,因为类目老是调整。
第四个是高维数据和变维数据的问题。高维数据包括三种,比如筛因变量和高维的,即一个变量可以影响很多变量,第二个是自变量是高维向量,影响一个变量变动的因子有很多,第三个是因变量和自变量都是高维的向量。当因变量和自变量都是高维的时候,现在有人说炒股有27000多个变量,所以很多人搞不清楚。这个要做相关性分析怎么做呢?多维变量和多维变量的工具不是很多,所以我跟我们一个数据老师说你做一个这样的工具将来扬名立万了。在学科交界处,不但存在高维数据,还存在变维数据。不要认为这很虚,比如说这类人群对某一类服装的销售就是多维和多维变量的问题,所以现在为什么叫软线产品,多维变量的关系很难理解,而且还有变维,就是有一个纬度影响不是很大。而且交易数据不仅是时间序列,而且和政治、自然、人际、情绪都有关系。其实数据除了刚才说的以外,还有很多,我们在进行大数据分析的时候,黑天鹅事件和异常值分析等等,比如说异常值分析,在过去统计分析中异常值就舍弃了,但大数据异常值很多,异常值在过去挖掘当中就很少,现在做大数据很多。
我只讲了四个,大数据分析当中可能遇到的大概有十类问题。今天时间有限,就不说那么多了,谢谢大家!

没有评论: