刘德寰:大数据等于大忽悠吗？

万得福 · 发表于 2015-3-31 13:34:36

【摘要】本文为刘德寰教授在腾讯思享会上的演讲，以三个观点展开：大数据确实带来了大的机会；大数据本身非常像大忽悠；大数据也引来了大风险。
“大数据”实际上现在是一个非常重要，非常热的词汇。22年前我开了一门课叫“数据分析”，冷的不能再冷了。现在突然热了，甚至热得让人受不了。
大数据实际上有三个主要的理解：大数据确实带来了大的机会；大数据本身非常像大忽悠；大数据也引来了大风险。我的演讲主题从这三个点上展开。

大数据带来大机会：各行各业突飞猛进地运用打大数据

先说大数据。大数据到来之后，包括电子商务，零售企业，交通运输，信息产业，公共卫生，教育以及生产企业对零部件的监测，各个产业实际上都在突飞猛进地运用大数据。在这当中，在全球范围内形成了很多重要的案例，我简单介绍几个。
在大数据领域做的最好的一个公司叫Target。它用抽样调查和大数据结合，构造了整个智能的广告推送系统，做得非常非常好，后面我会用一个案例来讲。
有一个在全球范围内影响力非常大的公司叫TESCO，在中国叫乐购。它用的是一个抽样实验加分析，然后进行大数据推送。TESCO能够保证任何一个人只要在这里有了一个完整的消费之后，你出来的那一刹那看到的广告和你进来时是完全不一样的。因为他会根据你的需求来推送完全不同的东西。但是大家也要注意，这当中的前提是实验。TESCO每天都在进行上百个实验。
另外一个是大家都比较熟悉的服装品牌ZARA。ZARA玩的是一个比较传统的方式。它用视频监测，不仅仅看你是否偷了衣服，更重要的是记录你的行为。每一个店长就是调查员，每天收集几千个数据，找寻消费者的需求，这也可以叫调查。历时很长的话就有数据量的影响。
在整个信息产业当中，尤其电商中做得比较好的是亚马逊。它在大数据应用中最典型的传统的方式是行为痕迹的建模和文本挖掘的结合，构建它的数据系统。
还有一个是沃尔玛。它花钱买了一个不到100人的做社交大数据分析的公司Kosmix，同时还建了一个仓储的大数据工具。这是几个非常典型的国外的例子。实际上国内也一样，我本人参与了几个。

我们理解大数据的时候可能都知道一个概念叫“尿布与啤酒”。实际上这个案例在那个时代还没有大数据的情况下，用零售数据发现了某种规律，然后用传统的思想研究陪伴购物构建出来的。但是现在来应用这种方式，只要我们把这些信息补全之后，构造的连带关系的分析和购物篮的分析要远远超过“尿布与啤酒”。
我们看下面的案例，假设一个人买了A牌的卫生纸，B牌的护手霜，他买C牌牛奶的可能性是其他人的4.84倍，买某种饼干的可能性是其他人的4.82倍。如果他买了某种牌子的盐，那他买某品牌香烟的可能性是其他人的4.44倍。这只是把它截断出来，实际上这个数据是一个非常长的购物篮技术。在这类分析中，实际上我们会发现它本身依赖的确实有大数据的源头，但是真正在分析当中也会面临其他问题。所以，我今天更重要的是要讲大数据与大忽悠。

现在“云”很多，到底是浮云还是真正的计算云不好说。如果我们要分析的话，大数据引领的一个时代是一个非常有意思的事情。在没有总结总体性规律的时候，我们直接对个体进行理解，这实际上跟我们常识性的学术研究的逻辑相违背。这种方法简单、实用、粗暴。实际验证的结果不一定有效。后面我拿谷歌的案例来看。
现在有一本书很重要，叫《大数据时代》。书里有两个非常值得商榷的观点，一个是对抽样的极端蔑视，另一个是无原则地推崇相关。我会在后面把这两个点进行比较详细的展开。

大数据引来的大风险：到处都是假规律

实际上大数据带来了几个非常重要的风险。
第一是计算速度。现在速度快极了。Hadoop速度非常快，是调取、存储和归整数据的极好的工具。但是对挖掘数据来讲，这个工具并没有那么好。前一段时间，我们做了一个历时半年的900万用户的智能手机使用习惯的研究。在数据建模的时候我们发现，计算速度实际是一个非常大的问题。我们把16台顶级服务器连成一个超级计算机，在这个基础上把模型建好，运算全数据的过程花了整整21天。我相信航天这些的运算速度没有问题，但是学界的，商用的的东西中，计算速度存在着非常大的问题。

第二，海量数据非常危险。只要玩大数据的人会发现到处都是假规律。我拿一个小数据，比如五千个样本做一个非常简单的线性回归的时候发现有三个变量线性显著。但是没做任何变化，把这个变量复制倍，显著的比例可能五个了，到33万的时候可能所有变量之间的关系都显著了。问题是统计上都显著了，但所有这些结果都是错的。当数据运算量大到大约33万到70万之间时，我们会发现一个非常重要的哲学问题。这个哲学问题是什么呢？——万物都是有联系的。这件事情非常可怕非常麻烦，到底什么是真的规律？1970年有一个学者安德森说过“多带来不同”，那个时代提出这个观点非常好。但是现在“多”带来的真的是不同吗？带来的是迷茫，自我高潮和假规律。这点非常危险。

斯坦福大学的TrevorHastie说了一句著名的话，“在稻草里找一根针”。问题是很多稻草长得跟针是一样的，这是所有大数据研究面临的最大风险。数据太大之后带来的实际上是规律的丧失和失真，所以千万不要忽视了抽样。我们在900万用户的分析中，如果当时直接拿出900万的数据，用6个月的时间，进行移动互联网行为建模，估计到今天我这个模型也建不出来。我们用的事不断探测的过程办法，等于先在里面抽了40万，然后在40万中又抽了2000人做问卷调查，来理解这套数据的逻辑。用40万进行常识性建模，然后再在900万中进行建模，再优化它，形成最后的结果。不要忽视抽样，不要因为我们有了大数据就把传统的知识去掉。

第三个风险也是非常重要的。现在的数据是断裂而封闭的。比如腾讯说我有全数据，你是很全，但你到底有没有百度的？有没有京东的？阿里的？如果没有怎么谈得上全呢？最近出现了一个好的形象性的词汇——“数据孤岛”。我们在喊大数据的过程中形成一个个数据孤岛，在这些孤岛没有打破之前，我们基本上谈不上“全”这个词，更甭说这个数据内部的断裂结构。
第四个风险是缺失。对所有的大数据来讲，分析一个小问题的时候，数据量都不大。几百万，一千万，这个数据量都是可控可选的。对于所有人来讲，要是进行一个全分析时都是缺损永远多于数据。在这种建构过程中，在数学统计学上有两个很重要的词，一个叫技术矩阵，一个叫程序矩阵。单独分析都问题不大，最怕的是这两个混合。微博、微信合在一起一定是容易的。但是微博和一个非常小的技术合在一起，就是一个信息一个技术，怎么分析它？这点难度是极大的。

大数据时代真的是来了，它教育了一种观念。所以，我觉得《大数据时代》这本书非常好，我要求我的学生必须读，但是在批判的视角下读，因为里面有一些比较危险的结论。

大数据本身很像大忽悠：精准营销如何变成了精准骚扰？

第二个要讲忽悠的问题。我们实际上没看明白几个词，数据整理、展示、描述和挖掘是完全不同的概念。整理、描述、展示一个数据，用CRM、ERP很容易，它是简单问题。但是挖掘是一个复杂问题。如果我们整理数据会发现有一些所谓大数据模型是这样的：用一个模型代替重要的发展用户。但是问题是同样一种行为或者同一个人，我们的想法完全不一样，怎么可能用一个模型能够替代了呢？这个实际上你会发现它就是一个空中楼阁一样，因为只见数据不见人是非常危险的。

数据展示形成一个非常重要的流派叫数据可视化，我对这些朋友心存敬意。因为国外的可视化技术到最后基本上是艺术。漂亮吗？很漂亮，但是得出了什么结论呢？谁粉丝多谁转化率高。于建嵘老师比我粉丝多多了，他的转发量一定比我高，转发率呢？可视化的感受非常好，但它只属于展示，并没有分析内在的规律。

我们曾经做过一个简单的抽样调查。我们建模分析的是2003年淘宝在全中国运行之后，对中国网络带来的影响。这个时候总共用一张图展现不了，得用16张图展示一个现象。我可能有点儿孤陋寡闻，但现在还没有见到其他研究使用这种比较深入的分析方式。

真正数据挖掘在国外的经典案例当中，Target的案例最有典型意义。生活改变会导致购物行为的变化，然后会有一些大数据推送方式的变化。营销学、广告学、公共卫生学、心理学、数据分析、数据挖掘，所有这些知识是混合性知识，大数据恰恰需要这种混合才可能做好。

前两天我买了一个5升的洗衣液，家里人再多，我至少也得用一个月。同时你也要知道我买的时候我是别的什么都没看，直接到那儿下完单就走了，这说明我是品牌忠诚者。你应该做的不是在我一上网的时候就推送一大堆各种品牌的洗衣，你应该告诉我这个品牌洗衣液在什么时间打折，这才叫大数据分析。

数据挖掘的商业本质要简单不能再简单，但是过程非常复杂。不是简单的CRM、ERP跑一圈儿就给你推送。那是从精准营销蜕变为精准骚扰。
所以，数据挖掘不是黑箱，不是一个调动数据的方法，也不是整理数据的方法。它实际上需要在思想的基础上做。真正进行跟人相关的大数据挖掘的时候一定要关注人性。很多人说网购起来之后实体店不行了。如果实体店真的不行了，年轻女孩到哪儿挥洒青春？没劲儿了。逛街的核心在逛，不在于买。要了解人性再去建那种模型才会有意义。很多人说乔布斯不相信调查。乔布斯最基本的习惯，经常整天躲在苹果体验店前的灌木丛中看体验店里的人在干嘛。这是典型的观察法，是人类研究问题最早期的研究方法。所以，知觉、体验、灵机一动、体会、内省，所有这些看起来跟大数据无关的东西可能恰恰是大数据的核心，因为它是思想。

谷歌在2008年的时候开发一个非常重要的东西，叫流感趋势预测，最初它预测的结果比美国疾控中心的预测结果还准，轰动了全球。结果接下来你会发现它那个东西越来越乱，严重高估了流感的状态。为什么？就是因为刚才谈到的维克多·迈尔-舍恩伯格这一流派在谈大数据的时候重相关不重因果。无论真相关假相关，相关就中，正是假相关造就了谷歌的失败。假相关怎么来的？某一次流感发病的时间点，比如跟美国中学生篮球赛那个时间点是完全一致的。你说这俩概念能有关系吗？问题是只要搜索中学生的篮球赛，就构成了流感预测的一个主要的词之一。类似的东西太多了，为什么？因为在谷歌预测的时候，没有找疾控专家。这些东西才是进行大数据预测的一个很重要的前提。

虽然谷歌不断调整和完善算法，但它一旦把这个事情说出来之后，为了验证一下这件事儿，很多人开始使用这个产品。消费者的好奇心是惊人的，他们一玩儿就使这个数变的非常大。所以，从那以后一次也没有预测准美国的流感。人的行为在这里面的作用实际上是计算机考虑不到的。这里面就是过度拟合、虚假相关和人性这几个问题造就了谷歌的错误。
这时你也会发现这些商业公司在做的时候，更多是跟商业逻辑相关的一个概念。它真的不是纯的研究，而且我们并不知道它整个计算的完整过程。所以，掌握大数据本身并不等于是拥有良好的数据。这是美国《科学》杂志在系统评估谷歌的时候说出来的一句话。

大数据只是一个工具，不能替代基础知识

在实际的商业应用中，现在这个时代，要一揽子把大数据这个概念说透，我觉得神仙也做不到。在现实的应用中，大数据小应用是一个核心方式。前面我提到的五个国外的比较好的成功案例当中，没有一个不包含抽样，没有一个不包含小数据。也就是说大数据不能忽视各个专业的基础知识，比如历史学、法学、政治学、社会学、心理学，大数据本身不构成带来知识的积累，它只是带来一个数的变化。
算法如果依赖了对这个独立领域的深度理解，再去跟IT、数学的技能连在一起，会做出一个比较好的大数据分析。只靠一个算法得到得那种知识非常快，但是从现来看，错误率也是极高的。算法本身还是依赖于人。所以，人工智能的中文翻译真是挺好的，没有人工，无法智能，所以叫“人工智能”，这是确确实实有道理的一个概念。
从我个人理解来讲，大数据运算本身构造给大家一个有更多能力的新的算盘，你说算盘有用吗？确确实实有用，但是算盘代表了所有知识吗？不可能。它是给我们提供了一个各个领域都能够用的一个工具。

商业本质当中，纯IT人员可能真的无法做好挖掘这个概念。能做好整理、展示、调取，但是挖掘很难，可能需要市场研究的、营销方面的专业人员。另外如果是历史就让历史学家同时介入，如果社会就让社会学家同时介入，这个时候可能能把东西做好。

当然，大数据还有一个小主题就是风险。风险这一块儿很多人在谈，有治安的问题，有侵犯个人隐私的问题。现在尤其在车联网、物联网的发展过程中，甚至以后我们买的任何一个东西，我们的油烟机、冰箱、洗衣机、电视里面都有定位。因为那时一个定位装置可能就十块钱，非常便宜。你的位置，你在这个城市大概的覆盖的逻辑我都知道了，然后我能够传到网络上去。如果我们满屋子都是Wifi的时候，会不会造成公共健康问题？我不是这个领域的人，我真的不知道会不会有。未来如果真的建构出了那种智能性的机器人，说实话，我们在座的这些人合在一起绝对打不过一个机器人。谢谢大家。

		自动登录	找回密码
密码			注册帐号