关于大数据,我有几点看法:第一,由于大数据刚刚热起来,所以不必着急下结论。当年IT刚刚发展时,研究增长问题的权威罗伯特·索洛(Robert Solow)教授提出了一个“索洛悖论”:“我们到处都看得见计算机,就是在生产率统计方面却看不见。”直到过了15年,到2002年时,他才公开承认说:“我现在发现IT可能对生产率是有贡献的。”对大数据的研究,可能也需要一个很长的时间才能确认价值所在。
第二,可能性不等于可行性。现在有种观点:“到底是大数据还是大忽悠?什么都讲是大数据。”其实是说现在讲的或者设想的都是“可能性”而不是“可行性”。“可行性”要到什么时间?现在还看不出来。它需要合理的制度安排,还需要企业、公司不断地进行商业实践、不断试错,以及科研工作者对大数据分析技术的不断改进。
第三,目前的研究主要还是提问阶段,而不是解决问题。当然,如果能提出好的问题,这也算是一个研究的好成果。
最后,本文尽量多摆事实、少讲道理;多提供一点素材,少提供一点观点。
一、大数据的产生、内涵及争议
首先,大数据何来?实际上大数据一直存在,存在于不同的地方。比如每个人都包涵着很多数据:身高、体重等等,包括观点、思想。但是过去没有互联网,所以这些数据很难得到应用。数据分析在很早就存在。春秋时孙膑就曾用对方营地做灶的数量来判断对方军队的数量,从而指导打仗。不过,当时这样的数据非常少,有这个利用能力的人才会成为时代的智者。
然而,现在的情况不太一样了。互联网应用以来,从2005年开始,数据在不断地增长,到2010年以后基本上是一个指数增长的过程,到2013年时已经超过4个ZB,每年的增长率超过50%。这就是一个从量变到质变的过程。
之前为什么不说大数据呢?这是个相对的概念,到某一天它的增长速度突然特别快的时候,“大”的概念就蹦出来了。所以它其实不是一个严格的学术概念,只是因为在量变的过程中大家感觉到这种质变,或者感觉它里面有价值。
主要的数据来源
主要的数据来源,总的来讲有两个方面:
第一,物的数据。
其中比较有代表性的,就是由传感器组成的物联网,这个概念是IBM在2009年提出来的一种商业模式,当时叫“智慧地球”。就是把传感器装到不同的物体上面,然后展现它的各种数据,比如温度、湿度、压力等等。物联网这几年的增长速度比较快,能达到20%-30%的增长速度,物的数据在不断地增加。
第二,人的数据。
其中最典型的是移动互联网的发展。近年来移动互联网占整个互联网流量的比例越来越高,移动端尤其是用户自己发送数据的比例大大提高了,这也是大数据非常重要的一个来源。通过这些移动端的数据,就可以判断一个人的职业、兴趣、品质或者其每时每刻的位置,就是说,靠这些数据能很精确地找到每个人的各种情况。
数据为什么会突然大量增加?一是IT成本下降,此外,跟这两年云计算使用率的上升有很大的关系。从亚马逊(313.62, 6.56, 2.14%)弹性云存储的文件量增长情况可见,从2006年到2013年增加的量是非常显著的,到2013年二季度时已经有2万亿数量文件存储在弹性云上。
那么,云计算为什么会降低IT成本?基于我们之前一年的实践研究数据可知,首先,从需求方来看,过去购买一些硬件包括服务器、电脑等等,成本比较昂贵。但是云计算系统把IT资源集中起来后,以租用的方式来使用,就比买它的价格便宜很多。从供给的角度来看,当把所有的IT资源集中起来以后,会有非常明显的规模经济,因为同时运营很多台服务器(当然这是基于技术),其成本会显著下降。
这里还有一个范围经济的概念:当把IT资源集中起来以后,不单有规模经济,还经营了多种的资源。比如说,搜索可能需要占很多CPU的计算资源,但是磁盘资源可能没那么多;电子邮件可能相反。当它集中运用的时候,可以同时得到这两种效率。所以,这也是云计算对IT成本下降的一个贡献。
大数据四“V”
关于大数据的定义,现在谈得最多的就是所谓的四个“V”,也有五个、六个“V”之说。IDC(互联网数据中心)归结的四个“V”中,第一个就是它的实际规模。从早先的KB,到TB,一直到后来的PB、EB,数据的量在不断地增加,这是一个表面的现象。
第二个“V”是多样的数据类型,尤其是里面包涵了大量的非结构化的数据。什么是非结构化的数据?比如在网上发一条微信,这句话本身没法拿来做统计或计量分析,但是可以在里面提取结构化数据进行分析。这样的数据反而占数据量很重要的一部分。
第三个“V”讲的是价值,有两点:一个是价值大,大数据带来各种可能性;另外一个比较重要的是,它虽然量很大、价值也很大,但是密度很低。在互联网上抓取的1GB的大数据,里面有用的可能只有千分之一、万分之一,或者百万分之一,所以,挖掘和分析比原来更加困难。
第四个“V”就是动态数据的快速处理。在这方面云计算的贡献比较大,这里比较核心的,也是大数据将来能不能从“可能”到“可行”转变的两个要素,即:非结构化和低密度。这两者其实互相相关,如果技术上能解决怎么分析非结构化数据、怎么从低密度价值里面提取数据的价值,那么大数据的应用可能就会有一个飞跃的增长。所以,我觉得非结构化和低密度可能是大数据的核心东西。
那么大数据是什么呢?如果管中窥豹,从点上去看它,首先,大数据的“大”肯定是一个相对的概念,它不是一个绝对的概念。另外,它更不是一个学术性的概念,而且这里面需要关注的就是非结构化的数据可能占大数据的主要部分,尤其是来自于网民的交互式的数据可能是未来大数据的主体之一。
从分析方法来看,过去得到数据或者统计的方法是抽样,然后利用概率论和随机过程等数学的方法来推理,从而达到目的,推测得出全部数据。现在有这种可能性,如果成本降得比较低的话,就可以获得全部的数据。
对大数据的质疑
当然,对大数据也有非常多的质疑。首先,有人提出“大数据陷阱”。数据是不是越多越好?实际上,对任何企业或个体来说,数据肯定不是越多越好,肯定有一个最优的数据量,因为要分析大量的数据,方法是不是可能?分析成本有多高?这个大量的数据包含的价值有多大?所以,对每一个企业都有一个最优的数据量,就是从拿到的数据范围里面获得的价值和为了获得这些价值而付出的分析成本,它们两个接近相等的时候,可能就是最优数据量。
再就是,MIT的凯特·克劳福德(Kate Crawford)教授提出“大数据中存在偏见和盲区”:数据在生成或采集的过程中并不都是平等的,大数据集存在“信号问题”,即某些民众和社区被忽略或未得到充分体现。这个比较典型,比如说,国内现在有6亿多网民,有时候不能用6亿的数据去判断13亿人的状态,因为这个过程不是靠抽样得到的。
第三个问题就是“泄露个人隐私成为日益严重的担忧”。在我们不知情时,数据就被人拿走了,这是很可怕的事。
二、大数据应用的潜在经济影响
如果从宏观或者立体的角度看,人类整个经济发展的过程其实就是不断地把一些不可利用的资源变成可利用的资源的过程。这个过程一般就是技术的一个个大突破,当然每一次技术突破都伴随着不断的、大量的投资过程,并将其转化成价值。
比如2008年的金融危机,一开始大家都关注金融的问题,后来很多经济学家提出,这可能是过去的IT技术的经济效应不断耗尽,而新的技术还没有出来所造成的现象——当技术处在一个不给力的阶段的时候,金融就发生问题。实际上很多发达国家在2008年以后也是寄希望于一套新技术来摆脱实体经济的衰落和危机,大数据包括云计算、新能源都是被他们寄予厚望的几个关键技术之一。
下一代通用目的技术?
1995年时,通用目的技术的概念被提出,其特征就是它在许许多多的部门都具有广泛而且普遍深入使用的潜力和技术活力,区别于一般的专用技术,它的影响非常广,甚至一项通用目的技术的发展和进步往往会引发全面的生产率的收益。
到2005年时,加拿大的Lipsey教授出了一本书,总结了人类历史发展过程中经历的24种通用目的技术——从青铜冶炼,到钻木取火,一直到2000年左右的互联网信息技术。所以,如果从增长的视角来观察大数据的话,一个核心的问题就是:大数据会不会成为大家期待的下一代的通用目的技术?如果是的话,它可能会带来比较显著的经济增长效应。
目前,大家都在期待着通用目的技术,但是真正在市场里摸爬滚打的风险投资家们,他们显然还没有明确地认为哪一项技术能够成为代替互联网的下一代通用目的技术。
在2004年左右时,有人提出了“BT会代替IT”的观点,讲了很多生物技术的可能性,但它最终没有转化为能够看得到的“可行性”——到现在为止,它也没有真正实现对IT的替代。包括2008年以后的新能源或者云计算、大数据,它们都没有真正出现一个让投资热高涨的阶段。所以,现在我们还没有明显地看到下一代通用目的技术是什么,只是有很多的设想,包括今天对大数据可能也只是一种设想、一种期望。
产业发展前景
从大数据本身的情况来看,是不是具备一些通用目的技术的特征?麦肯锡研究院根据其模型做出一些具体的预测:大数据可以为美国的医疗服务业带来3000亿美元的潜在增加值,对欧洲的公共管理每年有2500亿欧元的潜在价值,为位置服务产业带来6000亿美元的潜在年收入。同时,零售商充分利用大数据可实现运营利润增长60%——这是一个非常可观的数字,因为大数据现在对制造业的利润平均可能不到5%。另外,制造业充分利用大数据可降低整个成本的50%。
上面是宏观地看,现在提供一个微观的案例。德国小贷公司Kreditech不需要客户提供信用证明,比如资产等,只是通过访问用户的一些电子商务数据(在中国就是淘宝、eBay的数据)、社交数据(比如Facebook)来了解你的电子商务购物行为、手机的使用情况以及位置数据等,然后用这些数据来侧面分析客户信用度。这个贷款过程非常快,用模型来判断,只需几秒钟,放贷只要15分钟。当然,它只提供小额贷款,目前这些国家的高额贷款主要还是大银行在做,它们有传统优势,但是大银行关注不到的一些地方,就由小贷公司提供服务。Kreditech提供的贷款额度最高为500欧元。从效率上来看,这已经是一个很好的尝试了。这样的公司现在美国、英国比较多。
在中国,比如,新的互联网企业、新的龙头企业BAT,当初2000年互联网泡沫的时候,讲的是搜狐、新浪、网易这样的企业,现在阿里管它们叫“互联网1.0”。现在BAT都是掌握了大量数据的企业。其中百度有最大的网页搜索数据,阿里巴巴有最大的电商数据,腾讯掌握着最大的社交数据。所以,这不是一个偶然的现象。
为什么这样的企业会成为引领现代互联网产业发展的企业?很可能跟大数据的价值有内在的关系。举一个小例子:打车软件深度发展就是基于位置的服务,在每个点上可以看到周围有哪些车,甚至车的位置也可以知道。反过来也一样,司机可以看到每个乘客的距离有多远。这种数据如果在这个行业有很深应用的话,甚至可能会对用户的购车行为产生影响。
在中国,工信部下属的赛迪做过一个关于投资的预测:对大数据的投资从2012年到2015年大概每年增长100%左右,这个速度甚至超过国外的速度。
对波动的冲击效应
宏观经济学两个基本的问题:一个是增长,一个是波动。前面讲的是一个经济增长的视角,其实从经济波动和政府干预的视角来看,大数据也会带来一些冲击效应。
这里要提出一个问题,大数据的发展能否真正改善供需平衡?因为短期的经济周期性的波动的危害也是比较大的,其核心就是供需不平衡。大数据对此会不会有贡献?举两个例子:一个是淘宝搞的“订单农业”。它通过网上的数据平台去获得需要的信息,然后再按照订单来组织、安排生产。另外一个例子是制造业。2013年海尔同阿里合作,叫“家电定制”,先由阿里来收集消费者对海尔产品的需求情况,然后再组织生产,生产周期大概1个-2个月。当时这个活动的效果也不错。
当然,不能由这两个案例就推而广之说大数据能解决供需平衡的问题。如果收集全国所有的数据,恐怕量比较大,而且也比较困难。但是,至少从这个角度来看,我们看到这种可能性,值得思考。
再就是对政府干预合理性的影响。为什么政府需要干预?因为市场失灵了。为什么市场会失灵?比如在二手车市场上,供方和需方的信息是不对称的,卖车的人拥有比买车的人更多的信息。在这种情况下,如果消费者真的按照市场均衡的价格去买二手车的话,买到的只能是劣等车,好车是买不到的,这就是“劣币驱逐良币”的现象。从这个例子可以看出市场是有可能失灵的,所以需要政府在某些方面给予干预。但是在大数据的条件下来看这个问题的话,如果一个二手车的买家在合理的制度安排下,比如可以到保险公司去查它的数据,就知道它修了几次,出了几次险,到4S店去看就知道它每次出险修的是什么地方。这样买家就可能知道二手车的全部信息,这样会不会对清除这种现象有很大的改善?
讲这个故事就是说,经济学的一些传统的分析范式也好,一些传统观点也好,甚至有一些结论,很可能在大数据的条件下会发生很大变化,比如政府干预的必要性是不是比以前更加不必要了。这都是需要研究的问题。
三、大数据对社会治理的可能影响
十八届三中全会讲到:“全面深化改革的总目标是完善和发展中国特色社会主义制度,推进国家治理体系和治理能力现代化。”“国家治理体系”和“治理能力”到底指的是什么或者如何推进?大数据对这个问题应该是可以有贡献的。
比如,在许多西方国家,通过选举这套代议制度来把民意反映到政府的层次,而国内除了人民代表大会制度外,更多是领导通过调研的方式来体察民意。这实际上是一种抽样的性质,去看一些个案,但个案容易在实践中出现虚假现象,甚至国务院领导都曾被地方作假所蒙蔽。所以,这种体制下怎么去感知民意?现在互联网至少汇聚了6亿网民的一些数据,在一定程度上体现了大数据的“全样本”特征,有一个很好的技术基础。
第二个案例是“犯罪预警”。有些地方的司法部门已经建立了一个大数据分析中心,通过分析互联网中,比如商业方面的一些业务数据,包括来自于传感器的传感数据、一些邮件、互联网花费单、银行账户等等,将各类结构化的、非结构化的数据集中到大数据中心来,然后通过线索识别、指纹抽取等一系列手段进行分析,从而达到预警。
再比如,美国洛杉矶警察局总结认为,利用大数据的分析软件,成功地将辖区里的盗窃犯罪降低了33%,暴力犯罪降低了21%,财产类犯罪降低了12%。其方法很简单,就是用模型把洛杉矶区域内即将发生犯罪的特定语句挑出来,比如人们谈论的话:“出去啊”“看球啊”“喝酒啊”等等,通常会与犯罪相关的语言。这就是非结构化的数据,因为它跟犯罪没有直接的关系,是通过经验挑出这些语言,然后作为预防犯罪的一些敏感词。
这也可能是对社会治理的一个应用,至于怎么去用还需要探索。
还有城市管理方面的一个案例。SpotHero是美国一家手机应用公司,客户开车到一个地方去时,周围有几个停车场,每个停车场有多少个停车位,包括每个停车位的价格是多少,通过这些数据去判断最适合自己停车的地方。
除了人的数据以外,传感数据的应用也有广阔空间。比如说物的数据,我听到过一个例子,就是有个城市里有很多休闲的地方,每个地方都有座椅,如果在座椅上安装一个温度传感器的话,大概就能知道每天哪个公共设置的座椅温度最高,温度高说明它利用率高,也可以知道哪些椅子长时间没有人坐。就是说,完全可以通过传感器的数据来安排之后的公共基础设施,使其达到一个最优的状态,通过这种方式来不断地优化一个城市的治理。
四、大数据应用的制度需求
和政府的作用
从经济学的角度看,一个很核心的问题是如何界定数据的产权?有很多人把大数据比喻成石油,一种新的资产。但是,这种产权和财产权应该有很大区别。我觉得,产权的界定是大数据交易和商业化的前提。经济学家科斯曾经讲过产权界定的重要性,如果产权没有进行界定的话,可能交易就没有效率。
这里讲一个美国金融贷款公司的案例,它主要给一些小微企业贷款,贷款额度比德国的Kreditech公司要大一些。它贷款的前提是去联邦快递(UPS)查询企业的快递记录,但UPS需要企业的授权同意;另外,即使企业同意,UPS也可以拒绝金融贷款公司的要求,后者还需要付钱给UPS。小微企业也可以直接找UPS拿到自己数据,因为它有这个权利,但金融贷款公司可能质疑数据的真实性。因此,这些企业可以寻求UPS的数据认证,然后再将其交给贷款公司。这样,UPS可以同时向小微企业和金融贷款公司收取费用。
立法界定产权
对大数据来讲,如果要利用起来,核心在于如何界定数据产权。但是,这个产权不是天经地义,应该从经济效率或者社会学的角度出发来界定它,就像专利、像工业产权一样。就是说,应该怎么有效率,然后怎么去界定产权。
我觉得,至少需要三个层次的立法:比如刚才讲的数据的商业运用应该是什么边界?个人隐私保护应该在什么边界?政府数据的公开应该在什么边界?这样,大家运用起来才能得心应手。一个是会有更多的可用数据,另外也能减少更多的顾虑,目前基本上还是一个比较混乱的状态。
另外,还有一些其他的制度需求。首先,还是需要公平竞争的环境,比如对金融行业使用大数据的前景是非常好的,但现在也存在很多的市场准入门槛,使银行仅靠存贷差就可以过好日子。出租车也是一个案例。所以,国内如果应用大数据的话,这会是一个很大的问题。
第二,数据安全或者信息安全的问题。
关于这点甚至提得更高,说“数据主权比产权还高”,包括一些安全预警与审查机制,以及数据存储的地域限制。欧洲搞云计算时就提出了一个原则:欧洲的一些关键数据不能够放在美国的云计算中心。再比如对国家数据的外泄要立法等。
第三,行业性立法。
这方面美国已经做了一些。在中国的医疗行业,实际上在大数据出现之前,病历在医院已经电子化了,但是不同医院之间仍然不能够共享,所以这也是一个体制问题。如果能通过行业性立法,把这些能够利用的大数据都放在一个平台上,那情况就大不一样了。包括教育方面,也有很多体制问题需要解决。
政府的作用
最后,简单说一下政府的作用。
首先,国外政府在做什么?比如2012年美国政府推出“大数据行动计划”,已经炒得很热。主要是在研究和应用上投了很多钱。
第二,数据开放。奥巴马2013年签署法令,要求所有新增政府数据都必须以电脑文件方式向公众开放。白宫颁布了开放数据政策,要求政府部门列出所有可公开的数据清单。如果不可公开的话,也要作出说明。主要是列出这些数据,及时向公众开放。
第三,政府采购。云计算时,联邦政府还任命了一个首席技术官,专门推进联邦政府和部门的云计算应用。现在数据服务可能也是这样。第四,制定法规。这不仅是中国的问题,美国也有医疗、教育、个人隐私等方面的问题,也需要制定法规。在欧洲,有关个人隐私的法律很多,但还有很多的工作要做。
在中国,首先领导层比较关注。2013年9月,中央政治局在中关村进行开放学习,百度CEO李彦宏现场讲解了大数据。部委层面也有很多。2013年11月19日,国家统计局与百度、阿里等11家公司签订协议,共同建设“国家统计局大数据合作平台”。因为阿里公布的数据基本上是所有平台上所有小企业数据的集合,所以它对小企业的感知比统计局要强得多。这种合作也是有好处的。
在法规方面,去年9月,工信部颁布了《电信和互联网用户个人信息保护规定》。这个规定是个起步,和国外的法律体系相比还有很大差距,还需要继续努力。
最后,就是资金支持。自2012年以来,科技部、发改委、工信部等部委在研发、探索和产业化专项上,陆续支持了一批大数据项目。对这种新的技术,云计算也好,大数据也好,地方政府往往还是走在中央政府之前。现在基本上是“多点开花”的状态,陕西有“大数据科学园区”,广东有“大数据战略工作方案”,上海有“大数据研发三年行动计划”,山东有“产业联盟”,辽宁也在搞。在中关村,还有“大数据产业联盟”。
五、关于大数据的建议
第一,不必急于出台所谓的战略性规划和设立产业专项资金。
因为国内的IT企业也好,地方政府也好,已经意识到大数据产业的发展前景,现在热情非常大。在这种情况下,以国家规划和专项资金等方式进行鼓励,有可能扭曲正常的市场行为,甚至催生泡沫。
在云计算发展的过程中,这已经非常明显。很多地方搞云计算搞成了云地产。在这种情况下,我觉得云计算产业可能已经有了过剩的苗头,不希望大数据也出现同样的问题。
第二,怎么合理改造、建设和布局好IT基础设施?
对大数据来讲,有两个方面:一个是互联网带宽,这没问题;另外一个,其实云计算本身就是大数据的一个基础设施,本身就是处理动态的海量数据的。如果没有这样一个系统,数据是不可能大规模存储的,也不可能大规模快速计算。很多传统数据中心及旧服务器资源,可以通过建立虚拟数据中心或进行就近合并等方式进行改造利用。
另外,一些新建的大规模的数据中心,如何通过统筹,合理布局,能够真正地让云计算实现降低IT成本的效果,而不是相反。除云计算以外,主要就是加快“宽带普及提速工程”的推进速度。这个日本和韩国做得比较好。
第三,如何推动隐私保护和公共机构信息公开等立法。2012年全国人大常委会通过了《关于加强网络信息保护的决定》,工信部也有保护个人信息的新规。但是还有很多的工作要做,如何继续完善个人隐私保护立法还是有很大的问题。
再者,对互联网数据商业化应用范围如何界定?数据滥用应承担哪些责任?目前都还没有有法可依的东西。然后就是政府信息公开的程度。最后就是哪些数据可以向境外流动或允许境外企业开发利用,也需要有一些相应的法律规定。
最后,资助大数据基础技术研究,包括人才培养。现在搞大数据分析或者大数据应用,人才很缺乏,这种情况不光是国内存在。
作者为国务院发展研究中心技术经济研究部第二研究室主任,本文为作者在洪范法律与经济研究所举办的学术研讨会上的发言
via: 《财经》杂志
您可能也喜欢的文章: | ||||
数据解读:军演对航班影响到底有多少——信息图 |
国务院关于进一步推进户籍制度改革的意见——信息图 |
2014年影响光伏市场的最重要5个统计数据 |
圣保罗联邦大学:研究显示饮食影响人体生物钟可调节“时差” |
社会化媒体如何影响购买行为的5个数据 |
无觅 |