1 历史背景
1.1数字化、网络化和智能化
广义地看,人类正在经历第五次信息革命,或者叫第五次与信息相关的革命。过去四次依次是语言的产生、文字的创造、造纸和印刷术的发明,以及电报、电话和电视的发明。第五次信息革命,也就是我们正在经历的数字化浪潮,对应于1946年第一台电子数字计算机(ENIAC)的诞生。
无论与前几次信息革命相比,还是与始于18世纪的工业革命相比,仅经过69年发展的当代信息革命都还处于襁褓期,但却已经体现出不同以往的特质。
过去的信息革命主要是表意形式和传播载体的演进、表意对象局限于思想或经思想认知的世界,而我们现在却在经历信息处理效能的本质性提升、表意对象扩大到广袤无垠的客观世界;
工业革命主要是沿着放大和延伸体力、转换外界能量为人所用、创造丰裕物质世界的方向发展,某种程度上以压抑心理诉求和精神发展为代价,而我们现在却不断通过智能系统放大和延伸智力、解放大脑,将人的个性化需求置于融合的核心。
此次革命的第一个突破性进展在于数字化,其后续发展取得的成果都有赖于从模拟到数字的惊险一跃。一方面,数字化编码(比特)使得信息的搜集、存储、处理、分发具有了前所未有的效率,从而放大了信息的力量和作用范围;另一方面,数字化使得信息从其附着物上分离出来,得以独立于实物、空间和时间而存在,逐步摆脱附庸于物质的地位。
早期,人们用“互联网上没有人知道你是一条狗”来形容其与实体世界的割裂,而今却已经是“互联网上没有人不知道你不是一条狗”的时代。这是网络世界的变迁,也是继数字化之后信息革命的第二个阶段。
网络化源于电话网络,但大成于互联网。它在人与人之间、物与物之间、人与物之间建立无处不在的连接,使得信息可以广泛实时共享,从而打破信息孤岛,迅速扩大数字世界的疆域和纵深。
由于网络的自我扩散性质,我们先后迎来用户爆炸、应用爆炸和数据爆炸,一个动态的、全局的、充满活力的数字世界呈现在眼前。与上一阶段的数字局域网相比,仿佛一个个隐藏在丛林里的原始部落被整合为书同文、车同轨、初具气象的文明世界。
网络化进程尚未结束。2010年之前,互联网的发展主线是信息&内容互联网和人际互联网,在终端和网络基础设施渗透升级驱动下的应用创新。但是,如果要把互联网从数字世界延伸到实体世界乃至更远,就需要看第二个十年的发展了。这就好比完成了直流电向交流电的转换之后,电力的远程传输能力极大增强,新建工厂无需局限于发电厂附近,工业化的基础才真正奠定。
现在,我们正处于第二个十年的中段,O2O已经开启了服务互联网的发展主线,并将与物联网一起将互联网发展带入新阶段。
尽管如此,下一阶段的特征已初现端倪。这就是智能化。智能的原意是指人改造物质、转换能量和处理信息的综合能力。智能化是人类智能的软件实现、外化和放大,也是一种对系统资源综合利用的能力,能基于现场情景或主观意图,灵活、自动实现相关资源的组织、扩展、配置和动作执行。
现在小到智能手表、智能药丸,中到智能家居、智能工厂,大到智慧城市、智慧地球,还包括智能管道、智能手机、智慧医疗等等,背后都有两个特征:一是资源利用的最优化,二是体验和效用的最大化。某种程度上,智能化深刻影响社会生产生活的方方面面,乃是当前人类发展面临资源瓶颈的必然选择。(此段不够精到,此处保持原文修改另文发布)
1.2 大数据作为一个历史阶段
大数据承上启下,在网络化向智能化的过渡期举世瞩目,乃理所当然。
如果没有网络基础设施可供数据传输,如果没有网络基础设施支持云计算(实质是网络计算)运行,如果没有网络终端的多样化和平民化,如果没有互联网应用的快速创新,如果没有物联网逐步普及…数据量不可能出现如此快速的增长。实际上,网络效应是一种趋同效应,会强迫所有的节点满足某种标准,否则就无法从中获益。
这种最一般的标准就是“数字化”。现在,互联网从线上走向线下,会快速推动实体世界数字化,从而产生更多的数据。比如,很多人可能都以为社交网络如Facebook或微信已实现了Internet of People。实际上,社交网络中的人是作为主体存在的,只算实现了Internet for People。只有可穿戴式设备引发“量化自我”运动后,人才作为一个客体被接入了互联网,成为一个不断采集数据并向云端传输数据的节点。这才开启了人的“数字化”,人作为客体世界的一份子向数字世界迁移。
虽然人工智能的学科历史可追溯到数字计算机的发明,但一直没有取得令人信服的成就。网络化的不断深入与数据的快速增长改变了这一局面。
在一些案例里,互联看起来比数据量重要,比如,智能汽车在发生交通事故时,它能与保险公司实现连接,通过照片和汽车自己提供的数据(包括当时的车速、胎压等)自动进行索赔,并一次性提交所需资料。
在另一些案例里,数据量似乎比互联重要,比如,为了给保险产品定价,Climate公司的平台汇总250万个地点的气象测量数据和各个主要气候模型的天气预报,同时综合1500亿个土壤观测记录,生成出10万亿个天气模拟数据点。
对前者而言,数据的实时性更重要,其智能体现在对环境变化的响应,仿佛一个能够迅速判断形势的指挥家;对后者而言,数据的累积量更重要,其智能体现在对事物规律的深刻洞察,仿佛一个历经沧桑的智者。这两种智能并行不悖,我们都需要。实际上,智能汽车持续采集的数据会积累巨大的数据量从而产生新的应用场景,而我们也可设想,后者的天气保险未来可和前者的车险一样实现自动理赔。
智能是互联和数据共同作用的结果——互联是数据的互联,数据是互联的数据,大数据是广泛互联、逐步沉淀的海量数据。这时,网络将不仅仅是大数据产生的原因,更是大数据发挥价值的手段。
总之,大数据肇始于数字化、成长于网络化、应用于智能化,是在移动互联网、云计算、物联网等新技术、新业态发展的必然结果,代表第五次信息革命迄今为止的综合成就,目前还只能说处于襁褓期。认识到网络化正在向智能化进阶,我们会将关注点从“大数据怎么来”转移到“大数据如何用”,从“大数据技术”转移到“大数据商业”,从“大数据资源”转移到“大数据资产”,把大数据作为下一阶段的奠基者去构筑更高的大厦。
2 大数据
2.1 大数据的技术特征与价值逻辑
当被问到什么是大数据时,大多数人都会提到3V特征。但是,这种描述性的定义并不能揭示其最重要的属性,也不包含任何价值取向,远不足以指导我们把握大数据的本质。这种定义视大数据为棘手的技术挑战而非巨大的价值机遇。Vendor们非常喜欢这个定义,因为每个V背后意味着要增加相应的IT预算,而它们也成了淘金热中的卖水人。
大数据首先指应该指数据本身及其内在规定性,之后才谈得上其特征描述。而后者至少包括两个层次的内涵:一是大数据的技术特征,二是大数据的价值逻辑,前者是后者的手段,而两者共同实现大数据的内在规定性。
技术方面的内涵应囊括大数据采集、存储、计算、分析等全环节。在这个范畴内,3V阐释了何谓大数据之“大”,但在此之外,至少还需要增加一个V,即Vast,指数据来源的广泛性。在谈到战略性新兴技术时,大数据通常与云计算、物联网等词汇同列。实际上,物联网、云计算都可划归大数据的技术谱系,分指大数据的采集手段和计算手段。
在阐述大数据的价值逻辑之前,我想谈谈大数据的外部性、多歧性和社会化
外部性是一个经济学术语,通俗地说就是可以不付出额外成本所能获得的收益。
开放数据并不会给数据所有者增加额外成本,但二次开发可以形成巨大的经济价值,会极大地激发创新潜力。麦肯锡的研究表明,开放数据将在7个行业创造3-5万亿美元的经济价值。这个价值里面很大一部分体现为社会福利,但确有数十家企业基于开放数据建立了价值10亿美金的业务模式。由于隐私、泄密等顾虑,除了政府这种以社会福利为宗旨的机构,大部分盈利性组织包括标榜开放的互联网公司,都对真正意义上的数据开放持谨慎态度。尽管如此,这并不能否定外部性作为大数据的普遍特征
多歧性是指对于数据的价值判断没有统一的标准,俗话说此之蜜糖彼之毒药。
拥有数据的组织越来越多,组织拥有的数据越来越多,数据所有者开始感受到了对外变现的压力。从数据所有者的角度,多歧性至少体现在两个方面,一是潜在客户如何看待其内部数据的价值是不确定的;二是内部数据与哪些数据相结合便能释放出化学反应也是不确定的。外部性表明上述价值和化学反应十之八九存在,但多歧性表明这两者都难以被数据所有者把握。这一性质有助于理解,为何信息不对称无处不在、永不可能彻底消除。大数据不断流向信息缺失的那一面,从而不断创造价值。
社会化描述的是数据创造价值的过程,也即数据由自然个体到社会个体的转变过程。
这就好比人的社会身份不断转换叠加,为人子、为人夫、为人父、为人所雇、为人所附、为国之公民、为人之挚友,直至死去。个体必须经过社会化才能使外在于自己的社会行为规范、准则内化为自己的行为标准,大数据的内在价值转化为客观价值的过程也是这么一个过程。和人的发展一样,数据也需要不断转换场景和立场,而每次转换都需要因地制宜、细致扮演好相应的角色,不断与其他数据(角色)建立联系并相互影响,才能实现个体价值的最大化。从结果看,大数据是高大上的,但从过程看,却充满了不确定性和琐碎,这一点也与社会上的成功人士类似
根据这三大特征,我们认为-在价值逻辑上,大数据之大指的是不断增强数据的透明性(Transparency)、不断扩大数据的共享范围(Scope)、不断提升数据的流动性(Liquidity),在更大范围内降低信息不对称以创造更大的价值(Value)。
2.2 大数据的终极价值
这个大价值是什么——把人的主体性和智能外化在一个数字与实体无缝融合的世界中。
首先,大数据以人的主体性为内核。尊重人的主体性,就是从人的内在尺度出发来把握物的尺度,让物化的外部世界适应人,而不是人适应物化的外部世界。在这种视角下,所有数据都可归为三类,一是关于人本身及人的行为的数据,二是关于行为诱因的数据,三是关于行为结果的数据。第一类数据也就是通常所谓个人数据,因体现了人的主体性被珍视。大数据把主体性置于核心,就是说第二类数据和第三类数据都因与第一类数据关联而有意义。在智能汽车的例子中,汽车胎压、事故照片虽然不属于个人数据,但分别属于诱因数据和结果数据。在Climate的例子中,土壤的数据属于行为诱因数据,搜集它有助于人决策是否购买天气保险,而当土壤数据用于评估该地区污染情况时,它又属于行为结果数据。
其次,大数据为智能化赋能。只有把外部世界改造成智能系统,人的主体性才能被外化。大数据就是实现这一目标最重要的生产资料,既是劳动对象又是生产工具。大数据首先是劳动对象,并且不同于以往的劳动对象,它把人自身连同客观世界都数据化了。这是智能化的必然要求,因为智能化要实现外部世界对人主体性的“跟随”,就必须使其置于同一系统内。如何发挥人的主体性这个内核对上述系统的指挥作用,就需要诉诸大数据作为生产工具的那一面。聚众成智,“聚”对应的是互联网[1],“众”对应的是作为劳动对象的大数据,“成”对应的是作为生产工具的大数据,核心是大数据分析,“智”就是智能化。
最后,大数据承载实体和数字世界融合。只有当实体世界和数字世界成为可统一操作的对象,人的主体性才算完整。以大数据为核心形成的反馈经济,归根到底就是实体世界与数字世界之间的反馈映射。具体来看,一是生活侧与生产侧之间的反馈,这是C2B之所指,里面大数据主要是指消费侧的数据驱动生产流程;二是物联网与生产服务互联网的反馈,这是工业互联网之所指,智能机器采集的大数据通过高级分析,以云服务的形式将分析结果应用到生产流程中去;三是物联网与生活服务互联网的反馈,这是可穿戴设备、智能家居、车联网、移动健康等领域之所指,采集并利用大数据分析定制各种生活服务
2.3 大数据与王阳明
我们生在一个好的时代,曾经只能从哲学上构建的概念,现在可以切切实实地触及和享有。比如万物互联(IoE),再比如大数据。
把大数据和王阳明联系起来,并不是要给已经过热的大数据贴上更高大上的标签,而是试图把哲学论断对应到我们能具体把握的产业实践,并反过来深挖哲学论断对实践的指导意义。实际上,当人人都把“大数据时代”挂在嘴边,却对这个时代背后的哲学思想毫无兴趣时,其实很悲哀的事情。
王阳明的这句话分为3段,顺序是有讲究的。
第一段是描述默认状态,对于任意事物客体(花),你看它是异常,不看它是正常,默认状态下人与花同归于寂。关键词是寂,指主客两忘的状态,并不是指这个花不存在了;
第二段是打破默认状态,当你来看此花时,此花作何反应呢?关键词是明白,既指花的“明白”颜色被人所感知,当形容词用,也指花感知到了人在看它并从寂的状态中出来,当动词用;
第三段是结论,此花不在你心外,花为你而盛开,这句话通常被用作唯心主义的罪证。
王阳明主张心即理、心外无物、心物一元,若得知后世有人称其为唯心主义一定会欣然允之。但我想说的是,让此花为你而盛开,让事物按照人的个性化需求呈现出不同的面貌,正是大数据追求的目标,也是它所驱动的世界的价值观。
我们在类比这三段时,不妨倒着来读。
王阳明说此花不在心外,我想说大数据以人为本
以人为本就是尊重人的主体性,就是从人的内在尺度出发来把握物的尺度,让物化的外部世界适应人,而不是人适应物化的外部世界。类似的话马云在数博会现场说到过—— IT时代把人变成了机器,而DT时代把机器变成了智能化的人。站在资本主义、工业文明的对立面,马克思和芒福德早已深刻批判过把人异化为机器的罪恶,马云无非是在DT时代的语境下重复这一观点罢了。
王阳明那时还没有机器,“花”指代的是全部的物化世界,应该说要比马克思和芒福德更彻底,直指数字与实体世界完全融合之后的状态。所有数据都可归为三类,一是关于人本身及人的行为的数据,二是关于行为诱因的数据,三是关于行为结果的数据。第一类数据也就是通常所谓个人数据,因体现了人的主体性被珍视。大数据把主体性置于核心,就是说第二类数据和第三类数据都因与第一类数据关联而有意义。
王阳明说此花明白起来,我想说大数据为智能化赋能
现在来看王阳明那朵花似乎并不难理解,不过是智能马桶、智能炒锅、智能筷子、智能地毯之外的另一个智能物体而已。它可能自身具备传感器能够察觉到你在看它,或者它能够接受并解析来自于你的脑电波,至于脑电波如何来,可能是某种可穿戴式设备通过蓝牙连接,也可能它直接读取。
王阳明肯定无法理解这些,他用“明白”一词描述那花可能就是拟人的修辞,但现在看来这完全可以实现,这种能力就是智能。智能就是能够识别“你来看此花”时的场景,然后根据你的特征做出响应(明白)。这个特征,在王阳明那里就是心,在我们这里就是个人数据。个人数据、场景数据是实现智能不可或缺的原材料,所以我说大数据为智能化赋能。这个智能化了不得,不仅看花的人爽,养花的人也爽,看花的人爽是因为个性化,养花的人爽是因为高效省油,绿色环保,没有一点浪费。Smart is New Green。
王阳明说同归于寂,我想说大数据无在亦无不在。
无在亦无不在就是说你感知不到它的存在但它实际上无处不在,感知不到非是不能而是无需,一旦需要就会进入第二段所描述的状态。仿佛On demand,大数据一直垂手而立等待召唤,但绝不让你因其存在有丝毫局促。所以,大数据实际上是一种无远弗届的自然状态,万事万物都在其笼罩范围内。在王阳明看来,心外无物,大数据应该是类似于心的这种存在了。
我无意深入探讨王阳明的心学,从目前的实践来看,更贴切的理解大数据即信息,信息无处不在,亘古就在那里,技术的进步都只是抽离进而认识它的工具而已。王阳明启示我们,这个进程实际上沿着两个维度来进行的,一个是主体维度,一个是客体维度,外部世界是一个大宇宙,人自身是个小宇宙,对于两者的数字化都还处于初级阶段,但未来两者可能同构同归。
综上,泛在-智能-人本这是一个手段-目的链。泛在回答的是大数据怎么来,智能回答的是大数据怎么用,人本回答的是大数据服务于什么目标。
注意,我们并没有说王阳明预见到了大数据,而是说他描绘的是大数据驱动的世界,最核心还的是其中蕴含的哲学关怀。泛在、智能和人本尽管处于手段目的链的不同环节,但相对于现实都是未来展望式的描述,大数据发展之路才刚刚开启。
本文写于2016年初。
当下的时代,还有从产业角度的理解,即消费互联网到产业互联网,参见 《消费互联网寡头垄断到产业互联网生态共同体》
亦有从企业战略角度的理解,参见短文 《数字化时代需要健全的数字化战略观》和PPT《数字化时代的产业理解与战略思维》;
若需经济学角度的理解,我详细研究了网络效应这个概念,参见《数据的网络效应:与瓦里安商榷》以及《精粹选编第二辑:网络效应》
登录 后即可参与评论