央视《大数据时代》观后感
大数据时代的读后感
在看《大数据》之前,我只知道社会越来越数字化了,看完之后,才觉悟到:人类将迎来一个新的时代。
数字化已经把我们带入一个信息时代,大数据却把我们卷进了一场科技风暴之中,这本书中,作者为我们开启了一个更包容更广阔的新时代,大数据把社会的方方面面融合在了一起,曾经看似因果联系紧密的事物,可能变得不再那么重要;毫无关联的事物,可能隐藏着重要的信息,从科技、商业,到医疗、政治、教育、文化,大数据一概席卷囊括,它改变着我们的传统思维,为这个时代注入了新鲜的血液,就像作者书中所说:“这项技术终将改变我们所居住的星球上的许多东西。”
大数据最显著的影响是对于电子商务,通过大数据,最先洞察出潜在市场的,也必然最先占领市场。而电子商务对实业的冲击又是势不可挡,可见,掌握了大数据就主导了市场,拥有了先进的科技才能拥有坚实的竞争力。在医疗方面,曾经的非典时期,就是一个很好的例证,正是有大数据的预测功能,才使疫情得到了控制。在更小的方面,他也同样改变着我们的生活,书中提到美国著名计算机专家奥伦·埃齐奥尼发明了飞机机票价格预测软件,就是利用大数据造福我们生活的很好例子。
大数据不仅节省了时间,提高了效率,更将人类带入一个新的文明阶段。从分析因果总结经验,转变为搜集数据预测未来;由原来的滞后性变为现在的预见性——大大提高了人类认识世界、改造世界的能力,变被动为主动。大数据为我们掀开了历史新纪元,不敢想象它将会为我们带来什么,或许会出现新奇的生活方式,从未有过的职业,闻所未闻的商业模式,百家争鸣的文化高峰;也或许会解开更多未解之谜,探索到宇宙之外的秘密。总之,毫无疑问的是,大数据为我们带来的未来是超乎想象的。
这本书中作者提到最多的是:改变我们的传统思维,摒弃精确性转向宏观。从总结因果转向预测。这个世界正以惊人的速度向前发展,数据大爆炸的波及范围远超乎我们的想象,单纯靠人类的主观判断力是多么的有限,大数据早晚会取而代之这一现象,这必将影响我们的生活和工作,我们也只有认清这种趋势,改变思维,调整步伐,紧跟时代才行。即使不能与时代同步,也尽量做到避免固步自封,认识大数据、利用大数据趋利避害,为我们的生活造福!
关于《大数据时代》读后感
近两周用业余时间读了《大数据时代》这本书,是听培训时杜威老师推荐的,我快速阅读了一遍,觉得受到了一些启发,发现了一些原来没有想到看到的事情。
首先是大数据代表着数据的样本=全体,这是一个与传统统计学的显著区别。大数据有能力获得全体数据并对其进行分析。
第二就是相关性与因果性同样重要。相关性说明了什么事情与什么什么事情有关系,如商场周围车流量的增多与商场销售额的相关性,因果性说明什么是什么的原因,如睡10个小时是有精神的原因。在大数据中,相关性要比因果性容易获得,而且相关性已经能为客户带来较大的收益。
第三就是大数据允许存在不精确性、混杂性,由于数据量巨大,存在少量的异变不会对结果产生任何影响,如收益是1个亿与1亿零1元的差别可能决策者不关心。
第四是大数据中的三个主要因素,思维、数据、技术,思维觉得你在哪些地方使用大数据。在这三个因素之中,会产生数据中间商,来处理加工数据并出售。
《大数据时代》读后感
这两年,大数据,云计算的思想就像小苹果的音乐一样,传的到处都是,每一个公司不管是互联网公司还是传统企业,都标榜自己的大数据。
1、实体物联网与虚拟物联网
曾几何时,物联网的概念闹得风生水起,庞大的物联网能够让世间大量的物体,都能够被检测 并联网,包括了人、车、房等一切能够被联网的物体,这些物体都能够以种方式被感知他的存在,并对其信息记录在案,以供使用。在若干年前,这还是一种看似遥不可及的事物,要对每个物体都贴上一个所谓的RFID的标签,显得不切实际。如今,随着手机的大量使用,人类本身也被加入了物联网中。为什么要物联网?是为了获取什么?要知道物联网获取了什么,只需要看看在一个物体在没有加入物联网与加入物联网之后,我们多出了哪些东西便能够知晓。那么,很明显,我们需要通过某种方式来获取该物体的信息,这种存储下来的信息,就叫做——数据。
物联网产生的数据是实体的物品之间的信息,而现在的互联网上,占最大数据量的,是虚拟物品,或者叫做网络虚拟物品。由于网络物体是直接寄生于网络,具有能够方便的接入网络的特征,因此,在获取实体物体信息还有一定难度的时期,占有很大优势。但今后实体的物联网产生的数据量一定会不断增加,或许,能够超越网络上的物物相连数据量。
网络的广泛使用,使得信息的产生于传遍变得容易,每个接入网络的人都以一定的角色存在,都是网络的信息的创造者。对于所产生的信息而言,每个接入网络的人又身兼多角,对于网络服务商,他是网络使用者的角色;对于门户网站而言,他是使用的用户;对于社交网站而言,我们则扮演一个虚拟或者真实的网络角色;对于浏览器而言,他是一系列的浏览网页、一些列鼠标动作的角色… 不同的角色取决于对方需要从我们的行为中获取哪些信息。将网络上各种角色看成是虚拟的物体,那么,这种虚拟物体构成的虚拟物联网便产生了巨大的数据量。经历过一直以来缺乏信息获取渠道的日子,现在,既然信息获取变得如此容易,那么,必然迎来信息量暴增的时代——大数据时代。
2、思维的转变
技术的改变,使得我们思维方式也要随之发生变化。在过去的小数据时代,由于获取信息、存储信息、整理信息都是费时费力的活,我们只能精打细算,捉摸着如何以最小的代价、最快的方式来收集尽可能准确的信息。之所以会有抽样统计的方式,是受技术所限,无法获得全体的样本,或者就算获取了也无法在合理的时间内进行处理。由于信息获取代价大,使得我们不得不在获取信息前,就把一切都想清楚,才能够着手处理。这就像在计算机出现的初期,使用纸袋来编码的时期,一次出错的代价太大,所以人们不得不在输入前将代码验证过无数遍之后才敢输入到机器中。而现代计算机让编码的效率大大提升,这才使得人们能够创造出更加强大的软件。人们不需要在着手编码前就对代码过分深思熟虑,因为机器会帮助你解决一些问题。因此,那些担心由于获取数据太方便,进行数据处理、分析代价太小而使人们变得懒惰或者做事欠考虑的家伙,真是杞人忧天。历史上,技术的进步都会提升人类的生产力,但却没有让人们变得懒惰,因为与此同时,欲望也随之增长。人类只会变得更伟大。
因此,大数据时代,这个数据更加全面的时代,我们可以涉足一些之前由于缺乏数据而无法涉及的领域,例如——预测。这是一个令人兴奋的领域,但其实这个领域早有苗头,而且大家都是受益者。我们平时使用的输入法中的智能联想功能,能够根据我们之前输入的文字,来预测我们接下来有可能输入的文字,以节省我们的输入时间。这种算法里,没有人工智能,而只有人们大量的输入习惯的统计,通过大量数据的统计来预测,是一个统计学的方式而非加入了特有的规则或者逻辑。这便引出了在大数据时代,对于信息处理的一种重要方式,基于统计,得出不同个体的相关关系,却无需了解其因果关系,而我们则受益于相关关系。这种方式,看似有些投机取巧,却能够在关键时刻令我们处于优势地位。我们已经习惯了先知道某些事物的因果逻辑,继而推断出相应的结果。但世间总会有一些令人无法用合理的逻辑进行解释的现象,若通过大数据分析,我们能够跳过逻辑阶段直接享用某些一些结果(沃尔玛的啤酒加尿布案例),岂不乐哉。当然,严密的逻辑永远是值得尊敬的。
3、互联网的黏性
在经历过了从广度上通过新花样来吸引用户的时代,由于技术的提高,一个创业者在一个新的领域开辟的东西很容易被其他人所复制。在这个时候,深度很重要。特别是购物网站、微薄、门户网站这类信息量大的网站,越是了解一个用户,优势就越大。所以,在技术已经不是最重要的因素的时代,如何增加用户的黏性、忠诚度便是首要的。通过用户之前的信息,来推测用户的喜好,给用户推荐相应的信息或物品。当你越了解一个用户,而别人却不了解时,这个用户就越离不开你。微薄中有他的智能排序功能、新闻门户中有“今日头条”应用,各类购物网站有他的推荐算法(但这个纯粹为了增加消费而非增加用户黏性),都能够根据用户之前的浏览、偏好来给出相应的推荐。这些的基础,都是拥有用户的行为记录,否则,都无从谈起。
在手机这个拼硬件的时代,单纯靠硬件来取胜已经很难了。硬件靠组装、软件靠安卓,手机厂商已经变得没有核心竞争力。而三星为了增加用户黏性,所做的便是为用户提供更加贴心的服务,不仅做手机,还做平台,将用户的各类数据记录在他的平台中,而这数据,必将大有作为。然后,如果哪天,三星也出智能体重计、智能手表这类产品,那么也不稀奇了。各类数据同步、整合,为使用者提供各方面贴心的服务,很酷吧。
各行各业,都在疯狂的抓紧时机,获取数据,拥有足量的数据,那一切就变得皆有可能。
大数据时代读后感
“除了上帝,任何人都必须用数据来说话。”——这是《大数据》中出现的让人印象深刻的一句话,也是全书力图传递的信息。在数字信息时代,数据和空气一样遍布生活,对于有些人来说,数据无意义,而对于有些人来说,数据,即真相。
美国是《大数据》的主角,全书通过讲述美国半个多世纪信息开放、技术创新的历史,公共财政透明的曲折、《数据质量法》背后的隐情、全民医改法案的波澜、统一身份证的百年纠结、街头警察的创新传奇、美国矿难的悲情历史、商务智能的前世今生、数据开放运动的全球兴起,Web3·0与下一代互联网的未来图景等等,为读者一一细解数据创新给公民、政府、社会带来的种种挑战和变革。
透过全书,一个立体的美国及美国人民的思想呈现在我们面前——美国人民执著于个人隐私的保护,却又不遗余力地推动着政府信息的透明与公开。
读完此书,对生活中的数据及数据处理突然有了很大的兴趣。如果有一天,处处以数据说话,那么,政治、制度、生活将更加清明,事故、将降到最低点。
作为信息技术教师,是有必要阅读此书的!有慧根的教师将能从书中挖掘出信息技术特有的文化以及能用于教学的鲜活案例。
每天能用来阅读的时间很少,总是要等到夜深疲倦时才有空打开书本,总是在眼睛极不舒服的情况下坚持阅读,《大数据》就这样在坚持中溶入我的思想……
关于《大数据时代》读后感
最近闹的沸沸扬扬的“斯诺登事件”让我想起前段时间的畅销书《大数据时代》。
维克托迈尔舍恩伯格在《大数据时代》一书中,首先给出了“大数据”的含义 : 你的一个习惯动作,你的一次消费行为,你的一份就诊记录……文字、方位、沟通等一切事物皆可以量化为数据,不仅人类生产和生活中“有意义”的信息海量产生,相比以往呈几何数级的爆炸式增长,“无意义”的数据的膨胀速度也同样惊人。
数据采集存储技术让所有的一切信息都可能被数据化,互联网特别是移动互联网技术让所有的数据可以串联起来,无遗漏数据分析技术几乎可以让所有的数据都派上用场。“大数据时代”,没有了“有意义”信息和“无意义”信息的边界,谁能得到信息并善于利用信息,谁就会抢占先机。“大数据时代”不仅影响着我们每一个人,甚至连世界经济格局也在酝酿着巨大变革。因此,《大数据时代》的作者认为,大数据从根本上改变我们认识世界和改变世界的方式,开启了一次重大的时代转型。
历史是一面镜子,照向未来。毫无疑问,已有的大数据也属于历史的范畴,但大数据时代却是指向未来的。大数据时代,我们分析的数据因为“大”,摆脱了传统对随机采样的依赖,而是面对全体数据 ; 因为所有信息都是“数”,可以不再纠结具体数据的精确度,而是坦然面对信息的混杂 ; 总量每两年就可以翻番,而且这一趋势还在加速。倘若能够更有效地组织和使用大数据,人类将得到更多的机会发挥数据对社会发展的巨大推动作用。研究证明,人类行为 93% 是可以预测的,成为“已经发生的未来”。
大数据时代,决策将日益基于数据和分析而作出,而并非基于经验和直觉。虽然目前大数据预测的还只是参考答案,不是最终答案,但其威力已经显现。在《大数据时代》中,作者举的3个例子令人印象特别深刻。
一是谷歌仅凭网民留下的相关痕迹,就能得出与事实相符度高达97%的结论,2009年比疾控中心提前两周、具体到了特定的地区和州、准确预测了甲型H1 N1流感的爆发。2013年,又成功预测了美国流感的暴发。
二是奥巴马2008年的选举,竞选团队里设置了首席数据科学家,他利用Facebook和T进行数据分析,不但利用社交媒体来发布信息,帮助奥巴马团队定位目标选民,甚至筛选出一些潜在的竞选志愿者。
三是微软公司通过大数据分析处理,对新一届奥斯卡金像奖作出“预言”,结果除“最佳导演”外,其余13项大奖全部命中。
正如维克托教授所说,我们目前看到的大数据和大数据应用,还只是“冰山的一角”。一定程度上,大数据就是新财富,价值堪比石油,正因为如此,赛门铁克公司的调研报告显示,全球企业的信息存储总量年增67目前包括谷歌、旧 M 、微软、EMC, 惠普,以及我国的百度、腾讯、阿里巴巴等众多巨头,已早早开始布局大数据,为在即将来临的大数据时代做好竞争铺垫。
大数据已经渗入到了生活的方方面面,将逐渐成为现代社会基础设施的一部分,就像公路、铁路、港口、水电和通信网络一样不可或缺。更有人说,大数据是继边防、海防、空防之后的第四个大国博弈的空间。美国奥巴马政府已经把“大数据”上升到了国家战略的层面,投资2亿美元启动“大数据研究和发展计划”。
大数据时代,可以让人成为上帝,通过各数据汇总,俯瞰世界中你想知道的任何一面。大数据时代,也可以让你困扰不堪,因为你面临个人隐私被不断泄露和基于数据预测偏见的麻烦和危机。美国国家安全局和联邦调查局于2007年启动了一个代号为“棱镜”的秘密监控项目,划直接进入美国网际网路公司的中心服务器里挖掘数据、收集情报,包括微软、雅虎、谷歌、苹果等在内的9家国际网络巨头皆参与其中。报道刊出后外界哗然。保护公民隐私组织予以强烈谴责,表示不管奥巴马政府如何以反恐之名进行申辩,不管多少国会议员或政府部门支持监视民众,这些项目都侵犯了公民基本权利。
因此,维克托教授在《大数据时代》中表达了“数据主宰一切”的隐忧,并提出了“责任与自由并举”的信息管理设想,这也是我们在拥抱大数据时代时必须思考和解决的问题。
《大数据时代》的读后感
我主要读了第一部分和第三部分。
第一部分是大数据的思维变革,作者舍恩伯格提出了三个观点,一是"不是随机样本,而是全体数据",二是"不是精确性,而是混杂性",三是"不是因果关系,而是相关关系",作者被誉为"大数据时代的预言家",抛出的观点是掷地有声的,下面我将谈谈我对这三点的理解。
对于一,我们必须承认我们以往做的处理抽样数据得到结果的方法,是省时省力省钱的,而且判断结果是相对高精准的,如人口普查这一案例,如果采用全体数据进行统计分析的话,工作难度是相当大的,最后的结果也不会很满意,这是得不偿失的。但是随着数据处理技术的飞速发展,我们已经具备了处理大量数据的能力,如果在数据分析过程中采用全体数据,就能避免抽样数据可能由于选取偏见带来的非随机性,处理全体数据也必将成为一种趋势。用在国防生管理工作中,就是管理层要对每个个体都给予充分的关心与互动,对于优秀的固然要偏爱,但是对于较差的也要保持"不抛弃不放弃"的态度,让每一个个体都找到自己的定位与价值。
对于二,作者强调通过掌握更多的数据,暂时牺牲精确性,关注更多容易被忽略的细节,来做更多的事,得到更多的结果,也就是说我们要有一定的包容错误的能力。我们在收集数据时,要主动获取更多的数据,少加一些限制性条件,然后应用我们处理大数据的能力,或许会获得意想不到的结果。作者举了一个谷歌翻译系统的例子,通过英语作为中转,进行各语言之间的转换。此处的启发就是用我们最擅长的途径,不拘泥于特定规则,来达到我们的目的,也就是说我们要先认清自己,不去刻意的模仿,找出最适合自己的一套方法。
对于三,作者指出知道"是什么"就够了,没必要知道"为什么",乍一看这个观点觉得有点无脑,但是结合第二点就合理了,降低对精确性及原因结果的要求,通过对相关数据的广泛分析,进而得到更丰富更多元的结果。如购物时,系统的购物推荐,并不是肯定你会购买,仅仅是你感兴趣进而可能会买就足够了。其实作者对"相关关系"的强调,主要是大数据强大的预测能力,而且这种预测性能还是相当精确的。以上只是我用作者的观点佐证他自己的观点,证明其一定的合理性,但是我是不完全认同的,在航天领域,我们对成功率的要求是极高的,尤其是载人航天领域,我们必须做到万无一失,我们对每一个结果都会深究其根,找出原因。对于国防生体能成绩的分析也是如此,结果只是我们的一个评价机制,而最重要的还是产生这一结果的原因及过程。
第三部分是大数据的管理变革,本来以为作者会讲点如何通过大数据来改革管理机制和提高管理效率,没想到作者只是讲了大数据其实就是我们的隐私的暴露,提出了要让数据采集管理公司对数据的使用负起责任的解决途径。个人感觉,一是我们在平时要意识到个人隐私的保护,而是相关法律政策的完善,真正的让大数据服务我们的工作生活,而不是一种变相的威胁。
《大数据时代》读后感
这两年,大数据这个词突然变得很火,不仅出现在互联网公司的战略规划中,同时在中国国务院和其他国家的政府报告中也多次提及,无疑成为当今互联网世界中的新宠儿。笔者对大数据一直好奇已久,阅读了很多资料仍不得其解,直到读完《大数据时代》才有了粗略的认识。
《大数据时代》从思维、商业、管理三个方面阐述了在大数据时代下的变革。这些变革涉及人们生活的方方面面,其影响程度可以与两次工业革命相媲美。作者在第一部分提出了三个比较令人震惊的观点:第一,不是随机样本,而是所有数据,这里要求数据有很多。第二,不是精确性,而是混杂性,这里要求数据更杂。第三,不是因果关系,而是相关关系,这里要求数据要更好。第二部分作者从万事万物数据化和数据交叉复用的巨大价值两个方面,讲述驱动大数据战车在材质和智力方面向前滚动的最根本动力。第三部分则是阐述了大数据时代下的弊端以及在管理上的措施。个人认为这本书的精髓部分是第一部分。第一部分的三个观点涉及面很广,包括统计学、逻辑学、哲学等。后两个部分都是以第一部分这三个观点为基础展开阐述的。
笔者侧重于从第一部分中的这三个观点谈谈自己的看法。这三个观点其实就是哲学上讲的世界观,因为世界观决定方法论,所以这三个观点对传统看法的颠覆,就会导致各种变革的发生。
首先,作者认为在抽样研究时期,由于研究条件的欠缺,只能以少量的数据获取最大的信息,而在大数据时代,人们可以获得海量的数据,抽样自然就失去它的意义了。
其次,要效率不要绝对的精确。作者说,执迷于精确性是信息缺乏时代和模拟时代的产物,只有5%的数据是结构化且能适用于传统数据库的。如果不接受混乱,剩下95%的非结构化数据都无法被利用。作者是基于数据不可能百分之百正确的考虑而做出这样的判断的,如果采用小数据,一个数据的错误就会导致结果的误差很大,但是如果数据足够多、数据足够杂那得出的结果就越靠近正确答案。大数据时代要求人们重新审视精确性的优劣,书中还说到大数据不仅让人们不再期待精确性,也让人们无法实现精确性。
最后,不是因果性,而是相关性,这是这本书中争议最大的一个观点,不仅是读者,就算是本书的译者也在序言中明确地说到他不认同“相关关系比因果关系更重要”的观点。作者觉得相关关系对于预测一些事情已经足够了,不用花大力气去研究天们的因果关系。作者用林登的亚马逊推荐系统的成功,证实了大数据在分析相关性方面的优势以及在销售中获得的成功。沃尔玛也是充分地利用并挖掘各类数据信息的代表,从啤酒和尿布的案例,以及作者举的有关蛋挞和飓风天气的案例,都说明了掌握了相关关系对于策略的帮助作用。
作者在书中把大数据说得很厉害,在最后一部分分析大数据带来无数好处的同时,也带来了不良影响以及如何面对这些影响。用麦克纳马拉的例子来说明对数据过度依赖所带来的后果。也用《少数派的报告》这部电影来说明如果痴迷于数据会导致人们将生活在一个没有独立选择和自由意志的社会,如果一切变为现实,人们将被禁锢在大数据的可能性之中。书中提出了两种解决方法,一种是使用数据时征询数据所有个人的知晓和授权,另一种是技术途径匿名化。毫无疑问,大数据将会给社会管理带来巨大的变革。
大数据给人类社会的方方面面带来了巨大的变革,这是社会发展的潮流,不可逆转,人们只有顺应这种潮流,在思想上和技能上做好准备,才能成为时代的弄潮儿。对于一家公司或一个国家,要从根本上改变思维和观念,尽早适应这种潮流。
大数据时代读书笔记
世界正迈入大数据、云计算的时代,人类朝着数据化、数字化的方向发足狂奔,我们原有的科学、技术、工作和生活方式正在被信息技术所改写,很多科学领域会被大数据技术所替代,也会崛起很多新兴科学家和职业,譬如数据科学家、数据中间商等。大数据会颠覆很多的产业和行业,甚至一夜之间就能变换运营模式,因为在大数据面前,人类不会再向以前那样追寻着“为什么”,更多的是在样本和概率面前做着商业决策的调整,“快”和“实用”更能满足大众的需求。
数据之大,漫无边际,无穷无尽,包含着我们人类的一呼一吸,一举一动。处在大数据帝国的前夜,眺望星空,这是个最好的时代,因为数据时代转折的重要性,不亚于黑猩猩站立起来行走划时代,很多科幻片里的场景会出现在我们的日常;这也会是个最坏的时代,因为人类最终会为此走向哪里,只有苍穹能知道!
当我们拥有海量数据时,绝对的精准不再是我们追求的主要目标,我们乐于接受数据的纷繁复杂,也只有接受不精确性,我们才能打开一扇从未涉足的世界的窗户。
小数据时代,我们在数据的精准性上花费很多,包括规则和准则、复式记账的平衡规则、信息系统等等,数据闭环,所以数据具有结构性,所以可以找根寻踪,找寻问题的根源,寻求解决方案。
大数据时代来临,因为数据量的庞大,以及数据背后的繁杂性,以及处理数据的知识IT工程师和计算者,别忘了,拥有数据的是政府和独角兽商人,所以,他们很难对数据进行深度分析,这样也会催生各个领域的数据分析业务,数据生态链核心就清晰了起来。
大数据会取代小数据吗?这是不可能的事,大数据和中小数据之间的防火墙更会高筑!
大数据都是基于样本的非结构性数据,推送到我们面前的数据指引,都已经经过了各种算法的粗加工,融入了计算者的各种算法,算法会因人而异,利用我们过去的电子痕迹,预测我们的现在和未来,一花一世界。
初期的一大一小,数据的交融,像极了海上的渔网,具有强关联性。
数据就像是一个神奇的钻石矿,在其首要价值被发觉后,仍能不断创造价值。大数据拥有者依赖技术专家挖掘数据的价值,但技术专家(数据武士)并没有想象中那么耀眼,他们在大数据中淘金,发现了金银珠宝,可最后却要把这些财富拱手让给大数据拥有者。
当恐龙消失,人类慢慢成为了动物界的主人。
数据是我们工作、生活中的点滴记录,它真实、朴实无华,它们也会有声音,只是需要有慧眼和思维才能驾驭。
我们只有跨过数据化、数字化的长河,才能开启AI时代,路途遥远,主人!
《大数据时代》读后感心得
凡是过去,皆为序曲是大数据业者最喜欢引用的语句。大数据是现在的潮流,《大数据时代》被认为是了解大数据的初级读物。近期连续读了两遍,第二遍是为了写这篇读后感,总体而言,值得一看,但细节方面却需要讨论了。
维基百科对大数据的解释:Big data,或称巨量数据、海量数据、大资料,指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。
有人说现在是读图时代,除去小说、心灵鸡汤以外,现在的畅销书基本都有图片,这本书是一个特例(书里唯一的图是出品方湛庐文化做的)
首先尝试解析一下作者的三大观点,这三大观点是大数据业者很喜欢引用的三句话:
1 不是随机样本,而是全体数据
我想所有人都能意识到对全体数据的分析优于对随机样本的分析,但在现实中我们经常拿不到全体数据:一是对象的特性:比如炸弹的威力,你不可能把所有炸弹都炸掉来得到全体数据;二是数据的收集方法,每一种方法都有适用的范围,不太可能包罗万象;三是数据分析的角度,战斗机只能统计到飞回来的飞机上的弹孔,而坠毁的则无法统计,沃德通过分析飞回来的战斗机得出来最易导致坠毁的薄弱点;四是处理能力跟不上,就像以前的天气预报太离谱是因为来不及算那些数据。“采样分析是信息缺乏时代和信息流通受限制的模拟数据时代的产物”,作者显然只关注了一部分原因。
从语言的理解上看,什么是全体数据,究竟是“我们需要的所有数据”,还是“我们能收集到的所有数据”,书中的很多商业案例中,处理的只是“我们能收集到的所有数据”,或者说是“我们认为的全体数据”。人对自然的认识总是有限的,存在主义认为世界没有终极的目标。书中举例“Farecast使用了每一条航线整整一年的价格数据来进行预测”,而“整整一年”就是一个采样,或者是“我们需要的所有数据”。
从历史的角度看,国外的托勒密建亚历山大图书馆唯一的目的是“收集全世界的书”,实现“世界知识总汇”的梦想,国内的乾隆汇编四库全书,每个收集的过程都有主观因素在里面,而他们当时都认为可以收集全部的书籍,到最后,我们也没有得到那个梦中的全体。
2 不是精确性,而是混杂性
既然我们过去总是在抽样,那本身就是在一个置信水平下,有明确的容错度或者是偏差值。人类永远知道我们是在精确性受限的条件下工作。同时,作者本身也承认 “错误并不是大数据固有的特性,而是一个亟需我们去处理的现实问题,并且有可能长期存在”。那大数据的特征究竟是精确性还是混杂性
由此衍生出一个问题,大数据的品质如何控制:一、本身就不要求精确,但是不精确到何种程度是需要定义的,否则就乱套了,换个角度,如果定义了容错度,那符合条件的都是精确的(或者说我这句话还是停留在小数据时代?这里的逻辑我没有理顺)。就像品质管理大师克劳斯比提出过零缺陷理论,我一直觉得是一个伪命题,缺陷是一定存在的,就看如何界定了;二、大量非结构化数据的处理,譬如说对新闻的量化、情感的分析,目前对非SQL的应用还有巨大的进步空间。
“一个东西要出故障,不会是瞬间的,而是慢慢地出问题的”。“通过找出一个关联物并监控它,我们就能预测未来”。这句话当然是很认同,但不意味着我们可以放弃精确性,只是说我们需要重新定义精确度。之于项目管理行业,如果一个项目出了严重的问题,我们相信,肯定是很多因素和过程环节中出了问题,我们也失去了很多次挽救的机会。而我们一味的容忍混杂性的话,结果显然是不能接受的。
3 不是因果关系,而是相关关系
这是本书对大数据理论的最大的贡献,也是最受争议的地方。连译者都有点看不下去了。
相关关系我实在是太熟了,打小就学的算命就是典型的“不是因果关系,而是相关关系”。算命其实是对趋向性的总结,在给定条件下,告诉你需要远离什么,接近什么,但不会告诉你为什么那样做。
我们很多时候都在说科学,然而,什么是科学,没有人能讲清楚。我对科学的认识是:一、有一个明确的范围;二、在这个范围内树立一个强制正确的公理;三、有明确的推演过程;四 可以复制。科学的霸道体现在把一切不符合这四个条件的事物都斥为伪科学、封建迷信,而把自己的错误都用不符合前两条来否决。从这个定义来看,大数据不符合科学。
混沌学理论中的蝴蝶效应主要关注相关关系。它是指对初始条件敏感性的一种依赖现象,输入端微小的差别会迅速放大到输出端,但能输出什么,谁也不知道。
人类一旦放弃了对因果关系的追求,也就放弃了自身最优秀的品质:意志力。很多人不愿意相信算命是担心一旦知道了命运,就无法再去奋斗。即使我相信算命,也在探求相关关系中的因果要素。我放弃第一份工作的原因之一是厌倦了如此确定的明天:一个任务发出去,大概能预测到哪些环节会出问题,只要不去 follo这些环节十有八九会出问题。
解析完这三大观点,下面是我对大数据理论的一些疑惑。大数据是目前风行的反馈经济中的重要一环,在金融、互联网行业的应用最为广泛,而这些行业都是大家所认为的高薪领域。很多时候我就在想,所谓无形的手所产生的趋势究竟是不是无形的。比如几家公司强推一个概念,说这是趋势,不久就真的变成趋势了。我们身边活生生的例子就是天猫的双十一和京东的618,一个巨头开路,无数人跟风,自然就生造出购物节,至于合理不合理,追究的意义也不大,因为很多事情是没有可比性的。这和没有强制控制中心的蜂群思维又不一样。
1 数据独裁。个人意志将受制于集体意志,个人的自由在哪里?用大数据预测来惩罚人的行为又确定的违反了无罪推定的原理。
2 所有数据都来源于过去,大数据分析出来的确定性结果是否意味着我们在重复过去?拉普拉斯的决定论已经被认为是错误的,爱因斯坦也说过“上帝不会跟宇宙玩骰子”,但霍金不同意这句话。
3 在金融市场中,每个相关性都有对应的利润空间。如果大家都基于同样的数据(假设我们必须用全体数据,那全体数据显然是一样的),最优秀的数据算法师会得出同样的结果,市场也会反应得非常高效,导致相关性套利空间的减少和消失。历次金融市场的危机,也都是量化交易触发了相同的交易方向,导致市场失控。就像大家都认为明天会堵车而不开车,明天自然就不会堵了,海森堡的不确定性原理也这么说。
4 涉及的隐私问题,这点在书里写了一些,我始终觉得还欠缺什么,只是没想好。
5 数字化之后的数据保存期限,在企业的ISO管理中有对保留时限的要求,这些数据基本都是原始数据。在大数据的背景下,分析后的数据是否也需要保存?因为这也属于全体数据啊。顺便列一下数据量级的缩写:2的10次方是KB,20次方是MB,30次方是GB,40次方是TB,50次方是PB,60次方是 EB,70次方是ZB,80次方是YB。
6 资产价值,这点书里也写了,当大数据真的被公众接受的话,会计准则如果调整也会是一个大问题。
看完这本书,总是觉得作者说的过于绝对,也许是我的认识太浅了吧,所以最后用法演四戒做总结:
势不可以使尽,使尽则祸必至
福不可以受尽,受尽则缘必孤
话不可以说尽,说尽则人必易
规矩不可行尽,行尽则事必繁
读《大时代数据》有感
看完了引言,为了让大家有个大众化的认识,而不是空谈很有启发,提前写下评论,免得后面忘记了。
1.我觉得,大数据处理,其实就是相关性分析。其实相关性分析在统计学中是非常基础的,为什么大数据时代来了会使他显得如此重要呢?那是因为,以前只有政府和教会可以掌握这么多数据,现在是很多企业都掌握了这么多数据,而且未来,发达国家可能会公开这些数据,这样所有人都相当于拥有了过去君王的信息。书中举了很多例子,就想告诉你,你所接触到的数据每年翻3倍,未来你可以掌握的数据量多到你不敢相信。而统计学最重要的是数据,在未来,因为你如此容易获得数据,所以,你可以做非常多的预测。
2.大数据最大的作用是寻找相关性,当两样事情明显相关,我们就几乎可以“预测”未来。这是大数据时代最诱人的地方。
3.从上可见,书本不是告诉你在大数据时代你可以做些什么,而是告诉你它有这么多潜力。那些有能力的人,看了本书,可能会有改变世界的能力。因为大数据时代,重要的还是对“数据的处理能力”。那些未来的盖茨,可能会发明很多神准的预测工具,帮助你预测股市,预测你的婚姻未来,预测你什么时候会得到癌症。但是,这可能和大多数人无关,你们只需等待他的到来就行。我认为只有少数有前瞻思维,又有能力的人,才会感受到这个还未来到的时代的魅力。
4.希望看完本书会有思想上的冲击,但就目前而言,我认为,相关性分析是经济学里面用的非常普遍,甚至是泛滥的技术,所有希望被著名期刊收录的文章都必须做实证分析,而相关性分析是出现最多的。这也导致学界大讨论,说经济学已死。因为大家看重的是数据,看重的是相关性,而不是事物背后的规律本质。当然,事物总会发展过头,然后自动纠正。只是大数据时代刚来,确实需要更多地鼓吹一下。过去,在学术界意外,我们确实没有收集大量数据的能力,导致经济学中的分析方法用不上,但未来,数据泛滥了,对数据的处理技术就可以向生活延伸了。
5.应该说,大数据时代吸引之处就是巨大的数据量,唾手可得的数据,必将出现大量预测工具(商机,生活方便),因此必将出现认识世界的新维度。毕竟,现在我们是通过现象认识本质,在未来,我们还可以通过大量数据认识本质。