HOME/Articles/

《大数据时代》书摘

Article Outline

《大数据时代》是国外大数据研究的先河之作,作者维克托•迈尔•舍恩伯格被誉为“大数据商业应用第一人”,书中有一些观点个人比较认同,摘抄过来,留作记录📝。

大数据时代的3个转变

  • 第一个转变是不再依赖于随机采样。我们有更多的数据和信息,甚至可以处理和某个特别现象相关的所有数据。(采用分析的精确性随着采样随机性强相关,而与样本数量相关性较弱)。不是随机样本,而是全体数据。

  • 第二个转变是不再热衷于追求精确度。不是精确性,而是混杂性。

  • 第三个转变是不再热衷于寻找因果关系。不是因果关系,而是相关关系。

大数据时代更强调混杂性而不是精确性

执迷于精确性是信息缺乏时代和模拟时代的产物,只有5%的数据是结构化且能适用于传统数据库的。如果不接受混乱,剩下95%的非结构化数据都无法被利用,只有接受不确定性,我们才能打开一扇从未涉足的世界之窗。

学会拥抱混乱

“大数据”通常用概率说话,而不是板着“确凿无疑”的面孔。整个社会要习惯这种思维需要很长时间,其中也会出现一些问题。但现在,有必要指出的是,当我们试图扩大数据规模的时候,要学会拥抱混乱。

数据量与算法的关系

当数据只有500万的时候,有一种简单的算法表现的很差,当数据达到10亿的时候,它变成了表现最好的,准确率从原来的75%;提高到了95%以上。

与之相反地,在少量数据情况下运行的最好的算法,当加入更多数据时,也会像其他算法一样有所提高,但是却变成了在大量数据条件下运行的最不好的。

“大数据基础上的简单算法比小数据基础上的复杂算法更加有效。” - Peter Norvig 《数据的非理性效果》

基于相关关系的预测

相关关系的核心是量化数值之间的数理关系。想关关系强调当一个数据增加时,另一个数值很有可能会随之增加。这种很强的相关关系,比如谷歌的流感趋势:在一个特定的地理位置,很多人通过谷歌搜索特定的词条,该地区就有更多的人患了流感。

相反,相关关系弱就意味着当一个数值增加时,另一个数据几乎不会发生变化。例如:一个人的鞋码和他幸福的相关关系,就会他们之间几乎没有关系。

建立在相关关系分析基础上的预测是大数据的核心,而且更快、更准确,且不易受偏见的影响。

这个系统依赖的是相关关系,而非因果关系。它会告诉你会发生什么,而不是为什么发生,这正是这个系统的价值。 - 麦格雷戈博士