每个人都说谎:社交数据泄露了你的真实想法,包括性癖好……

CIOAge
每个人都会说谎,无论你面对的是朋友、爱人、医生还是调查问卷,甚至对自己也都无法坦诚相待。

  每个人都会说谎,无论你面对的是谁,很多人甚至对自己都无法坦诚相待。

■ 理解人类行为最好的方法就是通过数据来揭示人们的网络行为。

■ 通过分析互联网大数据,我们就可以了解人们真实的想法、需求,以及他们真正在做的事。

■ 深入探究大数据,你可能会有出乎意料的发现。

■ 但这些数据分析只能是理解人类行为的开端,因为它很难揭示有哪些事实可以超越人类现有认知,只有对于人类思维的真实理解才能为揭示真相打好基础。

[[200179]]

本文综合编译自:

Smart, fun and fast-paced read, but overstates its caseAshutosh S. Jogalekar

人们做爱的次数到底有多少?

你真的能操控股票市场吗?

父母对待儿子、女儿的方式

真的各有不同吗?

有多少人真的会读自己买的书?

我们如何得知这些问题真正的答案?

毕业于哈佛的经济学家、前谷歌数据科学家、纽约时报撰稿人赛斯·史蒂文森-大卫德维茨(Seth Stephens-Davidowitz)写了一本具有开创意义著作《每个人都说谎:大数据、新数据,互联网能揭露我们多少真实的样子》Everybody Lies: Big Data, New Data, and What the Internet Can Tell Us About Who We Really Are Hardcover,为这些问题提供了崭新的解读视角。

他认为,我们对于人的很多看法都是错误的。因为每个人都会说谎,无论你面对的是朋友、爱人、医生还是调查问卷,甚至对自己也都无法坦诚相待。

[[200180]]

▲ 赛斯·史蒂文森-大卫德维茨(Seth Stephens-Davidowitz)

现在,数十亿人在各大网站和平台上留下的信息痕迹会帮助我们还原事实。

通过分析这些互联网大数据,我们可以了解到人们真实的想法、需求,以及他们真正在做的事情有时候新的数据会让你开怀大笑,有时候也会让你震惊万分、备受困扰。但无论怎样,这样的数据会刺激你开始思考。

《每个人都说谎》这本书将改变你看待世界的方式,如果你问对了问题,就能从这本书里学到无穷无尽的关于人性的知识。

《每个人都说谎:大数据、新数据,互联网能揭露我们多少真实的样子》Everybody Lies: Big Data, New Data, and What the Internet Can Tell Us About Who We Really Are Hardcover

[[200181]]

数据泄露你真实的想法

《每个人都说谎》一书所表达的基本观点是:关于人类行为的网络数据,包括谷歌搜索记录、Facebook、购物网站和黄色网站的数据,都能透露我们真实的想法。调查问卷无法告知我们真相,因为在调查中,人们会因为觉得尴尬而隐瞒事实,而当我们毫无戒备、独自一人在家打开搜索引擎时,更容易透露自己内心的想法。

通过心理学或是神经科学的理论来理解人类行为实在太过复杂,所以最好的方法是超越理论层面的理解,通过数据来揭示人们的网络行为。

赛斯查看了多种网络资源,翻阅顶尖研究者的研究成果,所以当你阅读这本书的时候,肯定会称赞他所探究的材料多样、内容有深度。

有了互联网和大数据的支持,我们就能获取人们在不经意间表达的观点和有关人类行为的大量数据。正如赛斯所说,数据不仅量“大”,而且质“新”,这就意味着我们现在获取的数据和以前所熟悉的类型不同。

他认为在我们所生活的世界里,每次打喷嚏、咳嗽、网购、发表政治观点、出去夜跑的动作都能被当做“数据”来计算,这样一来我们就能验证那些从未验证过的假设了。例如,有些色情网站的数据可以显示人们对于乱伦的现象是否有着浓厚的兴趣,通过这些数据,我们就可以验证弗洛伊德所提出的恋母情结的学说。

总而言之,书中对人类的“性”着墨较多,因为性是我们最想掩盖但又最感兴趣的几个问题之一。我们还能通过谷歌搜索和色情网站的数据调查发现一些古怪的性癖好,这种癖好可能会因国家和地区的不同而产生差异,这算是数据挖掘非常有趣的应用之一了。

[[200182]]

关注数据可以提升影响力和收益

深入探究大数据,能得出显而易见的结论,也能收获意料之外的发现。

除了性,还有很多有趣、有料的研究,都能揭露人类愿望和行为在众多领域中的现状,这些领域包括政治、体育、教育购物等等,其中也包含着很多实用素材。例如,有些数据能显示国家不同地区之间教育水平、地位取得的差别,马上就有使用价值;谷歌搜索则可以用于跟踪流感和其他传染性疾病的情况。

有时候,寻找相关研究也会带来可观的收入。例如有专家发现,赛马的成功取决于马的左心房的大小;还有研究则证实,葡萄早期生长的季节其实对酒的品质没有什么影响……

毫无疑问,金融公司、超市、报纸、医院和网络内容的提供者——无论兜售的是色情内容还是花生大豆,都会密切关注这类数据,尽可能地拓展他们的影响范围和经营利润。

[[200183]]

相关性 ≠ 因果

《每个人都说谎》不仅选材视野广,写作风格明快,而且提供了一些和人们固有印象相左的观察。但我认为其中唯一一些不足就是赛斯夸大了他所举的例子。

书中提到的数据工具号称能带来“巨大的转变”,其实是有些难以信服的。赛斯在书中不止一次地用“革命性的”一词来形容这些数据工具,但这让我更加怀疑它们到底实不实用。

首先,数据并不是知识,它是知识的原材料。

赛斯自己也承认,理解相关性和理解因果关系并不是一回事,人们在的网页搜索记录和他们本身真实的特点之间其实很少能形成真实的因果关系。

我认为其中的一个原因是,一个人的搜索记录并不能像书中所说的那样能够反映他们内心的想法,所以一个人真正相信的东西可能远远超过他们网络行为的表象。

就拿性偏好的研究来说吧,到底有哪些特点是微不足道的怪癖?有哪些是能够反映人类大脑最真实的特点?仅依靠这些工具是没办法说明这一区别的。最后,你可能会得到一大堆数据,其中还包括许多冗余信息,但从不相干的事实中选出有用的数据点则完全是另一回事。

从这个层面来说,这种查阅网页检索记录和其他信息的方法可能过于简单了。

其次,你很难控制所有能反映网页搜索的变量。

在我看来,“数据科学”中的“科学”二字仍然缺乏一定的严谨性。例如,书里提到的很多结论都是建立在很多个例研究上,并不能重复验证。有些例子的样本容量很大,但有些却很小。而且人们的想法会随着时间的推移而改变,所以研究时机的选择非常重要。这些都要求数据科学家承担起巨大的责任,确保这些结果是严谨,而不是过于简单化的。

[[200184]]

这是理解人类行为的开端

考虑到上面所说的种种问题,我发现书中所描述的大数据其实是理解人类行为的开端,而不是影响人类行为的决定性因素。

这些大数据能告诉你它们的用途,但说不清楚能解决什么样的问题。书里很多有趣的研究都能很好地回答“是什么”,但大部分却很难解释“怎么样”,尤其是“为什么”。它们可以指出通向知识大门的路径,但没法告诉我们哪扇门可以被打开。

实际上,这些研究很难揭示有哪些事实可以超越人类现有认知,因为只有对于人类思维的真实理解才能为揭示真相打好基础。

责任编辑:吴金泽 来源: 数字智库
相关推荐

2017-03-15 10:44:35

数据集成自助服务

2022-04-22 17:07:02

源代码开源代码泄漏

2020-04-23 10:22:16

大数据数据集硬盘

2014-03-28 16:51:15

微软云计算

2023-05-29 14:07:00

WebHaikei应用程序

2021-06-06 16:05:31

OpenHarmony

2020-03-11 09:54:04

技术IT架构

2014-01-17 14:03:13

蚁巡运维

2012-05-25 09:48:01

编程程序员

2015-07-14 16:01:40

云计算云应用SaaS

2020-04-22 09:56:00

信息安全大数据技术

2017-07-20 01:59:19

大数据算法数据

2017-01-17 14:26:15

2020-07-10 13:59:52

Kaggle代码数据

2022-03-07 10:27:03

Linux开源社区

2022-09-07 09:54:02

LinuxDebian

2019-10-12 09:23:31

网络安全人生第一份工作软件

2023-03-21 18:46:53

2019-08-28 17:23:20

2018-10-19 15:29:05

文本二进制程序员

51CTO技术栈公众号