搞不懂什么是大数据?看看作者维克托·迈尔·舍恩伯格的《大数据时代——生活、工作与思维的大变革》一书,足以让你长舒一口气,书中对大数据的定义一点也不含糊:“所谓大数据(Big Data),就是大量的数据,它的反义词小数据(Small Data)的定义也同样简单,即很少很少的数据。” 那么,什么是用大数据来做家,他的团队从人气互联网电影数据库IMDB上选择了“经典台词”,并使用电影台词在网络上出现的次数作为衡量尺度。然后,他们把这些经典台词跟台词所在的完整剧本做比较——总共约1000部电影。
结果发现,很多经典台词是把惊人之词嵌入到了结构普通的句子中。“我们可以这样想,经典台词是在常见的词序结构中,填入不寻常的词语。”他们在研究报告中写道。
比如来自电影《甜心先生》(Jerry Maguire)的一句台词:“我对你一见倾心”(You had me at hello)。克莱因伯格指出,它的词序基本上跟“我在波士顿遇到了他”(I met him in Boston)是一样的。
又比如《现代启示录》(Apocalypse Now)中的台词“我喜欢早晨汽油弹的气味”(I love the smell of napalm in the morning),跟“我喜欢早晨咖啡的气味”(I love the smell of coffee in the morning)只相差一个词。