在开始玩“猜相关”之前,我从没想过自己会把复活节假期的一小时花在沉迷一个8比特游戏上,更不用说它还是个关于许多科学家的日常工作的游戏了。同样,我也从未想过自己会沦陷于一张张黑点组成的图形中,力图准确地估计出这些黑点背后隐藏的规律,从而获得分数、荣登游戏排行榜。而且我也绝对没有指望过这件事会很好玩。
“猜相关”是奥马尔?瓦基(Omar Wagih)的智力结晶,他是欧洲生物信息研究所的一位研究生,并且是我的(曾经是闲暇)时间的邪恶吞噬者。这个游戏文字描述起来极端无聊,然而一旦开玩就根本停不下来。 不信试试看。
游戏中,玩家会看到许多散点图——一种用于展示两事物间关系的常见图表,它反应的可能是气温和冰淇淋销量的关系,或者是体重和心脏病患病风险的关系,也可能是你花在这个邪恶游戏上的时间和你朋友数量的关系。你需要做的就是盯着这些散点图看,并估计出一个被称作R值的值,R体现了两事物间的相关性。在这个游戏中,R的取值范围是0(完全没有相关性)到1(完美的正相关)。
先来复习一下不同R(相关系数)对应的散点图。
通过观察散点图来判断事物之间的相关性是科学家们一直在做的事。在游戏过程中,我发现这件事出乎意料地困难。强相关(比如当R大于0.8时)十分明显,因为点都排成了一条干净的斜线。类似地,弱相关(当R小于0.2时)的图形看起来就像盲人射手练习射击后的靶子。然而,在这两者之间还存在着巨大的中间地带,我的判断力通常在这里戏剧般地下线——这也正是瓦基设计这个游戏的初衷。
去年十二月,瓦基参加了一场研讨会,会上,一位发言人展示了一张散点图,并断言这其中存在相关性。“它看起来,你知道,并不是怎么相关,”瓦基说。“我就想,我应该把他的话当真么?之后,他给我看了R值,R值显示这其中确实存在相关性,而我低估了散点图中的信息。我意识到会这样做的人可能不只我一个。”
他找到了几个可以随机生成散点图猜R值的网站,但“这些网站都很无聊,”他说,“完全没有动力驱使你继续下去。就这样,我产生了做个游戏的想法。”
游戏机制非常简单,由极简主义的设计和怀旧音乐实现。猜一连串散点图的R值,差太多会丢一条命,猜很准可以奖励一条命。比较好的估计可以为你赢得金币,这会计入你的最终得分。你甚至可以和朋友比赛。这就是这个游戏的全部。
为了展示游戏界面开了游戏,一上手就丢命_(:з」∠)_图片来源:guessthecorrelation.com
瓦基于去年12月上线了这个游戏,并将每个玩家的估计数据收集成了一个数据库。他打算分析这些数据,来看看蒙蔽人们的散点图中是否存在着某些视觉因素,让人们高估或者低估相关性。“这种事以前就有人做过,但现在的重点在于我有庞大的数据,”他说。其他的研究一般仅涉及几十个志愿者和几千个估计值。但到今年三月中旬,瓦基已拥有 17万名注册玩家和一个有着 超过400万估计值的数据库。
“我想设计一个更复杂的游戏,更让人上瘾的,”瓦基说(上帝啊饶了我吧)。他打算增加难度等级,改变散点的数量或大小(求放过!)。“我想做出一个你无聊时会在手机上玩的主流游戏,这样你就不会意识到自己是在猜相关性,并且在给这个研究课题做出贡献。”(快住手!!)
“我自己玩这个游戏的时间已经比我应该投入得多了,”他补充道。“我会坐在朋友身边,看他们输入答案,然后说‘不对,不对,是0.72’。他们不相信我,但我的答案往往更加接近。”
除了看别人猜相关之外,他的经历证明这个游戏作为训练工具,有着提高研究者判断相关性能力的潜力。“这是首要的目的,”瓦基说。“我几乎每天都会接触到这样的散点图,可能是我自己的,也可能是我读到的论文里的。如果它能训练你下意识辨认出散点图中对相关性有贡献的结构或特征,这会非常有用。”
可视化能帮助我们理解大量数据,但它们仍然有着自身的缺陷,可能会让人们误入歧途。信息是美丽的,但美丽本身也有欺骗性。“作为一个研究者,你要阅读大量文献,在很多情况下,你只会看图,而不会看文字。”他说。“你看见了一张图——甚至可能是你自己的图——然后据此做出了某种判断。与一般人所想的相反,人们并不怎么擅长这件事。而我已经有了数据来证明这一点。”