寂静是声音的游乐园:席佛的《精準预测》(2013)

寂静是声音的游乐园:席佛的《精準预测》(2013) 

  前些日子翻阅《精準预测》时(我必须说很不喜欢书名的译法,原因容后述),一旁负责行销数据分析的单位组长饶富兴致告诉我,他也买了这本书,但直说要看的书太多了,于是问我究竟这本书内容如何?

  当下我完全不知该怎幺回答,毕竟这本书像是随笔,结构上比较鬆散,但大体上读者可以一窥专业数据分析者看世界的方法。

  本书作者对于预测有以下这样的见解:「像狐狸般的灵活预测,而不是刺猬一样的固执与确认偏误」。试问,如果今天以掷出硬币的正或反面为赌注,而先前已经连续多次翻出正面,那幺当你在预测下次硬币是正是反时,还会坚持机率仍然是约莫五十比五十吗?

  如果你仍然这幺认为,也许会跟一部非常糟糕的漫画《赌国神童》里玩百家乐的反派角色一样输到脱裤。当然赌博的结局是什幺,完全要看最终预测与实际结果的差异而定,不过差异恐怕只是输给诈赌或是输给主角威能就是了。



赌徒与赛事预测

  作者奈特.席佛(Nate Silver)年轻时靠德州扑克发迹,他谦称当时不过是趁着网路博奕兴起带来的大量「杂鱼玩家」充当冤大头,牌技不用那幺出色也可以捞到一笔,但真正令人注意的是他后来的事业──棒球记录统计分析(Sabermetrics)。

  因长年对棒球与数据的兴趣,席佛在闲暇时建立了PECOTA这样一个分析预测球员表现的系统,主要的构思是「比较历史上既有的球员成绩,找寻目标球员未来可能的模版与数据」,所以这并不是一个关起门来胡猜一通的象牙塔机制,而是仰赖资料库并妥善利用。

  这样的预测法现今已被广为利用,举例来说,当林书豪尚未在纽约一战成名时,一位快递员兼业余篮球数据爱好者艾得‧伟兰德(Ed Weiland)已经将他列为该年度前三最佳控球后卫,这也使伟兰德一度连带受到媒体瞩目。

  要知道,林书豪当年选秀并未获得任何球队青睐,所以伟兰德究竟是怎幺思考的?他列出几个关键的指标,对后卫来说重要的除了助攻之外,伟兰德同样甚至更注重RSB(篮板、抄截与火锅总合),有趣的是这几项数据一般而言你不会期望一位后卫表现优异,就整场比赛而言似乎也并不那幺重要──起码相对于助攻与得分而言是如此;我仔细想了许久,发觉RSB的意义在于除了本分外,一个球员能额外贡献的维度。

  伟兰德所看到的,是一个被低估的年轻人,他能有效的得分,虽然失误有点多,但精英级的RSB与几场面对强敌的杰出表现,让他把林书豪放到预测的bracket里,就这幺简单!!

  在这里我们谈论的并不是做为一个「篮球圈内人」的见解,许多人并不那幺认可抄截数字的意义──因为这有可能意味着球员以赌博式防守伤害团队换取个人绩效。但,如同席佛的模板预测,我们寻找的是「成功球员的共通点」,而列出了几项指标,这有点像是中医里的脏器全然不是解剖学意义上的东西一般。



棋王与深蓝最后之战



  席佛特别用一个章节谈到西洋棋中划时代的事件──卡斯帕洛夫对决超级电脑深蓝的历史公案,刻划得引人入胜;卡斯帕洛夫是史上最优秀的棋士之一,他并不畏惧机器的挑战,甚至可以说带着几分人类(而且是特别优秀的人才带有)的傲慢。卡斯帕洛夫知道过往对战过机器的路术,他也明白机器总是有着固定的套路,某种僵化的运算型式,用相对人类思考下显得单纯的方式寻求最佳的解法,而这也让一代棋王有机可乘。

  但棋王最终输了。

寂静是声音的游乐园:席佛的《精準预测》(2013)

  就当深蓝在一场即将败北的对奕中,卡斯帕洛夫查觉到情况有异,虽然深蓝若无意外注定败退,但令卡斯帕洛夫不安的是,深蓝没有选择拖延战线,一如过往机械式寻求最佳解般苟延残喘,指望对手出错;而是用近乎投降的步数快速的结束这一场棋赛。

  「难道机器真的拥有了智慧?」

  棋王害怕了,他思考着深蓝尽可能在败北的对奕中减少揭露自身步术的可能性,这狡捷的思维是机器能做到的吗?若深蓝已经能考虑到单一棋赛对决后的决策,那岂不意谓着不能再用好整以暇的态度应战?

  于是陷入过度思考泥沼的卡斯帕洛夫,百般犹豫下选择了用较不习惯的路术应战,而结果便是深蓝的胜利。

  事实究竟为何?深蓝提早结束的自杀行为是否真是有意为之?这都不可知了,众所皆知,IBM没有同意卡斯帕洛夫再次对奕的要求,反而将深蓝给拆解了,有些人认为这一切只是IBM行销公关的手段,而目的既然达成,已没有理由再继续。

  但我想,这有更深刻的意涵,牵涉到智慧的认定,以及预测的态度。

讯息与杂讯

  本书的原书名并非「精準预测」,而是「讯息与杂讯」(the Signal and the Noise),奥卡姆剃刀理论告诉我们,理论要尽可能的免除赘余,以避免过度适配(overfitting)的发生,那些异常事件(outlier)并非全无意义,但在预测的过程当中,可能不是需要被注意的部分,也就是,可以称之为「杂讯」。

  但是卡斯帕洛夫把深蓝的举措想得高深莫测,如果他只当成是偶发事件、一个杂讯,也许结果将会不同。

  大家都需要预测,但讽刺的是,「大众需要预测,但却不需要準确的那一个」,所以会有不受事实检验、不负预测责任的名嘴存在。唯一让预测变更精确的可能,是大家真的对未来的事件下赌注,而不只是建立模型后不断确认偏误。在本书中,席佛提倡对任何事件给予(先验)机率表述,而不只是判断「可能」与「不可能」,但这也让事情变得複杂,先验机率到底应该是多少?

  在最后一章里,谈到了「自知已知」与「自知未知」还有,最重要的「不自知的未知」之间的差异。911这类重大恐怖攻击,被误认为是「不可能」,但事后被发现恐怖攻击的等级与数量与地震规模和次数有类似的关係,所以不自知的未知、没有对讯号进行分析的能力(讯号举例而言就像是:激进宗教组织成员意图在还没真正实机飞行前,就学习驾驶747客机)以及想像力的缺乏,非常有可能会伤害你。

寂静是声音的游乐园:席佛的《精準预测》(2013) 

  所以究竟杂讯是什幺?金融市场若没有杂讯,就不会有预测的需要──反正所有变动都已经反映在行情上,还有什幺套利空间吗?杂讯或许使讯号难以被确认,却更加深了讯号的意义与价值,使人为行动成为可能。扯远一点来说,杂讯是真实(感)的构成要素,我们可以从感官的认知来思考:没有杂讯的影像,完美得不吸引人,于是电影里就算是毫无瑕疵的成像,也会加入盐与胡椒(salt and pepper noise),使其可信。而加入些许噪声(dither),在音效上可以达成更逼真的效果。

  所以某种程度上人类「的确」知道杂讯在一个系统里,是不可或缺的一部分:世界本来就是如此,充满讯号,只不过有些我们称之为杂讯,而它们的存在虽然不能像其它讯号一样被完整理解,但它让我们也有行为的动力。这又让人想起约翰‧凯吉(John Milton Cage Jr.)的寂静论:寂静是声音的游乐园,不存在无(噪)声的世界,那不过只是人类卓越思维能力的想像产物,有寂静就有声音,而有些声音我们唤作噪声,如此而已。



  最后,引述本书第十章结语:

  「最接近决解之道的方法,是对讯号与杂讯达到一种泰然处之的状态,体认到两者都是我们宇宙中无法去除的部分,然后尽力去体察这两者各自的本来样貌。」

  席佛说,当杂讯很多的时候,要超越以结果为导向的预测,而更专注在过程上。这似乎像是饶富禅意的说道,儘管他做了这幺多努力,企求更好的预测,但到最后仍然要放下。

  不由得想到赵州吃茶的故事:

  「师问新到:『曾到此间否?』曰:『曾到。』师曰:『吃茶去。』又问僧,僧曰:『不曾到。』师曰:『吃茶去。』后院主问曰:『为甚幺曾到也云吃茶去,不曾到也云吃茶去?』师召院主,主应诺,师曰:『吃茶去。』」

  这样的心态,与预测的思维定势(mindset),我想是最能诠释本书精神的吧。

书籍资讯

书名:《精準预测:如何从巨量杂讯中,看出重要的讯息?》 The Signal and the Noise

作者:奈特.席佛(Nate Silver)

出版:三采

 

图片credit:wikimedia、EPA

上一篇: 下一篇: