变异性和回归均值
不仅要关注平均值,更要关注结果的变异性和极端值;极端表现之后往往回归平均值——回归均值是统计学倾向,而非必然规律,忽略它会犯归因错误。
评价可能结果时,应看分布范围——平均值、变异性和极端结果。变异性指单个结果距离平均值的偏离度。偏差越大,变异性越高。正态分布曲线显示最常见结果落在中央,其他落在两端,结果偏离中央越远频数越低。
但正态分布不能套用于所有情况。单一极端事件可能对平均值产生剧烈影响——图书平均销售额20万美元,但如果样本中包含《哈利·波特》系列,平均值并不能帮助预测新书销售额。类似例子还包括电影《泰坦尼克号》、金融市场价格变化、飓风损失。我们只能从历史记录中看到过去最强的飓风,但不能用它预测未来罕见事件。塔勒布在《黑天鹅》中表示使用正态分布分析重大罕见事件很危险。
10个人有1,000万美元,每人平均100万美元。但如果其中一人有1,000万美元,其他9人身无分文——平均值急剧上升。平均数和中间值不同:9人各有100万美元,1人有10亿美元,平均财富1.01亿美元,中间值仍为100万美元。杰伊·古尔德被诊断出致命癌症后存活中值为8个月,但他活了20年——中值只表明一半人在8个月内死亡,另一半活得更长。不能把中间值用于每个个体。
回归平均值效应:弗兰西斯·高尔顿提出,在一系列运气事件中,偏离平均值的异常出色或糟糕的表现之后,会出现普通表现或不太极端的事件。但这仅是统计学倾向,而非自然法则,且需要相当长时间才能显现。
员工参加技能培训课程后分数提高——但可能只是回归平均值的结果。第一次测验处于低端时,即使不参加课程也有"提高"迹象,因为第一次的表现可能受压力、疲劳、生病等影响。极端表现在下一次显得不极端,因为测量包含随机误差。如果放弃不成功的方法转而使用另一方法,即使新方法相似甚至更糟,表现也可能更好——因为都是回归均值。