数 字 的 妙 用
: 李文
: 2009-05-30 1:光明日报
:
:
: ■学者随笔
:
: 20多年前,我在南开大学教社会学,曾在课堂上对同学讲,对任何统计数字的使
: 用,事先都应该认真加以审视与核实。为证明“缺少原始数据的百分比令人生疑”这一
: 论断,我最爱举的一个例子是:美国霍普金斯大学开始接收女学生时,一个不赞成异性
: 同
: 校的记者做了一个惊人的报道:霍普金斯大学1/3的女学生嫁给了该校教师。一时舆论哗
: 然。后来,另有一位记者到该校摸清了真相:该校总共有3名女生,其中1人嫁给了老
: 师。事例很好,同学也爱听,却忘记典出何处,成为多年埋在心中的一桩憾事。最近在
: 书店看到了达莱尔·哈夫的《统计数字会撒谎》一书,勃然心动,买回家后,仔细阅
: 读,果然在该书的第135页发现了相关记载。
:
: 《统计数字会撒谎》是一本给人以智慧的书,不仅有益于从事研究工作的专业人
: 士,也能帮助一般读者提高辨别是非的能力。书中一一戳穿了为达到某种目的巧妙使用
: 统计数字的种种把戏,让人拍案叫绝。
:
: 有个笑话说,一位中国皇帝为了掩盖自己多吃多占的事实,曾拿数据说话:后宫佳
: 丽三千,太监也三千,因此并不违背一夫一妻原则。看了《统计数字会撒谎》后,你会
: 发现,“官出数字、数字出官”,美国也是古已有之。哈夫指出,在美国,每隔4年,不
: 完全匹配的数据就会出现一个兴盛期,并非因为这种数据存在自然波动的特性,而是因
: 为每4年有一场竞选。许多政客的竞选纲领,都是完全建立在看似相互联系但实际上却毫
: 无关联的数据之上。例如,共和党就声称:1942年该党的杜威竞选州长前,一些地区教
: 师的最低年收入只有900美元;而到1948年,由于杜威当政有方,纽约市教师最低收入水
: 平提高到2500~5325美元之间。这个前后比较的把戏,其奥妙就在于一些未被指明的因素
: 加入到过程中。以前只有900美元,现在已在2500~5325美元之间,的确有了长足的进
: 步。但实际上,前者是该州所有乡村地区的最低收入,而后者却是纽约市的最低收入水
: 平。在杜威执政期间,教师的收入水平可能有所提高,但也可能并没有提高。
:
: 改革开放之初,我一学者到美国访问,见到报纸刊登这样的广告词:“参加海军,
: 周游世界”,对美国海军招兵时不提保卫祖国,而是把游玩作为诱人手段的做法,深感
: 惊诧。其实,美国海军招募新兵的花样远远不止于此。《统计数字会撒谎》中就指出:
: 在美国与西班牙交战期间,美国海军的死亡率是9‰,而同时期纽约市居民的死亡率是
: 16‰。后来海军征兵人员就用这些数据来证明参军更安全。数据的确不虚,但问题在
: 于,这两组对象是不可比的。海军主要由那些体格健壮的年轻人组成,而城市居民包括
: 了婴儿、老人、病人,他们无论在哪儿死亡率都比较高。这些数据根本不能证明这一
: 点:符合参军标准的人在海军比在其他地方有更高的存活机会。
:
: 斯蒂格利茨等人曾指出:市场中卖方比买方更了解有关商品的各种信息,因此比买方
: 更处于有利地位。的确,买的没有卖的精。商家公布出来的数据,可信度同样很成问
: 题。我们日常所听到的诸如“跳楼”、“吐血”大甩卖,多是虚假信息。此外,商家还
: 惯于出一些让你意想不到的招数。《统计数字会撒谎》中就讲了一则故事:美国政府要
: 求商家在制作兔肉三明治时,兔肉所占的比例不得低于50%,而当人们询问一街头小贩的
: 兔肉三明治卖的价钱为何如此便宜时。“哦”,他回答道:“我当然得掺一些马肉,但
: 我的比例依旧控制在一比一:一匹马,一只兔子。”这使我想起了一些亲身经历:超市
: 里搞促销,说“买一送一”,结果却是买一瓶名酒送一支牙刷,或是买一特大瓶酒送一
: 特小瓶酒。
:
: 众所周知,只有当差别有意义时才能称之为差别。但《统计数字会撒谎》的看法
: 是:商家为了赢利,在没有差别的地方也会找出差别来。例如,老黄金香烟公司就利用
: 一个“毫无价值”的统计数据大赚了一笔。事情是这样的,《读者文摘》曾聘请了一些
: 实验室人员对不同品牌香烟的烟雾展开了分析。杂志刊登了最终结果。在详尽的数据支
: 持下,该杂志声明:所有品牌的香烟烟雾中尼古丁以及其他有害物质的含量都是一样
: 的,无论你吸的是什么牌子的香烟,不会有任何差异。但老黄金的老板却从中发现“玄
: 机”:在一长串具有相同有害物质的品牌名单上,总有一个排在最后,这就是“老黄
: 金”牌香烟。于是,电报漫天飞舞,大幅广告以最大的字体刊登在报纸上。广告的标题
: 和副本仅仅提到,由一家国家级杂志主持的实验证明“老黄金”牌香烟在不良物质以及
: 尼古丁含量方面“排名最后”。任何关于各个品牌的差异并不显著的文字甚至是暗示都
: 被省略了。
:
: 有时商家会采用严重有偏的样本,而这样的样本几乎能够产生任何人需要的任何结
: 果。哈夫写道:“只要样本容量足够小,或者你尝试足够多的次数,正确的随机样本也
: 可以达到理想效果。”“用户反映使用多克斯(Doakes)牌牙膏将使蛀牙减少23%”,大字
: 标题历历在目。你希望减少23%的痛苦,于是接着往下读。你发现这些结论出自一家信誉
: 良好的“独立”实验室,并且还经过了注册会计师的证实。其实,被测验的用户仅有12
: 个。多克斯公司让这12个人连续记录6个月的蛀牙数量,之后一定会发生以下三种结果中
: 的一种:蛀牙明显增多、明显减少和没有变化。如果是第一种或第三种结果,该公司就
: 会将其束之高阁,然后重新试验,直到有理想的实验结果问世为止。
:
: 如何使用数字,对学者也是一种考验。前些时日,有两位年龄还都不算大的学人,
: 在学术成果的数量上做文章,其中一人称他已经发表学术论文200多篇,另一人更是了
: 得,“已公开发表学术论文2000多篇”,而细究起来,他们所谓的“学术论文”,绝大
: 多数都是报纸上发表的“豆腐块”,甚至包括电台和电视台的采访,和“学术论文”根
: 本就是两回事。这样的做法,是否属于学术不端?还望学界同仁不吝赐教。
:
:
(《统计数字会撒谎》,达莱尔·哈夫著,廖颖林译,中国城市出版社2009年,
: 28.00元)
: