贴一下第一章的第一节和第二节的翻译

[注]非常有意思的书,希望能引起各位的兴趣。我多希望自己读书时候有这样一本书。觉得好玩翻了第一章,这里是第一节和第二节。翻译比较粗,引用保留作者原名,注释都已略去。


地图:让我先指出一个元问题:我们在「统计学」课上学到的大多数东西并不能解决我们的实际问题。实际问题是我们不知道真实模型(true model)是什么样的,而不是我们知不知道如何最好地拟合它。这本书可以帮助解决这个问题,但首先,我们需要理解如何使用统计方法来了解社会世界。我将借鉴实用主义和证伪主义,勾勒出我认为统计实践最合理的方法。

统计学与社会科学:统计学怎么了?

大多数统计方法与我们无关。我们需要的是帮助我们从关于世界的实质性不同的主张之间作出裁定(adjudicate)的方法。只有在极少数情况下,从一个模型或从一类模型中改善估计量才与这些方法有关。在多数情况下,这些改善与我们的决策并无关系。这有个类比:人们对医学有许多批评,批评医学耗费了大量资源(还有很多猴子和兔子)试图做一些我们知道不可能的事情——让我们永生。明明有其他更重要的项目,为什么研究人员要把注意力集中在这个不可能完成的任务上呢?我不否认这可能是正确的问题,也可能因为在如何让一个九十九岁的百万富翁保持活力这个问题上,还有各种有趣的生物化学问题。但如果你放眼全世界而不仅是「有效需求」那一方,你会发现,与永生的问题相反,主要的医学问题很简单。它们是关于营养、运动、环境危害等很多年来我们已经知道的事。这些问题虽然很简单,但在实践中却很难解决。把注意力集中在复杂的问题上会更有趣,因为我们可以想象有一颗解决问题的魔法子弹。

统计工作也是如此。统计学科几乎都是关于从真实模型中获得对参数的绝对最佳估计(我称之为「死党估计」bestimates)。统计学家们总是承认,他们认为自己的工作只是考虑如何估计参数,前提是我们已经知道世界上最重要的事情,即我们应该使用什么模型。(是的,我稍后还会讨论关于模型选择的工作,但我无法讨论关于诊断错误模型的工作。)不幸的是,通常如果我们知道何为正确的模型,我们就不会费心进行统计工作了。我们的问题并不是如何从真实的模型中得到参数的死党估计,而是避免让模型的结果误导我们。因为我们需要做的是提出关于社会世界的想法,然后让世界能够告诉我们我们错了,需要更经常告诉我们的是:我们的确错了,而不是我们没有错。

那我们要怎么做?在这本书的一些部分,我将用一个木匠的比喻。从数据中获取真相是一门手艺,你需要学习自己的手艺。其中一部分就是知道什么时候不要太花哨。如果你正在写一本关于如何制做椅子的书,你不会告诉别人在锯完木头后,马上动手用280号特细砂纸。你会告诉他们先用锉刀,接着用80号较粗的砂纸,然后用120号砂纸,再用180号,最后是220号细砂纸,依此类推。但我们大多数的统计书都把你直接推到280砂纸那里。如果你的作品已经做到了那样,那请便。但如果你盯着一堆木料犯愁,那继续读下去。

对于统计学家总是假设你有正确的模型这一点,许多读者持反对意见。事实上,现在很多令人兴奋的方法论进展都涉及到采纳一类模型进行分析,其中一些方法甚至不要求真实模型在你正在检查的集合中(Burnham and Anderson 2004:276)。这些方法可以用来从一个模型集合中选择一个最佳的,或者在模型*之间*找出一个更好的参数估计,或者在已知模型不确定性的情况下得到对参数不确定性的更好估计。在社会学中,这将与贝叶斯统计相关,尽管也与信息论方法(information-theoretic)相关。贝叶斯的想法是从我们正在考虑一系列模型的概念开始的,并试图在我们观察数据的前后比较后验概率分布和先验概率分布。

和其他几乎所有人一样,我对这项工作充满热情(看看Ravery 1985;Western 1996)。但我们必须记住,即使有了这些标准,我们也只看到了所有可能模型的一小部分。(有些贝叶斯统计方法不需要一个模型集合,但这些并不能解决我在这里讨论的问题。)当我们进行模型选择或模型平均时,我们通常有一组固定的可能变量(十几到几十个,而不是上百个),我们通常甚至不考虑所有可能的变量组合。我们通常将自己限定于一个单一的设定族(在旧的GLM[广义线性模型]术语中,这意味着联结函数[link function]和误差分布[error distribution])。

现在,我决不想降低这种工作的重要性。我认为,由于计算机化带来的方便,我们将看到越来越多的这样对于模型族的详尽搜索。我相信,这应该越来越被理解为「最佳实践」,并且可以在贝叶斯框架之外进行,以检验我们的方法对其他决策类型的稳健性。(例如,在最近一篇很棒的论文中,Frank et al.[2013]比较了他们的首选模型与所有可能的排列组合:模型的合并方式、变量的组合,以选择最佳模型。)但这并不能解决我们的基本问题,即无法确定我们是否在一定程度上接近真实模型。

你可能会认为,即使不能解决我们最大的问题,至少让统计学家开发的更严格定义的模型参数估计不会带来什么坏处。如果我们有幸接近真实模型,那么我们的估计会变好;如果接近不了,也不会造成伤害。但事实上(令人高兴的是,通常情况下,这种情况并非绝对),对完美模型而言最好的[估计参数]可能令错误的模型变更糟。

在我读研究生的时候,有很多关于普通最小二乘(OLS)回归的研究。我们认为,OLS几乎从来都不合适。因此,我们得出结论,这是一件轻率的人才会做的事情。实际上,最聪明的人无论如何也不会尝试线性模型,早就远远绕道走了。我们喜欢列出回归分析的种种假设,从而证明(我们认为)回归分析的结果是多么不可信。

我曾经有过两台摩托车。其中一台简直迷死人:850cc 双引擎诺顿突击队,最后一台脚踏启动的大号英国双引擎,拥有单独的马达,变速箱和主链。它的咆哮声就像音乐。另一辆是本田CB 400 T2——彻彻底底的乏味,当时被戏称为UJM——一辆「通用日本摩托车」(Universal Japanese Motorcycle),完全没有任何性格。

我几乎了解那辆突击队的每一寸——从拆开它来更换零件,从翻阅爆炸的零件图来找出在一些无关紧要的地方可能需要的不可思议的特殊扳手。当我们有小孩的时候,我妻子从不担心我拥有一辆过时摩托车带来危险。发生过最糟糕的情况只是我会有时在一个特别卡住的部件上刮伤我的指关节。因为它基本上呆在车库里,在我修理它的时候挡住一滩地上的机油。

另一方面,本田车非常乏味。你只需按下一个按钮,它就启动了;你把它挂上了档,它就前进了,直到你到达想去的地方,然后把它关掉。如果我想给人留下深刻印象,我会骑上诺顿。但如果我「现在」需要去某个地方,我会跳上本田。OLS回归就像UJM——很容易被轻视,很难被人欣赏——直到你真的需要做点什么。

用轶事证明

我觉得摩托车的比喻很有说服力。但如果你不这样认为,这里有一个来自实际数据的简单例子,来自1976年美国国家选举研究(ANES)。假设你现在对提高政治意识感兴趣,你想知道政党在妇女问题上的不同立场是否对选民投票行为产生了某种影响。你把在国会选举时的投票看作一个简单的二分变量,1=共和党,0=民主党。你主要对性别差异感兴趣,但你也认为受教育程度会带来不同。所以你从一个常规的OLS回归开始。我们得到表1.1中的模型1(对应的R代码是R1.1)。[注:模型代码见出版社网站]

其中性别不显著(这就是那个理论!),但教育水平很重要。这是个发现!你写了一篇漂亮的论文提交给期刊,同时把文章给一位统计学家朋友看。你说那些受过更多教育的人更有可能投票给共和党人这点很有趣。他微笑着说,考虑到教育能让人们更好地理解眼前的经济问题,这很有意义(我认为就是个共和党人)。但他告诉你,你犯了一个大错。你的应变量是二分的,所以你跑了错误的模型。你需要用logistic回归来代替。他给了你本说明书。

你回到家,重跑了回归,记为模型2。你知道的足够多,不会误以为模型1和模型2的系数可以直接比较。令你满意的是,你的基本发现是一样的:性别的回归系数大约是标准误的一半,教育的系数大约是其标准误的四倍。所以你把这个模型加到你的论文里,拿给一个更老练的统计学家朋友看。他说你的结果很有意义(我认为他也是共和党),但你在方法上犯了错。事实上,你的观察对象在统计学意义上并不独立。ANES对国会选区抽样,在同一国会选区的选民有非独立的机会进入样本。这尤其重要,因为这意味着他们会投票选举同一个国会议席。「我该怎么办?」你糊涂了,问他。他说,好吧,一个稳健标准误模型(robust standard error model)可能有助于解决观察对象的不独立,但「普通国会议员」问题表明,最好的方法是在选区一级增加一个随机截距(random intercept)。

所以你去上一门混合模型的迷你课程。最后,你能拟合模型3中的内容:阶层广义线性模型(HGLM)。你的统计学家朋友(多好的朋友!)是对的——你的教育变量的系数改变了一点,现在它的标准误差更大了。但你的结果都很好!相当稳健!然后你给我看。我说这些对我没意义:增加教育会让人们变得更聪明从而增加共和党票(一坏球),或者增加教育帮助选民理解经济问题从而增加共和党的票(二坏球)。我告诉你,我敢打赌,问题是受过教育的人往往更富有,而不是更聪明。你的问题是一个错误设定问题,而不是一个统计问题。

我有数据,并且快速运行OLS然后将收入变量放入组合(模型4)。标有「SECRET」的那一行是收入指标(我不想让你猜到这是怎么回事,但你可能还是猜到了)。哦,不!现在你的教育系数降到原来的十三分之一!看起来是收入,而不是教育,决定了投票。你可能需要把论文直接扔进垃圾桶。「等等!」你想,「稳住。这些数字都不对。我需要再跑一个二元logistic HGLM模型!那可能是拯救我发现的灵丹妙药!」所以你做了模型5。它基本上告诉了你同样的事情。

至此,你正认真考虑谋杀你的各位统计学家朋友。但这不是他们的错。他们做了他们的工作。但千万不要让统计学家来做社会学家的工作。他们只能帮助你获得正确参数的死党估计。但你不知道正确的参数是什么。教训是——我知道你明白,但需要记住——花很多时间担心华丽的点缀是没有任何意义的,就像德尼·狄德罗提到的那个傻瓜,他害怕在海里撒尿,因为他不想成为淹死某人的帮凶。你应该担心遗漏的变量。这才是真正淹死你的原因。

所以,远离OLS可能对你很重要,但在大多数情况下,这不是你的问题。事实上,OLS对违反其假设的行为表现得相当稳健。当然,它不能给你最好的估计,但当你的数据是限制型计数型数据时,它不会变得很糟糕,哪怕(通常)当数据只是只有0和1。此外更重要的是,它与数据的一些独立于模型特征有密切关系。如果真的想的话你可以将「斜率」系数解释为对某种因果效应的估计;或者你可以把它看作一个重新标度的偏相关系数(rescaled partial correlation coefficient)。这些描述性的解释可以派上用场。现在大多数的方法论研究者都会告诉你要越来越接近行为模型。我要说的是这只是故事的一半。就像某些政客会说的,「为和平而努力,为战争而准备」我会说,「为模型而努力,但为描述做好准备。」所以我要花点时间来阐述指导当前工作的数据使用理论。但首先,一些术语。