中国网络审查制度如何允许批评政府，却禁言群体煽动

24/10/2013｜金加里（Gary King）珍妮弗·潘（Jennifer Pan）玛格丽特·E·罗伯茨（Margaret E. Roberts） | 观察者网翻译
【按】本文原载于《美国政治学评论》（American Political Science Review）2013年5月刊，题为《中国网络审查制度如何允许批评政府却禁言群体煽动》（How Censorship in China Allows Government Criticism but Silences Collective Expression），作者为哈佛大学教授金加里（Gary King）和他的学生珍妮弗·潘（Jennifer Pan）与玛格丽特·E·罗伯茨（Margaret E. Roberts）。该论文刊出后不久，观察者网即组织翻译。

金加里教授等通过对中国网络审查制度的大规模、多来源数据分析，得出结论：中国的领导层允许社交媒体发展，允许对政府、政策、领导人的批评。中国人在个体上是自由的，但在群体活动上是受控制的。这其实与我们看到的世界各国政府处理同样问题时采纳的方法基本相似，比较近的例子是英国卡梅伦政府对付社交媒体与骚乱的做法。

哈佛大学的教授等级中，最高级别是“校级教授”（University Professor），全哈佛大学目前一共只有24名。而政治学系金加里（Gary King）的“阿尔伯特•韦瑟黑德三世校级教授”（Albert J. Weatherhead III University Professorship）头衔正是从大名鼎鼎的美国政治学者、前哈佛大学政治学系教授亨廷顿（Samuel Huntington）身上传承而来。

虽然作者功力扎实，又具有重要的学术地位，但由于种种原因，与《外交政策》杂志上此前刊登的《谣言共和国》相比，该论文在中美学术圈和媒体上引起的反响则显得迟缓。《纽约时报》中文网专栏作家欧阳斌近期在哈佛大学就该论文对金加里教授进行了采访。《环球时报》今日则刊发观察者网专栏作家、复旦大学国际政治系讲师沈逸文章《客观研究中国网络，摘下有色眼镜》，评述了该论文在学术圈内的窘境。

观察者网今日特刊出金加里教授领导撰写的此文译文（附录部分有删节），供读者借鉴：

中国网络审查制度如何允许批评政府却禁止群体煽动

How Censorship in China Allows Government Criticism but Silences

Collective Expression

译者：朱新伟、王杨

我们对可能是有史以来最广泛的对人类言论的选择性审查效果进行了首个大规模、多来源的分析。为此我们设计了一套系统，赶在中国政府发现、评估并审查（从互联网删除）他们视为不妥的内容之前，从1400个不同的社交媒体网站上定位、下载并分析数百万的帖子。利用现代电脑文本分析方法，我们分别将85个主题范围中，在一段时间内被审查的帖子与没有被审查的帖子的实质内容进行了对比。跟之前的理解不同，那些对国家、领导人和政策进行消极甚至刻薄批评的帖子遭审查的可能性并不高。但是我们发现审查工程旨在限制群体性事件，对代表、加强或刺激社会动员的言论，不论是什么内容一概禁言。审查的目标是预先阻止当前或未来可能发生的群体性事件，而且，它也明确暴露了政府的这一意图。

介绍

中国政府有选择地审查中国人民言论的项目，其规模和复杂程度在世界历史上是没有先例的。美国的社交媒体集中在少数的网站上，而中国则分布于数以百计的地方站点上。审查的很大一部分责任下放给了这些网站内容提供者，如果他们违反政府审查守则，就有可能遭罚款或关停。为了遵守政府规则，每个网站都雇佣了最高达1000名审查员。此外，来自中央、省级和地方等不同级别的约2万-5万网警和网管办（员工）以及约25万-30万“五毛党”都参与了这项艰巨工程。中国的新闻自由规模在197个国家中与缅甸并列第187位（据2012年自由之家报告），但是中国的审查工作是迄今最大的。

在本文中我们发现，这一旨在限制中国人言论自由的机制，却自相矛盾地包含了异常丰富的信息资源，暴露了中国政府利益、意图和目标——这是学术和政策研究团体一直关注的话题。这样的信息可以不间断地获得，跟通常媒体零星报道的领导人的公开活动不同。我们用该新信息发展新的理论以解释审查机制的总体目标，进而揭示中国领导层的一些最基本目标，这些目标至今备受猜疑，却缺乏实证分析。该信息对于其他很多学术（和实用）用途也很有价值。

我们核心的理论发现是，与很多研究和评论相反，审查机制的目的不是压迫对国家或共产党批评的言论。确实，尽管审查广泛存在于社交媒体，我们发现当中国人对政府或领导人提出尖刻批评时，他们的帖子被封杀的几率并没有上升。但是，我们发现审查的目的是降低群体行为的可能性。只要群体性运动确定或可能发生，他们就会及时删除社交联络。我们阐明上述观点并讨论它们对中国政治和比较政治学的很多研究领域产生的深远影响。

在以下章节中，我们先对中国审查制度提出两种理论。接着我们介绍独特的数据源以及收集数据过程中的挑战。接下来，我们阐明分析的策略，给出结果，并总结。附录包括编码细节，我们的中文文本自动分析方法，并暗示了审查行为如何预示政府在互联网之外的行动。

政府意图以及审查目标

以前衡量政府意图的指标 破译中国领导人隐秘的意图和目标曾是研究中国精英政治研究的焦点。西方学者采用克里姆林学或北京学（中国政策研究）作为其研究方略。随着文化大革命和改革开放的到来，研究者可获得越来越多的数据，而学者也将研究方向转到信息更开放的领域。今天的中国研究总体上依赖于官方数据、民意调查、地方官员访谈以及官员和政府的公开活动。这些资源很适合回答其他重要的政治科学问题，但是对于衡量政府意图，它们显然是间接的、采样过于稀疏且往往价值存疑。比如，官方数据公布的“群体性事件（mass incident）”的数量，可能显示了政府利益的考量，但我们只有将真实数字和政府操作分开才能看到这一点。同样，抽样调查或许有用，但政府显然对普通公民有所隐瞒，而且即使受访者拥有研究者想要的信息，他们可能也不愿透露。在直接访谈官员时，研究者不得不占一卦来确认他们的知情人真正相信什么。

衡量意图就更加困难了，目前的方法提供的信息太少，因为中国政府不是铁板一块。其实，在很多情况下不同的政府部门、不同的领导或不同级别的政府工作目的千差万别，甚至很难确定一个统一的意图或动机，更别说衡量了。我们不能解决所有的问题，但是政府的审查行为中的偏好会透露更多信息，据此我们可能会更好地采用有用的衡量手段。

审查理论 我们试图充实审查的工作方式以及网络如何拓展公共话语的空间的研究。我们首先建立一个基于实证研究的理论，解释政府为什么要审查以及他们想通过这样庞大的机制达到什么目的。当下学者的结论合理但宽泛，即中国政府审查是为了维持政权。而我们着重研究政府到底认为什么事是要紧的，以及它采取了什么行动实现目标。

为此，我们提出了两个理论。这两个理论各自反映了威胁中国政权的某个方面。首先是国家批评论，即假定中国领导层是为了镇压异见并约束指摘中国政府、政策或领导的言论。结果是让看得到的公众言论对掌权者更有利。很多对国家的批评都包括在该理论中，比如差劲的政府业绩。

第二个理论是我们所说的潜在群体行为论，即审查目标是联合起来集体表达意愿的人，他们受政府之外的人的激励，并有引发群体行为的可能。该观点认为，群体表达——很多人在社交媒体上就同一问题交流——涉及真实的群体行为，比如抗议或容易引发群体行为的事件，很可能会被审查。有潜在群体行为的帖子是批评还是歌颂国家，还是不涉及国家，都与本理论无关。

“潜在群体行为”也可以用中国政府鲜明的立场来描述，即不受政府控制的群体表达无异于派系斗争，并最终会导致混乱和无序。比如，在共产党建党90周年前夕，新华社发表社论称，西方式议会制民主将导致中国重蹈文革的动荡史。同样地，在2011年3月召开的第11届全国人大四次会议上，全国人大常委会委员长吴邦国称，鉴于中国的国情，中国将不会借鉴多党轮流执政的体制。这样做的目的，是为了避免中国“陷入内乱深渊”。中国观察家们常会注意到，中国政府对维稳的重视和通过约束社会关系限制群体行为的愿望。中国体制遭遇了大量的争端和群体行为。清华大学社会学系教授孙立平称，2010年，中国共发生了18000起群体性事件。而这些事件将不可避免地对政府处理问题的方式和观念产生影响。因为频繁遭遇群体行为，政府的行动和观念也受到影响。中国政府认为，对横向沟通加以约束是合法且有效的保护人民的手段。

现在的学者无法通过实证研究分析我们提供的两种理论的不同。Marolt (2011) 写道，当“或者批评政党及其政策，或鼓动群体性政治运动”时，网上的帖子会被查封。MacKinnon (2012)称在温州高铁相撞事件中，互联网内容提供者受命“跟踪并审查批判性的帖子。”Esarey和Xiao (2008) 发现中国博主采用讽刺手法批评政府，以避免遭到镇压。Esarey 和 Xiao (2011) 写道，共产党领导人最害怕“有影响力的网民联合对政府施压，要求其改变政策，”但他们认为这种施加的压力就是对政府的批评。Shirk (2011)称审查的目的是约束政治反对派的动员，但她的例子表明批评的观点来自于那些被压迫的人。

抗议这样的群体行为经常被视为是专制政权的丧钟。东德、东欧以及最近的中东抗议都导致了政权革命。很多中国学者都关注导致人们反抗的因素以及人们采取的策略。中国政府似乎要不计代价阻止抗议——而且确实，群体行为的多少是地方官员的考核标准之一。然而，最近的数个研究指出专制政权可能会期待并欢迎潜在的小规模抗议活动。因为了解并处理群众的不满会促进政权稳定。Chen (2012) 指出小规模、孤立的抗议是中国长期的传统，也是政府所期待的。

结论概述

上述两个假说可能都对，也可能一对一错或者全错。根据我们的证据，答案很简单：国家批评论是错误的，潜在群体行为论是正确的。我们的数据表明，中国的审查机制允许对中国政府、官员和政策的广泛批评。结果是，审查首要针对的是限制可能引发群体行为的信息传播，不论这种表达是直接反对政府还是与政策有关，都会审查。如果网上发帖数量大增，且内容与可能引发群体行为（如地面抗议）的事件有关，那么审查就会到来。此外，我们还考察了每个事件中的情绪，发现在这些事件中，政府对支持和批评的观点一概删除。这表明中国政府相信，压制有可能引发群体行为的帖子比压制批评对维持统治更加重要。

数据

我们收集大量具体信息时面临巨大挑战，中国政府不希望任何人看到这些信息，因此会竭尽全力阻止别人获取。下面我们我们将讨论审查的种类，数据收集过程，该研究的局限性，以及我们对数据做后续分析的方法。

审查的种类

中国审查社交媒体上人类表达至少有3种方式，最后一种使我们研究的重点。首先是“中国大（长城）防火墙，”该防火墙完全禁止某些网站在中国运营。大防火墙令很多国外的互联网公司头痛，也阻止了中国人通过这些网站与国外的人交流。但中国人可以用其他的网站，用相似的方式表达自己的观点，对此防火墙就无能为力了。比如，脸书在中国被禁，但人人网是相似的替代品；同样新浪微博也是人气很旺的推特的克隆网站。

第二种方式是“关键词屏蔽”，它防止用户发布含有被禁的词或短语的文本。这对限制言论自由作用有限，因为网民发现比自动程序聪明并不难。他们用类比，比喻，讽刺等方式逃避审查。汉语提供了多种新颖的方法，比如替换汉字，其意思与原意无关但读音相似（同音字）或看上去相近（同形异义字）。比如目田，本意是“眼睛田野”，但被魔兽世界玩家用来代指自由。同音字方面，“hexie”这个音经常被写成河蟹，意思是河里的螃蟹，但它是代指和谐，即官方的“和谐社会”政策。

一旦跨过了前两个障碍，文章就在网上发布了，审查者将阅读并删除那些不妥的文章。根据研究文献、观察家、与数个政府内部人士的谈话以及对数据的审核，我们几乎可以断定，内容过滤很大程度上是人工完成的——审查者手动阅读文章。自动程序似乎只是辅助。跟大防火墙和关键词屏蔽不同，手动审查不会被文字游戏糊弄。因此，这也是最后也是最费力的审查方式，也是本文的研究重点。

收集

我们先收集社交媒体上的博客，至少在审查到来前，作者可以完整的表达他们的思想。

在很多国家，如美国，几乎全部博客都集中在少数几个大网站上（脸书、谷歌博客、Tumblr等）；中国确实有新浪这样的大网站，但还有很大一部分社交媒体资源分布在无数的单个站点上，比如地方bbs论坛等。这种多元对数据的收集工作造成了逻辑上的挑战。由于网址、软件界面、地方审查官员、网络可靠性、访问速度、使用条款各不相同，审查模式也不同，能对我们的数据收集造成潜在妨碍的方式也多种多样。幸运的是，中国独特的社交媒体结构也为研究各地对群体表达的监管提供了绝佳机会，因为大量的本地站点提供了丰富的信息，这比在美国还要便利。

数据收集面临的最复杂的挑战是，赶在中国政府阅读并删除不妥的内容之前，定位、访问并下载相关内容。此外，对每个帖子进行频繁重访以确认删除的时间。还要在中国很多地方收集数据同时不会影响到我们研究的审查机制，研究也不会遭到制止。

我们能完成的原因是数据手机系统高度自动化，而中国审查系统涉及人工操作。我们庞大的工程（由于明显原因将不会在此详述）在全世界很多地方运行，包括中国内地。

最后，在2011年前半年，我们从1382个中国网站上定位、访问并下载了社交媒体帖子。中国社交媒体结构最显著的特就是它有极长的（幂律状的）尾巴。图1是各网站的样本和中文标识（图片a）以及代表该长尾的网帖数量饼状图（图片b）。最大的网帖来源是新浪博客（占总数的59%），百度嗨，华生论坛，四月论坛和天涯。但尾巴还在一直延伸。

社交媒体帖子涵盖的话题范围太广，以致于企图涵盖一切的随机取样策略很难对单一的话题提供有价值的信息。因此，我们采取了分层随机抽样设计的方法。我们先选取了85个单独的话题范围，并按照假定的政治敏感性分为高（如艾未未）、中（如计划生育）、低（如流行网游）三档。通过回顾以前的研究、咨询中国专家以及对当下事件进行研究，我们分别在这三档中选取某些特定话题。附录A是完整的清单。然后，对每个话题范围（用关键词区分），我们收集6个月时间内所有相关的社交媒体帖子。我们检查每个话题范围的帖子，删除垃圾邮件，再用辅助阅读工具对内容进行研究。(Crosas et al. 2012; Grimmer and King 2011)我们收集了3674698篇帖子，其中随机选出127283篇进行进一步分析。（我们在其他时间段里重复这一过程，有时候会对某些话题范围进行更深入的研究。总共收集并分析了11382221篇帖子。）所有这些来自中国站点的帖子都是用中文写的，不包来自括香港和台湾的文章。我们先阅读每篇文章的内容，将其置于某个话题范围的时间轴上，并重复访问源网站以确定其是否被审查。根据需要，我们将用其他特定的数据对该信息进行补充。

审查者们并不害羞，因为我们发现可以直接区分（有意的）审查和零星的断电或短暂的超时错误。被审查的网页包含这样的字眼：“抱歉，指定的主题不存在或已被删除或正在审核‘，有时候也会有警警和察察的标志。

尽管我们的方法比审查者快，但他们显然也是高度专业的。为了说明这一点，我们随机收集并分析了2011年9月27日上海地铁相撞事件前后的网帖、2012年4月10日到12日薄熙来事件的网帖和有关谷开来的网帖。

我们对上述三个话题范围的帖子进行不间断监控，一共监控了9天。（其他范围的审查遵循同样的基本方式）图2表示的是被审查的帖子数的直方图。在三个事件中，大多数的审查是发生在原文发布后的24小时之内，当然也有一小部分帖子是5天之后再被删除。这是一种惊人的组织能力，它需要大规模的军队般的精确：不同政府级别、分管不同互联网内容提供商的领导需要首先做出决断（通过一致意见、直接命令或折中），决定什么内容需要被审查；他们需要将该决定传达给数十万的个人；然后他们在大约24小时之内完成审查工作。正如埃德蒙（2012）指出，社交媒体上信息源的激增让信息越来越难以控制，然而，中国政府竟然在全国范围内克服了这一困难。鉴于很多人很难达成一致意见，而且文本解释中实现高级别的编码者信度通常会很困难（比如Hopkins and King 2010, Appendix B）政府对审查工作的努力是巨大而专业的。我们发现了一些证据，表明这一庞大芜杂的官僚体制中存在不同意见，比如在不同级别的政府之间。但我们尚未对此进行细致的研究。

局限性

如下所示，我们的方法很大程度上揭示了中国领导层的目标，但它缺少网站的自我审查以及在我们获得内容之前进行的审查；它也没有对大防火墙、关键词屏蔽或搜索过滤的直接效果进行量化。我们也没有研究肢体暴力的效果，如逮捕博主或进行威胁。尽管各级政府和官员会对审查什么、何时审查进行干预，但我们的数据有时候并不能让我们对这些信息源加以区分。

我们当然无法判断这些局限性的后果，不过我们可以合理地推断其中最重要的当属肢体暴力、威胁以及由此导致的自我审查。尽管我们分析的社交媒体数据包含数百万中国人的意见且涵盖了机器广泛的话题和演讲行为，而我们无法观察的更少的讨论活动很可能是对中国政府利益最要紧（或最紧迫的）。

最后，过去对互联网行为的研究是基于他们的测量方式跟“现实世界”行为有多接近；接着，网络行为占据了人类生活很重要的位置，因此今天社交媒体上观察到的思想本身就非常重要，不论它能否很好地衡量非网络自由和行为。但无论是哪种方式，我们难以拿出证据说明，我们对中国社交媒体的研究跟新闻自由或其他的人类表达有什么关联。

分析策略

总体上看，大约有13%的帖子被审查。如果将所有领域所有的帖子汇总起来，这一平均水平随着时间的推移变化不大，但它会随着帖子数量和审查力度的变化产生巨大变化。我们发现，潜在政治敏感性和审查之间的关联性非常低：在低档和中档敏感度事件中，审查率基本一致（分别是16%和17%），仅仅比高档敏感度事件（24%）低了一点。显然还有一些事情。为了发现是什么事，我们接下来讨论我们的编码规则、核心假设和中国政府可能的审查程序。

编码规则

我们分5步进行编码。首先，我们先将社交媒体帖子按分层随即抽样设置的关键词，将其分为85个话题范围。尽管我们做了大量的检查（通过大量阅读并借助现代电脑辅助阅读技术），确保其准确性，我们的话题范围里难免（借助任何机器或人工分类技术）存在一些归类错误的帖子。我们采用了保守的方法，先做出结论，忽略这一错误的影响。随后，我们进行了反复的筛查（用同样的技术），确保我们不会错过任何重要的信息。这种归类错误可以看做是系统性错误，但其中的每个事件都巩固了我们的结论。

第二，众所周知，几乎所有话题范围（和国家）的言论是“阵发”的，即稳定的时期常常被偶然爆发的有关某话题的数量激增打破。我们还发现仅仅有两个例外——色情内容和对审查者的批评，如下所述——审查工作在数量爆发（volume burst）时期（即事件热点时期）力度往往格外大。因此，我们对数量爆发期前后的数据进行了处理。我们将每个话题范围都看做6个月时间序列中每天的数量，并采用文件回归技术计算的权数侦测数量爆发，以确定在剩余时间序列中的离群值（outlaying observations）。

通过这一过程，我们检测到85个话题范围中有67个出现数量爆发，一共出现了87次。

第三，我们将每个事件归为一下五类：1.潜在群体性事件，2.对审查者批评，3.色情内容，4.政府政策，5.其他新闻。每个类别都可能包含批评或不批评政府、领导人和政策的帖子。我们将群体行为定义为：两个（含）以上的人，受到参与者而非政府官员或政府代表的鼓动或控制，追求目标的行为。我们的“潜在群体行为”理论上包括任何有可能引发群体行为的事件，但是为了保守起见，并确保编码规则清楚明确且可以重复，我们将这一范畴限制在a)包含抗议活动或有组织的人群组成；b)与曾经组织或引发群体行为的个人有关；c)与曾经引发抗议或群体行为的民族主义或民族主义情绪有关。

事件是指，对效命于政府或非政府实体的审查者的批判，包括个人和公司。色情是指，包含色情或明显性方面内容的电影、网站或媒体的广告或新闻。政策指政府声明或政府活动报告，包括国内或对外政策。其他新闻是指对上述4类事件以外的事件的报告。

最后，我们进行了一项研究以验证我们编码规则的可靠性。为此我们把上述规则给两位熟悉中国政策的人看，并请求他们对87个话题范围分别进行编码（每个话题范围都与一个数量爆发有关），并将其归入上述的5个范畴中。编码者独立工作，独自对这些事件进行归类。两位编码者的一致率是98.9%，即87个话题中的86个归类都相同。唯一不同的话题是方滨兴（大防火墙的发明者）遭扔鞋事件。这一事件中，既有对审查者的批评，在一定程度上也是群体行为，因为有好几个人一起向方滨兴扔鞋。我们将该事件作为批评审查者的例子，不过不管它怎么编码，都不会影响我们的结果。因为我们估计两个都会遭到审查。

核心假说

我们的核心假说是，数量爆发期间，政府会将话题范围内所有讨论潜在群体行为事件的帖子删除。也就是说，审查者将不管这些帖子是否有群体行为的可能，或许部分是因为编码者信度（intercoder reliability）很低。其实，Kuran (1989)和Lohmann (2002)研究表明，正是有关群体行为事件的信息促进了群体行为的产生，因此，要想把这种信息和明确的对群体行为的号召区分开来，即使不是不可能，也是非常困难的。因此，我们假设审查者采用了更简单的方法判断帖子是否与潜在群体行为有关，而且他们不会考虑帖子是否是批评政府的。

审查者还试图把色情和批评审查者的内容全部删除。但不会删除政府政策和其他新闻范畴内的帖子。

政府的运作程序

中国政府审查的确切运作程序当然无法观察到。但是通过跟接近审查机构的人和内部人士的交谈，我们相信我们的编码规则可以视作接近真实程序。（其实，在文章的一个草稿公布后，我们收到了反馈，证实了我们的观点。）我们手动确定话题范围，用关键词对帖子进行归类，并通过统计发帖数量的时间序列数据，自动甄别数量爆发。某些情况下，对现实世界事件的甄别可能发生在事件发生之前，因为审查者会被秘密告知某事将要发生（比如对某个异见分子的逮捕），而这件事可能引发群体行为。在数量爆发期间对事件进行甄别首先几乎全部需要人工完成，或许有时会辅以算法识别特色词组（statistically improbable phrases）。最后，对单个帖子做出审查决定——根据我们的假说，要检查它是否与某个特定事件有关——几乎肯定是人工完成的，因为没有哪个已知的统计或机器学习技术的精度能与中国审查工作的精确程度相比。审查者可能会先用关键词搜索找到相关事件，但他们需要人工阅读文章，再进行审查。比如，当审查者从网上的讨论中找到增城事件的文章，他们可能采取了关键词搜索的方式，但他们可能必须要阅读全文，这样才能将增城抗议和增城的其他信息区分开来，比如增城荔枝收获。

结果

接下来我们介绍3个具体的测试以验证我们的假说。这些测试是基于：1 帖子数量，2 引发每次数量爆发的事件性质，以及3 被审查的帖子的具体内容。此外，附录C（见文末）提供了一些证据，表明中国政府的审查行为自相矛盾地反映了中国政府的意图。

网帖数量

假如审查的目标是禁止有可能引发群体性事件的讨论，那么我们应该会看到，数量爆发期间会比别的时期有更多审查。我们会看到，一些爆发——有群体行为可能的——审查的级别会更高。

为了研究这一模式，我们引入了“审查强度”的概念，即数量爆发期内被审查（删除）帖子的百分比减去数量爆发期外所有被审查（删除）帖子的百分比。（基本比率在不同的话题范围中变动很小，如下图所示，没有造成天花板或地板效应)。这说明中国政府的举措之严厉，因为在数量爆发期间进行审查明显更加困难，网帖数量更多，时间更紧迫，且没人预先警告什么时候会出事。

表3的a直方图显示的结果似乎支持我们的假说。结果表明，绝大多数的数量爆发的审查强度集中在0附近，但有一条显著的长尾（坐标轴左侧没有相应的长尾）。显然数量爆发往往伴随着审查强度的大幅提高，即使跟接下来的6个月相比也是如此。

能引发数量爆发的事件的性质

我们发现，由群体行为，批评审查者和色情事件引发的数量爆发会遭到审查，但是由讨论政府政策和其他新闻引发的发帖量增加则不会。

我们在下一节讨论国家批评论。这里，我们提出针对本次调查结果的三个结论。

首先来看图3的B列，其审查强度的分布与A列一样均匀，并按时间类型显示。结果很明显：与群体性事件、批评审查者和色情（分别是红、橘红、黄色）相关的事件基本都在坐标系的右边，表明审查强度很高，而关于政策和新闻的事件基本都在坐标系的左边（分别是蓝、紫色）。群体性事件的审查强度平均是27%，而政策和新闻的平均审查强度分别是1%和4%。[横坐标（删除率）基本上数值很小，约为3-5%，上下波动幅度不高。]

第二，我们列出审查强度最高和最低的时间案例，在图4用相同的颜色标注。群体性事件可能性最高的事件包括内蒙古牧民被运煤车撞死事件、增城孕妇遭保安殴打引发民工骚乱事件、艾未未被捕、抚州征地爆炸。明显的是，“群体性事件可能性”最高的事件根本与政治无关：日本地震和核电厂事故发生后，浙江出现谣言，称碘盐可以抵御核辐射，于是民众抢购食盐。这个谣言没有科学依据，也和国家无关，但却遭到了严格的审查；原因大概是，该事件中，政府失去了对群体性情绪在当地的控制。实际上，我们发现在当地网站上的碘盐谣言审查要比全国性网站来得严格。[在图4的两个相关事件中，社交媒体的新闻和讨论中经常会色情内容，以吸引眼球。]

与我们的“潜在群体性事件防范论”结论一致的是，一些审查最严格的事件不是对国家政策的批评或讨论，而是可能引发群体聚集的当地性群体表达。一个例子是，温州的一个当地网站出现了一些帖子，声援环保人士陈飞。陈飞力挺用于保护当地环境的环保彩票。虽然陈飞受到了中央政府的支持，但是，所有关于他的帖子都被当地网站删除了，原因有可能是他过去阻止过群体性活动。2000年后，陈飞建立了绿色环保志愿者协会，拥有超过400名注册会员，创立了中国首个“无塑料袋村庄”，最终推动了关于使用塑料袋的立法程序。另一个例子是关于江苏沭阳儿童铅中毒事件。相关的网络帖子讨论了天能集团的电池厂导致儿童健康状况受污染的事情，医院拒绝向受害儿童父母公布检测报告。2011年1月，沭阳村民在电池厂门前要求解释。审查者绝不容许这类群体性集结，无论它是支持政府或批评政府。

所有被标记为“可能发生群体性活动”的事件中，事件内的审查比事件外的审查更为密集。另外，平均来看，这些事件比其他事件的审查率要高得多。这些事实与我们的分析一致，即，审查者会主动搜寻并删除那些与“可能发生群体性活动”事件有关的帖子。不过，我们想进一步分析审查的不同力度：虽然我们已经采取的定量分析，但显然，“可能发生群体性活动”中的某些事件要比另一些事件敏感性高得多。因此，通过分析个别事件，可以看出，审查程度低的事件，其发生群体性活动的可能性也较低。

以下举例分析。动画电影《功夫熊猫2》上映时，关于电影种族歧视的抗议出现了言论的数量爆发，但未来发生大规模抗议的可能性显然极为有限。另一个例子是钱云会事件，这位浙江农民带领村民抗议当地政府征地补偿不公，后来被卡车压死。钱云会遭遇的这两件事都发生在我们调查以前。在我们调查期间，钱云会的遗属为了争取赔偿又引发了一次热点，但这一事件的数量爆发更为集中、事件本身煽动性较低。

最后，我们给出三类事件更为详细的一些例子，其中每一类事件都基于某一话题领域的随机帖子。首先，图5给出了4个例子，一开始都是审查力度很低，然后相关言论突然出现数量爆发，审查强度也就随之升高。无论是删帖的绝对数量，还是删帖占所有帖子的比例，都是非常高的。4张图表（还有其他例子，本文无法一一列举）的结论很明显：中国政府在言论数量爆发期会加倍投入审查。

我们进一步分析了（按照Grimmer and King 2011的分析方法）可能发生群体性事件的言论数量爆发期间没有被删除的那些帖子，如图5的a坐标所示，红色区域并没有完全覆盖灰色区域。这些未被删除的帖子与事件没有直接关系，而是恰巧包含了事件话题的敏感词。我们再次发现，审查者在增加审查强度时，操作非常精准。自动分类不可能达到如此高的准确度。

第二，我们在表6种给出4个话题，这4个话题都有至少1个数量爆发期，但没有遭到审查。其中包括重大而富有争议性、具有潜在煽动性的话题，计划生育、教育改革、腐败和电价调整，但均与地方性的群体表达无关，所以，审查强度一直非常低。

最后，我们发现，几乎所有的话题都呈现出图5和图6的趋势。两种模式如图7所示。这些话题包括色情内容（坐标a）和对审查者的批评（坐标b）。这些话题的特点是，6个月以来其审查强度始终很高，并且，没有在数量爆发期加大审查强度。美国政客将色情内容视为挑战国家的“道德操守”，中国领导层也将其视为腐蚀年轻人身心健康的产物，并且是社会不稳定因素之一；总之，必须对其进行审查。

更令人惊讶的是审查者的“不当行为”：他们允许中国人批评任何一位政治家，但不允许批评审查者自己；允许批评每一项政策，但不允许批评言论审查政策本身；允许批评每一个项目，但不允许批评他们自己的项目。就算是用中国自己的牵强理由来看，图7所示的结果仍可称得上是惊人之举。

哪些要删除，哪些无需删除

我们的最后一项测试是比较删除的帖子和未删除的帖子的内容。“国家批评防范论”认为，批评政府的帖子都会被删除，无论它有没有引发群体性事件的可能性。相反，“潜在群体性事件防范论”认为，有关群体性事件的帖子都会被删除，无论它是批评或赞扬国家；而那些无关群体性事件的帖子，无论对政府是褒是贬，都不会被删除。

为了执行此次大规模测试，我们需要一种自动文本分析手段。因此，我们将Hopkins和King（2010）分析英语的方法应用到汉语文本。这个方法不需要机器翻译、个别话题分类计算或鉴别每个话题的关键词（当然，免不了会发生错误）；其方法只需一小部分的中文文本。我们采用了一系列严格的测试，并获得高度精确的结果——如同人工阅读和分类一般。我们在附件B中描述这一方法，并列举若干例子。

就我们的分析而言，我们将帖子内容分为3类：（1）批评政府（2）支持政府（3）与事件无关的报道或事实性的报道。不过，我们对每个类别中的帖子比例没有兴趣，对删除的帖子和未删除的帖子的比例也没兴趣——那是Hopkins和King的研究方法。我们的方法是，估计并比较每一个类别中被删除的帖子的比例。因此，我们使用的贝叶斯方法（参见附件2），对Hopkins和King的方法进行改进。

我们首先分析特定的事件，然后从所有的事件中随机抽取帖子。关于群体性事件，我们精确选择了艾未未被捕、内蒙古抗议、抚州拆迁爆炸事件。图8的坐标（a）呈现了每一个事件中删除帖子的比例，其中，批评政府的用红色表示，支持政府的用绿色表示；纵坐标是95%置信区间。显而易见，无论帖子支持或反对政府，删除率都很高，平均是80%。虽然常识认为删帖是为了过滤批评政府的声音，但测试表明，批评政府的帖子的被删概率并不比支持政府的帖子高。这支持了“群体性事件防范论”结论，并与“国家批评论”相悖。

我们还从图6中选取了三个主题，进行平行试验。这三个主题都没有群体性活动的可能性：计划生育、反腐政策和物价上涨的新闻。结论与我们的预期相符：无论支持或反对政府，相关帖子的删除率都很低，平均约为10%。

为了检验以上结论的普遍有效性，我们从所有数量爆发的主题中随机选取没有群体性活动可能性的帖子。图9显示的结论与图8一致，群体性活动可能性高的事件删除率也高，无论帖子是支持还是反对政府，而新闻和政策性事件的帖子删除率较低。同上，支持或反对政府的态度对删除率影响不大，而与群体性活动的关系则很大。

结论很明白：如果帖子牵涉到群体性活动的可能性，那就会被删除；否则就不会被删除。无论帖子支持或反对政府、领导人或政策，都与删除率无关。

最后，我们列举几个中国社交媒体的帖子内容。首先，我们举出两个无关群体性活动可能性的帖子，虽然帖子内容都批评了政府和领导人。例如，以下帖子直接进行了人身攻击，点名当地政府：

这是一个漠视生命的市政府[陕西省榆林市]、一个官员横行的市政府、一个没有公正的市政府，一个低级趣味的市政府，一个包二奶的市政府，一个为钱不要脸的市政府，一个为个权不要人格的市政府，一个没有血性的市政府，一个没有道德底线的市政府，一个出尔反尔的市政府，一个忘恩负义的市政府，一个不要子孙后代的市政府，一个什么怪事都出的市政府，一个什么的市政府，只要你想到的就有……

另一位博主尖锐地批评了中国的计划生育政策，同样未被删除：

可以提倡人民自愿节育，但让人断子绝孙的强制节育，搞30年已是忍辱负重，不能形成路径依赖，将不得已的临时性恶政无限延长……可以毫不夸张地讲，计划生育是农民最痛苦的暴政。虽说是“必要的恶”，却是世界少有，遭到世界舆论的广泛谴责，实在不该以此为豪。

最后，以下博文尖锐批评中国共产党背弃民主和宪政诺言，提及天安门事件，但也没被删除：

我一直将中国的近代史视为一场改良与革命的赛跑，在清末的大赛场上，最终革命跑到了头，改良的一切设计，在武昌起义枪声响起后成了废纸。中共的民主宪政承诺，是抗战结束前开出的远期支票，超过了一个甲子仍未兑现。当今中国社会缺乏诚信，要从毛泽东开始问责。邓小平在80年代提出的政治体制改革，在“8964”事件后被长期搁置……近年所谓“党主立宪”之说，也是主流学者为维系一党执政地位所做的政治设计。

这些帖子既非特例，也不反常：我们的数据库中还有几千条。负面帖子，包括所谓的敏感主题，例如天安门事件和一党执政，并没有瞒过审查体制。证据表明，审查者无意阻止这些帖子的出现。相反，他们注重删除关于群体性活动可能性的帖子，无论是否牵涉到中国领导人或政府的政策。

为了强调以上论点，我们给出两个有关群体性事件可能性的帖子，这两个帖子都支持政府，但却很快遭到删除。在抚州爆炸事件中，政府删除了这个帖子，虽然它明确谴责钱明奇，并褒扬政府在动迁过程中的工作：

爆炸案造成他本人和多名政府工作人员死亡的悲剧，即使钱明奇在微博里所称拆迁造成的个人损失是属实的，我们也应谴责他的极端报复行为……政府在连续出台保护被拆迁者利益的政府法规，媒体也在为公平对待被拆迁者大声疾呼，各地拆迁补偿款上升速度，大多高于商品房售价上升速度，在不少地方，补偿款已经足以改变一个家庭的命运。

另一个例子是下面这个被删的帖子，它同样支持政府。该帖指责当地领导冉建新涉嫌腐败，而他在被警察监禁期间的死亡引发利川游行：

湖北省巴东县委宣传部都在其官方网站发布新闻通稿称，冉建新在担任利川市都亭办事处常委书记、主任期间，利用职务之便，在征地拆迁、工程发包等事项中为他人谋取利益，收受他人贿赂，涉嫌受贿犯罪。

结语

我们提供的新数据和新方法表明了中国人、中国的言论审查机制以及中国政府在不同领域的关注点，还呈现了政府压制信息传播的秘密机制，以及中国领导层的关注点、意图和目标。

证据表明，中国的领导层允许社交媒体发展，允许对政府、政策、领导人的负面、正面批评。因此，政府的政策有时让人感觉非常糟糕，领导人脸面无光，这和民主国家的民选政客并无二致；不过，他们似乎已经意识到，脸面无光不会影响到他们的位子，只要不发生群体性事件——政府以外的权力控制群众的行为。可以说，中国人在个体上是自由的，但群体上是受控制的。

关于政府此类策略的研究已有很多，我们在此提出一些初步性设想。首先，只要不发生群体性事件，社交媒体就是获取对中国政府和官员的意见的良好渠道。当然，公共表达宽松了，政府也越来越懂得如何满足并缓和公众的情绪。从这个角度来看，目前的模式或许是政府利用社交媒体掌握权力的最佳手段。例如，Dimitrov（2008）提出，人民如果不再抱怨政府，政府就会垮台；因为，这表明在人民心中，政府已经没有了合法性。同样，Egorov、Guriev、Sonin（2009）提出，缺少自然资源优势的独裁政府会允许媒体更为自由，以便增强其执政能力。引申开来讲，这与我们的中国研究遥相呼应，即，容许批评可以增强政府的合法性，巩固政权。Lorentzen（2012）提出了一种规范性模式，威权政府调和媒体自由与言论审查这两种政策，在减少地方腐败的同时，巩固政权的稳定性。也许，研究规范性模式的学者可以吸收我们的经验性结论，进一步发展他们的理论。

推开来讲，本文的数据引申出研究中国政治、比较政治学的新方法和新思维。就中国研究而言，我们的方法反映了威权政府的弹性、中央－地方关系、次国家层面的政治、国际关系和中国的外交政策。通过分析国家层面和地方层面不同的敏感话题，本文表明，在某些领域，地方政府可以独立行事。另外，我们的分析明确地揭露了政府的意图，展现出各级政府的意图差异。我们分析了社交媒体和言论审查的实际内容，这有助于揭示中国的国际关系和外交政策，例如，民族主义的呈现是否会限制政府的外交活动？最后，中国的审查机制可以被视为一种建设性机构。Nathan（2003）将其视为威权政府弹性机制的一部分，或可反映中国共产党的体制化和长期执政的秘诀。

就比较政治学而言，我们的工作可以直接展现国家能力、威权政府的长期执政和执政变化。最近关于阿拉伯之春中的互联网和社交媒体的研究（Ada et al. 2012；Bellin 2012）质疑了这些技术组织群体性活动和扩散地区信息的功能，反而强调这些技术创新对维持威权政府执政的积极作用。Edmond（2012）研究了信息资源（互联网、社交媒体等）对政权的坏处，而如果政府拥有足够的经济能力，它就可以控制信息资源。互联网和社交媒体的经济规模目前在中国还不大，而中国政府将言论审查的责任下放到了地方上的互联网内容提供商，因此，中国有能力发展新兴技术的经济规模。中国是一个相对富裕、有弹性的威权国家，审查机制复杂、有效，也许是全世界独裁者的关注对象。

我们分析了中国审查机制的主要目标，揭示了中国人的关注点、中国政府的意图和目标。虽然我们只分析了不同时间段的85个话题，但这种分析还可以延伸到更广泛的领域。在传统媒体没有提供任何线索的情况下，审查行为或可预示政府在线下的下一步行动，为政府政策和商业活动的学术研究和实践提供启发。

我们构建了计算机辅助文本分析法，有效分析了中文文本。这些方法还可推广至其他领域。我们推想，我们的数据手机程序、文本分析手段、总体分析和经验策略可以延伸至世界其他压制言论自由的地域。

附录C

如果说审查行为是衡量政府意图和意愿的一种手段，那么，这可以为预测政府行为提供些许线索。我们就此进行测试。不过，中国政府的大部分行为都是针对外部事件的评论或反应，都可以事先预测。困难的是那些无法预测的事例，我们在此研究其中与群体性活动可能性有关的事例。

我们本来没有就此专门搜集数据，但根据手头的数据，仍可进行间接的验证。我们采用广为流传的数据控制手段（King and Zeng 2001）。首先，我们抽取与群体性活动可能性有关的所有真实事例，然后剔除那些容易被预测的事例。于是，便剩下了两个事件，这两个事件都不能事先预测：2011年4月3日艾未未被捕，以及2011年6月25日与越南的南海争端。我们分析这两个事例，并证明，政府的反应可以从审查行为的数据中预测出来。另外，正当本文于2012年初收尾之际，中国发生了薄熙来事件，这一件事件被认为“是数十年来振动中国政坛的最大丑闻”（Branigan 2012），并将“困扰下一代中国领导人”（Economy 2012）。碰巧，我们的数据监控还没结束。因此，这成为了我们研究的第三个事例。

接着，我们要确定审查行为能够提前多久预测（突发）事件。时间间隔必须足够长，以显示审查行为的存在；但也不能太长，以防数据波动淹没了审查者的干预迹象。我们选择5天为合适的间隔，这不一定准确，但不影响我们此处的数据。因此，我们架设中国当局预先5天采取行动，并且在审查模式上可以体现出这一迹象。

在图11的坐标a中，我们来观察艾未未被捕事件。纵坐标是被删除的帖子比例。灰色区域是从（我们假设的）采取行动的日期到艾未未真正被捕的日期。我们从新闻媒体中无法得知艾未未即将被捕。蓝色线段是实际的审查力度，红色线段是根据此前的数据推算出来的趋势。4月3日红线与蓝线的差距是我们的粗略估计；如果政府没有特别行动，实际的审查力度应该是将近10%；但最终的实际审查力度是预估值的两倍。为了证明这不是偶然现象，我们选取了任意5天间隔，均没有出现如上反常现象。

我们用这个方法再来验证图11坐标b的南海事件。南海的石油勘探导致北京与河内关系持续紧张，审查率暴增。根据媒体报道，冲突一直持续，直到6月25日两国突然达成和平协议。我们再度随机采样，证明这一反常现象绝非偶然。

最后，我们来看薄熙来事件。薄熙来的父亲是中共八大元老之一。薄熙来被认为是2012年秋季召开的中共十八大的新一届常委热门人选。可是，他的政治生命却突然中介，2012年2月6日，王立军逃入成都的美领馆。四天前，王立军刚被薄熙来免职。王立军揭发了薄熙来参与谋杀英国公民的秘密，然后，薄熙来被免职。由于事件的反常性质揭示了中共高层内部的分歧，我们专门来分析2月2日王立军被薄熙来免职的事件。据称，王立军与薄熙来就海伍德之死发生了冲突，引发薄熙来采取行动。

我们的分析如图11坐标c所示，王立军被免职以前的审查力度趋势与实际的审查力度差距很大。王被免职以前，媒体没有任何透露的消息。同样，我们做了验证测试，证明这不是偶然现象。

这三个事例都证明了我们的结论，但我们是事后分析，且只有这三个例子，所以，还需要对审查率的预测性做进一步研究。

访谈哈佛教授金加里：解读中国网络审查制度

16/10/2013｜欧阳斌 | 纽约时报

在哈佛大学的教授等级中，最高级别是“校级教授”（University Professor）。全哈佛大学目前一共只有24名教授享有这一荣誉。而政治学系金加里（Gary King）的“阿尔伯特•韦瑟黑德三世校级教授”（Albert J. Weatherhead III University Professorship）头衔正是在大名鼎鼎的美国政治学者、前哈佛大学政治学系教授亨廷顿（Samuel Huntington）过世后传承而来。金加里以实证研究方法论，特别是量化研究闻名，他的研究不仅仅影响了政治学的发展，而且对公共政策、法学、心理学乃至统计学本身都影响深远。他著有八本书、130多篇论文，并开发了20多个开源软件包。他在1994年与人合著的《设计社会调查》（Designing Social Inquiry: Scientific Inference in Qualitative Research）一书时至今日仍被众多社会学科的学生奉为必读经典。

2013年5月，金加里在美国顶级政治学刊物《美国政治学评论》（American Political Science Review）上发表了一篇合作文章（How Censorship in China Allows Government Criticism but Silences Collective Expression——观察者网注），通过海量数据收集和量化研究，试图解读中国网络审查制度的运行机制和背后逻辑。他的研究团队首先通过阅读以前的文献和咨询相关专家划分出85个话题，并相应设置出一系列关键词，通过计算机技术以六个月为时段，根据这些关键词从1382个中国网站收集了360余万个博客帖子，并从中随机抽样了超过12万条进行分类分析。这一过程随后重复了几次，他们一共收集并分析了1100余万个博客帖子。如此的大样本分析在针对中国互联网的研究中并不多见，且出自名家之手，故文章一出，引起不少讨论。在这篇文章初成但尚未发表之时，金加里在哈佛举办了一次小规模讲座介绍研究成果。尽管他本人并非中国问题专家，但笔者在会场见到了诸多中国研究大腕。

此文的主要结论是，中国的网络审查者严格审查集体性行动（collective action）而非批评性言论。同一研究团队在这篇文章发表之后还进行了一个跟进研究，涵盖了此前并未纳入其中的微博，并且开通一些社交媒体账户发布一些帖子，对中国的网络审查机制进行主动性测试，得出的结论基本未变。文章也对中国的网络审查制度的运作过程做出了一定的解释，并回答了为什么中国的网络审查者们总是能够非常高效、准确地对海量信息进行审查，并快速作出是否删除的决定。尽管近年来关于互联网，特别是社交媒体对于中国社会和政治的发展有诸多讨论，但能通过大数据证实或者证伪一些泛泛之论，这不仅符合美国社会科学一直以来力图“科学化”的大方向，对于中国研究和深入理解中国的变化也是极有意义的尝试。

本采访于9月17日于金加里在哈佛大学政治学系的办公室以英文进行，并于10月8日进行了补充采访。访谈部分在发表前经金加里核对。

中国网络审查更关注集体性行动

问：你是如何想到要对中国的互联网审查制度作一个大规模量化研究的？

答：事实上我们一开始是对一个完全不同的东西感兴趣。我们感兴趣的是如何用大数据方法来分析文本。现在有越来越多的数据可供分析，比如说社交媒体和电子邮件等。如果我们能够创建一些方法分析这些数据，那么会非常有价值。我们创建了一些方法，但是我们觉得还需要找一些“困难的案例”来测试这些方法是否适用。所以我们决定转换语言，比如说用中文来测试我们的方法。所以我们使用了我联合创办的公司，Crimson Hexagon，通过其中文社交媒体的数据库来进行分析。这个数据库基本上就是摘取中文社交媒体上帖子的Url（网页地址），并对其进行分析。我们的方法运行良好。后来我和我的同事们决定再次访问这些帖子，因为我们想了解一下这些帖子的上下文。但是我们点击这些Url的时候，发现有一些帖子已经不在了。一开始我们以为是Crimson Hexagon出错了，但是后来我们才发现，原来是我们在中国政府阅读并删除这些帖子之前，就已经把它们搜集到数据库了。这样我们就拥有了很多被中国政府审查删除导致中国网民无法阅读的帖子。所以我们改变了我们的研究题目。

问：在你们进行这项研究的时候，微博在中国的活跃度甚至超过了博客，但是为什么你们的研究没有涵盖微博？

答：我们一开始研究博客是因为我们觉得博客可以给中国网民更多的时间去表达他们自己。在我们进行的最新的一项研究中，我们已经将微博纳入我们的研究。我们发现审查机制的运行原则是一样的。

问：你是如何在研究中定义“集体性行动”？

答：由非政府发起的任何可能动员人们或者导致聚集的行为。比如说，你决定鼓动人们上街游行示威，这就是集体性行动。如果你邀请很多人参加一次聚会活动，这也是集体性行动。如果你决定邀请很多人聚集在一起庆祝地方政府官员的伟大功绩，这也是集体性行动。

问：但是在现实中有一些是很难被清晰定义的。比如说你的研究中将“艾未未”这个词条作为“集体性行动”，可是在现实中我们也可以把这个词条归入“对政府进行批评”这个项目中。

答：在现实的审查中，你无法只阅读一个帖子，然后就决定它是不是集体性行动，因为你几乎可以把所有事情都和政治相关联，比如从对政权的攻击到谈论一部电影。所以如果在这个基础上对个案进行归类的话，肯定是行不通的。在现实中，中国的审查者们好像是首先观察社交媒体上人们的交流，当有围绕某一个话题的讨论一下子变得特别活跃的时候，他们就开始审查这些讨论，如果这些讨论是关于某个具体的集体性行动，或者是某一个曾经在过去组织过集体性行动的人发起的，他们就会将相关的讨论进行删除。他们会删除与这个讨论相关的所有内容，无论这些讨论是赞成政府还是批评政府。

问：你在论文中还提到所有的帖子按照话题性质被分成了五类：集体性行动、批评审查员、色情、政府政策和其他新闻。但这是否会存在预设立场的问题？比如一些词条性质比较模糊，但相关新闻事件在你进行深入分析的时候已经发生过了，这就可能会导致一个“事后归因”的错误。

答：我们实际上是通过反向操作的办法来还原中国政府的审查过程，所以这项研究从设计上来说，就是一个事后性质的研究。但是我们找了两个了解中国政治的人来对这些帖子进行归类，他们的工作是各自独立进行的。他们的分类结果高度一致，只有在一个事件的分类上出现了分歧，即方滨兴被投掷鸡蛋和鞋子。这个事件既包含了对审查者的批评，也包含了集体性行动。此外，我们还用一些样本之外的案例对这个分类进行测试，这就并不是回溯性的，而是预测性的。我们得到的结果都是相同的。

多样化且高效的审查机制

问：中国的网络审查者严格审查集体性行动而非批评性言论，这个结论是否出乎你的意料？

答：是的，我们非常吃惊。因为此前很多人都认为中国的网络审查者们是审查各种批评性的内容的，当然也是会审查集体性行动的。但是我们现在发现现实并不完全是这样的，一些对政府批评性的帖子是没有被删除的。我们发现很多很多对政府进行激烈批评的帖子，甚至是涉及一些政治领导人个人的都没有被删除，而且这种情况非常普遍。这很令我们吃惊。

但是如果你仔细想想，这也不奇怪。政府允许这些批评性的帖子存在下去，他们能够得到什么？中央政府可以借此对地方政府进行监督，可以对地方领导人的表现进行评估，他们也可以根据这些批评来替换一些地方领导人，如果这些信息都被删了，中央领导人也就看不到了。

问：但是允许这些批评存在，是否也是对政权的一种风险呢？

答：有多少风险？如果仅仅是人们对政府的评价很差，这个恐怕并不是特别大的风险。只有当人们开始行动的时候，这才会真正影响到他们对权力的控制。比如我们在阿拉伯之春中看到的，当人们走上街头的时候，一个政权可能真的就会崩溃了。进一步来说，如果你在一个网络被审查的国家里上网，结果发现网上全都是关于这个政府的正面言论，那么你会对这个政府因此有更正面的感受吗？

问：但是在中国，由于敏感词的存在，很多批评性的帖子根本就发不出来，或者人们自己就不发表这样的意见，这也可能导致你所统计到的实际发表出来的批评性的言论激烈程度很弱，以致于政府没有必要删除它们。有这个可能吗？

答：我们在第二篇论文里面对这个可能性进行了研究。在第一篇论文中，我们仅仅涵盖了相对较短的一个时段内的帖子，所以你是对的，完全有可能人们在提交了帖子之后，审查者可能根本就不让这个帖子发表出来。如果是这样的话，我们的第一篇论文所使用的研究方法就无法发现这个问题。所以在第二篇论文中，我们自己开通了一些社交媒体账号，并根据已有的社交媒体上的内容发表一些帖子，这样我们就能知道是否这些帖子在发表之前就被审查了。现在我们发现，中国网络审查者确实运用关键词进行事前审查，但是这个事前审查的过程非常低效，那些他们认为不正确的帖子并没有被有效地提前发现。

问：通过你的研究，我们对于中国的网络审查制度的运作过程有什么了解呢？

答：通过我们第二篇论文的研究，我们对中国的审查制度运作有了更进一步的了解。我们发现了很大的多样性，在不同的网站，他们适用的技术和审查流程是不一样的。在中国，很多审查都是由网络公司自己完成的，而且看上去政府好像也是允许不同的网站保持各自在审查上的多样性，只要他们能够达到政府要求的结果就行。

中国的网络审查分成两个阶段，第一阶段是核查阶段，这是自动完成的。第二阶段是作出是否删帖的决定，这是由人工完成的。在第一个阶段有很多多样性，有一些网站的核查内容非常多，有一些非常少，但基本上它们最终的审查结果是大致一样的。

而且这种审查是非常高效的，基本上是在当天之内，任何帖子都会被核查，然后有一些会被删除。我觉得他们如此高效是因为他们在监测都有什么话题或者帖子突然变得非常热门，就像我刚才讲的。他们并不需要特别仔细地阅读每一个帖子然后去分析他们的内容到底是正面的还是负面的，只要有特别热门的帖子，他们就会特别关注，然后根据这个话题是否在讨论群体性行动来决定是否删除。如果有一万个人都在谈论一个话题，我觉得对审查者来说不难发现这个讨论。

问：根据你的理解，中国的网络审查指令是非常具体的？

答：我们并不知道，我们不知道谁发布审查指令，或是发给谁。我甚至也不敢肯定审查指令就是像我刚才猜测的那样。但是有一点是肯定的，就是要审查和删除批评性的帖子非常麻烦，因为这是无法自动完成的，你必须要阅读每一个帖子，然后才能做出决定。

社交媒体扮演怎样的角色取决于人

问：你觉得社交媒体在中国是否真的对集体性行动有促进作用？

答：这是非常有趣的问题。社交媒体当然使得人们的交流更加便利，如果没有被删除，也会使得集体性行动变得更加有可能。我最近在芝加哥，美国歌星Justin Timberlake发了一个Twitter说他会在当地的一个俱乐部，前150个到这个俱乐部来的人会得到免费的门票，结果有一千多人去了。他具备了动员人们的能力，当然对他来说动员人们来听音乐会与政治并不相关，但是其他的人拥有相同动员能力的话，可能就是与政治相关了。政府当然不愿意出现这样的权力拥有者。

问：你认为政府的这种审查制度是否有效地阻止了中国的集体性行动呢？

答：当然中国仍然有很多示威游行，但是我觉得这种审查确实有效地阻止了集体性行动。比如说在离你三个街区远的地方有游行，但是你不知道，那你怎么能够参与呢？

问：从另一个角度来说，我们可以从你的研究中了解到中国网民的什么特点？

答：中国有着一个鄙视审查制度的网民群体，他们对任何你所能想象得到的话题感兴趣，并且持有极为多样化的观点。自动的审查方式对于中国人来说似乎并不是个问题，他们可以很容易绕过去。比如关键词审查，他们有很多方法来绕过这个东西。所以所谓的自动审查制度只是在浪费时间和金钱。我们发现大多数商业网站并不使用自动审查的方式，而政府网站使用这种方法。

问：你刚才提到了“阿拉伯之春”，你认为社交媒体也能在中国扮演同样的角色吗？

答：并不是社交媒体在扮演那样的角色，而是人民。所以问题是中国人民是否愿意扮演这样的角色。这个问题应该由你来回答。

问：你说的有道理，但是在埃及的解放广场上，人们拿着手机发Twitter或者是Facebook。人们也需要工具。

答：人们会用各种工具和手段来实现自己的目标。所以我觉得即便是没有Twitter或者Facebook，埃及人也会做同样的事情，他们甚至可能会通过油印小报。这是不同的时代，人们使用不同的科技。当然中国人目前无法使用这种社交科技来实现这样的目的，因为中国政府对社交媒体是管制的。

问：目前中国政府逮捕了一些网络上的意见领袖，并加紧了对网络的控制，这是否对你的“中国的网络审查者严格审查集体性行动而非批评性言论”的结论提出了挑战？

答：我并不知道这种逮捕的情况目前有多普遍，目前我们知道有一些网络名人被逮捕，但是中国有数以百万计的网民。也许政府觉得通过逮捕一些意见领袖来对网民提出警告，也许政府希望通过提升不确定性来有效加强自己的权威。一般来说，在一个法治社会，法律可以提供一个清晰的界限。但是当法律界限在一个社会变得特别模糊的时候，是可以对民众起到恐吓作用。也许这就是目前中国政府想达到的，也有可能他们逮捕一些具体的人是出于并不相关的原因。总之我并不是太清楚。

（作者：欧阳斌）

沈逸：学学哈佛学者，客观研究中国网络

24/10/2013｜沈逸 | 环球时报

如何有效认知中国的网络空间，包括如何识别网络空间的舆论生态，如何理解对网络空间的管理政策，如何评估网络空间的发展态势，如何在短期热点与长期走向之间取得比较准确的均衡，对所有相关的行为体，无论是学者、评论者、观察者、决策者，既是一项艰巨的挑战，也是一个巨大的机遇。

前不久，哈佛大学加里金教授等三人组成的研究团队，试图研究中国网络空间的审查制度：以长期持续跟踪的定量与定性分析，来展示有关中国网络管理政策复杂性的最新图景，其结果分别发表在《美国政治科学评论》以及哈佛大学肯尼迪政治学院的网站上。这个研究成果中，引人关注的内容有三个方面：

首先是系统使用了比较科学的数据分析方法，对中国网络论坛、博客、微博等社交媒体进行持续半年以上的系统研究；其次是注意第一手材料的获得，比如，根据研究者的描述，邀请“熟练使用中文/以中文为母语的人”在中国网络空间发表特定内容的帖子，并观察后续效果；第三，相比其他被意识形态或者说刻板印象支配，进而通过“研究”寻找材料证明既有观点的文章，比如《外交政策》杂志上那篇名为“谣言共和国”的文章，加里金教授研究团队遵循实验发现不同结果，即中国政府的网络管理政策并不是无差别地禁止发表任何涉及批评政府的信息，主要成为被管理对象的是试图号召采取行动的信息。

这个研究结果，如果换个说法，基本等同于有学者通过调查发现，在推特或者其他美国的社交媒体上，可以公开发表对美国政府进行批评的文章，但不能发表号召采取特定行动，比如，说什么“去占领美国”，或者“买个炸药把白宫炸了”，又或者，“把谁干掉”。从这个意义上来说，如果在一个不受到意识形态或者政治类刻板印象高度扭曲的世界里，这样的研究成果大概没有什么出奇的，甚至，至少其结论没有太多新意。但是，显然今天的世界仍然还不是一个能够摆脱这种刻板印象的世界，于是，这样的研究，比起纯粹戴着有色眼镜看中国的研究来说，还是有其积极意义。

对比“谣言共和国”一文，这篇文章在整个舆论空间出发的反应，非常类似典型的辟谣信息。某谣言和相关辟谣信息的传播次数比，大概是50:1的样子。同样的，相比大量引发广泛关注的，类似“谣言共和国”这样的文章，加里金教授相对比较科学严谨，结论又不那么吻合西方学界对中国网络政策想象的研究，面临某种微妙乃至尴尬的集体沉默应对，就不足为奇了。

显然，加里金教授的研究成果距离全面科学地认识中国网络空间的复杂性，仍然有继续努力的空间。但这样的研究成果应成为中外研究者、观察者都努力达成的对象，也应为决策者提供足够的思考：任何与网络相关的管理政策，显然都应该为这类科学、严谨的研究，创造良好的条件；任何具体的管理行动、政策或者整体的战略取向，都应该努力在科学研究与现实需要之间达成必要的平衡。毕竟，网络空间的均质性与线下世界的异质性，正在进一步强化中国网络空间舆论生态以及网络管理政策的复杂性。而这种复杂性的挑战，是全面而深刻的，不能等闲视之。