李锋:虚拟情景锚定法如何提高问卷调查的可比性——以公民诉求影响力的测度与分析为例论文

【摘要】问卷调查作为社会调查中收集资料的重要手段，利用标准化的问卷形式，对多个对象进行调查分析，并进而在调查结果基础上进行定量研究。然而，由于不同的受访者对于标准化的问卷理解上可能不同，会造成针对同一问题的“人际不可比”。为了解决该问题，学者从设立虚拟情境和设定锚定两个方面加以改进。在此基础上，学者研究开发了虚拟情景锚定法，并被广泛应用于医疗领域和社会科学等范围。本文以公民诉求影响力为例，细致呈现了虚拟情境锚定法的设计和测量，并以实例呈现了虚拟情景锚定法的操作流程。结果显示，虚拟情境锚定法在测度上可以纠正人际不可比，在设计上可以利用虚拟情境测量公众在复杂问题上的态度与偏好。

【关键词】虚拟情境锚定法；人际不可比；公民诉求影响力

自上世纪50年代以来，社会科学中发生了行为革命，越来越多的学者开始使用定量研究方法，在传统的规范性的研究方法之外，引入科学化、定量化的研究手段和方法。尽管在1969年戴维·伊斯顿在就职美国政治学会主席时曾经批评行为主义革命并反对过分热衷于定量分析，但是政治学中依赖个体主观的问卷研究方法仍不断发展。[1]大量政治学者开始通过大规模、科学抽样的问卷来研究政治心理、政治态度等，例如世界价值观调查（Word Value Survey）、东亚民主动态调查（Asian Barometer Survey）、欧洲社会调查（European Social Survey）等，在国内也有北京大学中国国情研究中心、北京大学中国社会科学调查中心、中国人民大学社会学系、北京师范大学中国收入分配研究院等机构开展全国性的问卷抽样调查。

部分民间投资者不讲诚信，对招商协议及项目恰谈中承诺的投资和设施（特别是水土保持工程措施）建设不落实，对建设生产过程中产生的水土流失不治理，工程项目不仅未能改善生态环境，还一定程度上加剧了项目区水土流失。部分投资者在经济林建设中野蛮施工，对地块周边植被及原有水利水保设施损毁严重，项目区生物多样性和生态环境被破坏。部分投资者只图作业便利，在中药材种植基地采取顺坡起垄整地，地块内水土流失严重。

在问卷调查方法中，抽样和调查是其中的重要问题。针对抽样的研究目前较为深入，许多的学者在调查中使用计算机辅助的多层随机抽样[2]等方式尽可能保证抽样的科学性。然而针对调查的问题，目前研究仍然不足，即表现为对于不同受访者对待客观题目的评价标准尺度问题。[3]

从设计思路来看，问卷调查作为一种标准化的问卷形式，试图通过分析不同受访者对于标准化问题的答案差异，例如根据受访者的人口学特征或者其他主观要素分析不同人群之间答案的差异，来建构不同要素之间的相关关系与因果机制。然而，从设计思路到实际操作中，问卷设计者面临着重要的逻辑跳跃，即不同的受访者面临着同样的答案未必具有理解上的一致性；其次，由于受访者的不同知识背景等，即便人们的理解一致，人们的标准也可能并不一致，这就导致不同的受访者之间存在着人际不可比的情况，即条目难度差异（differential item functioning，下文用DIF代替），也就是说不同受访者回答的“非常同意”“比较同意”的评判标注具有差异。针对理解上的不一致性，可以通过更加详细、更加精确的问题描述来解决，而针对条目难度差异（DIF）造成的人际不可比则对于主观评价类题目非常常见，而且一般难以解决。

一、对于人际不可比问题的传统解决办法与虚拟情境锚定法的引入

（一）传统上针对人际不可比问题的解决思路

为了解决问卷测量中的人际不可比性，学者提出了不同的建议和办法。其中之一为建立基准或者锚点。例如Cantril提出由受访者自己定义两级的锚点，如由受访者自己提出朋友之中最具有自由主义特点的朋友以及最具有保守主义特点的朋友，然后将自己放入自我定义的两极的一种。[4]Cantril提出的这种方法被广泛采用，研究者将其称之为“Cantril梯度法”，有学者用来测量自尊心、[5]青少年关系。[6]但是King指出这种方式确实可以降低不可比性，但是这种调查信度水平较低，而且并不会降低DIF。[7]Aldrich在测量普通选民对常见议题的态度时将总统候选人视为所有选民通用的参照物，因此可以用来调整选民相对于总统候选人的意识形态差异。然而这个办法高度依赖所有的候选人对候选人已经有着无偏差的认知和足够的政治知识，而且只可以解决单维的问题，并且没有办法解决无回答的情况。[8]Poole进一步改进了Aldrich的方法，使之可以解决无回答的题目及多维的问题，Poole的黑箱测量方法假定人们对特定问题存在与自报答案存在差异的真实答案，这个真实答案是自报答案的线性转换。因此，如果对受访者询问相同的锚定题目，配合上自报题目，研究者可以计算出线性变换的参数值。[9]

第二种办法则为建立虚拟情境的办法。在针对部分过于抽象和复杂的概念进行主观评价时，更容易出现由于理解上不一致而导致的人际间不可比。基于此，许多研究者会设计一个或多个虚拟情境让受访者更便于理解测量的概念。实际上，从20世纪50年代就开始，在社会科学中使用虚拟情境来辅助社会调查并广泛适用于人类学、社会学、心理学和经济学等。Fowers设计了十二个虚拟的临床情境，来观察不同性别的医生在这些虚拟情境中表现功利主义、传统的男子主义，还是女性主义。[10]针对传统心理研究采用李克特量表来测量幸福感带来的标尺不同的问题，Hsee和Tang提出设计不同的虚拟情境，如口渴时的水和一周阴雨后的阳光等虚拟情境，修正这种人际不可比性，通过分析发现此法能够减少虚假的金钱幸福负相关而保留真正的负相关情况。[11]通过这些虚拟的情境，人们便于进行社会实验，从不同程度的情境中看出人们态度的变化和意识形态的倾向。

光谱数据经Savitzky-Golay平滑(7点2次平滑)、多元散射校正(MSC)、一阶导数(1st D)和二阶导数(2nd D)预处理后，采用偏最小二乘法(PLS)建立芝麻油中掺入的大豆油含量的定标模型，并经内部交互验证。

除了建立锚点和虚拟情境的方法外，阿尔蒙德在进行跨国公民文化的比较中，也提出了利用非文字技术或者将抽象名词转换为具体词汇等手段降低跨国调查中的不等值问题；[12]还有些学者利用项目反应理论（IRT）的特殊类型Rasch模型来解决DIF的问题。[13]

（二）虚拟情景锚定法的提出

基于前人的研究成果，King在2004年改进了设定锚点的方法，并结合虚拟情境的设置，来确立多维的锚点，这个方法被称为虚拟情境锚定法（anchoring vignettes）。通过此法来直接测量个体的DIF并纠正。[7]与传统设立锚点的方式相比，通过虚拟情境的设置可以除去个人经验、生活情境等带来的测量误差。与传统的使用虚拟情境来生成随机变量，虚拟情境锚定法将虚拟情境作为受访者客观的、可以用来比较的标准，并将个人自报的答案与对虚拟情境的回答结合起来，得出对问题真实的、具备可比性的答案。

King将测量政治效能感作为案例介绍了此法。首先，受访者判断自身政治效能感。其次，设计者虚拟几个场景，其中虚构的人物分别做出一定行为，让受访者判断这种行为对政府的影响；通过比较两者可以纠正不同受访者的评判标准不一致的问题，由此得出纠正后的结论。正如图1所示，Alison、Jane、Moses代表着虚拟情境中不同的虚拟主角，分别代表着对政治效能感的从高到低，左侧的Self则代表着自己对自身政治效能感的评价。如果按照自我评价，Self1的政治效能感显然高于Self2。但是，如果按照虚拟情境进行调整，Self1认为自身的效能感高于Moses而低于Jane，Self2则认为自身的效能感高于Jane而低于Alison。因此如图中最右经过调整后的效能感示意图可知，Self2的效能感实际上高于Self1的政治效能感。

图1 不同受访者针对不同情境的反应

从数学化表达来说，如图2所示，j代表着不同的虚拟情境，i代表着受访者，Zij代表着受访者针对不同虚拟情境的评价。C则是经过虚拟情境调整后的真实态度。

图2 虚拟情景锚定法的数学表达

我的眼睛火辣辣地盯着女人，女人的确很漂亮，黑黑的眸子，高高的鼻梁，白晰而细腻的皮肤把她柔润性感的嘴唇映衬得格外突出。女人既有北方女人的高贵气质，又有南方女人特有的妩媚婀娜。

因此，调整后的政治效能感依赖于受访者对于不同的虚拟情境的评价并且将自身放置于这样的评价指标之内，由此受访者对虚拟情境的评价就是基准，受访者对不同情境的答案差异就“锚定”了受访者的真实态度，由此使得不同的受访者之间对待抽象概念有着更为具体的理解，确保受访者的评价标准更为统一。刘小青在文章中将其比作“尺子”，认为锚定后的评价尺子的刻度更一致。[3]

这种虚拟情境锚定法建立在两个假设之上：第一，受访者在回答自评问题与虚拟情景问题时候的逻辑一致，即两者即便都有DIF，但是两者DIF一致（简称为回答逻辑一致性）；第二，受访者对虚拟情境的反应与评价一致，即对虚拟情境的程度认知顺序符合客观情况（简称为虚拟情境认知一致性）。在King看来，在这两个条件下，在自我评价问题中，受访者回答的不同一方面受到实际水平不同的影响，另一方面则受到DIF的影响（随机测量误差）；而在虚拟情境中，受访者的不同仅因为DIF的影响。所以，自我评价问题与虚拟情境共同使用可以让我们得出没有DIF的结果。在文章中，作者也发现虚拟情境锚定法的纠偏作用。通过对墨西哥三个省和中国两个省的观察，King发现在使用传统自测题目时候，超过50%的墨西哥人认为政治效能感非常低，而仅有不足30%的中国人认为政治效能感非常低；但是使用虚拟情境锚定法后，超过40%的中国人认为自己的政治效能感甚至低于虚拟情境中效能感最低的设置（保持沉默），而墨西哥人选择该值的不足20%。通过此法，两国评判标准差异的问题得以解决。

从整体而言，利用虚拟情境锚定法可以结合自我锚定方法、虚拟情境方法的优点，有效降低DIF，各个方法的优缺点可见表1。

表1 虚拟情景锚定法与其他方法的对比分析

优势不足软件支持建立锚定方法便于受访者理解；成本相对较低无法消除DIF；依赖于个人固有知识SPSS、Stata、R建立虚拟情境方法便于受访者理解；成本相对较低无法消除DIF；依赖于虚拟情境随机生成变量，不便于比较SPSS、Stata、R虚拟情境锚定法可有效降低DIF复杂程度较高；设计过于复杂会导致理解难度大R

二、虚拟情境锚定法在多学科的应用

根据题目的设计，针对题目的设计得分越高彰显出公民影响力越小；为了便于比较，笔者针对自陈题目得到的公民诉求影响力和根据虚拟情景锚定法得出的公民诉求影响力进行重新编码，以使得更高的分数代表更高的公民诉求影响力。

（1）虚拟情景锚定法在医学的应用

由于大量关于身体、心理健康的题目都是受访者的主观感受，受访者群体由于文化差异、自我因素等造成标准不统一更为常见，因此虚拟情境锚定法在医疗健康领域使用非常广泛。

Salomon等率先将此法应用于对健康的自我评价，作者在包括中国、斯里兰卡、巴基斯坦等六个国家针对了3012名成年人进行了个人健康的自我评估的问卷测试，然后在其中406名受访者进行了虚拟情境锚定的测试，具体来说包括10～15个虚拟情境，例如“保罗是一个每周可以跑20公里和打羽毛球的运动员”“玛丽是一个每周可以慢走两次，每次走4公里的人”“杰玛脑损伤，她不能动自己的嘴也不能笑，只能眨眼”等反映了人们健康状况的情境，受访者回答这些情境里面个体的健康程度。然后再询问自己认为自身的健康状况。根据受访者对于不同虚拟情境的回答和自陈回答的对比，结果显示老年人对于身体健康状况的判断更加“宽松”，发现中国受访者相比于斯里兰卡对于自身身体状况的判断更加“乐观”。因此，作者认为跨国间的主观健康状况认知需要使用虚拟情境锚定法来较准。[14]通过设定10～15个虚拟情境，问卷设计者可以更好地将自身的主观判断与这些情境中进行比较，使得结果更加准确。然而，大量虚拟情境的存在也使得受访者对于这些情境中体现的真实的“测量值”不一致的现象更为普遍，即可能存在违背虚拟情境锚定法“虚拟情境认知一致性”的假设。

使用相似的方法，中国家庭动态跟踪调查中也设计了相似的题目测量受访者对于自身健康情况的主观感知。但是，为了便于受访者的理解，设计者精简了虚拟情境，仅保留了两个虚拟情境来锚定自己的回答。其中之一为“孙军/李梅走路、跑步、活动四肢毫无问题，每周跑步两次，每次跑5公里；他/她不记得最近一年身体疼痛的时间，因为一年内都没有感受过疼痛。即使是在体力劳动后也不感到疼痛。您觉得他/她的身体如何？是非常健康，很健康，比较健康还是一般？”第二个情境则为“赵刚/王丽走200米的路毫无问题。但是走完1公里或者爬上几层楼后会觉得累。他/她的日常活动没问题，比如从市场上买菜归来。他/她每个月都有一次头痛。吃药之后会有所缓解。头痛时，他/她能够继续日常工作。您觉得赵刚/王丽的身体状况如何？”从以上的情境设计我们可知，问卷设计者希望精简虚拟情境，以便减少虚拟情境设计中设计者与受访者的“程度不一致”的现象。Chen和Meng使用中国家庭动态跟踪调查2012年的数据，并认为应该使用经过虚拟情境锚定后的“主观健康状况”与社会资本进行分析，来识别两者之间的关联。[15]

所有病例均使用双功能彩色多普勒超声诊断仪（飞利浦iU-22超声诊断仪）进行颈动脉超声检查，由接受过全国脑卒中筛查培训的高年资医师进行检测，以美国放射学年会超声会议公布的诊断标准，颈动脉狭窄程度分为四个等级，分别为正常、轻度狭窄（＜50%）、中度狭窄（50%～69%）、重度狭窄≥70%。

许多学者在此后的研究中都发现，利用虚拟情境锚定后测量出来“真实”的主观态度，与直接的自陈态度具有差异，利用虚拟情景锚定法来较准测量，对减轻人际不可比具有重要意义。例如，Mojtabai直接比较美国与九个欧洲国家中老年的自陈抑郁状态，发现美国整体抑郁状态比欧洲九个国家更为严重。但是通过虚拟情境的调整，美国的抑郁状态比七个欧洲国家更好，仅次于法国和希腊。作者还认为文化上的这种差异不仅可以解释自我报告的抑郁状态，还可以解释其他精神疾病。[16]Zhang则发现，虚拟情境锚定法有助于较准不同性别之间的自陈健康状态的差别。[17]

（2）虚拟情境锚定法在政治学领域的应用

由于King在政治学领域使用虚拟情境锚定法，并开发了供学者使用的R包，方便研究者使用该方法，因此许多政治学者使用虚拟情景锚定法。

在针对虚拟情境的顺序进行调整后，笔者发现不论是B卷还是C卷，虚拟情境的设定顺序已经基本符合受访者的认知，接下来可改进的因素是受访者对不同虚拟情境的答案高度一致的问题。

(5) 模型单元选择。为使模型能够尽量反映实际结构的受荷特性，结合ABAQUS有限元软件中相应单元特点[14-15]，在模型中主要涉及了两种单元：

对于以上所有的情境，受访者都被共同提出如下问题：

此外，许多学者针对此法的有效性和改进进行了研究。其中一部分学者关注于对虚拟情景锚定法本身的设置条件、模型进行优化和发展。如Buckley发现如果自我评估的题目在虚拟情境之前，会造成虚拟情境题目的回答出现系统性膨胀，虚拟情境的出现顺序也会影响条目间关联。因此作者建议应该实现自我评估题目与虚拟情境出现顺序随机化、虚拟情境不同层次间出现顺序随机化，不同虚拟情景设置随机化。[24]Hopkins和King也发现如果将原本放在虚拟情境之前的自我评估的题目放在虚拟情境之后，不仅不会造成偏误，而且会提高受访者对问题的理解。另外，作者发现如果直接让受访者比较虚拟情境和受访者自己，则会造成回答不一致的情况，并带来更差的结果。[25]宋庆宇、乔天宇则建议在调查中必须加以注意题目设计的可理解性。[19]

总之，虚拟情境锚定法已经取得一定的研究成果，然而目前的中文研究，除了部分学者外[26][3][27][19]仍旧不足。至于如何将虚拟情境测度的概念作为变量，如何设定虚拟情境等具体操作仍不多，不利于该方法在社会科学研究中的普及推广。本文希望在这些方面有所补充。

进县团委工作不久，我作为三十岁以下的后备干部被选拔到另外一个县级城市进入市委常委班子，一晃数年，我已是这个市委常委、市委组织部长，再也没有机会回过那个小镇了，只是时不时有些小镇的零星记忆从我脑海的角落里探出头来，静静地打量着我，尤其是桃花绽放的时候。但城里难得一见桃花。

三、虚拟情景锚定法的设计——以公民诉求影响力为例

在前文中，笔者介绍了虚拟情境锚定法（anchoring vignettes）的方法原理及相关学者对该方法的应用。为了更好地了解该方法的应用，笔者在后文将更加直观地呈现该方法的设计及测度，以及具体应用及注意事项等。这两部分的具体分析将使用Wand和King等在R软件中开发的anchors软件包。[28]

（一）研究数据的介绍

笔者将使用2014年北京大学中国国情研究中心的媒体调查数据，整个数据库共有样本3747份，分为ABC三卷，在B卷和C卷中设计了虚拟情境的问题，通过虚拟出不同的场景，并让受访者与情境中人的反应进行对比，由此得出民众真实的诉求影响力的主观认知。今后的研究中，便于分析虚拟情境中的议题或者主体等因素是否影响受访者的回答。由于ABC三卷完全随机发放，经过平衡性检验可知，三类问卷中并不存在显著差异（见表2）。

表2 针对问卷发放随机性的平衡性检验

A卷 B卷 C卷 F检验男性比例 0.47 0.46 0.48 0.227网民比例 0.52 0.52 0.52 0.007年龄 46.36 45.36 45.77 1.207教育年限 8.90 8.98 8.93 0.099样本数 1223 1265 1259

针对拿到B卷和C卷的受访者，我们设计了四个虚拟情境，其中包含不同的议题、政府不同的回应行为，此后让受访者判定在该情境中公民对于解决自身利益诉求的影响力。此外，B卷和C卷的受访者在虚拟情境中利益诉求时的政治主体（政府层级）也有差异。在B卷中，受访者被假定面向基层组织和领导反映，而在C卷中则被假定面向市政府和领导进行反映。具体情境如下：

宋庆宇、乔天宇使用中国家庭动态跟踪调查2012年的数据来测量主观社会地位。在调查中，在访题“您在本地的社会地位？”后面有两道虚拟情境的访题：“陈先生／女士小学毕业，靠摆地摊生活，月入1000元。在您看来，这位陈先生／女士在本地的社会地位？”和“周先生／女士医科大学毕业后在本地行医，月入5000元。在您看来，这位周先生／女士在本地的社会地位？”作者发现如果利用自陈数据，甘肃省居民主观社会地位的平均水平高于上海市民，但是经过设置两个虚拟情境的较准，甘肃省的居民明显有高估自己社会地位的倾向。而且作者还发现在社会经济发展水平更高的上海，教育、职业等因素对于人们自身社会地位认知的影响更大。[19]

我校为三年制大专学校，我校护理专业的生物化学课程开设在第一学年第一学期，且该专业学生为文理兼收，学习基础较为薄弱，而生物化学内容繁多，复杂抽象，学时又非常有限，学生普遍反映难懂难学，不少学生对生物化学望而生畏。如何在有限的学时中将生物化学知识传授给学生，提高教学效果，激发学生的学习兴趣，帮助学生更好的理解和掌握课程的重点和难点，是每一位教师需要努力达到的目标。

为应对苗木生产的风险，农场一方面致力于苗木品种的多元化，种植栾树、红叶李、广玉兰、金丝垂柳、山东白蜡等经济苗木，发展榉树、东方杉、中山杉、金叶水杉、弗吉尼亚栎等高档苗木。另一方面，积极谋划与地方政府合作，分散苗木产业经营风险。2014和2015年，先后与东台市政府在G228国道边合作建设了350亩弗吉尼亚栎、上海东方杉种植项目，由政府免费提供200万元种苗，农场提供土地负责栽植，全额占有苗木收益，实现“政府得形象，农场得效益”。

（1）B卷情境：向基层组织诉求

H19.李娟/李强所在的村/社区正在拆迁，李娟/李强觉得自己得到的补偿数额不公平。于是她/他向村长抱怨，要求重新核定补偿数额，村长口头承诺解决。

H20.王娟/王强所在的村/社区正在拆迁，王娟/王强觉得自己得到的补偿数额不公平。于是她/他在村里公开抗议，要求重新核定补偿数额，村委会书面承诺解决。

H21.张娟/张强所在的村/社区的低保户信息没有公开，张娟/张强觉得不公平。于是她/他向村长抱怨，要求公开这个信息，村长口头承诺解决。

H22.刘娟/刘强所在的村/社区的低保户信息没有公开，刘娟/刘强觉得不公平。于是她/他在村里公开抗议，要求公开这个信息，村委会给出书面承诺解决。

（2）C卷情境：向市政府诉求

H19.张娟/张强所在的村/社区正在拆迁，张娟/张强觉得自己得到的补偿数额不公平。于是她/他联系市政府有关部门，要求重新核定补偿数额，有关部门表示研究解决。

H20.赵娟/赵强所在的村/社区正在拆迁，赵娟/赵强觉得自己得到的补偿数额不公平。于是她/他到市政府上访，要求重新核定补偿数额，有关部门承诺解决。

H21.刘娟/刘强所在的村/社区的低保户信息没有公开，刘娟/刘强觉得不公平。于是她/他联系市政府有关部门，要求公开这个信息，有关部门表示研究解决。

H22.王娟/王强所在的村/社区的低保户信息没有公开，王娟/王强觉得不公平。于是她/他到市政府上访，要求公开这个信息，市政府有关部门承诺解决。

从前文的例子可知，虚拟情境锚定法适合来测量具有复杂内涵同时有严重依赖于个体主观感知的概念，例如前文研究的“自身健康程度”“腐败程度感知”“主观社会地位”等。除了在医学领域、政治学领域的应用，虚拟情景锚定法在测量工作满意度、[20]公共卫生满意度、[21]繁文缛节、[22]环境政策评估等[23]多领域广泛使用。

在让政府解决关系X娟/X强切身利益问题的时候，X娟/X强有多大的影响力？

其中具体选项为：1.非常大；2.比较大；3有一些；4.根本没有；8.不知道。

在上述中X即为题目中出现的姓氏，为了便于受访者尽快理解虚拟情景，访员会根据受访者的性别念出不同的名字（男性即为X强，女性则为X娟），由此缩短受访者与题目中虚拟情境之间的距离。

通过对上述题目的观察，不同的事件中显然反映着受访者不同的公民诉求影响力。为了丰富学者对于公民诉求影响力的理解，在本部分设计了多重情境。

第一，在四道题目中，政府的回应行为有所差异，由此可以反映不同的诉求影响力，这也是公民诉求影响力的直接体现。一般而言，口头承诺/书面承诺或者研究解决/承诺解决也代表着公民对政府的不同影响程度，显然书面承诺（承诺解决）比口头承诺（研究解决）代表着对政府更强的影响力。

下面来着重说一下我的这幅《乐园》的具体创作过程，主要包括构图、色彩、线条、肌理效果、展出方式。这幅作品的尺寸为100cm*200cm，采用的是毛毡材料拼贴的方式。

第二，不论是在B卷还是C卷，每一类问卷的四个情境中均包含不同的议题领域：低保户信息不公开与拆迁问题。将两者相比，后者显然涉及更重要的利益，而且更为重要的是，后者涉及更加个体的利益而前者代表着公共利益。

第三，在B卷和C卷中公民诉求的政治主体有差异（基层组织和市政府），以此检验不同的政治主体是否影响公民诉求影响力的测度。

基于此，利用虚拟情境方法的引入，笔者不仅能够得出更加具有科学性的公民诉求影响力指标，还能利用该方法的情境设计，得出影响公民诉求影响力的因素，即诉求主题、诉求对象、回应行为之间，何种发挥更加重要的影响。

（二）确定虚拟情境顺序

基于对两个问卷中情境的观察，笔者暂且假定不同情境中反映出的政治影响力从高到低分别为：H20＞H19＞H22＞H21。通过上述假定，笔者认为在影响政府的问题上，议题领域上的影响强于政治主体（市政府/村组织/市相关部门/村长）的不同反应差异，政治主体在面对重大的、涉及公民个体利益诉求的回应行为。

首先，我们利用这个顺序检验了面向市政府的诉求（C卷）。结果发现在C卷的1259份样本中，一半左右（632/1259）的问卷针对不同的虚拟情境有着至少两个不同的回答，受访者针对虚拟情境的不同回答才得以锚定出受访者本人对政治主体的影响力，由此确定其公民诉求影响力。其中回答完全符合笔者假定的情境顺序的仅有112个，其中仅有一个虚拟情境的回答违背设定顺序的有402个，不超过两个答案违背的有502个。

分别取盲沟中线间距为5 m、10 m、15 m、20 m、25 m、30 m、35 m、40 m，研究双排水盲沟不同间距对双盲沟渗流的影响。其余参数按计算实例取。计算结果见表3和图4、图5。

在表3中，笔者计算了不同受访者对于不同虚拟情境下公民影响力的判断，如果受访者的顺序认知完全符合设计，右上部分的比例应该大于左下角的比例。从表中可知，确实有更多的受访者认为H21反映出的公民影响力小于H22、H20，其中H19＜H21的占比为0.079，而H21＜H19的比例则为0.096，显示出两者的影响力程度非常接近，但受访者对两者情境的认知并不违背笔者设计。但是H22＞H19的比例则为0.278，远大于H22＜H19的0.114的占比。再观察H20与H22的关系，也可以发现类似H19和H21的关系，即两者较为接近，但是H20略低于H22。四个虚拟情境的关系显示出存在着另外一种可能性，即反映出公民诉求影响力的顺序应该为H20＞H22＞H19＞H21。

表3 针对问卷C卷虚拟情境顺序的验证

＜H21 ＜H22 ＜H19 ＜H20 H21 NA 0.271 0.096 0.286 H22 0.082 NA 0.114 0.109 H19 0.079 0.278 NA 0.257 H20 0.097 0.11 0.087 NA

接下来，笔者继续审视在初始的顺序（H20＞H19＞H22＞H21）下，所有的C卷受访者的所有答案中频率最高的十种，结果显示出最高比例的受访者给予所有的虚拟情境同样的回答，其次是给予H21/H19同样的回答，H22/H20同样的回答，而且认为H21/H19体现的公民诉求影响力低于后两者（具体见附录表1）。基于这两个图表，我们很有信心指出在C卷中更为合理的顺序应该为H20＞H22＞H19＞H21。

其次，笔者使用B卷的数据对研究者预先设计的顺序H20＞H19＞H22＞H21进行验证。通过观察针对B卷受访者最多的回答答案，仍然是第二多的受访者选择了{1，3}，{2，4}的答案。基于此，笔者有充足的信心证实针对所有虚拟情景的设计，不论其诉求对象是村组织还是市政府部门，其合理的顺序应该为H20＞H22＞H19＞H21。这也表明，在决定公民诉求影响力的问题上，不同的政治行为主体（基层组织和市政府）并无显著差异，而政治主体的不同行为差异的影响，远大于议题领域的影响（个体议题还是公共议题）。换言之不论针对何种议题，只要能够促使政府/村组织作出书面承诺/承诺解决，均比研究解决/口头承诺显示出公民诉求对政府更大的影响力。

（三）针对初始模型的顺序改进

根据前文分析，促使政治主体做出可置信的回应才是决定公民诉求影响力的根本因素。基于此，笔者将反映公民诉求影响力的虚拟情境的顺序调整为H20＞H22＞H19＞H21。根据此顺序，笔者再次验证了B卷。结果发现，在1265个受访者中，有704个受访者至少对不同的虚拟情景有两个以上的回答，其中不违背设定顺序的达到434个，与上节相比有着极大的改善。通过对不同虚拟情境的选择比例可知，仍然存在着H21/H19之间、H22/H20之间区分程度较低的情况。

L eón将此法应用在测量人们对腐败的认识之上，传统上人们认为关于腐败认知的主观视角数据并不可信，包括透明国际使用的专家意见，所以大量的研究使用入户调查中的客观行为数据。作者使用虚拟情境锚定的方式试图对主观方面的数据进行纠偏，问卷中，作者设计一个情境“卡洛斯需要一个建筑许可证来建造一座房子。给发放许可证的公务员好处费是该地区公务员的重要收入来源。卡洛斯从来没有在不给公务员塞好处费的情况下拿到过建筑许可证”。此后，作者将虚拟情境设定后，要求受访者将自己放入虚拟情境内进行判断，“如果您是卡洛斯，您觉得给公务员塞好处费对得到建筑许可证有多重要”，作者认为不同国家的腐败情况会影响受访者对该问题的判断。通过对西班牙和智利两国进行配额调查，最终收集1600余份样本。数据结果发现尽管自测数据表明西班牙的腐败情况没有智利严重，但是智利民众对腐败的标准更严苛，因此如果贸然使用自测数据会带来认知误差。[18]

通过虚拟情境锚定法的引入，笔者通过比较不同问卷中，受访者对于不同情境的回答情况，实际上得出了影响公民诉求影响力的重要因素——政府回应行为，即公民更加期待政府做出可置信的承诺，例如书面承诺/承诺解决比研究解决/口头承诺更加显示出公民对于政府的影响力；而具体的诉求议题差异则不如政府回应行为的影响深远。

从本部分的分析可知，虚拟情境的设定不仅可以用来较准测量，还可以在测量的同时检验相关理论。然而，本部分出现的对于四个虚拟情境设定区分程度不高的情况显示出，虚拟情境设定过于复杂尽管有助于生成理论，但是可能造成受访者回答困难的情况。如何在虚拟情境设定有意义、有理论产出的同时保证虚拟情境设计的区分度高、理解度高也是一个重要的研究问题。

四、虚拟情景锚定法的测度——以公民诉求影响力为例

（一）结合自陈题目与虚拟情境题目测度公民诉求影响力

为进一步呈现虚拟情景锚定法如何修正不同受访者在针对虚拟情境回答上出现一致过多的情况，以及如何利用虚拟情境锚定法来测度真实的公民诉求影响力。笔者在接下来的部分中，将同时引入公民诉求影响力的自陈题目。

H18.在让政府解决关系您切身利益的问题时，您觉得自己有多大的影响力？

具体选项为：1.非常大；2.比较大；3有一些；4.根本没有；8.不知道

“我们试着为Carys拍摄了几张她身着gi 的照片（gi 是巴西柔术的传统道服，由短上衣和裤子组成），但我还是觉得她穿日常训练服的样子更有抓拍的感觉。”专家意见

为了保留虚拟情景信息的丰富性，同时减少受访者对不同虚拟情境相同回答的比例，笔者在接下来的研究中将仅仅保留两个虚拟情境，并同时兼顾议题的差异和政治主体行为差异。①在本部分，笔者仅希望比较传统的自陈式问法和虚拟情境锚定法的差异，而不关注B卷和C卷中不同的诉求对象，仅仅以B卷中的虚拟情境题目为例。因此，最终仅保留如下题目：

如果将此图套用至上文的图表中，我们可以得出低于Moses效能感为1，等于Moses效能感为2，以此类推，最高的效能感为高于Alison，效能感为7。经过调整后，显然Self1的真实效能感为3，Self2的真实效能感为5。

B卷中两个虚拟情境

H21.张娟/张强所在的村/社区的低保户信息没有公开，张娟/张强觉得不公平。于是她/他向村长抱怨，要求公开这个信息，村长口头承诺解决。

在筛选出两个虚拟情境后，针对不同虚拟情境的回答过于一致的问题虽仍然存在，但却大大减少，受访者违背H20＞H21的比例大为降低，显示出模型的准确率大大提高。基于此，笔者将结合受访者针对自己公民诉求影响力的题目（H18）和两个虚拟情境的回答，试图计算校正后的公民诉求影响力的真值。由于存在两个虚拟情境，受访者的答案区间应该为1～5，其中值越大显示出影响力越小。经过对B组校正后的回答如表4所示，其中一部分有具体值，而另外一部分由于对不同的虚拟情境有着相同的回答，导致真实值为一个区间。

在七嘴八舌的叫嚷声中，陈山利再次壮起胆子。他的眼神，有些闪躲地看向马连长：“我别的要求没有，就想亲一口救护队的女兵李晓英！”说完，飞快回到队列，再也不敢抬头。

表4 问卷B卷合并虚拟情境后的频数分布

频次频率1 95 0.075 2 90 0.071 3 16 0.013 4 284 0.225 5 206 0.163 1：4 26 0.021 2：4 522 0.413 2：5 26 0.021

在如何处理最终得到的受访者真实态度上拥有具体值和区间的两类答案的问题上，学者提供了四种途径，例如简单忽略区间值（omit tied cases）的答案，或者将区间内包含的答案做统一权重处理，最终显示均等化区间值(Uniform Allocation)，或者采取删除序列回归（censored ordered probit）对区间内包含答案的概率密度进行处理，或者采取最小熵（minimum entropy）对区间答案进行处理[29]（见附录2）。由于笔者仅关注个人自报的公民诉求影响力与通过虚拟情境锚定得到的真实值之间的差异，因此在此笔者忽略掉所有的区间答案。然后将受访者的教育背景、收入、年龄、区间答案的上界和下界、自报的公民诉求影响力作为子数据库，利用R软件提供的MI软件包进行贝叶斯框架下的插补。在插补后，笔者对区间答案和缺失值插补后的多条链的插补值进行对比，发现几乎所有的插补值均包含在原有的区间答案界限之内，显示出插补效果较好，并未出现明显违背原有信息的现象。

（二）比较自陈的公民诉求影响力与公民诉求影响力

通过结合虚拟情境设定和锚定设定，能够为人际对比设定更为客观的锚定，大大减少了由于受访者标准不一致导致的DIF。此法一经问世，就吸引了许多学者进行分析和讨论。

在针对自陈的公民诉求影响力题目进行重新编码后，根据下图可知，大部分公民认为自己的影响力非常弱，平均分仅仅为1.54分，如图3所示：

本文旨在揭示数值格式的适度耗散可由色散-耗散条件确定. 作为演示验证, 将色散-耗散条件用于减弱以往发展的加权基本无振荡格式WENO-CU6-M2[15]所造成的伪波, 通过数值算例给出该格式的两种直接改进并加以对比确认.

图3 公民诉求影响力的自陈值（基于B卷）

此外，笔者对经过虚拟情境锚定法计算得出的公民诉求影响力也进行重新编码，得分如图4所示，在1～5的指标下，平均值为2.33，即便折算为1～4的指标体系下也为1.86。显示出虚拟情境锚定法得出的公民影响力比自陈的公民诉求影响力更高。

图4 基于虚拟情境锚定法得出的公民诉求影响力（基于B卷）

总之，通过使用虚拟情境锚定法，我们能够用更统一的标准衡量公民诉求的影响力，并发现在校准后，认为公民具有一定影响力的比例提高。当然，这与问卷设计者设计出的不同场景有关。笔者进而使用政治参与、政府信任等指标与虚拟情境锚定法得出的公民诉求影响力进行回归分析，均发现该测量值符合前人的基本研究。这表明虚拟情景锚定法的测度具有较强的一致性和合理性。

五、小结

针对标准化的问卷，设计者希望能够得出标准统一的回答，并在此基础上进行科学的分析，并探索相关关系与因果机制。然而，针对许多较为复杂的概念，很多受访者并不容易理解，而且也容易造成理解的标准不一致，即造成条目难度差异（differential item functioning），即人际之间存在不可比的现象。传统上解决针对标准化问卷中可能存在的“人际不可比”现象具有多种纠正方案。虚拟情景锚定法则结合传统的多种纠正方案，提出更便于操作和标准化的操作流程。

虚拟情境锚定法通过设定虚拟情境，并将自己与不同次序的虚拟情境进行锚定，由此产生出经过较准、可供不同文化、不同特征的受访者能够比较的“真实值”。笔者认为不仅应将虚拟情境锚定法视为一种修正“人际不可比”的方法，还应该充分利用虚拟情境锚定法的优势，例如在情景设置中多下功夫，将其作为产生理论的手段。换言之，虚拟情境设定本身可以作为问卷实验的一部分，结合虚拟情境锚定法与问卷设计，在设计虚拟情境的时候不仅注意情境本身的“梯度”性质，还注意情境本身的“主体”或“对象”，由此产生多样化的虚拟情境。例如，通过审视受访者对于四个虚拟情境的态度，发现公民在判断诉求影响政府的能力时，更加重视政府的回应行为（口头承诺还是书面承诺等可置信行为），而不在意利益诉求是私人利益或者公共利益。换言之，在影响受访者对于公民诉求影响力的认知上，公民更重视政府的行为，而非利益诉求事项。而且公民到底向基层组织还是高层次政府诉求的影响并不显著。此外，笔者还利用虚拟情境锚定法比较了自陈数据和“真实值”的差异，发现中国公民有低估诉求影响力的倾向。

与此同时，笔者在进行分析时，也发现虚拟情境锚定法需要更加注意不同虚拟情境的设定。虚拟情境的设置必须科学，否则可能起不到任何纠偏的作用。例如世界卫生组织在进行不同国家卫生体系的评价时需要测量民众的自述健康状态，为了纠正不同国家的不可比性，世界卫生组织也设置了三个虚拟情境。然而有学者就发现虚拟情境设定在巴西并不成功。[30]事实上，关于政治学、社会学的概念测量比医疗健康领域的“主观健康感知”更加复杂，这对虚拟情境的设定提出了科学化、通俗化的要求。如果大部分受访者缺乏理解虚拟的情境或者虚拟情境顺序的能力，就必然影响该方法在问卷设计中的适用性。

在本研究中，为了利用虚拟情境锚定法检验到底是政府行为还是诉求事项本身更影响公民诉求影响力，采取了复杂的虚拟情境设定，导致有不少受访者对于虚拟情境的理解存在一定的困难。这对于问卷设计也提出了进一步的挑战：第一，必须在设计虚拟情境时更加注重虚拟情境的差异性，使得受访者能够更准确、更容易识别出情境的差异，确保在虚拟情境认知一致性的前提下尽量减少对不同虚拟情境相同的回答。第二，在确保受访者能够完成虚拟情境的前提下，设计多种情境，并考虑将情境设计与问卷实验相结合，以保证收集更加丰富的信息。第三，在设计问卷的时候注意预调查，检验自陈问题与虚拟情境问题的顺序问题，以及尽量使用简洁的话语，在自陈问题和虚拟情境问卷中尽量保证用语一致，确保自陈问题与虚拟情境回答的标准一致性，确保研究者的问卷设计意图能够准确地在测量中得到体现。

（笔者感谢北京大学中国国情研究中心提供分析数据。）

注释：

①按照Gary King的介绍，在使用Chopit模型的情况下，甚至只需要一个虚拟情境即可。因此，尽管Gary King在文中经常使用多个情境，笔者在这里保留两个情境并不违背虚拟情境锚定法的规定。

参考文献：

［1］金太军.行为主义政治学的“新革命”及其启示［J］.内蒙古社会科学（汉文版），2000，（3）：24-29.

［2］Landry Pierre F.，Shen Mingming.Reaching Migrants in Survey Research：The Use of the Global Positioning System to Reduce Coverage Bias in China［J］.Political Analysis，2005，13（1）：233-236.

［3］刘小青.降低评价尺度偏差：一项政治效能感测量的实验［J］.甘肃行政学院学报，2012，（3）：47-54.

［4］Cantril H.The pattern of human concerns［Z］.New Brunswick：Rutgers University Press，1965.

［5］Carpenter Janet S.Applying the Cantril methodology to study self-esteem：psychometrics of the Self-Anchoring Self-Esteem Scale［J］.Journal of nursing measurement，1996,4（2）：171-189.

［6］Mazur Joanna，Szkultecka -D?bek Monika，Dzielska Anna，et al.What does the Cantril Ladder measure in adolescence?［J］.Archives of medical science：AMS，2018,14（1）：182.

［7］King Gary，Tandon Ajay.Enhancing the validity and cross-cultural comparability of measurement in survey research［J］.American Political Science Review，2004，98（1）：207.

［8］Aldrich John H.，Mckelvey Richard D.A Method of Scaling With Applications to the 1968 and 1972 Presidential Elections［J］.American Political Science Review，1977,71（1）：111-130.

［9］Poole Keith T.Recovering a Basic Space From a Set of Issue Scales［J］.American Journal of Political Science，1997，42（3）：954-993.

［10］Fowers Blaine J.，Applegate Brooks，Tredinnick Michael，et al.His and her individualisms?Sex bias and individualism in psychologists'responses to case vignettes［J］.Journal of Psychology Interdisciplinary&A pplied，1996,130（2）：159-174.

［11］Hsee C.K.，Tang J.N.Sun and water：on a modulus-based measurement of happiness［J］.Emotion，2007，7（1）：213-218.

［12］加布里埃尔·阿尔蒙德，西德尼·维伯.公民文化——五个国家的政治态度和民主制［M］.徐湘林，戴龙基译.华夏出版社，1989.

［13］Strobl Carolin，Kopf Julia，Zeileis Achim.Rasch Trees：A New Method for Detecting Differential Item Functioning in the Rasch Model［J］.Psychometrika，2015，80（2）：1-28.

［14］Salomon J.A.，Tandon A.，Murray C.J.Comparability of self rated health：cross sectional multi-country survey using anchoring vignettes.［J］.Bmj British Medical Journal，2004，328（7434）：258.

［15］Chen H.，Meng T.Bonding，Bridging，and Linking Social Capital and Self-Rated Health among Chinese Adults：Use of the Anchoring Vignettes Technique.［J］.Plos One，2015，10（11）：e142300.

［16］Mojtabai R.Depressed Mood in Middle-Aged and Older Adults in Europe and the United States：A Comparative Study Using Anchoring Vignettes.［J］.Journal of Aging&Health，2015，28（1）：1714-1721.

［17］Hao Zhang，Teresa Bago D'Uva，Eddy Van Doorslaer.The gender health gap in China：A decomposition analysis［J］.Economics&Human Biology，2015，18：13-26.

［18］León Carmelo J.，Ara?a Jorge E.，León Javier De.Correcting for Scale Perception Bias in Measuring Corruption：an Application to Chile and Spain［J］.Social Indicators Research，2013，114（3）：977-995.

［19］宋庆宇，乔天宇.中国民众主观社会地位的地域差异：基于对 CFPS2012成人问卷数据的“虚拟情境锚定法”分析［J］.社会，2017，（6）：216-242.

［20］Johansson Edvard.New evidence on crosscountry differences in job satisfaction using anchoring vignettes［J］.Labour Economics，2006，15（1）：96-117.

［21］Rice Nigel，Robone Silvana，Smith P.C.International Comparison of Public Sector Performance：The Use of Anchoring Vignettes to adjust Self-Reported Data［J］.Health Econometrics&Data Group Working Papers，2010，16（1）：81-101.

［22］Pandey Sanjay K.，Marlowe Justin.Assessing Survey-Based Measurement of Personnel Red Tape With Anchoring Vignettes［J］.Review of Public Personnel Administration，2014，35（3）.

［23］Araa Jorge E.，León Carmelo J.Scale-perception bias in the valuation of environmental risks［J］.Applied Economics，2012，44（20）：2607-2617.

［24］Buckley Jack，Buckley Jack.Survey context effects in anchoring vignettes［J］.New York University，2008.

［25］Hopkins Daniel J.，King Gary.Improving Anchoring Vignettes：Designing Surveys to Correct Interpersonal Incomparability［J］.Public Opinion Quarterly，2010，74（2）：201-222.

［26］刘素芳，林岳卿，何泽慧等.世界卫生组织健康调查资料的结构方程模型［J］.中华预防医学杂志，2010，（7）：631-635.

［27］吴琼.主观社会地位评价标准的群体差异［J］.人口与发展，2014，（6）：63-70.

［28］Wand Jonathan，King Gary，Lau Olivia.anchors：Software for Anchoring Vignette Data［J］.Journal of Statistical Software，2011，42（42）：1-25.

［29］Wand Jonathan，King Gary，Lau Olivia.anchors：Software for Anchoring Vignette Dat［J］.Journal of Statistical Software，2011，42（42）：1-25.

［30］Damacena G.N.，Vasconcellos M.T.，Szwarcwald C.L.Perception of health state and the use of vignettes to calibrate for socioeconomic status：results of the World Health Survey in Brazil，2003［J］.Cadernos De S-aúde Pública，2005，21：65-77.

附录

附录1

附录表1 问卷C卷虚拟情境顺序的频率分布

频次频率违背设定顺序数量{1，2，3，4} 627 0.4980 0{1，3}，{2，4} 222 0.1763 1 3，{1，2，4} 41 0.0326 2{1，2，4}，3 38 0.0302 1{1，2}，{3，4} 38 0.0302 0{2，3，4}，1 37 0.0294 3{1，2，3}，4 36 0.0286 0 1，{2，3，4} 33 0.0262 0{2，4}，{1，3} 32 0.0254 3{3，4}，{1，2} 30 0.0238 4

附录2

笔者利用软件自带的绘图功能，基于向村级集体反映问题的B组问卷，按照网民与非网民描述出上述四类处理区间答案后的情况。可以发现，由于针对本问卷的区间答案较多，造成不同处置方式对公民诉求影响力的“真实值”有较大差异。然而如果集中于分析图中反映的信息对比，从网民与非网民的对比中可以发现，网民在C=4或者5的时候比例低于非网民，而在C=1或者2的时候高于非网民。由于在笔者的研究中，C越大代表着真实的公民诉求影响力越小，从四类处置办法的图表中我们均可以发现网民的诉求影响力高于非网民。通过该例子，我们可以看到针对区间值的不同处理方法。

图1 基于虚拟情境锚定法的得出的网民与非网民的公民诉求影响力（基于B卷）

附注：深色为网民的公民诉求影响力，而浅色为非网民的公民诉求影响力

【中图分类号】D035

【文献标识码】A

【文章编号】1009-4997（2019）03-0050-10

收稿日期：2019-05-06

作者简介：李锋，政治学博士，中共中央党校政治和法律教研部讲师，清华大学数据治理研究中心兼职研究员，北京大学国家治理研究院助理研究员、北京大学中国国情研究中心人员，研究方向：国家治理、政治学量化方法、大数据政治学。

基金项目：中央党校2019年校级科研重点课题“新时代我国社会主要矛盾问题研究（2019ZD004）；教育部重大项目“国家治理理论研究”（17JJD810001）；国家社科基金“新媒体条件下中国公民政治价值观实证调查研究”（16BZZ006）。

（编辑：康宁）

标签：情境论文; 受访者论文; 公民论文; 影响力论文; 问卷论文; 社会科学总论论文; 社会科学研究方法论文; 调查方法论文; 工作方法论文; 《甘肃行政学院学报》2019年第3期论文; 中央党校2019年校级科研重点课题“新时代我国社会主要矛盾问题研究(2019ZD004)教育部重大项目“国家治理理论研究”(17JJD810001)国家社科基金“新媒体条件下中国公民政治价值观实证调查研究”(16BZZ006)论文; 中共中央党校政治和法律教研部论文;