李剑楠:重复决策中的概率匹配行为及其认知机制论文

摘要概率匹配是行为决策领域的一类经典的反常行为，被大量研究证实。传统的启发式和偏差研究取向以概率和逻辑法则作为衡量理性行为的金标准，却忽略了个体差异及环境变量对行为的影响。本文从认知过程和决策环境两个维度系统地探讨了可能导致概率匹配行为的策略，分析了每种策略在每种环境下的有效性。文章梳理了行为决策领域和行为生态学领域的大量经验证据，讨论了匹配概率行为原理在法律、金融等实际领域的应用。

关键词重复决策概率匹配策略启发式联结学习

1 引言

日常生活中的很多决策问题大多具有重复的性质，常常需要在相同或相似的情境下做选择。例如司机决定开车是否系安全带，企业决定是否在年度税务报告中做“手脚”，医生判断某种症状是否应被诊断为癌症。一般意义上讲，理性的决策者在面临上述决策问题时，应当每一次都采取价值最大化的最优策略。例如，当司机认为系安全带对自己更有利时，他/她应当始终采取系安全带的措施。然而大量研究表明，人类决策者在面对重复性决策问题时，并不总是做出对自身最有利的行动。

在经典的概率学习任务中，被试需要预测两个互斥的随机事件，例如猜测红绿两只灯泡哪只会亮。每次预测时，红和绿出现的概率分别为0.3和0.7，并且概率值在整个实验中保持不变。理性人应该始终猜测绿色，该策略平均正确率为0.7；然而实际研究中，多数决策者更倾向于采取概率匹配(probability matching)的策略，即大致以3∶7的比例猜测红和绿。该策略的平均正确率只有0.7×0.7+0.3×0.3=0.58，因而是次优的。概率匹配行为已被大量实验研究重复(见综述Hardy-Vallee,2007;Koehler & James,2014;Vulkan,2000)。此外，在人类知觉决策(Murray,Patel,& Yee,2015)、概率推断(Acerbi,Vijayakumar,& Wolpert,2014)、抽象规则的学习(Craig,Phillips,Zaldivar,Bhattacharyya,& Krichmar,2016)、注意的空间分配(Geng et al.,2013)等研究领域中也都发现了类似的行为模式。

早期的观点认为，概率匹配行为是一种次优的非理性行为(见综述Vulkan,2000)。然而，根据司马贺(Simon,1990)提出的有限理性(bounded rationality)原理，由于认知能力的局限，人类并不总够获得所有问题的最优解，因而在对个体行为做出评价时，应当充分考虑决策者的认知能力及其所处的具体环境。在评价概率匹配行为时，同样应该考虑到环境因素。实验室条件下的重复决策问题大都是静态(static)的，具有时间独立(temporal independence)的性质(Haselton et al.,2009)，然而真实世界的随机过程大都存在一定的规律，如物价随时间波动的情况、觅食资源的时间-空间分布状况(Group et al.,2014)。因此，概率匹配行为可能在某种程度上具有一定的进化合理性(Hardy-Vallee,2007;Seth,2007；Todd,& Gigerenzer,2012)。

λ=38.571+6.574χ1+46.191χ2-2.115χ3-1.228χ1χ2+0.026χ1χ3+0.725χ2χ3-0.225χ12-21.179χ22+0.011χ32。

个体行为受认知能力和环境因素共同影响，具有一定的多样性(Simon,1990；王晓田,&陆静怡.2016)。这里需要区分两类可能导致概率匹配行为的策略。一类称为启发式，指在认知能力有限的前提下所采取的简化策略(Simon,1990)。另一类称为老练(sophistication)，指通过分析环境结构、构建心理模型(internal/world model)来指导决策行为(Daw,Niv,& Dayan,2005;Shteingart & Loewenstein,2014)。与启发式相比，老练策略需要投入更多的认知资源。

2 认知启发式

这部分将分别阐述联结学习(associative learning)和选择多样化(choice diversification)两种可能导致概率匹配行为的启发式策略。

2.1 联结学习启发式

概率匹配行为也可能来自两种更老练的(sophisticated)策略：找规律(searching pattern)和构建心理模型(internal/world model)。本小节将分别阐述两种策略。

联结学习策略也会受认知能力和任务情境因素的调节。当同时存在的干扰任务占用了工作记忆资源时，个体采用联结学习策略的偏好会增加(Otto et al.,2011;Worthy,Otto,& Maddox,2012)；反之在认知资源充足的条件下，个体倾向于采取老练的探索学习策略(Gaissmaier & Schooler,2008)(见本文第3节)。也就是说，个体能够选择与认知能力相匹配的策略。另一些证据表明，在决策情境动态变化的反转学习任务中，个体能够通过检测选项反转(环境变化)的频繁性来调整反应策略：当选项反转出现得不那么频繁时，个体对情境变化表现得不敏感，需要经历更多次失败才会放弃原先的优势选项(反转后为劣势选项)；反之，当反转事件出现地较频繁时，个体对情境变化则表现得较敏感(Behrens,Woolrich,Walton,& Rushworth,2007;Faraut,Procyk,& Wilson,2016)。这说明在动态的决策环境中，个体能够推断环境中的高级规则，并根据这些规则来调整学习和反应策略，这是元学习能力的体现(Faraut,Procyk,& Wilson,2016)。

但是也有一些证据表明，联结学习启发式能够更灵活地适应决策环境的动态变化。例如在重复决策任务中，当优势选项在被试不知情的情况下发生反转(reversal)时——指原先获得奖励概率较高的优势选项转变为获得奖励概率较低的次优选项，而原先的次优选项则转变为优势选项，这类任务称为反转学习(reversal learning)(见综述Izquierdo et al.,2017)——原先表现出概率匹配行为模式的决策者能够更迅速地适应这一变化，在更短时间里改变反应模式，更多选择反转后的优势选项(Gaissmaier et al.,2008)。

如图4所示,在CB-Sync算法中使用Chirp信号作为广播消息的导频序列,其中信标节点发送的Chirp导频信号如图5(a)所示,S(t)由一串Ns个脉冲信号组成,其中第一个脉冲峰值到最后一个脉冲峰值的间距为ts.由于多径效应,在接收端,每个脉冲会出现不同的拖尾,普通接收节点上的接收机只需要检测主径上的峰值,设在接收机上检测第一个到最后一个脉冲峰值的间距是Ts.但是,在初始状态下,Ts只是不同节点未同步的时间,其相对于信标节点的时间实际是(Ts-β)/θ,因此多普勒规模因子的值应为

2.2 多样化的策略

另一些学者认为，概率匹配行为可以看作一类多样化的反应策略，该策略可能来自于心理模拟的认知启发式(Koehler & James,2014)。在Koehler和James(2010)的实验中，研究者使用一个2面为红色、4面为绿色的特殊筛子，要求被试连续猜测10次掷筛子的结果(红色还是绿色朝上)，正确的猜测可获得奖励。结果显示，有超过一半被试会给出一个多样化的反应，比如3次猜红色、7次猜绿色。两位研究者认为，在上述问题中，人们倾向于在头脑中模拟10次掷筛子的结果，并根据他们想象出来的结果进行反应。由于人们更容易想象红、绿两种颜色混合的结果，而不是清一色的红或绿，于是他们给出的预测也是红绿相混合的。根据该假说，心理模拟的容易程度取决于个体对两次预测事件的知觉连续性。因此当上述研究的实验者使用10枚不同图案的筛子(James & Koehler,2011)或是在两次预测之间增加一些时间间隔和干扰(破坏了知觉连续性)(Denison,Bonawitz,Gopnik,& Griffiths,2013)，都能够显著降低概率匹配行为。相反地，同时预测多个事件则会增加知觉连续性，并导致多样化的反应模式(Gao & Corter,2015)。

判断决策领域的一些学者始终致力于寻找人类判断和决策过程中存在的认知偏差，并收获了颇丰的成果(Gilovich,Griffin,& Kahneman,2002)。然而，启发式偏差(heuristics and bias)研究取向存在一定的不足。首先，忽略了环境变量对行为的影响(Gigerenzer & Gaissmaier,2011；Haselton et al.,2009)。其次，对认知过程的多样性缺乏关注。一些学者提出双过程理论(dual-processes theory)(Evans & Stanovich,2013)，主张将认知系统分为直觉(intuitive)和分析(deliberative)两种独立的成分，思维可看做是两个系统的共同作用的结果。Koehler和James(2014)在双过程框架下探讨了概率匹配行为的认知过程，然而该模型仍然存在一定的缺陷。一方面，该模型依然是基于描述性的，即简单地将个体行为看成两种过程的叠加，却并没有深入到机制层面进行解释(Gigerenzer & Gaissmaier,2011)。另一方面，该模型不能预测个体如何对环境的变化做出反应，也不能解释个体或群体行为的进化根源(Group et al.,2014)。

在真实世界中，多样化策略并非总是对个体不利。例如，觅食的动物通过选择多个不同的觅食地点能够有效地分摊风险(risk spreading)(Higginson et al.,2012)，因为在生态环境中，被捕食群体大多数情况下会成群地、不规律地出现在其中的某个觅食地点，锁定单个地点往往会扑空。此外，当群体内部成员间彼此竞争资源时，多样化的策略也有助于优化资源的分配。经验证据表明，觅食群体能够自发地组织起来，根据食物资源的空间分布模式成比例地分配种群数量，成功地避免了因“扎堆”所带来的低效(Tregenza,1995)，人类被试在实验模拟的资源竞争任务中也表现出类似的行为模式(Schulze et al.,2015)，而采取概率匹配策略的计算机程序也更有可能在实验室模拟的竞争觅食环境中胜出(Seth,2007)。此外，某些物种(如斑马鱼、阿根廷蚁、三刺鱼)的归一化行为(collective behavior)——指某个群体中，个体对其他成员行为的模仿——也服从概率匹配的模式(Arganda et al.,2012)。这些结果暗示，多样化的概率匹配策略可能具有一定的进化合理性，是个体适应特定环境的有效策略。有趣的是，像诸如城市化、择偶、商业竞争这类人类社会现象似乎也符合上述规律。

概率匹配行为原理在法律实践中有广泛的应用，尤其是对优化执法资源的部署的重要启示(Guttel & Harel，2005)。由于实际条件的限制，执法者不可能做到全面禁止违法行为。但是执法者可以通过部署警力资源，操纵违法行为的成本(即受制裁的风险)。假设企业是理性的，那么只要风险足够大，漏税行为就会终止。实际上，现实中的企业大多会采取概率匹配的策略——即使受制裁的风险很大，他们也会偶尔地尝试漏税。这使得执法者不得不重新考虑完全禁止这类行为的必要性，因为投入额外警力资源也是需要成本的。概率匹配行为对法律制度设计也有一定的参考意义(Guttel & Harel，2005)。例如民事法中的惩罚性赔偿(punitive damages)条例，刑法中的制裁升级条例(escalating sanctions)以及风险责任(risk-based liability)制度，都是依据了这一行为原理。

2.3 启发式策略的评价

在不断地关注和肯定信息技术的优势后，人们开始回归教育人文关怀的本质，反思在信息化教学中过多关注人机交互造成的师幼间情感缺失。认为“师幼互动所蕴含的教育智慧及人与人之间的信任、鼓励、关怀等温情永远是教育教学的重要组成部分[6]”，教师自身的人格魅力会对幼儿产生积极影响，可以通过语言和体态语去传递情感，形成互动。师幼互动的教学灵活性也可以弥补教学软件固定程式对教学的制约。

如何才能激发学生学习的愿望，教师在设计练习时要充分考虑儿童的心理特点，教师结合学生已有知识尽量使练习设计新颖，生动有趣，只有有趣的练习，才能调动学生做练习的积极性。

3 老练的策略

早期的学习理论家认为，概率匹配行为主要来自于外推(extropolate)短期成败经验的联结学习过程(Erev & Barron,2005；Vulkan,2000)。联结学习的基本原理是效果律(law of effect)：重复成功的反应，规避失败的反应。在重复决策任务中，联结学习理论假设个体在短时记忆中回溯最近几次的成功、失败的经验，并采取成功次数较多而失败次数较少的反应。该策略的一种极端形式是只依赖最近一次反馈的反应规则：成功后维持不变，失败后立即调整反应(win-stay-loss-shift)(Otto et al.,2011;Worthy & Maddox,2014)。联结学习策略是一类简化的认知启发式，因为只需要遵循一个简单的规则，而不需要更多认知资源的投入。

3.1 自下而上的推断

的确有一些证据支持了上述观点。例如，当任务要求被试对随机出现的A、B两种刺激进行分类时，如果局部事件序列为ABABAB，并且接下来出现A时，被试的反应时通常要比出现B时更短(Jones et al.,2013)，暗示被试可能根据当前的情境外推(extrapolate)了局部模式的特征。其次，关于近因曲线(recency curve)的实验研究为找规律策略的认知过程提供了一定的启示。在概率学习任务中，当研究者以连续出现A事件的次数为横坐标，被试预测或选择A事件的频率为纵坐标画出近因曲线时，该曲线呈现出先增-后减-再增的“波浪”形态(Plonsky et al.,2015;Plonsky & Erev,2017)。一般认为，近因曲线的递增的部分与联结学习策略有关(Erev & Barron,2005)，递减部分则与赌徒谬误信念有关(Farmer,Warren,& Hahn,2017;Xue,Juan,Chang,Lu,& Dong,2012)，波浪形态的近因曲线则暗示两种认知过程的共存。另一些研究则发现，近因曲线的形状对个体的短时记忆容量较为敏感(Altmann & Burns,2005)。

另一些研究者则尝试对找规律的认知过程进行建模(Altmann & Burns,2005；Jones,Curran,Mozer,& Wilder,2013;Plonsky et al.,2015)，其主要的假设如下。首先，短时记忆参与序列模式(可简单理解为多个事件的排列组合，例如4次掷硬币共有2×2×2×2=16种模式。)的编码。但由于编码长序列的所有模式可能会超出短时记忆容量的范围，因而实际情况是某些具有显著(saliance)特征的模式更容易被编码和记忆(Jones,Curran,Mozer,& Wilder,2013)，例如连续(streak/run)模式、连续切换模式(ABABAB)和镜像模式(ABAABA)。这导致个体对模式的记忆存在一定的偏差。其次，在记忆系统中，具有相似特征的模式被单独作为一类进行保存，为后续的归纳推断和假设检验提供内容支持(Altmann & Burns,2005)。最后，已经存储的模式通过线索再认的方式影响当前的行为反应(Plonsky et al.,2015)。总之，模式搜索策略涉及较多高级的认知过程，并且需要较多的认知资源。

一些实验研究提供了支持找规律行为的证据。在一项早期的概率学习实验中(Yellott,1969)，研究者在被试不知情的情况下，操纵了任务最后阶段的反馈，使得猜测任意结果都能获得正确的反馈。有趣的是，多数被试在最后阶段依然表现出概率匹配行为，实验结束后，这些被试甚至声称他们发现了其中的规律(即使并不存在)。Gaissmaier和Schooler(2008)用一个有规律的模式序列直接探测被试找规律的倾向，结果发现那些在模式序列中能够成功发现规律并加以利用的被试，在完全随机的伯努利序列中也更倾向于表现出概率匹配行为。

3.2 基于模型的探索

已有的知识经验可通过自上而下的方式影响个体对环境的探索。在探索过程中，个体通过建构当前环境的心理模型(internal/world model)，利用该模型来推测环境中可能存在的统计规律，并做出对自身有利的行动(Daw et al.,2005)。心理模型的误用可能是导致概率匹配行为的一个主要原因(Shteingart & Loewenstein,2014)，例如早期研究发现，概率学习在不同任务条件之间存在负迁移效应：暴露于有规律的条件一段时间后，被试在无规律的静态条件下仍倾向于维持原先的概率匹配行为模式(Vulkan,2000)。另一些研究则直接操纵了心理模型，Green等人(2010)发现当预测任务使用的虚拟赌盘看上去像是被做了某种“手脚”，而非一个真正公平的赌盘时，概率匹配的行为随之增加。另一些研究者(Schul,Mayo,Burnstein,& Yahalom,2007)在博弈的情境下发现了类似的效应，实验要求被试识别潜在的欺骗信号，这些欺骗信号可能由另一名实验者的助手随机生成(人为条件)，也可能是计算机随机生成的(控制条件)。虽然两种情况下成功识别信号的概率是完全相同的，被试的行为模式却不同：在人为条件下更倾向于努力识别信号。

此外，个体对随机过程持有的错误观念会影响其对随机事件的知觉和判断。通常情况下，人们会认为连续多次出现同一事件(如掷硬币正面朝上)后，再次出现相同事件的可能性会降低，这就是经典的赌徒谬误(gambler’s fallacy)(Farmer et al.,2017)。近期的研究发现，在重复预测的任务中，赌徒谬误行为会受每组(block)实验中试次数量的影响(Farmer et al.,2017)，即只有当每组实验进行足够多次的预测，赌徒谬误才会发生。研究者通过计算机模拟，证明了该行为可以由短时记忆容量和任务情境交互作用产生。结果再次支持了心理模型的假说。

2.重新制样：（1）称样。称取混匀备用的不含磁性金属物的试样三份，每份1kg，精确至1g，分别为1号、2号、3号。（2）投放已知量。自称量纸上取适量金属物投放到1号中，此时天平数值显示为0.2908g；再取适量金属物投放到2号中，此时天平数值显示为0.2876g；将称量纸上剩余的磁性金属物全部投放到3号中，此时天平数值显示为0.2841g。

3.3 老练策略评价

一种观点认为，找规律的偏好主要来自于知识经验的误用(Shteingart & Loewenstein,2014)。如经典的“迷信”实验(Yellott,1969;Jones et al.,2013)、赌徒谬误(Farmer et al.,2017;Xue et al.,2012)、控制错觉(Green et al.,2010;Schul et al.,2007)以及确认性偏误(confirmation bias)(Doll,Hutchison,& Frank,2011)都可以解释为心理表征(心理模型)的负迁移。实际上，建构心理模型有重要的适应功能。首先，生态环境中的个体随时需要应对外界的变化。每一次面对新环境都重新探索是一种低效的做法，更有效的策略是在头脑中预存一些成熟的心理模型，面对类似的情境时便可直接拿来套用。好比一个老道的股票经纪人敏锐地捕捉到与当前价格变化模式相似的历史经验。其次，在动态的决策环境下，现有的模型不断被修正和完善；当遇到极端反常的情况时，老练的决策者能够利用环境中的线索，并结合已有知识创造性地建构新的模型(Donoso,Collins,& Koechlin,2014)。Donoso等人(2014)通过巧妙的任务设计研究了个体在动态环境下建构和修正模型的全过程。研究者还利用认知建模技术对以下四种认知成分进行了定量分析：提出新的模型(假设)、对模型的参数进行估计、对现有模型的可靠性进行检验、新旧模型之间的比较和仲裁。该研究为人类有限理性状况下的适应性推理和学习过程提供了重要的启示。

4 概率匹配行为的应用

社会共治，倾力为民获点赞。该处打造“12331”投诉举报品牌，开展“3·31”主题宣传日活动，推进食品药品社会共治。在全省率先开发设立投诉举报信息化平台，拓宽诉求渠道，实施扁平化管理，缩短流转时间，提高工作效率。畅通投诉举报渠道，倾听群众呼声，做到投诉举报“件件有着落、事事有回音”，多次收到群众锦旗、表扬信，维权事例被媒体多次报道。

二组菌体生物量呈现逐渐增加的趋势，添加可可碱与未添加可可碱对照相比，其菌体生物量要稍高于后者，说明可可碱的添加对菌体生长有促进作用。发酵进入第8 d，菌体生物量开始下降，对照pH值曲线，这可能是因为菌体开始自溶所致。

概率匹配行为可以解释金融市场中的某些异常现象。例如，从长远视角来看，股价会围绕理想价格(ideal price)上下以超出随机游走模型预期的幅度的波动；从短期视角来看，价格有顺应势头(momentum)的倾向；但是在中间时段，价格的变化则更容易出现逆转(reversal)。大多数金融理论(如资产定价模型)不能解释这一现象。Gerber等人(2010)根据对单个投资者行为的适当假设——通过增加概率匹配、过度自信、焦点协调(focal point coordination)这类心理学成分——能够成功预测上述宏观水平的价格变化模式。

赌博和预测的研究中也涉及大量的概率匹配行为。McCrea和Hirt(2009)开展了一项体育博彩的研究。研究者从网络上收集了2004年和2005年NACC篮球锦标赛第一轮比赛的投票数据，并对每回合比赛中两支球队的投票率进行了统计。发现两支球队的实力差(通过历届比赛的平均胜率测量)越大，强队获得的投票率越高，而投票率几乎和球队历届的胜率完全匹配。这种投票模式反映了公众的非理性行为，因为理性的投票者应该总是投强队获胜。其他针对不同类型决策者的研究也发现了相似的结果，如医疗专业人士(Arkes,Dawes,& Christensen,1986)、赌博成瘾者(Gaissmaier et al.,2016)、老年人(Hosseini et al.,2010)、儿童(Denison et al.,2013)、组织集体(Schulze & Newell,2016)。

5 总结与展望

本文对影响概率匹配行为的策略因素进行了分析(见表1)。受Simon(1990)思想的启示，文章从认知能力和环境两个维度对每种策略进行了探讨。然而本文的讨论和证据更多地聚焦于环境变量，未来的研究者可以进一步探讨个体差异因素(如智力、认知风格)如何对策略选择行为产生影响。

表1 概率匹配行为的策略及适用条件

策略适用的条件启发式联结学习动态波动多样化选择社会竞争、风险分摊老练归纳、找规律有规律基于模型的探索和迁移新异、不确定

如何对同种策略在某种情境下的有效性进行量化也是值得进一步研究的问题。一些研究者从统计学的角度出发，尝试通过对环境中包含的信息维度进行数理分析，推导出策略所适用的决策情境(Gigerenzer & Gaissmaier,2011)。这些分析的结论需要进一步的经验证据的支持。另一些学者将认知俭省(effort-reduction)作为评价策略质量的标准(Shah & Oppenheimer,2008)，也就是说在达成决策目标的前提下，耗费认知资源越少的策略越有效。我们认为，用尽可能少的认知资源做出尽可能有利的决断无疑是高效的，但认知俭省只是个体适应环境的一种手段，而不是最终的目的。

以往研究过分强调认知简化造成的危害(Gilovich et al.,2002)，却忽略了对另一类将简单问题复杂化的认知偏差。实际上，一些研究者已经注意到，更多的信息、更多认知资源的投入并不总能带来更准确的判断，其中一个主要的原因是(统计或心理)模型对信息结构的过度拟合(overfitting)(Gigerenzer & Gaissmaier,2011)。然而在现实生活中，非理性信息寻求(irrational information seeking)和过度拟合的行为现象却普遍存在(如医疗中的过度诊断问题，Welch,Schwartz,& Woloshin,2011/2015)，是导致个体低绩效及社会资源浪费的重要根源。导致过度拟合的一个主要原因是缺乏认知资源配置的上限。因此，如何分配认知资源的元决策能力至关重要。一些学者从问题的相反面出发，提出“少即是多”的原理(Gigerenzer & Gaissmaier,2011)，即在某些特定情境下放弃部分信息反而有助于做出高效的决断。我们认为，少即是多不等同于无知，而是基于对问题结构的重复深入理解和有效利用(exploit)；只有真正理解了过度拟合的原因，才能在实际的问题中避免这一偏差。因此，未来的研究还更应关注元层面的问题：例如个体如何选择适合当前环境的最佳策略？如何通过学习来获得策略选择的最佳方案？又该如何对策略选择的有效性进行量化？回答这些问题或许有助于推进对人类决策智能认识的新思考。

参考文献

王晓田,&陆静怡.(2016).进化的智慧与决策的理性.上海:华东师范大学出版社.

Acerbi,L.,Vijayakumar,S.,& Wolpert,D.M.(2014).On the Origins of Suboptimality in Human Probabilistic Inference.PLoScomputationalbiology,10(6).

Altmann,E.M.,& Burns,B.D.(2005).Streak biases in decision making:data and a memory model.CognitiveSystemsResearch,6(1),5-16.

Arganda,S.,Perez-Escudero,A.,& de Polavieja,G.G.(2012).A common rule for decision making in animal collectives across species.ProceedingsoftheNationalAcademyofSciencesoftheUnitedStatesofAmerica,109(50),20508-20513.

Arkes,H.R.,Dawes,R.M.,& Christensen,C.(1986).Factors influencing the use of a decision rule in a probabilistic task.OrganizationalBehavior&HumanDecisionProcesses,37(1),93-110.

Behrens,T.E.,Woolrich,M.W.,Walton,M.E.,& Rushworth,M.F.(2007).Learning the value of information in an uncertain world.NatureNeuroscience,10(9),1214-1221.

Daw,N.D.,Niv,Y.,& Dayan,P.(2005).Uncertainty-based competition between prefrontal and dorsolateral striatal systems for behavioral control.NatureNeuroscience,8(12),1704-1711.

Denison,S.,Bonawitz,E.,Gopnik,A.,& Griffiths,T.L.(2013).Rational variability in children’s causal inferences:The Sampling Hypothesis.Cognition,126(2),285-300.

Doll,B.B.,Hutchison,K.E.,& Frank,M.J.(2011).Dopaminergic genes predict individual differences in susceptibility to confirmation bias.JournalofNeuroscience,31(16),6188-6198.

Donoso,M.,Collins,A.G.,& Koechlin,E.(2014).Foundations of human reasoning in the prefrontal cortex.Science,344(6191),1481-1486.

Erev,I.,& Barron,G.(2005).On adaptation,maximization,and reinforcement learning among cognitive strategies.PsychologicalReview,112(4),912-931.

Evans,J.S.,& Stanovich,K.E.(2013).Dual-process theories of higher cognition:advancing the debate.PerspectivesonPsychologicalScienceAJournaloftheAssociationforPsychologicalScience,8(3),223-241.

Farmer,G.D.,Warren,P.A.,& Hahn,U.(2017).Who “believes” in the gambler’s fallacy and why?.JournalofExperimentalPsychology：General,146(1),63-76.

Faraut,M.C.,Procyk,E.,& Wilson,C.R.(2016).Learning to learn about uncertain feedback.Learning&Memory,23(2),90-98.

Group,T.M.A.D.,Fawcett,T.W.,Fallenstein,B.,Higginson,A.D.,Houston,A.I.,& Mallpress,D.E.W.,et al.(2014).The evolution of decision rules in complex environments.TrendsinCognitiveSciences,18(3),153-161.

Gaissmaier,W.,& Schooler,L.J.(2008).The smart potential behind probability matching.Cognition,109(3),416-422.

Gaissmaier,W.,Schooler,L.J.,& Mata,R.(2008).An ecological perspective to cognitive limits:Modeling environment-mind interactions with ACT-R.JudgmentandDecisionMaking,3(3),278-291.

Gaissmaier,W.,Wilke,A.,Scheibehenne,B.,McCanney,P.,& Barrett,H.C.(2016).Betting on Illusory Patterns:Probability Matching in Habitual Gamblers.JournalofGamblingStudies,32(1),143-156.

Gao,J.,& Corter,J.E.(2015).Striving for perfection and falling short:the influence of goals on probability matching.Memory&Cognition,43(5),748-759.

Geng,J.J.,Soosman,S.,Sun,Y.,DiQuattro,N.E.,Stankevitch,B.,& Minzenberg,M.J.(2013).A Match Made by Modafinil:Probability Matching in Choice Decisions and Spatial Attention.JournalofCognitiveNeuroscience,25(5),657-669.

Gerber,A.,Hens,T.,& Vogt,B.(2010).Rational investor sentiment in a repeated stochastic game with imperfect monitoring.JournalofEconomicBehavior&Organization,76(3),669-704.

Gigerenzer,G.,& Gaissmaier,W.(2011).Heuristic decision making.AnnualReviewofPsychology,62(1),451-482.

Gilovich,T.,Griffin,D.,& Kahneman,D.(2002).Heuristicsandbiases:Thepsychologyofintuitivejudgment.Cambridge university press.

Craig,A.B.,Phillips,M.E.,Zaldivar,A.,Bhattacharyya,R.,& Krichmar,J.L.(2016).Investigation of biases and compensatory strategies using a probabilistic variant of the wisconsin card sorting test.FrontiersinPsychology,7(463),17.

Green,C.S.,Benson,C.,Kersten,D.,& Schrater,P.(2010).Alterations in choice behavior by manipulations of world model.ProceedingsoftheNationalAcademyofSciencesoftheUnitedStatesofAmerica,107(37),16401-6.

Guttel,E.,& Harel,A.(2005).Matching probabilities:The behavioral law and economics of repeated behavior.UniversityofChicagoLawReview,72(4),1197-1236.

Hardy-Vallee,B.(2007,April).Artificial life,natural rationality and probability matching.2007IEEESymposiumonArtificialLife.IEEE Symposium on(pp.123-129).IEEE.

Haselton,M.G.,Bryant,G.A.,Wilke,A.,Frederick,D.A.,Galperin,A.,Frankenhuis,W.E.,& Moore,T.(2009).Adaptive rationality:An evolutionary perspective on cognitive bias.SocialCognition,27(5),733-763.

Higginson,A.D.,Fawcett,T.W.,Trimmer,P.C.,McNamara,J.M.,& Houston,A.I.(2012).Generalized optimal risk allocation:Foraging and antipredator behavior in a fluctuating environment.TheAmericanNaturalist,180(5),589-603.

Hosseini,S.M.H.,Rostami,M.,Yomogida,Y.,Takahashi,M.,Tsukiura,T.,& Kawashima,R.(2010).Aging and decision making under uncertainty:Behavioral and neural evidence for the preservation of decision making in the absence of learning in old age.Neuroimage,52(4),1514-1520.

Izquierdo,A.,Brigman,J.L.,Radke,A.K.,Rudebeck,P.H.,& Holmes,A.(2017).The neural basis of reversal learning:An updated perspective.Neuroscience,345,1226.

James,G.,& Koehler,D.J.(2011).Banking on a Bad Bet:Probability Matching in Risky Choice Is Linked to Expectation Generation.PsychologicalScience,22(6),707-711.

Jones,M.,Curran,T.,Mozer,M.C.,& Wilder,M.H.(2013).Sequential effects in response time reveal learning mechanisms and event representations.PsychologicalReview,120(3),628-666.

Koehler,D.J.,& James,G.(2010).Probability matching and strategy availability.Memory&Cognition,38(6),667-676.

Koehler,D.J.,& James,G.(2014).Probability matching,fast and slow.Thepsychologyoflearningandmotivation,61,103-131.

McCrea,S.M.,& Hirt,E.R.(2009).Match Madness:Probability Matching in Prediction of the NCAA Basketball Tournament1.JournalofAppliedSocialPsychology,39(12),2809-2839.

Murray,R.F.,Patel,K.,& Yee,A.(2015).Posterior Probability Matching and Human Perceptual Decision Making.PLoSComputationalBiology,11(6),e1004342.

Otto,A.R.,Taylor,E.G.,& Markman,A.B.(2011).There are at least two kinds of probability matching:evidence from a secondary task.Cognition,118(2),274-279.

Plonsky,O.,Teodorescu,K.,& Erev,I.(2015).Reliance on small samples,the wavy recency effect,and similarity-based learning.PsychologicalReview,122(4),621-647.

Plonsky,O.,& Erev,I.(2017).Learning in settings with partial feedback and the wavy recency effect of rare events.CognitivePsychology,93,18-43.

Scheibehenne,B.,Wilke,A.,& Todd,P.M.(2011).Expectations of clumpy resources influence predictions of sequential events.EvolutionandHumanBehavior,32(5),326-333.

Schul,Y.,Mayo,R.,Burnstein,E.,& Yahalom,N.(2007).How people cope with uncertainty due to chance or deception.JournalofExperimentalSocialPsychology,43(1),91-103.

Schulze,C.,van Ravenzwaaij,D.,& Newell,B.R.(2015).Of matchers and maximizers:How competition shapes choice under risk and uncertainty.CognitivePsychology,78,78-98.

Schulze C,& Newell BR.(2016).Taking the easy way out? increasing implementation effort reduces probability maximizing under cognitive load.Memory&Cognition,44(5),806-818.

Schulze,C.,& Newell,B.R.(2016).More heads choose better than one:Group decision making can eliminate probability matching.PsychonomicBulletin&Review,23(3),907-914.

Seth,A.K.(2007).The ecology of action selection:insights from artificial life.PhilosophicalTransactionsoftheRoyalSocietyofLondon,362(1485),1545-58.

Shah,A.K.,& Oppenheimer,D.M.(2008).Heuristics made easy:an effort-reduction framework.PsychologicalBulletin,134(2),207-222.

Shteingart,H.,& Loewenstein,Y.(2014).Reinforcement learning and human behavior.CurrentOpinioninNeurobiology,25,93-98.

Simon,H.A.(1990).Invariants of human behavior.AnnualReviewofPsychology,41(1),1-20.

Todd,P.M.,& Gigerenzer,G.(2012).Ecologicalrationality:Intelligenceintheworld.Oxford University press,Inc.

Tregenza,T.(1995).Building on the ideal free distribution.AdvancesinEcologicalResearch,26,253-307.

Vulkan,N.(2000).An economist’s perspective on probability matching.JournalofEconomicSurveys,14(1),101-118.

Worthy,D.A.,& Maddox,W.T.(2014).A comparison model of reinforcement-learning and win-stay-lose-shift decision-making processes:A tribute to WK Estes.JournalofMathematicalPsychology,59,41-49.

Worthy,D.A.,Otto,A.R.,& Maddox,W.T.(2012).Working-memory load and temporal myopia in dynamic decision-making.JournalofExperimentalPsychology:LearningMemory&Cognition,38(6),1640-1658.

Xue,G.,Juan,C.H.,Chang,C.F.,Lu,Z.L.,& Dong,Q.(2012).Lateral prefrontal cortex contributes to maladaptive decisions.ProceedingsoftheNationalAcademyofSciencesoftheUnitedStatesofAmerica,109(12),4401-4406.

Yellott,J.I.(1969).Probability learning with noncontingent success.JournalofMathematicalPsychology,6(3),541-575.

ProbabilityMatchingBehaviorinRepeatedDecisionMakinganditsUnderlyingCognitiveProcess

LIJian-nan1,2ZOUZhi-ling2HEQing-hua2,3,4

(1.College of Education and Psychological Science,Sichuan University of Science and Engineering,Zigong,Sichuan 643000,China;2.Faculty of Psychology,Southwest University,Chongqing 400715,China;3.Chongqing Collaborative Innovation Center for Brain Science,Chongqing 400715,China;4.Southwest University Branch,Collaborative Innovation Center of Assessment toward Basic Education Quality,Chongqing 400715,China)

Abstract

Probability matching is one of the most important anomalies which violates the utility maximization principle in the normative decision theory.In the traditional Heuristic-and-Biases approach,probabilistic and logical principles are a golden standard for rational decision making.However,the individual differences,and the impact of environmental variables on behaviors are largely neglected.This article systematically discusses several strategies that can lead to the same explicit probability matching behavior from a two-dimension framework of behavioral analysis.In this framework,cognitive processes and environment variables are two independent components.The empirical evidences from both human and animal studies are summarized.Some application domains of probability matching,such as economics,financial and law,are discussed.

Keywords：repeated decision making,probability matching,strategy,heuristics,associative learning

*基金项目：国家自然科学基金(13400959)，2017年重庆市留学回国人员创业创新支持计划(cx2017049)，中央高校基本科研业务费专项资金项目(SWU1809003和SWU1709106)。

**通信作者：何清华，男，西南大学心理学部教授，e-mail:heqinghua@swu.edu.cn。

中图分类号：B841

文献标识码：A

文章编号：1006-6020(2019)-02-0179-10

标签：概率论文; 策略论文; 认知论文; 个体论文; 模型论文; 社会科学总论论文; 管理学论文; 决策学论文; 《应用心理学》2019年第2期论文; 国家自然科学基金(13400959)2017年重庆市留学回国人员创业创新支持计划(cx2017049)中央高校基本科研业务费专项资金项目(SWU1809003和SWU1709106)论文; 四川理工学院教育与心理科学院论文; 西南大学心理学部论文; 重庆脑科学协同创新中心西南大学分中心论文; 中国基础教育质量协同创新中心西南大学分中心论文;