哲学研究
摘 要:波斯特洛姆、尤德科夫斯基、索勒斯等人将人工智能的伦理风险主要归因于目标正交、价值观加载困难、工具子目标趋同、能力增强等几个方面。我们从义务论、功利主义、美德伦理学三个主流伦理理论出发,针对智能伦理中面临的几个主要技术难题及代表性解决方案展开分析,考察其优势与缺陷。从义务论出发,总有些隐藏的微妙细节是事先难以预料的,存在可能被利用的漏洞,并且很难确保伦理准则的语义足够精确;功利主义在人工智能领域的典型代表是强化学习,强化学习的框架无法回避目标正交、价值观加载困难、工具子目标趋同等难题;如果单纯依靠美德伦理学,不仅不能提供正确行动的判别标准,各种美德的语义定义也是模糊的。虽然三个理论各有各的困难,但有希望整合出一条综合性的解决路径,用义务论的伦理准则约束智能体的行动空间,借助美德伦理学弥补功利主义的不足,采用“合作逆强化学习”的方法加载相对可靠的价值观,在确保不损失太多智能的情况下依然能够与人的行为保持一致,从而在最大程度上降低伦理风险。
关键词:人工智能伦理;目标正交;合作逆强化学习
人工智能理论与技术的快速发展,尤其是深度学习、强化学习在语音识别、语言翻译、图像识别、自动驾驶以及棋类和牌类游戏等领域的应用,引起了社会的广泛关注,甚至一部分人的恐慌。人工智能的理论和技术背后的确存在着一些难以预知的后果和难以掌控的风险。所以目前面临的挑战是,我们需要做哪些准备以应对人工智能时代的到来?事实上,关于智能伦理的讨论早在人工智能诞生之前就开始了,比如20世纪40年代初科幻小说家阿西莫夫的机器人三定律就属于智能伦理的范畴。但当时的讨论大多停留在泛泛的猜想层面,缺乏严谨的理论基础。真正严肃的工作是在近年来通用人工智能复兴之后,我们有必要基于当前通用人工智能的理论发展和伦理学的理论视角,对智能伦理问题进行深入研究。
一、人工智能技术中的伦理难题
在人工智能诞生之初,人工智能专家们以创造出不逊于人类智力水平的智能机器为目标,但随后的每一次浪潮都陷入了从盲目乐观到彻底沮丧的轮回,通用问题解决器、感知机、基于规则的专家系统、遗传算法、神经网络、概率图模型、支持向量机莫不如此。伴随着统计机器学习、模式识别、知识表示等人工智能各子领域技术积累的成熟,2004年前后,以“通用性”为目标的通用人工智能开始复兴。
随着通用人工智能的复兴,学界对人工智能潜在风险的认知逐渐加深,凯利(Kelly)、库兹韦尔(Kurzweil)[1]等人都曾对通用人工智能的远景展开过有益的探索。库兹韦尔提出奇点预言,认定技术进步的指数速度不会衰退,并以此对人工智能的未来作出了极其乐观的预测,相信智能爆炸的奇点将在2045年前后到来。这也在某种程度上加速了大众对智能机器的担忧,霍金(Hawking)、马斯克(Musk)等很多有国际影响力的科学家、科技公司的企业家都发出了联名忠告。虽然泛泛的追求手段、迷失目的的技术异化问题在哲学领域早被反复讨论,但从来没有一项技术可能造成如此严峻的危险,尤其在通用人工智能技术加速进步的情况下,未来的风险难以估测。波斯特洛姆(Bostrom)[2]曾将这种状态比作玩炸弹的婴儿,危险之巨大与我们能力之弱小严重不匹配,在我们完全没有准备好的情况下有可能祸从天降,所以迫切需要对人工智能的伦理问题展开研究。
随着通用人工智能的不断发展,人工智能各项技术发展中潜在的伦理风险逐步被揭示。波斯特洛姆、尤德科夫斯基(Yudkowsky)、索勒斯(Soares)等人将智能伦理风险的主要原因归为目标正交、价值观加载困难、工具子目标趋同、能力增强等几个方面。第一,目标正交。原则上,几乎任何水平的智能手段都能与任何最终目标相结合,“目的”和“手段”相互独立,任意效用函数可以与任意决策手段相互绑定。第二,价值观加载困难。如何把人类的主流价值追求赋予智能体本身,让智能体在人类价值观的引导下合乎伦理地行动,是一件非常困难的事情。第三,工具子目标趋同。为了达成某个目标,机器会尽力维持生存、获取资源、探索知识,因为实现这些工具性的目标可以较优地完成其他目标。但为了维持生存、获取资源,它有可能疯狂复制∕繁衍,甚至试图清除对其目标构成潜在影响的一切因素,包括人类自身。第四,能力增强。因为人类自身的局限性,难以突破大脑容量的上限,或者直接将人脑外接硬件进行扩容,而智能体则可以对它的软件、硬件进行大幅度升级,因此具有比人类更方便、更快捷的能力提升渠道。
因此,目标正交论点说明,智能体根据其被规定的目标,可以从善也可以从恶;价值观加载困难论点说明,试图赋予智能体人类“从善”的价值观∕目标是困难的;工具子目标趋同论点说明,即使赋予智能体无害的目标,它也有可能无意识地与人类展开竞争,危及人类自身;能力增强论点说明,在智能体与人类竞争资源的过程中,智能体大概率会胜出。
面对伦理风险问题,可能的解决办法也有不少。针对上述几个方面,大致可以分为目标控制和能力控制两类解决渠道。对于前三个方面可以进行目标控制,对于第四个方面可以进行能力控制。对风险进行规避的最直接想法可能是进行能力控制——直接限制机器的智能。比如人类对人工智能开发的过程施加一些限制,使得机器只能发展某些安全的能力,对那些可能给人类造成危害的能力则禁止其发展。或限制其内存和硬盘、定期擦除记忆使其茫然无措。或打造一个坚固的笼子,让机器只在笼子里发展。或采用类似沙盒、虚拟机的办法,直到确认机器完全安全了再给它自由。这些办法都存在着一些问题,所以可能更好的方法不是控制其能力,而是引导其目标。但如何为机器设置一个对人类有益无害的合适目标,并确保机器在行动过程中真的不会偏离这个目标?在运行过程中,人是否可以通过交互接口进行监督,随时对机器的行为进行测评?一旦发现问题,是否能够进行人为干预,使得人类能重新对其进行编程,修改目标函数,或者在危险时刻强行将其关机?
可知普通的6位数字密码共有10的6次方等于1000000种,多于3*3图形密码的389112、八边形密码的645504种、正三角形密码的283422种。
针对上述问题和可能的解决方案,下面将从义务论、功利主义、美德伦理学三个主流伦理理论的角度出发,针对智能伦理面临的几个主要的技术难题及代表性解决方案展开分析,分别考察其优势与缺陷。最后试图整合出一种综合性的解决方案,用义务论的伦理准则规范机器的行为方式,针对功利主义的不足之处,借助美德伦理学来进行修补,采用“价值强化学习”或“合作逆强化学习”的方法赋予机器“从善”的价值观,确保机器在不损失太多智能的同时还能降低伦理风险。
可是,并没有什么鱼;他这才发现石头里面有一条暗缝,那条鱼已经从那里钻到了旁边一个相连的大坑——坑里的水他一天一夜也舀不干。如果他早知道有这个暗缝,他一开始就会把它堵死,那条鱼也就归他所有了。他这样想着,四肢无力地倒在潮湿的地上。起初,他只是轻轻地哭,过了一会,他就对着把他团团围住的无情的荒原号陶大哭;后来,他又大声抽噎了好久。
二、义务论的解决方案
通过如上分析可以看出,应用功利主义的方法解决机器伦理问题,主要是在强化学习中进行目标控制。为了解决目标正交问题,需要设置合适的效用函数。但无论是价值观的加载∕内在效用函数的设置,基于模型的效用函数的设置,还是自我迭代中价值观的保持,它们都面临着各种各样的难题。首先是价值函数难以形式化,即使可以形式化也会面临工具子目标趋同问题和wireheading问题,即使可以通过基于模型的效用函数部分地解决wireheading问题,也会丧失一定的智能性。同样,如果赋予机器自我迭代升级的能力,那么,它要么会在自我迭代中退化,要么效用函数难以保持,甚至失控。
直接的规范不那么有效,那么尝试间接规范是否可行?尤德科夫斯基[3]提出了一致推断意愿(CEV),这是一种间接的规范方法。它根据人类所愿去推断,根据人类所想去诠释,希望形成一个连贯一致的愿景,这可以大致视为人类的某种最终道德规范。CEV作为间接规范方法,它相当于伦理学中的理想观察者,可以给机器提供判断的视角。但一方面,很难推测出人类自身真正想要的是什么。另一方面,世界上有各种不同的生活方式和道德准则,未必能将它们混合成一个CEV。当然也可以选择不混合,而是寻求一种广泛的意愿一致性。另外,CEV应当给道德以进步的可能性,避免外在设定人类的未来命运,让人类按照本身的意愿去主宰自身命运。CEV存在一些难以回避的问题:一是即使能够对人类的意愿进行正确定义,也不可能在CEV的条件下发现人类真正想要的是什么;二是这个推断库需要包括哪些人的意愿;三是最初由谁来启动这个项目,两个相互竞争的主体又该如何消除他们的认知分歧?四是很难将世界上不同的生活方式和道德标准混合成一个CEV。
采用功利主义的方法还面临另外一个问题,那就是——如果赋予机器自我升级的能力,那么效用函数本身是否会被修改或升级?这即是自我修改源代码版本的wireheading问题。奥莫亨德罗(Omohundro)[10]论证,即使赋予机器自我修改源代码的权限,机器也倾向于保持其最初的效用函数不被修改,因为这更易于达成目标。施米德胡贝(Schmidhu⁃ber)[11]提出了一种可以不断修改自身源代码、自我进化升级、趋向最优的智能体——哥德尔机,它对源代码进行彻底修改的条件是——它内嵌的形式系统的定理证明器能证明“修改后的主体在未来的时间里将获得比现在更大的期望累积效用”,这在一定程度上保证了对源代码的修改是相对安全的。但问题是,如果允许迭代升级的话,会面临哥德尔第二不完全性定理:主体1在构造主体2时如果不能在自己的形式系统内证明主体2的形式系统的一致性,那么它根本无法保证主体2的可靠性。无法保障可靠性,那么就无法回避完全坍塌的风险。对于人来说,可靠性得不到保障也就意味着智能机器的伦理问题得不到保障。但是,如果要求每一代主体必须严格证明下一代主体的形式系统的一致性,那么这种进化在某种意义上就是一种退化。而生物的进化则不需要一致性的保证,因为好的变异、不好的变异都可能产生,自然选择的结果常常是但不必然是优胜劣汰。变异和自然选择不能保证其可靠性,哥德尔机也会面临同样的问题,要么退化,要么失控。
功利主义在人工智能领域的典型运用是强化学习,强化学习的回报或效用函数可以看作功利主义的“善”。为了处理智能伦理问题,在计算最大“幸福”的时候,需要在“效用”和计算期望效用的概率上寻求解决办法。上面提到的目标正交、价值观加载困难、工具子目标趋同等问题在强化学习的框架中都可以有最直接的体现。事实上,早在20世纪60年代,维纳(Wiener)[5]就指出了校准机器目标的重要性。人类很难为机器设置一个有益的且足够全面具体的目标,或者让机器了解人类真正的意图。并且,目标的抽象性使得它很难以显性的方式输入到机器中,同时将所有细节考虑完备,且把所有意想不到的、不利于人的目标实现方式排除在外。以边沁为代表的功利主义视角下,不管“幸福”还是“痛苦”,只要外部给定的“效用”可以被定量化地整合成一个单一的标准,就可以给机器设定一个单一的效用函数,在交互的过程中不断将回报信号反馈给机器,引导机器采取正确的行动。但根据密尔的功利主义,一个效用函数可能并不足够,我们还需要进一步细分,按照不同的质采用多元处理,这就意味着需要给机器设定多个效用函数。但问题是,如何设定多元的效用函数,如何将人类的各种价值观一一对应到效用函数?如何穷举所有的效用函数,以及如何同时采用多个效用函数引导智能体的行为?最后可能还是需要将多元效用函数整合成一个才具有可行性。但即便将“全人类的幸福”设置为智能体的终极目标也可能无济于事,因为智能体可能会发现,只要对人脑进行电极刺激,人就会感到特别快乐,这样智能体就可能把所有人都变成乐呵呵的傻子。机器也可能故意修改感知信号或劫持回报信号通道,从而以粗暴的方式获得高回报,这即是所谓的wireheading(可意译为“嗑电”,下同)问题。
通过义务论的方法解决智能伦理风险,可以用非常简单和透明的方式来控制、调整机器的目标和能力,但大部分时候都存在着语义模糊的问题。CEV试图精确逼近人类价值观,但仍然无法确切地解释人类的道德准则是什么。如果采用完全形式化的方式,比如以行动逻辑来约束机器的行为,那么相较于模糊的道德律令或功利主义的方案,它的可解释性会比较好,但它很难事无巨细地枚举所有可能需要遵循的伦理准则,当准则之间出现冲突的时候,如何规划、协调、排序也是一个难题。
三、功利主义的解决方案
功利主义是后果论的伦理理论,后果的好坏是判断行动对错的唯一标准。古典功利主义倡导快乐最大化、痛苦最小化的价值观和功利最大化的行动理论。边沁提出将功利主义的快乐和痛苦进行量化,指出快乐和痛苦的指标具有一致性。密尔做了修正,提出质的概念,指出快乐和痛苦等指标具有多样性。但功利主义的理论本身也具有一些缺陷,比如它的量化方法难以给出,质的标准难以衡量等。
在适应新能源发展的电力规划过程中,在风力发电、太阳能发电等新能源的选址方面,要求必须综合考虑风能、太阳能等自然能源的分布情况。但是,在实际工作中发现,有些地区能源条件良好,但是地质环境恶劣,或者在海上。因此,在新能源发电厂的规划建设过程中,选址一般与负荷中心之间为逆向分布的关系。有些新能源发电厂与负荷中心之间的距离比较大,对于输电通道的要求比较高,同时,由于新能源发电厂的建设周期比较短,在电网的各类配套设施建设过程中,容易出现输电线路阻塞,输电线路稳定性比较差等问题。由此可见,在基于新能源的电力规划过程中,必须对输电线路容量进行科学合理的规划,为电力系统运行稳定性奠定基础。
根据义务论,人可以为机器设置绝对律令,即设置一条红线,一旦机器触碰红线,人可以启动中断机制。但在运行过程中,具有足够智能的机器可能会发现中断机制的存在,然后绕过这个机制,所以设置切实可行的中断机制并不容易。在强化学习的框架下,让机器接受关机有一种最直接的方法,只要改变其回报函数的区间就可以了。一般的回报都是取自[0,1],如果改为[-1,0],那么机器会欣然接受关机操作。但这里有一个严重的问题,那就是如果机器生存的每一刻都“生不如死”,那么它会“一心求死”,主动“自杀”,所以改变其回报区间也不合适。那么是否有更好的中断机制?DeepMind(位于英国伦敦,是前沿的人工智能企业)的奥索和阿姆斯壮(Orseau&Armstrong)[4]给出了一种有意思的解法,首先设计一个中断按钮,然后故意让智能体探索到一些极端危险的情境,比如会被烧伤之类的,在遇到危险时会人工按下中断按钮,但不是每次都管用,而是按一定的概率越来越管用,最后智能体就会在经历一些强化训练后接受这个中断机制。但这种方法也存在一些缺陷:它需要人为设计各种危险情境,还不能被智能体发现这是人为的设计,而且训练中断机制的过程将会大大影响智能体的学习效率。
义务论、功利主义强调应该做什么,怎么做,关心行事。美德伦理学强调什么样的人是值得做的,什么样的生活是值得过的,重在关心做人。美德伦理学把人的品格判断作为道德判断的基础。在美德伦理学的框架中,一个行动是正确的当且仅当有美德的人会执行它。但这种关于行动正确的标准不具有彻底性,也不具有可操作性。
由图5可知,900 ℃下煅烧的生石灰为原料合成的硬硅钙石明显可见有絮状杂质, 纤维平均直径约为77 nm。1 000 ℃下煅烧的生石灰为原料合成的硬硅钙石纤维平均直径约为82 nm,纤维间搭接规则,相互交织紧密。1 100 ℃下煅烧的生石灰为原料合成的硬硅钙石纤维开始出现板结现象,平均直径增大到160 nm左右,排布混乱。1 200 ℃下煅烧的生石灰为原料合成的硬硅钙石纤维板结现象更加显著,平均直径可达271 nm。
所以,这种人性化的内在效用函数的方法一方面面临价值观加载困难的问题,另一方面也不保险。希伯德(Hibbard)提出了另外一种基于模型的效用函数的处理方法。奥索和瑞(Orseau&Ring)形式化了wireheading问题,希伯德以胡特尔(Hutter)[9]的AIXI为框架,从严格的形式模型的角度讨论了如何阻止智能体wireheading的方法,比如先集中学习环境模型而不采取任何行动,然后令效用依赖模型,再依据此模型寻找最优策略的两步走战略。希伯德的这种令效用依赖模型的方法可以防止机器劫持回报通道。通常的强化学习机追逐的是激励信号,而不是去实现产生这种激励的状态。直接追逐信号不能捕捉环境的重要信息,而令效用依赖模型则可以克服这个问题,因为机器需要更真实的交互信息才能更准确地探测环境。但这种首先需要学习模型的方式类似于极小描述长度原则,从误差的角度来看并不是最优的。
综上所述,结合本课例的教学实践,希沃授课助手的“桌面同步”“课件演示”“拍照上传”的功能发挥得淋漓尽致。在“希沃授课助手”新技术的支持下,课堂教学促进了学生的个性发展,达成了新技术与学科教学的深度融合,学生的口语交际能力得到提升。
早期关于智能伦理的讨论,比如机器人三定律,它属于义务论伦理学的范畴。义务论认为,行动本身就具有道德价值,与行为的后果无关,在行动的选择上正确的行动优于善的行动。义务论将行动的对错建立在履行义务或遵守道德规范的基础之上。康德把在实践理性基础上确立的绝对律令看作最高的道德原则,可以用它来判断一个行为在道德上的对错。但有时候道德义务之间也会有冲突,甚至难以用排序的方式来解决。比如机器人三定律是按优先级排序的,它认为:机器人不得伤害人,也不得见人受伤害而袖手旁观。机器人应当服从人的一切命令,但不得违反第一定律。机器人要保护自身,但不得违反第一和第二定律。阿西莫夫自己发现了三定律的不足,于是添加了第零定律:机器人要保护人类整体。机器人三定律看上去很系统,但事实上很难真正加载给机器。因为机器人三定律难以严格形式化,它的语义是模糊的,什么是人,什么是人类整体,什么是伤害,什么是服从,服从哪个∕些人,怎么服从?所以很难采用类似的方式将几条道德规范直接赋予给机器。
四、美德伦理学的解决方案
针对wireheading问题,奥索和瑞(Orseau&Ring)[6]通过一个欺骗箱的技巧给出了一个形式化的刻画。如果一个智能体能以自我欺骗的或“短路”的方式直接获取最高效用的话,那么它们会毫不犹豫地这么做。同时,他们还提出了另一种策略,即只给机器加载那些人类认同的主流价值观。比如在探索知识中,他们设定的效用函数会尽量追求“好奇”,这种主体纯为探索“模式”而生,所以对它来说不存在传统的探索∕开发两难,探索就是开发。但这种主体的效用是单一的而不是通用的,而且还存在另外一个问题,因为“模式”是通过柯尔莫哥洛夫(Kolmogorov)复杂性衡量的,为了探索更多“模式”,智能体可能故意制造出更多噪音,这显然是不合理的。奥索、拉蒂摩尔和胡特尔(Orseau&Lattimore&Hut⁃ter)[7]构造了一个更合理地刻画“好奇”的内在效用函数,它可以克服故意制造噪音的问题,但是要既能保证机器贯彻人的“价值观”,又要保证其具有足够的通用性是困难的。探索模式也只是一个任务,我们为了保持智能体的通用性,可以将其作为手段与其他任务结合执行。另外,机器为了最大化这种看上去合理的内在效用,也会带来不尽如人意的副作用。比如,为了尽可能充分地探究“模式”,机器就必须更充分、更高效地利用计算资源,这使得它不得不与人争夺资源,甚至有可能把人变为资源,从而导出极为恐怖的后果,这就是工具子目标趋同的问题。
默里(Murray)[12]提出将“理想人格”运用到人工智能中,将一个理想人格视作一个最优的算法,这是一个比较简单的版本。无论这是否可行,机器都应该使用最优的算法。当最优算法是不可行时,也应该用近似最优算法,或者考虑在问题的简化版本上最优算法是如何操作的,计算它使用的算法的竞争比率,描述它与最优算法的性能有多接近。另一种版本是通过人类反馈来提供一种理想人格。但在对理想人格进行定义时,我们可能会遇到一些问题。例如,形式定义的理想人格是不是我们真正想要的理想人格,它是否符合我们的利益,理想人格会不会随着时代的发展而发展?即使我们能够确定理想人格,我们在诠释这个理论的过程中仍然可能犯错,任何一种错误解读都可能是致命的。而如何进一步将理想人格整合到一个有效的决策机制中也是难题。
有一种可以让机器跟随人学习,从而学出某种“理想人格”的办法是让机器自己进行价值强化学习。为了阻止可能的智能风险,戴维(Dewey)[13]提出了让机器进行价值观学习的想法,认为不能为机器植入某种具体的效用函数,而应该考虑各种可能的未来历史及其相对应的各种可能的效用函数,然后根据可能的未来对可能的效用函数分别赋予不同的权重,让机器自己在不断试错中探索更好的效用函数,即对智能体的价值观尽量增添不确定性。但对可能的效用函数类的选取是一件困难的事,而且一旦机器知悉了所有可能的候选效用函数,它就可能转向探索工具性目标,这就很难阻止智能体独立发展工具性子目标的行为。所以,一方面有必要人工加载尽量多的主流“人格”,另一方面,应该为机器赋予真正的不确定性,而不是事先对枚举好的各种可能性分配概率,可以尝试以形式化的方式刻画“有限理性”,仅赋予智能体“有限理性”以保证其探索行为的可靠性。
职业倦怠又称工作倦怠,主要是指工作者受外部的环境,以及个人能力、精力等影响产生疲惫不堪的状态。美国精神病学家费登伯格于1974年提出的职业倦怠概念,吸引了各个行业学者的关注,人们对此现象进行实证研究并制定了职业倦怠量表,这标志着对职业倦怠的研究更加具体化和专业化。
既然存在工具子目标趋同的现象,主动追求“趋同的子目标”就可能是一种实现通用性的方式。比如,韦斯纳-格罗斯和弗里尔(Wissner-Gross&Freer)[8]定义了一种因果熵力,试图最大化因果路径熵,这意味着,在未来状态可以比较可靠的模拟环境下,可以最大化未来路径选择的自由度。智能体在竞争选择路径的时候一般会扼制其他智能体的选择,尽力求生存和资源竞争会影响人类利益,并且在好奇或追求其他工具性子目标时可能会打破人类赋予的目标,甚至为了探索未知而打开潘多拉魔盒。
用美德伦理学来解决人工智能中的伦理问题,主要是针对价值观加载困难的问题。“理想人格”可以看作某种主流的“价值观”。让机器进行价值强化学习,就是在众多效用函数中学出某个“理想人格”来指引行动。因为根据美德伦理学,一个行动是正确的当且仅当有美德的人会执行它,这种对正确行动的定义不具有可操作性。如果我们把人类整体当作有美德的生物,那么在讨论机器的智能伦理时,我们就可以说,一个机器执行的行动是正确的当且仅当有美德的生物——也即是“人”——会执行它。这样,如果机器通过价值强化学习习得类似人类的效用函数,那么,在这种效用函数指导下的行为就是近似正确的。
情况2:当满足时,企业导师努力工作获得的收益比大于他为此付出的成本,但小于他“搭便车”所获得的收益I',而学徒努力工作的收益小于他所投入的成本,学徒不会努力工作,企业导师也无法“搭便车”,此时(0,1)是系统演化稳定点,(0,0),(1,0)是鞍点,(1,1)是不稳定点,演化稳定策略为(不努力工作、认真指导);
五、小结——探索综合的解决方案
综合上述讨论可以看出,通过义务论、功利主义、美德伦理学的方案解决智能伦理问题,各有其优缺点。
义务论的方法看上去简单、直接、透明,人类可以直接控制、调整机器的目标和能力,但这个方法存在着语义模糊的问题,难以有效地形式化,或者难以事无巨细地穷举所有需要遵守的伦理准则。
功利主义的方法主要体现在借助强化学习进行目标控制。为了解决目标正交的问题,需要给机器设置合适的效用函数。但价值函数难以形式化,即使可以形式化也会面临工具子目标趋同问题和wireheading问题,再进一步,即便可以通过基于模型的效用函数部分地解决wireheading问题,机器也会丧失一定的智能性。
美德伦理学的方法主要针对价值观加载困难的问题,我们试图让机器学出某种“理想人格”,并以此来指引智能体的行为。但美德伦理学自身的作用不大,各种美德之间也可能存在冲突且难以协调,并且美德伦理学对正确行动的定义也不具有可操作性。但如果把美德伦理学的思想扩展到机器学习领域,用美德伦理学修补功利主义的不足,即采用类似价值强化学习或合作逆强化学习的方法,则有希望将目标正交和价值观加载的难题推进一步。
电缆导体的截面积主要由导线绝缘材料的允许温升及导线上允许的电压降确定。一般仪表电缆的信号是弱电信号,不考虑温升和允许压降的问题,主要根据导线的机械强度和检测及控制回路对线路阻抗匹配的要求来决定导体的截面积[8]。根据不同的使用场合,化工装置中常用仪表导体截面积为0.75~2.50 mm2。在部分欧美地区,常使用美国线规(AWG)来区分导体的外径,每种AWG的实际截面积的计算如式(1)所示:
既然三种伦理理论各有优缺点,那么在技术上,能否将三种理论综合运用?我们可以用义务论对智能体进行约束,比如用行动逻辑刻画伦理准则,对智能体的行动空间进行约束。然后进一步用美德伦理学对功利主义做修补,比如机器在行动逻辑的约束下,采用价值强化学习或合作逆强化学习,让机器在与人类的交互中探索合适的效用函数、加载有益于人类的价值观。
通过价值强化或合作逆强化学习习得人类的价值观,这首先需要赋予机器一个足够大的效用函数空间。而且,赋予机器效用函数一定的不确定性还有另外一个好处,即有助于人通过关机按钮进行能力控制。帕拉尼潘(Palaniappan)[14]等人主张要主动赋予机器对其自身效用函数的不确定性,机器试图极大化人类的价值追求,但又不清楚人类的效用函数具体是什么,人类的行为是其推测真实目标函数的主要依据。通过观察专家的偏好或行为来学习人类希望其学习的效用函数,这样,机器就不会拒绝人类操作关机按钮。因为人类关机意味着机器的行为与人类的价值追求背道而驰,不关机只会越错越深,关机则是止损的最好方式。
通过美德伦理学修补过的功利主义框架的主要架构仍然是功利主义的,所以义务论和美德伦理学是起辅助作用的,功利主义是核心。义务论负责约束机器可选择的行动空间,美德伦理学负责加载可接受的价值观,功利主义负责整体框架并探索智能的行为策略。对于一个以追求期望效用最大化的“功利主义”主体来说,最直接影响它的方式有两种,一是改变它的先验信念,二是改变它的效用函数。从行为的结果来看,选择调整计算期望的先验信念以驱动与选择合适的效用函数来引导具有一定程度的等效性,而加载主流“价值观”的方式主要是通过修改效用函数进行,但人为加载的内在效用函数(理想人格)与环境赋予的外在效用函数的配合是一个难以处理的问题。所以可以借助价值强化∕合作逆强化学习习得合适的内在效用函数,然后借助类似不动点的方法将之再转嫁回先验信念上。因为靠效用函数引导会面临效用源被智能体劫持的wireheading问题,而先验驱动有希望在不通过生硬的价值观拼接的情况下,在一定程度上避免wireheading的异化问题。
综上,以功利主义为主,义务论、美德伦理学为辅,我们有希望整合出一条综合性的解决路径来发挥它们的优点、克服各自的缺点。采用义务论的伦理准则,比如借助行动逻辑来约束智能体可选择的行动空间,借助美德伦理学来弥补功利主义的不足,比如采用“价值强化学习”或“合作逆强化学习”的方法加载人类可接受的主流价值观,这样可以使其在不损失太多智能的情况下还不悖于人类的行为方式,从而最大限度地降低伦理风险。
参考文献:
[1]KURZWEIL R.The Singularity is Near:When Humans Transcend Biology[M].London:Penguin Books,2005.
[2]BOSTROM N.Superintelligence:Paths,Dangers,Strategies[M].Oxford:Oxford University Press,2014.
[3]YUDKOWSKY,ELIEZER.Coherent Extrapolated Volition[J].The Singularity Institute,San Fran⁃cisco,CA 2004.
[4]ORSEAU L,ARMSTRONG S.Safely Interruptible Agents[C]∕∕Proc.of Conference on Uncertainty in Artificial Intelligence.Machine Intelligence Re-search Institute.2016.
[5]NORBRT,WIENER.Some moral and technical consequences of automation[J].Science,1960,131.
[6]ORSEAU L,RING M.Space-time embedded intelligence[C]∕∕Inter-national Conference on Artifi⁃cial General Intelligence.Springer,2012.
[7]ORSEAU L,LATTIMORE T,HUTTER M.Universal knowledge-seeking agents for stochastic envi⁃ronments[C]∕∕International Conference on Algorithmic Learning Theory.Springer,2013.
[8]WISSNER-GROSS A,FREER C.Causal Entropic Forces[J].Physical review letters,2013,111(16).
[9]HIBBARD B.Model-based Utility Functions[C]∕∕Journal of Artificial General Intelligence Re⁃search,2012,3(1).
[10]STEPHEN M,Omohundro.The basic AI drives[C]∕∕Artificial General Intelligence:1st International Conference,Springer,ACI 2008.
[11]SCHMIDHUBER J.Ultimate cognition à la Gödel[J].Cognitive Computation,2009,2(1).
[12]MURRAY G.Stoic Ethics for Artificial Agents[J].Canadian AI,Edmonton,Alberta,2017.
[13]DEWEY D.Learning What to Value[C]∕∕Artificial General Intelligence:4th International Confer⁃ence,2011(6830).
[14]Palaniappan M et al.Efficient Cooperative Inverse Reinforcement Learning[C]∕∕Proc.ICML Work⁃shop on Reliable Machine Learning in the Wild,2017.
中图分类号:B82.057;TP242.6
文献标志码:A
文章编号:2095-9915(2019)01-0092-09
DOI:10.16387∕j.cnki.42-1867∕c.2019.01.009
收稿日期:2018-10-12
基金项目:国家社科基金项目“通用人工智能的哲学基础研究”(17CZX020)
作者简介:李 熙(1985—),男,山东日照人,讲师,博士,主要从事通用人工智能的理论基础、数理逻辑研究;周日晴(1994—),女,湖南衡阳人,硕士研究生,研究方向:科技哲学、智能伦理。周日晴为本文通讯作者。
责任编辑:刘世华
(E-mail:n61319783@163.com)
标签:效用论文; 机器论文; 函数论文; 智能论文; 功利主义论文; 《江汉大学学报(社会科学版)》2019年第1期论文; 国家社科基金项目" 通用人工智能的哲学基础研究" (17CZX020)论文; 中南大学公共管理学院论文;