算法决策:人工智能驱动的公共决策及其风险*
吴进进 符阳
一、 引言
人工智能(artificial intelligence, AI)是计算机科学的一个分支,其目的是开发一种具有智能行为的机器,实现在没有明确编程命令的情况下,使计算机自主采取行动。机器学习和大数据是人工智能的两大核心要素。机器学习是人工智能的大脑,是支持人工智能的基础算法;大数据则是实现人工智能算法运算的基础原料。机器学习基于算法来解析和训练数据,进行学习,从现实世界中识别模式,发现趋势,作出预测和决策,并在此基础上执行特定任务。算法就是对解题方案的准确而完整的描述,是一系列解决问题的清晰指令。算法代表着用系统的方法描述、解决问题的策略机制,对一定规范的输入,在有限时间内获得所要求的输出。从本质上说,人工智能就是一种基于算法的自主决策系统。以大数据为基础的,以机器学习及深度学习算法为核心的人工智能自主决策系统被称为算法决策(Zouridis, van Eck & Bovens, 2020)。
决策是行政行为的核心。一方面,随着人工智能的兴起,人工智能对公共决策系统中的官僚与专家决策等常规决策模式起到了重塑作用。目前,国内外学者对大数据驱动的公共决策优化研究较为丰富,如大数据影响“公共决策循环”的模型化研究(Höchtl, Parycek & Schöllhammer,2016),大数据驱动的议程设置信息化、备择方案讨论全民化、决策执行自动化、决策评估实时化以及全过程跨领域综合集成化等五个方面的公共决策创新研究等(陈一帆、胡象明,2019)。但是,人工智能算法对公共决策过程和环节如何发挥影响,影响机制是什么等问题尚未在理论和实证层面上得到充分回答。另一方面,算法决策的风险问题也引起越来越多的警惕和探讨。部分学者对人工智能应用于公共决策持谨慎态度,认为人工智能算法的内在缺陷及其不当使用,如算法偏差、算法错误、算法歧视、算法“黑箱”、审查难等问题(Osoba & Welser, 2017;Chiao, 2019),将产生严峻的行政伦理问题,如人工智能对决策公平、公正、透明性和可问责性的挑战,侵犯公民信息隐私权,加剧社会不平等(于文轩,2017)。然而,这些探讨较少分析人工智能算法决策在公共决策过程中产生的风险的具体形式及其来源。
借鉴大数据驱动的公共决策循环模型(Höchtl, Parycek & Schöllhammer, 2016),以及人工智能对政府与公共政策影响的最新研究(Valle-Cruz et al., 2019),本文首先基于政策学者对政策过程经典的四个阶段划分(Dunn, 2015),发展一个人工智能算法在公共决策领域中应用形态与作用机制的分析框架,呈现人工智能对公共决策各阶段与过程的深刻影响。其次,本文将对公共决策各个阶段的算法决策风险及其来源问题进行探讨。最后,本文还将讨论如何平衡人工智能算法决策与常规决策之间的关系,阐述这两类决策机制的适用范围和互补关系,并对提高算法决策的公众参与性,规避算法决策的风险提出若干政策建议。
二、人工智能驱动的公共决策:一个分析框架
人工智能在公共决策中巨大的应用潜力源于人工智能的两大基本能力。第一,人工智能的大数据生成和处理功能为公共决策提供了丰富的决策信息。信息是决策的基石,在决策的全过程中发挥至关重要的影响。在充斥着复杂性和不确定性的决策环境下,海量的信息充斥在各个领域和活动中。然而,信息规模越大,信息的结构性就越差。相当大比例的数据呈现非结构形态,如图像数据、自然语言数据、文本数据、语音视频数据等。据国际数据公司(International Data Corporation, IDC)的预测,2018 年到 2025年之间,全球产生的数据量将会从 33泽字节(ZB)增长到175泽字节,其中超过 80% 的数据都是处理难度较大的非结构化数据。①然而,人类的思维能力和运算速度十分有限,在搜集和处理海量非结构化数据时存在着成本高、速度低和准确率低的劣势。非结构化数据需转化为计算机可以处理的结构化数据才会方便决策者进一步分析。人工智能的机器学习与深度学习方法凭借文本挖掘、知识库自动构建、图像视频识别与生成、自然语言处理等技术,快速、便捷且大规模地将非结构化数据转化为结构化数据。例如,对于语言形式多样而意义模糊的自然语言数据,人工智能可以减少文本的模糊性,识别不同的词汇,连接语言中的逻辑,解读语言的背景知识,对语言与文本进行标记和分类。当前,人工智能可以快速地阅读海量的政策文本,并对政策内容进行分类(Rice & Christopher, 2021)。人工智能的图像识别技术通过抽取识别图像的各种特征,帮助网站运营商和政府网络监管部门对视频和图片进行质量、版权、涉恐涉黄鉴别和标记。
第二,人工智能机器学习算法的预测分析能力为公共决策提供直接的支持。人工智能使用算法来分析数据,并从中学习,从而对现实世界中的事件作出决策和预测。由人工智能算法驱动的决策基于大数据和高纬数据筛选预测因子,建构非线性和高度交互的预测模型,非常准确地预测了高度复杂的现象与数据间的关系(Mullainathan & Spiess, 2017)。人工智能算法决策在提升预测的精确性上具有人脑判断、专家预测和传统统计模型无法比拟的优势。首先,由于人脑获取和处理信息能力的局限、非理性的偏见和情感因素的影响,人脑的预测效果远不及统计模型(Grove & Meehl, 1996),而传统的统计模型无法应对现实世界的变量间复杂而模糊的关系与模式,难以准确地还原真实的数据生成过程,以因果推断为目标的传统统计模型的预测能力十分有限。与传统统计模型不同,人工智能算法主要关注的是预测的准确性,允许数据自己决定变量的拟合过程,从而尽可能精确地拟合实际的数据点,随着模型拟合的准确性的提高,人工智能算法的预测能力也就越强。人工智能算法凭借其优越的预测分析能力为公共决策提供了强大的智能支持。
21世纪,特别是2010年以来,人工智能对公共决策的介入呈现一个由浅到深,由边缘到核心的过程。人工智能最初对公共决策的影响主要集中在简化政府一线服务部门工作流程,改善市民服务和提高机构办事效率方面,如自动回答市民问题,辅助工作人员填写和搜索文档,对顾客需求进行分类和选择服务路径,翻译和起草文件等(Mehr, 2017)。一项研究表明,人工智能的自动化能力可以帮助工作人员在执行记录信息、处理文档表格等基本行政任务时节省30%的时间(Viechnicki & Eggers, 2017)。随着政府活动对人工智能算法开放度越来越高,人工智能算法也开始介入公共决策的核心环节,如政策制定、执行与评估环节,并且参与到政府的一些核心公共服务与决策领域,如公共交通、医疗、教育、环境、公共安全与社会福利领域。算法驱动的公共决策的典型案例包括美国沃森人工智能(Watson AI)辅助医疗诊断,中国杭州和新加坡等地城市智慧交通信号灯与拥堵预警系统,美国洛杉矶等地实施的人工智能犯罪区域风险预测和火警检测系统等(Berryhill et al., 2019)。在这一阶段,算法决策的任务不仅仅是简化行政流程,处理程序性和重复性任务这些简单的行政工作,而且是充分发挥人工智能的大数据处理和分析预测能力,提高公共服务的效率、质量和精准性,创新公共服务的供给,甚至决定资源配置和权利分配这些公共决策的核心问题。
那么人工智能的大数据处理与预测分析能力如何与公共决策相结合,为公共决策系统提供支持呢?本文发展了一个人工智能驱动公共决策过程的分析框架,呈现人工智能对政府公共决策各个阶段的深刻影响。为了便于简洁地理解复杂的公共政策系统和决策过程,政策学者把政策过程划分为四个相互联系的阶段:政策问题界定与议程设置、政策方案设计与政策制定、政策执行,以及政策评估。笔者将逐一探讨在公共决策的四个阶段中,人工智能的两大功能如何发挥作用(见图1)。表1概括了人工智能的大数据处理和预测分析在决策四个阶段中的具体实践形态及其影响。
(一)人工智能、政策问题界定及议程设定
政策问题界定和议程设定是公共决策过程的起点,公共决策首先要确定政策应该优先解决哪些问题?对政策议程设定的研究主要关注两类问题:一是社会问题的性质是什么,政府干预这一问题的必要性何在,即问题界定。问题界定在议程设定过程中发挥着特殊作用,社会问题能否进入议程在很大程度上取决于问题如何被社会认知和建构,如问题产生的结果是好的还是坏的,问题的重要性程度如何,以及问题是否有解决的方案(Baumgartner & Jones, 2015)。二是在大量社会问题中,哪些问题被决策者所关注,这些问题如何进入政策议程,即政策议程设置。政府内外的行动者总是寻求以各种手段来影响问题界定和议程设定过程。传统上,除了政府决策者外,新闻媒体的传播,专家学者的决策咨询和利益集团的游说活动等都是影响政策议程的重要手段(Kingdon, 1995)。议程设定过程的核心是如何使政策问题从公共议程上升到决策者注意力范围内,并进入正式政策议程。现有研究发现,有多种模式推动了政策问题进入决策议程(Howlett & Ramesh, 2003):第一种是外部倡议模式,即社会力量通过动员公众支持推动政府关注某一政策问题;第二种是内部倡议模式,指的是决策相关者不用公众支持而影响议程,如利益集团独立动员某些社会群体直接影响政府决策;第三种模式是支持动员模式,是没有公众参与的决策议程初步确定后,政府再动员公众支持该项政策问题;第四种模式是整合模式,即当一项政策问题已经获得公众的广泛支持和共识后,政府再顺应民意推动议程建立。在大数据时代,人工智能是影响问题界定和塑造议程设定模式的重要手段,通过不同于传统的媒体、利益团体和专家行为的方式发挥影响。
首先,人工智能的大数据处理能力是政府内外各类行动者界定问题的重要工具或平台。在大数据时代,微博、微信、推特和脸书等在线社交工具成为重要的线上公共问题讨论和决策参与平台,社交媒体大数据作为重要的公共舆论形态,是决策者获取信息和议程设置的重要来源。一方面,政府决策者在设置政策议程时越来越重视网络大数据和在线公共舆论。当一项公共问题引发热议或舆论风暴时,决策者可以利用人工智能技术,如自然语言处理、文本情感分析、数据挖掘和图形识别等分析事件或问题引发的舆论动向,如舆论内容、舆论情绪及其变化趋势与传播途径等,从而有助于决策者掌握事件或问题成因,对其可能产生的政治社会后果进行精准识别,决定是否将该事件纳入政策议程。在这种意义上,人工智能算法可以有效地实现议程设定的外部动员,使得某些政策问题可以快捷地进入政策议程。另一方面,决策者面临的问题信息高度庞杂,而决策者在注意力、认知能力和信息处理能力方面存在局限性(Workman, Jones & Jochim, 2009),某些社会问题的利益相关者倾向于利用人工智能技术搜集和处理有利于自身利益的数据,特别是社交媒体数据,随后对这些数据进行结构化处理,将结构化数据传递给政府决策者。因此,人工智能的大数据处理能力助力议程设定的内部动员,有助于某些利益团体所偏好的政策问题引起决策者的注意力,从而推动这些问题进入决策议程。
其次,决定决策者是否把某项问题纳入政策议程的一个重要考虑是问题自身的性质,对于那些过度复杂、成因未明,或者现阶段缺乏解决方法的问题,决策者很难将其纳入决策议程(Anderson, 2003)。人工智能的预测分析能力,可以帮助决策者预测问题的发生概率、复杂性或严重程度,或者分析问题的成因、后果以及解决思路,从而辅助决策者判断哪些问题可以成为政策问题。在议程设置阶段,人工智能的预测分析能力得到较为普遍的应用。在经济领域,政府利用人工智能技术进行未来年度的经济预测,为中长期经济政策的制定提供基础。在公共卫生领域,“谷歌流感趋势”通过分析以“流感检测”为关键词的几十亿次搜索记录来预测流感发病率,在初期预测的准确率很高,辅助疾控部门决定是否启动流感紧急应对程序(Butler, 2013)。在公共安全领域,政府部门通过对社交媒体的大数据分析和处理,判断抗议、骚乱等危机爆发与蔓延的趋势,从而提前采取维护秩序和防止冲突升级的政策措施(Leetaru,2011)。
(二)人工智能与政策制定
政策备选方案的提出和选择是公共决策的关键步骤,特别是政策方案的抉择也被称为最典型的决策过程。根据理性主义政策分析模式,政策制定过程需要首先明确政策目的,继而理性地分析备选方案,同时政府部门通过使用各类知识、技术和工具完善方案设计,然后陈述各个政策方案,按照标准对方案效果进行评估和预测,最后对方案进行选择(韦默、瓦伊宁,2013)。在现代社会中,政策方案是否被接受取决于多种因素,其中两个基本因素尤为受到关注:一是方案的合法性和政治支持,被公众特别是目标群体广泛接受的政策方案无疑具有更高的合法性;二是政策方案的技术可行性和实施效果的可预期性。
在方案设计和制定环节,政策制定者需要借助各种倡议活动,利用专家知识、技术工具,特别是信息收集和处理技术使得方案具备合法性和满足绩效条件。整个政策方案的设计和选择过程都是建立在信息处理的基础上,人工智能算法凭借其信息处理和预测分析能力,在政策方案设计和制定环节中发挥着显著的作用。首先,人工智能可以推动对备选方案进行充分的公众选择和讨论,从而有助于优化备选方案的质量,并且使方案获得广泛的公众支持,为政策执行创造良好的环境。人工智能的自然语言处理等技术可以对互联网,特别是新兴社交媒体上公众关于政策方案的建议、评论、留言等非结构化数据进行深入的文本挖掘和情感分析,从而确定这些数据的特征趋势,识别其中的不同政策偏好(Kamateri, 2015:71-77)。其次,人工智能模型的强大预测能力可以精准预测各个政策方案的实施效果,为方案的选择提供依据。在政策方案选择的传统成本收益分析框架中,人工智能算法可以预测政策的成本和收益,从而指导政策方案的选择。在医疗政策领域,人工智能算法被用于预测个体潜在的疾病风险及医疗成本,并基于预测结果指导医疗政策重点干预那些具有较高患病风险的对象,以及治疗成本更高的病人。这不仅可以使得有限的医疗、护理资源得到合理配置,而且能够控制医疗费用的增长。在预测政策成本前,决策者还需要识别政策目标群体,例如要预测某项税收优惠政策的成本,那么必须先预测这项政策所涉及的目标群体数量,从而计算税收优惠可能导致的减税总额。在美国十分流行的人工智能算法辅助司法决策中,对于犯罪嫌疑人的处理有不同的政策方案:关押等待审讯、取保候审以及直接入狱。使用人工智能算法,根据既有的犯罪数据,基于犯罪嫌疑人特质、案件信息等相关特征,预测他们再次犯罪的概率,从而决定他们是入狱还是被取保候审(Kleinberg et al., 2017)。
(三)人工智能与政策执行
无论是强调明确政策目标和决策者控制能力的自上而下的模式,还是强调决策执行部门自由裁量权以及上级决策者与政策执行部门上下协调互动的自下而上的模式,政策执行最核心的症结就是信息不对称问题。执行者比政策制定者,政策目标群体比执行者具有信息优势,他们很容易消极执行政策或者规避政策,决策者及时而充分地获取政策执行信息,就能有效地对执行过程进行监督或协调。人工智能算法能够为执行过程提供实时而充足的执行信息,缓解因信息偏差和不对称而导致的执行偏差和梗阻问题。在政策执行环节,人工智能基于其预测分析和大数据处理能力对目标主体与执行方案进行精准选择(Höchtl, Parycek & Schöllhammer, 2016)。
第一,人工智能的大数据处理能力使得决策者获取和处理政策执行信息的能力有了巨大的提升。人工智能可以实时获取海量的政策执行数据,并对非结构化数据进行结构化处理,从而把结构化数据迅速传输给决策者和政策执行部门。在交通和社会治安领域,基于人工智能的摄像与人脸识别系统可以实时传输人车流量和道路交通拥堵状况、街道人群密集程度和可疑人物等信息。在新冠疫情防控战役中,口罩佩戴识别、自动测温、防疫健康信息码等基于人工智能算法的疫情防控系统被广泛使用,使得疫情防控部门可以第一时间获取中高风险对象的特征、行程及其密切接触对象等信息。
第二,人工智能的预测分析能力可以辅助决策者识别政策执行的目标主体、重点对象和执行方案,提高执行的自动化程度。在政策执行过程中,哪些目标群体是政策执行的主要目标,执行过程中哪些环节或领域可能出现问题,针对不同的问题,哪些执行工具和方案更为有效,这些问题都是决定政策执行成败的关键。人工智能基于对执行中信息的分析,能够精准地预测哪些执行问题会出现,出现的概率是多少,或者根据个体的社会经济特征和行为模式精准识别政策的目标群体及其行为,从而可以显著提高执行的精准性和成功率。在交通领域,人工智能系统可以根据街头实时反馈的路况数据,预测道路拥堵程度,从而自动变换红绿灯,减轻交通拥堵程度,减少行人车辆等待时间。
(四)人工智能与政策评估
政策评估是政策执行中的动态信息或执行完成后对绩效与结果的评价和反馈活动。在公共决策环节中,对政策绩效进行评估一直是一个难题,主要的障碍是政策绩效信息难以测量或难以搜集和处理,而且缺少科学准确的评估方法。此外,政策评估也是一个政治行为,某些部门为了避免被追究责任,保持组织稳定而刻意使政策目标模糊而难以测量,使得政策评估流于形式(Hood, 2002)。在大数据时代,人工智能算法可以有效缓解由于信息短缺、监控无力以及部门利益等因素导致的政策评估难题。人工智能可以广泛用于对于政策执行实时数据的反馈和政策执行效果的监控与预测,在解决绩效信息获取和测量难题方面上具有独特的优势。一方面,人工智能的大数据处理能力将帮助决策者第一时间获取政策执行的实时数据,实现持续的政策评估。人工智能对执行系统的反馈数据、外部的新闻报道、社交媒体等数据的挖掘,可以帮助决策者迅速发现政策执行走样现象,监测到官员的违规行为或执行目标的违背政策行为,极大地促进了对政策实施效果进行实时评估。另一方面,决策者利用人工智能算法对政策实施效果进行精准预测,政策实施后把人工智能的预测结果和实际结果进行比较,评估政策预测结果的实现程度。在教育领域,美国华盛顿哥伦比亚特区利用教师绩效评估系统(IMPACT),基于教师教学技巧、行为管理和学生成绩的9个绩效指标,利用人工智能算法预测和评估教师工作绩效并进行打分(Cameron, 2017)。
尽管对政策过程四个阶段的划分和论述有助于启发我们理解政策过程的基本面貌和要素,但是实际的政策过程中各个环节都呈现交叉融合、高度互动和循环往复的特征(Sabatier, 1999)。首先,政策执行与政策评估相互融合交织,执行过程中决策者时刻关注政策效果,对政策实施情况进行实时监督与评估。其次,政策执行、政策评估与政策制定环节也密不可分,决策者通过对政策执行的监控和对政策效果的评估,不间断地调整和改变政策目标和政策方案,对政策方案进行再制定。最后,政策方案制定环节与政策议程设置环节也是循环往复、来回互动的,政策方案的设计、政策工具的选择在很大程度上取决于政策问题的界定和利益相关方对议程设置的影响,当问题界定发生变化时,政策方案也会被重新设计。由于现实政策过程具有非线性的来回往复、互动互构属性,算法驱动的公共决策过程也呈现上述特征。一些政府部门利用人工智能技术对包括社交媒体在内的互联网使用者发帖和评论大数据的搜集和处理,可以第一时间评判政策执行过程中公众的意见和反馈的问题,为决策者调整政策或执行方式提供支持,这一过程就包含了政策执行、评估和政策再制定等内容。我国部分省份扶贫与农业资金管理的“互联网 + 监察”平台通过对资金直接发放的数据进行脱敏和分类处理后,在数据平台上统一公布,最大限度地对社会公开,公众可以直接在平台上查询自己和他人的补贴信息,对于不恰当或违法的资金使用情况进行投诉和举报(邬彬、肖汉宇,2020),这个人工智能算法平台同时实现了政策执行监控和政策效果评估的目的。
三、人工智能算法决策的风险
尽管人工智能算法决策极大地提高了公共决策的技术理性,然而,现实中人工智能算法并不完美,存在着算法偏差、偏见和不透明等风险,对公共决策循环的各阶段都可能带来不同程度的威胁,对公共决策的公正、公开等公共价值产生潜在的危害,从而导致不可忽视的政治社会问题。
(一)问题界定与政策议程设置阶段的算法风险
在这一阶段,人工智能引发的决策风险主要体现为数据自身的偏差以及人为操纵问题引发的预测失败和偏误,由此导致问题界定与政策议程设置的偏离与错误。人工智能算法的大数据处理和预测分析技术都强烈依赖历史训练数据的特征和模式,历史数据的偏差和偏见很可能导致人工智能数据处理和预测分析结果的偏误。在问题界定时,决策者利用人工智能处理相关数据,分析并预测问题的形式及其成因,然而即使是大数据也未必能反映数据的全貌,大数据的代表性有时反而不如抽样数据。特别是当前的人工智能使用的大数据多是来源于包括社交媒体在内的互联网和传统新闻媒体,这些数据背后的用户分布不具有人口统计学上的代表性,利用这些大数据做出的问题界定和公众态度分析很可能是不真实的。更严重的是,部分社交媒体的公众态度与意见也是不稳定的,很容易受到一些突发事件、媒体倾向性报告的影响,或者受到部分意见领袖舆论操纵与网络事件的积极参与者策略性发声的干扰,这时经过人工智能分析后进行的问题界定和提出的政策议题很可能偏离真实的公众偏好,甚至反映的是部分人群和特殊利益集团的偏好。其中一个典型的现象是网络上假新闻和煽动性信息的泛滥,不仅加剧了社会分裂与政治冲突,而且容易操纵公众态度,误导政府决策行为。②
(二)政策方案设计与决策阶段的算法风险
在政策方案设计与决策阶段,人工智能算法决策的主要风险表现为两个方面:一是政策方案受人为舆论操纵而形成虚假支持,导致政策方案“劣币驱逐良币”;二是人工智能算法预测的巨大偏差导致政策方案失败引发的政治社会风险。首先,政策方案设计阶段同样可能出现虚假公共舆论或公众舆论被人为操纵的问题。一些政治团体、极端组织或者特殊利益团队可能利用人工智能技术自动生成虚假或欺骗性信息,传播极端仇视性言论攻击不利于其自身的政策方案,或竭力鼓吹符合自身利益的政策方案,进而诱导公众舆论导向,推动或阻止立法通过某些政策方案。③其次,人工智能对政策方案成本收益与政策实施效果的预评估也很可能出现偏差。一些人工智能算法基于陈旧的数据,或者有偏误的历史数据,提出的政策方案本身就是有偏差的,或者只适用于特定场景和国情下的政策问题,面临新政策环境时很可能无法产生作用。在人工智能医疗领域,沃森肿瘤人工智能治疗方案就受到很多非议,批评者认为沃森肿瘤人工智能诊疗主要是基于医学期刊文章和专家提出的虚拟案例建立预测模型,训练数据中很少有现实的肿瘤诊疗病例,这就导致沃森肿瘤人工智能系统很可能无法给出准确的方案,甚至给出的治疗建议与标准化的治疗指南相冲突(Ross & Swetlitzi, 2017)。
(三)政策执行阶段的算法风险
在政策执行环节,人工智能算法决策的风险主要体现在由于存在算法偏差和“黑箱”问题而产生的执行偏差与失败,引发公共政策合法性危机。尽管人工智能算法通过不断改进数据质量,调整模型参数和更换更高级的算法能够提高预测的准确率,但是预测误差和失误总是难免,没有一个算法的预测准确率是100%。如果输入模型的数据本身有着系统性偏差,那么就会给模型预测结果带来极大的偏误。在政策执行过程中,有偏误的人工智能系统可能会对政策目标群体识别失败,产生假阳性和假阴性两类误差问题。假阳性误差使得执行者把不符合政策特征的错误对象当作正确对象处理,导致政策执行成本上升或政策资源的浪费。假阴性误差则会把正确的政策对象排除在外,导致政策执行严重扭曲甚至失败。人工智能导致在政策执行中产生假阴性误差并不少见。在卫生领域,从2009年到2018年,英国国家健康系统的乳腺癌筛查调度软件出现预测误差,导致约45万名68岁到71岁的女性失去了最后一次进行乳腺癌检查的机会,其结果可能致使135人到270人提前死亡(Charette, 2018)。
算法决策的“黑箱”和不透明特征使得政策执行缺少透明性和参与性,损害了政策执行的合法性。政策执行具有合法性的前提除了政策的有效性外,另外一个重要原则是保证过程的公开公平和民主参与。在官僚体制的技术理性主导下,政策执行的透明性和参与性已经遭到很大的削弱。然而人工智能算法的“黑箱”特征使得算法决策面临更加显著的决策不透明、责任不清晰、问责难度大的困境。首先,复杂精巧的人工智能算法本身就是一个“黑箱”(Burrell, 2016)。尽管使用者知道算法预测结果和准确度,但是由于模型拟合过程涉及大量变量和数据,预测因子和结果之间缺少因果联系,预测过程往往太过复杂而难以直观理解。算法决策的“黑箱”特征一方面导致政府部门使用者只能选择相信算法的准确性和公正性,使得算法决策无法得到有效监督和及时纠正。另一方面,对于政策目标群体,由于政府部门无法解释算法决策过程,公众当然也不能理解算法决策的正当性,这就导致算法决策难以获得公众的支持和信任。其次,人工智能算法决策可能使得执行失误的责任归属难以界定,加大公众问责的难度。当前公共决策算法机器系统都是由第三方公司开发维护,一旦发生由算法失灵而导致的决策失误,就可能引发重大社会问题和损失,责任追究和政治问责将面临更大的难度。政府部门可能将责任推给算法和算法开发公司,算法开发公司则以商业秘密为由拒绝公开接受外部审查,其结果使得问责过程漫长而难以产生定论。英国乳腺癌筛查漏检丑闻发生后,英国国家卫生医疗服务体系(NHS)、公共卫生局(PHE)以及负责软件开发的日立咨询公司都在相互指责对方(Donnelly, 2018)。
(四)政策评估的算法风险
在政策评估环节,算法决策的主要风险来自评估中存在的算法歧视和偏差问题。尽管人工智能基于其大数据挖掘和生成能力能够实时获取政策执行信息,但是人工智能系统获取的执行信息并不总是公正和准确的。人工智能算法最主要的偏见可能源于数据本身。一方面,可能由于数据样本较小,训练集数据与整体数据分布存在较大的偏差,使得使用训练集拟合的模型无法对样本外未知数据进行准确的预测。另一方面,即使样本数据量够大,但是数据集也可能出现历史遗留的数据偏误问题。人工智能模型基于历史数据做出预测,由于政治社会体制、人类决策和文化中的既有偏误,有些历史数据本身就是高度不平衡的。数据集存在的不平衡性使得某类群体数据在样本中被过度代表,而其他类型的群体则代表性不足,导致在预测模型中,某些预测因子偏向于某类群体,典型的例子就是人工智能算法中存在种族和性别偏见问题。很多美国法院使用北角(Northpointe)公司基于人工智能算法设计的犯罪风险评估系统(Criminal Risk Assessment)预测犯罪行为。然而,2016年,知名的非营利媒体“为了人民”(ProPublica)调查发现,美国一些法院使用这套系统预测犯罪风险和法庭对犯罪嫌疑人进行保释和量刑决策时,认为黑人比白人再次犯罪的概率更高,这种不利于有色人种的人工智能犯罪风险评估在美国司法系统里越来越普遍。④导致预测偏见的根源是美国历史上犯罪和再犯罪统计中黑人等有色人种比例过高,美国司法体系对黑人等有色人种的歧视问题十分突出(Angwin et al., 2016)。
此外,一些程序性的行政任务执行过程比较简单,人工智能评估可以保证较高的准确性和公正性,但是对于政策绩效难以测量的活动,人工智能评估系统难以做到准确可靠,再加上决策者和政策执行者的偏好,以及利益相关者的机会主义行为导致的政策执行过程的扭曲和偏差,使一些偏误和虚假的信息大量涌现,从而使得人工智能在政策评估时发生偏差。在教育领域,2011年美国休斯敦市独立学区利用算法模型“教育增值评价系统”,根据学生的标准化测试成绩来决定教师的奖金,随后学区还进一步使用这一算法来决定教师的聘用,此举引发了教师工会的强烈不满。他们认为该系统评估、评价的学生标准化成绩并不能完全反映教师的工作投入,而且决定学生成绩的因素很多,有些是教师无法掌控的,因此该系统的评估结果既不准确也不公平。后来经过评估,发现这一系统的预测过程不仅难以解释,而且结果也不精确,法院最终推翻了该算法的决策(Zeph, 2017)。
四、政策建议
基于对人工智能驱动公共决策过程及其风险的论述,本文对公共决策者如何合理利用人工智能技术提高公共决策的有效性,同时规避算法决策的潜在风险,提出相应的政策建议。
(一)合理选择算法决策与常规决策
在公共决策系统中,根据算法对决策过程主导性的高低,算法决策和人类常规决策之间的关系及其互动形态主要呈现以下三种模式(Zouridis, van Eck & Bovens, 2020):第一种是算法自主决策模式。这类模式中,算法取代人类常规决策,决策过程完全自动化,人类决策者几乎没有自由裁量空间,近乎听命于算法。这类模式的典型形式如对城市道路等市政设施坏损的智能监控与预警。第二种模式是算法辅助模式,算法在公共决策中发挥着重要作用,对人类常规决策起到辅助和支持作用。但是,人类常规决策仍然是主导性的,人类决策者对算法辅助过程保持着独立的判断、干预和控制。当下,算法辅助模式应用范围越来越广泛,除了一些公共安全和应急管理决策,如火警、犯罪热点地区、安全卫生检测外,还进一步发展到对公民社会权利和资格的分配领域,如社会救助对象界定、疾病预测、考试成绩判定、教师绩效评估等。第三种模式可以被称为算法咨询模式。这个模式里,算法对公共决策是可有可无的,算法介入决策的程度不深,大多情况是在数据收集过程中被选择性地使用。算法对人类常规决策只起到决策咨询的作用,如提供相关数据信息,算法预测的结果也只是作为人类常规决策的参考,并不会对人类决策起到决定性作用或重要的辅助作用。
上述三种决策模式的选择主要取决于决策任务和场景的特征。主流观点认为,人工智能在决策中的优势主要体现在高度重复性、机械性或日常性的行政程序性场景中,不需要官僚行使过多的自由裁量权和进行价值判断(Bullock, 2019)。这类决策场景任务相对简单直观,有一套固定的决策程序,同时能够产生海量的具有重复性行政大数据,数据间关系也易于理解,从而有利于发挥人工智能大数据生成和预测分析能力,因此比较适合算法主导和算法辅助的决策模式。在公共政策过程的几个环节中,相对而言,事务性问题界定和程序性政策执行阶段更适合算法主导模式。但是,另一方面,在一些具有高度复杂性的,需要较多自由裁量权、价值判断和灵活处理的政策制定、执行和评价等政策过程,人工智能就不擅长了。一项研究表明,政府决策者对待算法决策的态度随着决策任务复杂性的增加而趋向消极,决策复杂性越高,决策者对算法决策的认可度就越低(Nagtegaal, 2021)。在高度复杂的任务中,人类决策应该是主导性的。此外,公共政策制定过程除了要求有提高效率,降低成本等技术理性外,更重要的是要遵守公正、公开与合法性等公共价值原则。对于涉及价值判断、社会鉴别和伦理评价等活动,如人的生命安全、人身自由、社会权利分配,应该避免由算法主导决策。在这些领域,公众更加偏好常规性的官僚决策或公众参与政策制定,对算法有着天然的不信任感和恐惧心理,任何微小的人工智能预测偏差都可能引发公众的强烈不满和政治争议。总之,应避免对人工智能技术及其推动的算法决策的迷信,审慎决定哪些类型的公共政策的决策适用于人工智能技术,平衡算法决策和人类常规决策的关系,实现算法决策和人类决策各就其位,各得其所,通过相互协调和配合提高公共决策的效率和合法性。
(二)建立参与式的算法决策框架
在算法驱动的公共决策各个环节中加强公共参与,建立参与式的算法决策框架。公共决策的本质特征在于“公共”,公共的价值观包括决策结果的公平公正,以及决策过程的公开和公众参与。算法驱动的公共决策过程也应该尊崇上述公共决策的基本价值观。针对算法决策中存在的“黑箱”和歧视问题,公开与公众参与理应占据更重要的角色。算法决策各个环节的公众参与也是避免人工智能算法决策风险的关键。因此,本文倡导建立参与式的算法决策框架,这个框架应该包括以下几个要素:第一,要吸纳政策相关者和利益主体参与算法的设计,算法决策方案的制定和选择过程中。为了避免因数据偏见和偏差问题而导致的问题界定和议程设置的偏离和谬误,应通过大规模公众调查、代表性利益相关方的访谈与协商恳谈会等民主参与方式进行算法设计和构建,并提高算法的公开性和透明性,如通过协商或投票等公众参与方式来确定算法应该使用的特征集。第二,算法决策的结果在政策方案制定或实施前,应该向社会公开,接受公众和利益相关方的意见和反馈,最后再决定是否采用或实施。在条件允许的情况下,将算法决策提供的方案和人类决策制定的方案进行比较,涉及敏感的权利分配决策时,要看算法决策是否比人类决策更能促进分配的公平性。第三,由于算法存在的偏差或失误可能引发政策执行的偏差与失败风险,应在政策执行过程中建立公众参与和干预机制。本文建议建立人工智能研究人员与社会科学、人文、性别、医学、环境和法律等方面的专家进行合作交流的制度体系,如在政府或公司层面建立人工智能伦理委员会,委员会成员由各领域专家、企业和政府人士构成,对算法系统进行政治与伦理审查。当决定使用人工智能进行公共决策时,除了政府决策者和算法设计者,利益相关者和公众都应该有权利和机会监控人工智能算法决策运作全过程,特别要警惕模型可能产生的偏见、歧视和不公平问题。在问题和风险产生时决策者应及时进行干预,并且为受到不公正待遇的群体提供权利救济。
*本文得到国家自然科学基金青年项目“我国地方财政结余对财政支出周期性影响及其机制研究”(项目编号:71904130)和深圳市教育科学规划2020年度课题重点资助项目“先行示范区战略下深圳市高等教育产研融合效率评价与机制优化研究”(项目编号:zdzz20003)资助。
参考文献:
陈一帆、胡象明,2019,《大数据驱动型的公共决策过程创新及效果评估——基于SSCI和SCI的文献研究》,载《电子政务》第8期。
[美]戴维·L·韦默、[加]艾丹·R·瓦伊宁,2013,《公共政策分析:理论与实践》,刘伟译校,北京:中国人民大学出版社,第15—20页。
邬彬、肖汉宇,2020,《大数据应用与腐败治理:基于“互联网 + 监督”的深度个案研究》,载《暨南学报(哲学社会科学版)》第10期。
于文轩,2017,《大数据之殇:对人文、伦理和民主的挑战》,载《电子政务》第11期。
Anderson, J. E., 2003, Public Policymaking: An Introduction, Boston: Houghton, Mifflin Company.
Angwin, J., J. Larson, S. Mattu, & L. Kirchner, 2016, “Machine Bias There’s Software Used Across the Country to Predict Future Criminals. And It’s Biased Against Blacks,” Propublica, https://www.propublica.org/article/machine-bias-risk-assessments-in-criminal-sentencing,2020年6月16日访问。
Baumgartner, F. R. & B. D. Jones, 2015, The Politics of Information: Problem Definition and the Course of Public Policy in America, Chicago: University of Chicago Press.
Berryhill, J., K. K. Heang, R. Clogher, & K. McBride, 2019, Hello, World: Artificial Intelligence and Its Use in the Public Sector, OECD Working Paper on Public Governance, No. 36.
Bullock, J. B., 2019, “Artificial Intelligence, Discretion, and Bureaucracy,” The American Review of Public Administration, Vol. 49, Iss. 7.
Burrell, J., 2016, “How the Machine ‘Thinks’: Understanding Opacity in Machine Learning Algorithms,” Big Data & Society, Vol. 3, No. 1.
Butler, D., 2013, “When Google Got Flu Wrong,” Nature, Vol. 494, No. 7436.
Charette, R. N., “450,000 Women Missed Breast Cancer Screenings Due to ‘Algorithm Failure,’” IEEE Spectrum, https://spectrum.ieee.org/riskfactor/computing/it/450000-woman-missed-breast-cancer-screening-exams-in-uk-due-to-algorithm-failure, 2021年8月17日访问。
Chiao, V., 2019, “Fairness, Accountability and Transparency: Notes on Algorithmic Decision-Making in Criminal Justice,” International Journal of Law in Context, Vol. 15, Special Iss. 2.
Donnelly, L., 2018, “Breast Screening Scandal Deepens as It Firm Says Senior Health Officials Ignored Its Warnings,” The Telegraph, May 4, https://www.telegraph.co.uk/news/2018/05/04/breast-screening-scandal-deepens-firm-says-senior-health-officials, 2020年6月16日访问。
Dunn, W. N., 2015, Public Policy Analysis: An Introduction, New York: Routledge Taylor & Franeis Group.
Grove, W. M. & P. E. Meehl, 1996, “Comparative Efficiency of Informal (Subjective, Impressionistic) and Formal (Mechanical, Algorithmic) Prediction Procedures: The Clinical-Statistical Controversy,” Psychology, Public Policy, and Law, Vol. 2, No. 2.
Höchtl, J., P. Parycek, & R. Schöllhammer, 2016, “Big Data in the Policy Cycle: Policy Decision Making in the Digital Era,” Journal of Organizational Computing and Electronic Commerce, Vol. 26, Iss. 1-2.
Howlett, M. & M. Ramesh, 2003, Studying Public Policy: Policy Cycles and Policy Subsystems, Oxford University Press.
Hood, C., 2002, “The Risk Game and the Blame Game,” Government and Opposition, Vol. 37, No. 1.
Kamateri, E. et al., 2015, “Comparative Analysis of Tools and Technologies for Policy Making,” in Janssen, M., M. A. Wimmer, & A. Deljoo (eds.), Policy Practice and Digital Science: Integrating Complex Systems, Social Simulation and Public Administration in Policy Research, Cham: Springer International Publishing Switzerland.
Kingdon, J. W., 1995, Agenda, Alternatives, and Public Policies, New York: HarperCollins College Publishers.
Kleinberg, J., H. Lakkaraju, J. Leskovec, J. Ludwig, & S. Mullainathan, 2017, “Human Decisions and Machine Predictions,” The Quarterly Journal of Economics, Vol. 133, Iss. 1.
Langford, Cameron, 2017, “Houston Schools Must Face Teacher Evaluation Lawsuit,” Courthouse News Service,https://www.courthousenews.com/houston-schools-must-face-teacher-evaluation-lawsuit/, 2020年6月16日访问。
Leetaru, K., 2011, “Culturomics 2.0: Forecasting Large-Scale Human Behavior Using Global News Media Tone in Time and Space,” First Monday, Vol. 16, No. 9.
Mehr, Hila, 2017, “Artificial Intelligence for Citizen Services and Government,” Ash Center Democratic Governance and Innovation, Harvard Kennedy School, https://ash.harvard.edu/files/ash/files/artificial_intelligence_for_citizen_services.pdf.
Mullainathan, S. & J. Spiess, 2017, “Machine Learning: An Applied Econometric Approach,” Journal of Economic Perspectives, Vol. 31, No. 2.
Nagtegaal R., 2021, “The Impact of Using Algorithms for Managerial Decisions on Public Employees’ Procedural Justice,” Government Information Quarterly, Vol. 38, Iss. 1.
Osoba, O. A. & V. W. Welser, 2017, An Intelligence in Our Image: The Risks of Bias and Errors in Artificial Intelligence, Canta Monica: Rand Corporation.
Rice, D. R. & Christopher J. Zorn, 2021, “Corpus-Based Dictionaries for Sentiment Analysis of Specialized Vocabularies,” Political Science Research and Methods, Vol. 9, Iss. 1.
Ross, C. & I. Swetlitzi, 2017, “IBM Pitched its Watson Supercomputer as a Revolution in Cancer Care. It’s Nowhere Close,” https://www.statnews. com/2017/09/05/watson-ibm-cancer/, 2020年6月16日访问。
Sabatier, P.A., 1999, “The Need for Better Theories,” in P. A. Sabatier (ed.), Theories of the Policy Process, Boulder, CO: Westview Press.
Valle-Cruz, David., Edgar Alejandro Ruvalcaba-Gomez, Rodrigo Sandoval-Almazan, & J. Ignacio Criado, 2019, “A Review of Artificial Intelligence in Government and its Potential from a Public Policy Perspective,” Proceeding of the 20th Annual International Conference on Digital Government Research, Dubai, United Arab Emirates.
Viechnicki, Peter & William D. Eggers, 2017, How Much Time and Money Can AI Save Government? Cognitive Technologies Could Free up Hundreds of Millions of Public Sector Worker Hours, New York: Deloitte University Press.
Workman, S., B. D. Jones, & A. E. Jochim, 2009, “Information Processing and Policy Dynamics,” Policy Studies Journal, Vol. 37, No. 1.
Zeph, Capo & Janet Bass, 2017, “Federal Suit Settlement: End of Value-Added Measures for Teacher Termination in Houston,” AFT, https://www.aft.org/press-release/federal-suit-settlement-end-value-added-measures-teacher-termination-hous, 2020年6月30日访问。
Zouridis, Stavros, Marlies van Eck, & Mark Bovens, 2020, “Automated Discretion,” in Peter Hupe & Tony Evans (eds.), Discretion and the Quest for Controlled Freedom, Cham: Palgrave Macmillan.
①姚春鸽:《大数据时代的大变革》,载《人民邮电报》2012年5月29日,第2版。
②一个典型的例子是2016年美国大选期间“剑桥分析”这一政治人工智能公司,利用5000万脸书(Facebook)用户信息进行人工智能分析与预测,分析这些用户的心理特征和政治偏好,并进而推动定制政治广告和新闻,从而影响用户的投票行为。
③除了剑桥分析公司的事例外,近年出现了一种名为“深度伪造”(deepfake)的人工智能换脸技术可以逼真伪造某些领导人的视频和语音信息,极大提高虚假信息的可信度,使其影响力瞬间被千万倍扩大,获得大量公众关注,进而操纵公众情绪,引发社会混乱从而达到某些特殊目的。
④美国司法部原部长埃里克·霍尔德就警告基于人工智能预测的犯罪概率评分系统可能会误导法庭判决,他说:“尽管该系统的设计出于善意,但是我担心它会破坏个性化和公平正义,加剧在刑事司法系统和社会中已经普遍存在的不公正问题”(Angwin et al., 2016)。
符阳:深圳大学公共管理系(Fu Yang, Department of public Management, Shenzhen University)