引言
欧盟《人工智能法》于2024年8月1日生效,被视为全球第一部人工智能领域的综合性法规,正式设立了首个人工智能应用监管框架。虽然其中的很多规则仍在发展之中,各国人工智能的设计开发者和应用方都开始考虑如何有效遵从该法律。本文以该法律关于数据和数据治理义务为重点,尝试讨论分析企业合规的路径。
一、欧盟《人工智能法》的原则监管及框架
(一)“以风险为基础”的原则监管
欧盟《人工智能法》(以下简称“EUAIA”)首先确立了“以风险为基础“的原则监管理念,即根据AI系统引发风险的大小,对不同AI进行分类,采用不同的管控方式达到维护社会公平和促进科技进步之间的平衡。最高风险的AI系统被禁用。其他类型风险的AI系统被要求遵守相应的合规义务,其中一个核心原则是相关义务主体应确保自身符合这个原则性的规则要求。例如,法案第47条要求高风险系统提供者在自我合规的基础上,向欧盟提交合规承诺并维持适当的更新,保证10年有效。
原则监管的方法在欧盟有着较长的历史传统。法规的原则性规定不需要对随时变化的经济活动细节问题进行界定,从而保持了规则的普适性和稳定性。同时,相关方可以根据具体情况对这类原则进行解释和适用,实现相当程度的灵活性。当然,原则监管也对监管者的执法能力和被监管者(法律之下的“义务人”或“义务主体”)合规水平提出了较高的要求。
(二)风险划分的标准和原则
风险的大小根据AI系统及应用可能造成影响的大小和出现负面影响的概率进行估算。这是典型的风险管理方法的应用。这种方法在国际金融法规中早已存在。典型的例子是巴塞尔协议对金融机构操作风险的计量和管理要求,包括适用何种方法对非正态分布的操作风险事件进行数学模型的方法论讨论和模型有效性的验证上。
然而,EUAIA并没有对不同类型的风险的计量方法提出具体要求。在“准确、全面”计量风险的原则要求下,实际的方法及其科学性将由义务主体通过自我举证来证明。同时,EUAIA还建立了另外一条机制,即通过第三方开展“合规遵从评估[1]“的方式实现其立法所确立的风险管理的目标。
(三)高风险AI的定义和应用场景
EUAIA第三章对高风险AI系统做出了规定,明确了其划分规则。EUAIA第6条[2]确定了两类高风险应用:
第一类是根据欧盟协调立法清单[3]的规定,旨在“用作产品的安全组件,或人工智能系统本身就是一种产品”,且按照规定必须经过第三方合规性评估的人工智能系统。
第二类涉及具体八类高风险应用场景。EUAIA的附件III中列出较为详细的定义[4]。该八类场景是对AI在相关领域应用的概况,因涉及个人身份信息的保护、国家安全、公民公平权利等,而被归入了高风险的范畴。例如,在执法方面,相关的AI应用可在“调查证据的可靠性评估[5]”、“通过犯罪历史评估累犯的风险[6]”、“侦查过程中对自然人进行画像[7]”等方面。
-
生物识别技术,包括情感识别;
-
关键基础设施;
-
教育和职业培训;
-
就业、工人管理和自主创业机会;
-
获取和使用基本私人服务和基本公共服务及福利;
-
执法;
-
移民、庇护和边境管控管理;以及
-
司法管理和民主进程。
二、高风险AI风险管理的法定要求
(一)一般原则性要求
EUAIA第三章第二部分对高风险AI系统提出了合规要求[8]。高风险人工智能(AI)提供商需要遵守以下合规要求:
-
第9条:建立贯穿高风险AI系统全生命周期的风险管理体系;
-
第10条:进行数据治理,确保按照预期的目的,数据训练、验证和测试是相关的、具有充分的代表性,并尽可能最大程度地避免错误;
-
第11条:制定和完善技术文档以证明其合规的情况,并向监管机构提供相应的信息来评估这种合规遵从的程度;
-
第12条:设计系统记录功能,使其在系统的生命周期中能够自动记录对人类健康、安全或者基本权利造成影响的风险和系统重大变更相关的事件;
-
第13条:透明化要求,为下游部署者提供解释结果和使用系统的说明,以使后者能够遵守相应的合规要求;
-
第14条:人类监督,设计适当的工具如人机交互机制,保证能够便于自然人能对系统实施有效的监督;
-
第15条:高风险AI系统的设计和开发应以达到适当的准确性、有效性和网络安全水平为标准。
这些要求旨在确保高风险AI系统的安全性、可靠性和合规性,从而保护用户和社会免受潜在风险的影响。
(二)高风险AI系统的提供者义务[9]
系统提供者指:开发人工智能系统或通用人工智能模型,或委托开发人工智能系统或通用人工智能模型,并以自己的名称或商标将其投放市场或投入使用的自然人、法人、公共部门、机构或其他实体,无论是否收费。[10]
除满足一般性要求外,高风险AI系统的提供者还需要在AI系统或其包装、文件上注明提供者的名称、注册商标和联系地址等信息(第16条);按照要求建立质量管理系统(第17条);履行文档保管(第18条)、系统日志保管(第19条)、风险报告和整改(第20条)、主动开展合规遵从评估(第43条)、注册登记(第49条)、合规承诺(第47条)等多项义务。
(三)高风险系统的进口人义务[11]
系统进口人指:位于或设立在欧盟内,将由第三国设立的自然人或法人以其名称或商标投放市场的人工智能系统的自然人或法人。[12]
在将高风险AI系统投入市场前,进口人应确认合规遵从评估程序、技术文档、系统CE标志和EU合规遵从承诺等要求。在发现重大风险时,进口人应通知系统提供者,并向监管部门报告。进口人应确保系统处于其监管,存储或运输条件不会威胁高风险AI系统合规遵从的状态。
(四)高风险系统的分销商义务[13]
系统分销商指:供应链中除提供者或进口人外的自然人或法人,且其在欧盟市场上提供人工智能系统。[14]
在将高风险AI系统投入市场前,分销商要确保系统标识了CE标志,并带有相应的EU合规承诺和使用说明。分销商应确保系统处于其监管,存储或运输条件不会威胁系统合规遵从的状态。在发现系统合规问题时,能够采取措施纠正,或者将AI系统撤出市场,召回产品,或确保系统的提供者、进口人或任何相关操作方采取整改的措施。
(五)高风险系统的部署者义务[15]
系统部署者指:在其权限下使用人工智能系统的自然人、法人、公共部门、机构或其他实体,但人工智能系统用于个人非专业活动的情况除外。[16]
高风险AI系统的部署者需要采取适当的技术和组织化措施确保相关系统按照使用指引使用,包括选择满足胜任能力、经过训练和授权的自然人实施监督;确保系统输入数据是相关的,且足够具有代表性;维护系统日志;开展数据保护影响评估等。
三、EUAIA数据和数据治理规范及解析
EUAIA第10条对高风险AI系统使用数据和数据治理的过程提出了规范性的要求,特别针对数据的训练、验证和数据库的测试等环节。本节内容以EUAIA第10条的规定为基础进行分析,文中括号内的内容为原法规文字翻译后增加的解析评论内容,以方便读者理解。
(一)数据和数据治理规范覆盖的范围[17]
根据EUAIA第10条第二段的规定,高风险AI系统开发过程中有关数据训练、验证和测试的数据治理和管理实践特别关注以下设计和应用的环节:
(a)相关【系统、模型及基础研究】设计【方法上的】选择;
【针对不同类型的数据特点、样本规律、数学模型的限制、系统应用的目的、适用人群等多种因素,模型和系统的设计和应用研究将采取不同的数学量化方法,或设定一定的规则规范AI自我训练、自我学习的过程。整个方案、系统测试和应用测试的过程在研究方法上需要有一系列的考量,并对不同的方法做出选择。】
(b)数据收集流程及数据来源,如涉及个人数据,需说明数据收集的原始目的;
【数据收集的过程说明应特别说明数据是否来自特定的人群,导致数据及基于数据开发的模型是否仅对该特定人群具有代表性,而在扩大适用于一般人群的情况下是否会造成相应的误差。后续的模型开发和应用需要对此进行特别考虑。例如,对美国青少年犯罪纠治的数据可能来自某纠治中心的青少年样本,黑人青少年占据较大比例。对糖尿病病人的临床数据的研究可能基于特定医院的病人数据采样。相关治疗方案的评估是否可以适用于一般人群、或者特定高风险人群的问题是将数学模型扩大应用范围时必须要回答的一个问题。数据收集流程还包括对该过程中可能误差的说明,特别是对可能造成系统性误差的问题的发现。】
(c)相关的数据准备处理操作,如标注、贴标签、清洗、更新、丰富和加总合并;
(d)假设/假定的形成过程,特别是就数据事先设定的测量和代表【的指标】的信息;
【如在衡量申请人是否适合特定岗位的就业时,一个模型将个人的最终学历作为衡量候选人受教育程度的计量指标。假定该指标具有五项评估数值:高中以下、中专和大专、大学、研究生、数据丢失或无法获取。这种类别化的数据计量方式与一般连续化的数值计量方式,如个人参加职业培训的小时数的计量存在很大不同。对应的数学处理的方法和模型选择也有不同。在方法论上,职业培训小时数的一个基本假定是数值将是连续分布的,在数据采集的样本足够大时,可以假定数据将呈现正态分布。而以学历为计量方法的建模,面对不同组别的数据集中分布,将采取不同的假定,数据模型的选择也会不同。】
(e)对所需数据集的获得渠道和难度、数量和适用性的评估;
【在研究设计方面,数据的可获得性与数量、质量与研究结果的可验证性、可证伪性有关。也就是说,获得相类似的数据可以重复研究的设计,进而对原来系统模型的开发和设计过程进行评估、验证是证明义务人合规义务的履行,必要时为争议解决提供证据的重要途径。同样,对数据数量和适用性的注释和说明也可以提供对数据的局限性及其对模型、系统影响的认识。】
(f)检查可能存在的【模型或系统】偏见【或误差】,这些偏见可能【导致最终的AI系统或模型应用】影响人的健康和安全,对【人的】基本权利产生负面影响,或导致欧盟法律所禁止的歧视,特别是当数据输出将影响未来操作的输入数据时;
【如EUAIA立法背景说明中解释的一样,偏见或误差可能天生存在于应用的数据中,特别是当使用历史数据时,或者系统在真实世界中运行而产生数据时[18]。】
(g)采取适当的方法甄别、预防根据(f)点识别出的可能偏见【或误差】,并降低或纠治其影响;
【在极端情况下,如误差的发生存在系统性原因,一个纠治方式是在建模过程中将误差产生的系统性原因纳入模型,将其独立为一个影响因子,从而将其影响排除在其他影响因子之外。】
(h)识别影响合规的相关数据缺口或不足,并提出解决这些问题的方法。
(二)数据集的质量要求[19]
第十条第三段规定,高风险AI系统和模型的训练、验证和测试所使用的数据集应与其预期用途相关、具有足够的代表性,并尽可能完整、免受误差的影响。数据应具备适当的统计特性,例如包括与系统预期适用人群有关的(个人或群体)相关的特性。这些数据集的特性要求可以在单个数据集层面或数据集组合层面得到满足。
(三)数据集的选择应与高风险AI系统开发设计的目的相适应[20]
第十条第四段规定,根据系统的预期用途,数据集的选择和应用应考虑系统所适用的特定的地理、社会环境、行为或者功能要求背景,将相应的特征或要素涵盖其中。
【特定AI系统的功能常常局限于特定的环境和人群,例如在特定职业岗位的候选人筛选的例子中,某岗位的招聘对象是大学毕业生。那么在设计对候选人筛选的模型时,对数据的选择就应该考虑其数据样本本身就要局限在大学毕业生人群,进而构建相应的指标模型。而不应该使用一般大众数据。】
(四)个人信息数据使用的必要性和保护要求[21]
根据第十条第五段,对本条第二段(f)和(g)涉及【系统或模型】偏见的甄别和矫正时,可以作为例外情形使用特殊类别的个人数据,但AI系统提供者将需要采取特别措施处理特定类型的个人信息,并采取适当的保障措施以保证自然人的基本权利和自由,确保符合EU相关法律[22]的规定。在这种情况下,处理特殊类别的个人信息还需满足以下条件:
(a)通过处理其他数据(包括合成数据或匿名化数据)无法有效完成对偏见【或误差】的检测与矫正;【即个人数据特定类型的应用对于处理误差必不可少的情况】
(b)该特殊类别的个人数据【经过特别的技术处理】,使个人数据的再次使用受到技术限制【安全性提高】,且采用了最先进的安全和隐私保护措施,包括假名化处理;
【在不影响数据治理要求的情况下,还可以采取特定技术,允许相应的算法调用数据,或开展AI系统的训练,但在AI提供者与相关方之间并不传输数据或对原始数据或结构数据进行复制[23],如联邦学习、计算技术等。】
(c)对于该特殊类别的个人数据,需采取措施确保所处理的个人数据得到安全保护,并受制于适当保障措施,包括严格控制并记录数据访问情况,以避免滥用并确保只有被授权人员才能访问这些个人数据,且承担适当的保密义务;
(d)禁止向其他方传输、转移或以其他方式提供该特殊类别的个人数据;
(e)一旦偏见【或误差】得到纠正或个人数据的保留期限到期(以先到者为准),该类特殊类别的个人数据将需要被删除;
(f)根据《欧盟通用数据保护条例》(Regulations (EU) 2016/679)、《欧盟个人数据档案条例》(Regulations (EU) 2018/1725)和《欧盟警察与刑事司法机构个人数据处理指令》(Directive (EU) 2016/680)处理数据的记录,应包括,在处理特殊类别个人数据时,严格限制数据仅用于检测和纠正偏见或偏差的原因,以及不能通过处理其他数据来实现该目标的原因。
四、对EUAIA立法和合规路径的几点思考
(一)“以风险为基础”的理念本质上要求监管者以原则监管实现AI治理
欧盟人工智能法律的基本逻辑是遵从AI系统开发与应用的基本方法论,对AI系统或模型的有效性和应用过程进行解析,评价偏见(或者说误差)的可能存在和纠正方法,将法律规制的要求赋予建模和模型应用管理的各个环节,从而形成AI治理的一套基本法律原则。
因此,从立法、执法的角度,监管者应有能力开展原则监管,对所关注的方法论过程拥有解析和价值判断的能力。没有这些基础知识和技能,监管者将无法实施有效的原则性监管。围绕这一目标,该法案要求义务主体对AI模型的相关信息进行充分披露,并对相关档案文件的留存也提出了非常正式的要求。核心就是能够通过这些记录和披露,为验证AI的开发和应用过程提供准备。
我们也看到,EUAIA提供了一个第三方合规评估、认证的路径,即借助于独立第三方专业机构的意见实现监管的目标。因此,企业作为义务主体,要考虑建立与外部独立第三方的合作关系。在需要时,能够借助其对公司合规水平开展独立评估,特别是针对数据治理、数据真实可靠性、以及数据训练、验证和测试的操作实践出具鉴证意见。[24]
(二)合规义务的充分履行需要建立在对数据、建模及AI应用的科学方法论的深入认识基础上
从企业的角度看,合规遵从的基础是对模型开发和应用的理解。合规义务的履行将会被拆解成为建模的每一个步骤的科学方法的遵从,包括对误差处理方法的科学性要求的遵从。没有对方法论的基本认识,将无法达到以风险管理为基础的原则性监管的要求。
这将要求企业建立一个专业的AI合规管理团队,做好与技术科技团队有效配合。在理解AI开发与应用过程的基础上,将合规要求融入开发应用的过程。
同时为了实施合规监控与第三方独立评估,企业也需要建立严格的AI系统和模型开发文档保管和信息披露的机制。档案管理的标准应能达到外部第三人对其合规过程能够进行复制、验证的水平,也可以实现对系统使用情况的追踪和监控[25]。档案管理的信息应包括AI系统的一般特征信息、系统功能和限制、算法、数据、训练、测试和验证的过程,包括相关风险管理的系统文件。技术性文档[26]在系统的整个生命周期过程中还应当保持及时更新。期间,高风险AI系统在技术上应允许通过系统日志的方式对各类事件进行自动记录[27]。
(三)争议解决和举证责任的边界将扩展到AI科技开发与数据治理的层面
围绕AI治理的监管规则,两个问题可能将反复出现。系统开发应用的基本方法是否正确?AI系统模型的选择和设计实施是否经过正确的决策?在很多量化研究和应用的实践中,选择不同的数量化方法去模拟同一个数据库或人类行为,答案往往并不唯一,没有正确与否的区分。这时候的决策,既是科学,也是艺术[28]。只要留有充分的记录、能够对开发和应用过程的决策提供合理充分的解释,合规的目的就已达成。
当然,当伤害出现、争议产生的时候,从事后往往可以发现个别人对数据、指标、模型的操纵。对责任的甄别和责任范围的界定,需要通过证据挖掘、甚至是对整个研究开发过程的复制,发现故意操纵或主观过失的证据。
在争议解决问题上,原则性监管所留下的可解释空间将留给对抗的双方。人工智能治理的规则是要保证这个对抗过程的程序公正。
(四)对科技法律、交叉学科的研究和人才培养提出了更高的要求
该法律下的义务主体、独立第三方的评价机构、监管部门需要能够在对方法论逻辑的理解和认同下,开展对话和交流。核心是对模型沟通和应用的风险及其根源的共同理解和认识。这要求法律工作者在数据、统计、建模、模型应用等领域拥有基础知识和高级应用的准备。或者,至少要求法律工作者能够协调、调动科技开发与应用人员共同参与合规遵从的工作。这是对科技法律,或者说是科技、人文与法律等学科开展交叉合作提出的要求。
(五)对EUAIA的原则监管方法引发争议的正确态度
以风险为基础的原则性监管方式对很多规则的适用尺度和标准没有具体规定,留给了义务主体和监管机构。因此,也引发了众多批评,如规则的标准不清、弹性解释空间过大,规则实施的不确定性过大等。
从企业合规的角度,一个实践问题是怎样能够与第三方评估机构和监管部门在一个共同的语言基础上进行沟通,达到多方对AI及其模型的认可。
从监管者和义务人之间的互动角度看,原则性的监管规则将不断被讨论、磨合、细化。相关操作和实践也将成为各方普遍接受的规则,进而转化为法律规范的一部分。
注释:
[1] EUAIA,Annex VI-VII,第132-135页。法律文本可在本链接下载,ELI: http://data.europa.eu/eli/reg/2024/1689/oj
[2] EUAIA,第53页,第6条。
[3] 欧盟协调立法的清单(Union harmonisation legislation list)详见EUAIA,Annex I,第124-125页。
[4] EUAIA,Annex III,第127-129页。
[5] EUAIA,Annex III,第6(c)条,第128页。
[6] EUAIA,Annex III,第6(d)条,第128页。
[7] EUAIA,Annex III,第6(e)条,第128页。
[8] EUAIA,第56-61页。
[9] EUAIA,第16-22条,第62-65页;第47-48条,第80-81页。
[10] EUAIA,Definitions, 第3(3)条,第46页。
[11] EUAIA,第23条,第65-66页。
[12] EUAIA,Definitions, 第3(6)条,第46页。
[13] EUAIA,第24条,第66页。
[14] EUAIA,Definitions, 第3(7)条,第46页。
[15] EUAIA,第26条,第67-69页。
[16] EUAIA,Definitions, 第3(4)条,第46页。
[17] EUAIA,第57页,第10(2)条。
[18] EUAIA,第20页,第(67)段。
[19] EUAIA,第57页,第10(3)条。
[20] EUAIA,第57页,第10(4)条。
[21] EUAIA,第58页,第10(5)条。
[22] 指《欧盟通用数据保护条例》(Regulations (EU) 2016/679)、《欧盟个人数据档案条例》(Regulations (EU) 2018/1725)和《欧盟警察与刑事司法机构个人数据处理指令》(Directive (EU) 2016/680)等法律规定。
[23] EUAIA,第20页,第(69)段。
[24] EUAIA,第20页,第(67)段。
[25] EUAIA,第20页,第(71)段。
[26] 技术性文档要求的范围详见:EUAIA,Annex IV,第130-131页。
[27] EUAIA,第20页,第(71)段。
[28] EUAIA在其规则的多处承认很多AI系统的设计和风险管理的手段选择是一门艺术,而不仅仅是科学。反映出在科技领域多种方法可以达到同一目标情况下,技术的选择将会展现出科技人员对数学、量化等方法的艺术性把握和应用。EUAIA将承认不同方法选择上的区别。相关文字可见于EUAIA,第55页,第8条;第82页,第50(2)条等。