以往的决策式人工智能,比如自动驾驶等,仅对已有数据进行分析判断,并不输出创造性结果。然而,生成式人工智能可以在深度学习已有数据的基础上进行模仿式、缝合式创造并进一步生成全新的内容。近来,以ChatGPT为代表的生成式人工智能引爆全球各界对生成式人工智能的关切。生成式人工智能展现出的强大能力令人惊叹,但同时,其对传统的冲击也引发人们广泛而又深刻的担忧。
生成式人工智能火爆背后暴露出的问题迅速引起了全球各国监管机构的关注。2023年3月30日,意大利个人数据保护监管机构(“Garante”)针对OpenAI采取临时限制措施,禁止ChatGPT处理意大利境内个人数据。与此同时,德国、法国、西班牙等多个国家的数据保护监管机构陆续对ChatGPT进行表态或发起调查。此后,欧盟数据保护委员会(European Data Protection Board, “EDPB”)专门成立了ChatGPT特别工作组,就欧盟各国数据保护监管机构针对ChatGPT采取的执法行动促进合作和交换信息。
2023年4月11日,中国国家互联网信息办公室发布了我国首部生成式人工智能产业管理办法《生成式人工智能服务管理办法(征求意见稿)》(“《办法》”),对生成式人工智能划红线、立规矩,《办法》出台后迅速引起了各界的关注和热议。
全球监管机构的立法、执法行动不约而同地聚焦关注以ChatGPT为代表的生成式人工智能。下文着重就Garante针对ChatGPT的执法行动,以及《办法》的要点进行述评。
一、针对生成式人工智能的执法——Garante针对ChatGPT的执法行动
总体而言,意大利Garante认为:ChatGPT对用户个人数据(尤其包括儿童)以及ChatGPT提供服务所使用的数据主体(非用户)的个人数据,共两类数据的处理活动违反了欧盟《通用数据保护条例》(General Data Protection Regulation, “GDPR”)第5条(个人数据处理原则)、第6条(处理的合法性)、第8条(信息社会服务相关的儿童同意的条件)、第13条(从数据主体收集个人数据时应告知的信息)以及第25条(自设计开始和默认的数据保护,Data Protection by Design and by Default,“DPbDD”),并据此作出了前述针对ChatGPT的临时限制决定。
具体而言,意大利Garante认定ChatGPT的数据处理活动主要存在以下4项违规:
1. ChatGPT未向用户以及非用户就个人数据的收集和处理进行告知。我们理解,意大利Garante的观点应是此举违反了GDPR第13条规定的告知义务。
2. ChatGPT为其算法训练目的而收集和处理个人数据没有恰当的合法性基础。我们理解,意大利Garante的观点应是此举违反了GDPR第6条。
3. ChatGPT生成的信息不准确,不能如实反映真实数据情况。我们理解,意大利Garante的观点应是此举违反了GDPR第5条规定的个人数据处理的准确性原则。
4. 尽管根据OpenAI公司的规定,ChatGPT仅面向13岁以上的个人使用,但ChatGPT缺乏对用户年龄的验证机制,致使13岁以下的儿童使用ChatGPT时暴露于不适合他们成长和认知的内容环境中。我们理解,意大利Garante的观点应是此举违反了GDPR第8条规定的儿童保护要求。
此外,就DPbDD而言,根据GDPR第25条,数据处理应在确定数据处理方式时以及进行处理的过程中采取适当的技术和组织措施对个人数据进行保护,并且在默认的情况下仅处理为特定目的所必需的个人数据。DPbDD是一项概括性的个人数据保护要求,我们理解,鉴于上述各项ChatGPT违反GDPR相应条款的情况,意大利Garante的态度应是ChatGPT总体上不满足DPbDD要求,因而违反了GDPR第25条的规定。
此后,意大利Garante与OpenAI进行了多轮约谈,OpenAI被要求在规定时限内采取整改措施(不同事项对应的整改时限不同)以满足以下方面的合规要求。其中,如果OpenAI在4月30日前完成透明性、数据处理的合法性基础、数据主体权利保障三方面的整改,意大利Garante将同意解除针对ChatGPT的临时限制措施,允许ChatGPT在意大利境内恢复运营。
1. 透明性:妥善履行告知义务,包括在其网站上展示信息声明,解释ChatGPT处理数据的安排和逻辑,以及用户和非用户享有的权利(2023年4月30日前完成整改);
2. 数据处理的合法性基础:不得依赖“合同履行”为训练算法目的处理个人数据,而只能基于“同意”或者“合法利益[1]”( 2023年4月30日前完成整改);
3. 数据主体权利保障:提供便于数据主体(包括用户和非用户)行使权利的方式,比如在ChatGPT生成数据不准确的情况下进行纠正,如果技术上无法纠正则应删除数据,以及就数据处理提出反对等(2023年4月30日前完成整改);
4. 年龄验证(儿童保护):实施年龄验证机制等措施保护儿童(2023年5月31日前提出方案,同年9月30日前完成实施);
5. 认知提升行动:此外,OpenAI还被要求通过广播、电视、报纸、互联网等多种公开渠道开展“认知提升行动”( 2023年5月15日前),就利用个人数据训练算法事宜向人们进行告知。
截至2023年4月28日,OpenAI采取了一系列针对性的整改举措后获得了意大利Garante认可,最终ChatGPT得以在意大利恢复运营。意大利Garante针对ChatGPT的执法行动称得上全球首例,尤其是数据合规领域,极具代表性的针对生成式人工智能的执法案例。该案目前暂告一段落,但是意大利Garante将在EDPB特别工作组机制下持续调查ChatGPT的潜在违规,并可能采取额外的、其他类型的监管措施。该案进展以及欧盟EDPB和各国数据保护监管机构后续对ChatGPT采取的行动值得持续关注。
二、针对生成式人工智能的立法
(一)欧美人工智能领域立法概览
从上文意大利Garante针对ChatGPT的执法行动来看,目前欧盟针对生成式人工智能的执法监管主要是限于欧盟GDPR及各国的个人数据保护法开展的。实际上,针对人工智能的立法,欧盟早在2021年4月即发布《人工智能法案》(Artificial Intelligence Act)提案,旨在引领全球人工智能治理标准的制定。欧盟《人工智能法案》提出将人工智能基于风险进行分类管理,并针对高风险人工智能实施市场准入和认证管理等一系列举措。然而,鉴于人工智能治理的复杂性,欧盟《人工智能法案》历经争论和修改,尚待最终面世。
近期,美国在大力支持人工智能技术发展、给予人工智能产业宽松环境的同时,也在考虑制定政策规制人工智能技术带来的负面影响和可能的损害。4月11日,美国商务部下属国家电信和信息管理局(National Telecommunications and Information Administration)发布了《人工智能问责政策征求意见》(AI Accountability Policy Request for Comment),就后续如何制定支持人工智能审计、评估、认证机制等问题的相关政策公开征求意见。
(二)我国首部生成式人工智能专项立法
2023年4月11日,国家互联网信息办公室发布了《生成式人工智能服务管理办法(征求意见稿)》(“《办法》”),向社会公开征求意见。这是我国计划制定的首个对于生成式人工智能的专门监管规定,充分展现了网信部门的敏捷监管。
不同于欧盟与美国的是,《办法》专门针对生成式人工智能提出了全方位的合规要求,包括网络安全、内容安全、算法合规、数据安全、个人信息保护等维度。
在《办法》发布之前,除了网络安全、数据安全和个人信息保护相关的法律法规,我国已经出台了针对算法推荐、深度合成等特定技术的监管规定,包括《互联网信息服务算法推荐管理规定》《互联网信息服务深度合成管理规定》等。《办法》在此基础上,归纳提炼了相关监管要求,进一步形成了专门针对生成式人工智能的监管规范。概括而言,《办法》对生成式人工智能提出的合规要求主要涵盖以下方面:
1. 主体责任:《办法》规定利用生成式人工智能产品提供聊天和文本、图像、声音生成等服务,包括通过提供可编程接口等方式支持他人自行生成相关内容的组织和个人(“提供者”),须承担“内容生产者”责任。其中,涉及个人信息处理的,还须承担“个人信息处理者”责任。
该等生成式人工智能服务“提供者”的概念似乎非常宽泛,基础模型开发运营者、通过API等方式接入基础模型的专业模型、应用的开发运营者等主体可能都落入了其范围,而须受限于《办法》的规制。
2. 安全评估及算法备案:《办法》要求利用生成式人工智能产品向公众提供服务前,应当按照《具有舆论属性或社会动员能力的互联网信息服务安全评估规定》向国家网信部门申报安全评估,并按照《互联网信息服务算法推荐管理规定》履行算法备案和变更、注销备案手续。
可见,网信部门对生成式人工智能的态度比较谨慎,可能担心生成式人工智能技术被用于制造虚假、误导性,乃至“无中生有”的信息,因而认为其具有较强的舆论属性和社会动员能力,属于相对高敏感高风险的技术。
3. 数据来源合法:生成式人工智能产品需使用海量的数据语料来训练模型,确保模型使用的数据来源合法,成为生成式人工智能产品面临的首要问题。
《办法》要求生成式人工智能服务的提供者,应当对用于预训练数据和优化训练数据来源的合法性负责。其中,数据包含个人信息的,应征得个人信息主体的同意或符合其他法定合法性基础。《办法》的这一要求与意大利Garante针对ChatGPT的执法关注焦点(处理个人数据的合法性基础)不谋而合。
此外,《办法》还要求训练数据应当真实、准确、客观、多样。然而,实践中存在真实数据获取困难,而需借助合成数据训练模型算法的情况。合成数据本身是虚拟的,甚至是人工智能生成的数据,其如何适用《办法》规定的真实准确性要求有待进一步明确。
4. 生成内容真实准确:强大如ChatGPT的大模型都难以避免出现生成“胡编乱造”的内容,目前生成式人工智能面临的最大难题可能就是如何确保生成内容的真实准确。为训练生成式人工智能产品输出接近真实准确的结果,离不开人工对其生成的高质量内容进行标注、打分或奖励,从而引导和训练生成式人工智能产品对生成结果不断优化完善。
对此,《办法》要求生成式人工智能产品的生成内容应真实准确,防止生成虚假信息,该要求与以往相关立法关于网络信息内容治理的要求一脉相承。此外,《办法》还要求生成式人工智能产品采用人工标注时,应制定可靠的标注规则,并根据监管部门的要求向其披露标注规则乃至算法技术等接受检查。
如OpenAI在接受意大利Garante调查过程中所坦陈,在ChatGPT输出数据出现错误的情况下,目前技术上还不能确保实现错误纠正,而只能引入机制允许数据主体对错误数据进行删除。《办法》此项关于包含个人信息在内的各类生成内容应当真实准确的要求,其具体口径有待探讨释明。
5. 违规内容过滤及算法纠偏:《办法》要求对于生成式人工智能产品运行中发现的、用户举报的不符合要求的生成内容,除采取内容过滤等措施外,应在3个月内通过模型优化训练等方式防止再次生成。
对于违规内容,不仅要从海量数据中屏蔽,还要限时在模型优化训练层面找出原因完成纠偏,这对生成式人工智能产品提供者的技术能力提出了较大挑战。
6. 个人信息保护:除上述关于个人信息来源的合法性要求外,《办法》还有多处涉及个人信息保护方面的要求,包括:生成式人工智能服务提供者对用户的输入信息和使用记录承担保护义务,除非法律法规另有规定,不得非法留存能够推断出用户身份的输入信息,不得根据用户输入信息和使用情况进行画像,不得向他人提供用户输入信息;以及生成式人工智能服务提供者应当建立用户投诉接收处理机制,及时处置个人关于更正、删除、屏蔽其个人信息的请求等。
可见,个人信息保护是针对生成式人工智能监管的重中之重,这也与意大利Garante对ChatGPT的执法关注焦点(个人数据主体权利保障)再次呼应。
此外,《办法》还提出了实名制、防沉迷,以及不得根据用户的种族、国别、性别等进行带有歧视性的内容生成等方面的要求。总体而言,本次针对生成式人工智能出台的《办法》沿袭了以往相关立法注重内容安全、算法合规等主题的监管思路,也囊括了较多个人信息保护等方面的合规要求。此外,《办法》还提及了生成式人工智能可能涉及的知识产权保护、不正当竞争等问题。《办法》意欲规制的范围不可谓不广、力度不可谓不大。
三、结语
如意大利Garante在与OpenAI约谈期间所表态,监管执法并非意在阻碍人工智能发展和技术进步,但是监管机构同时关注数据保护合规也是其应尽之责。生成式人工智能横空出世,其面临的合规挑战也逐渐全面显现,其中包括个人信息保护、算法合规,乃至网络数据安全、信息内容生态治理、商业秘密保护、知识产权保护、科技伦理、平台治理等等。
“管”和“放”是治理的长期主题。表面上合规是给人工智能的发展踩刹车,然而遏制发展并非合规工作的本意,相反是要达到平衡与可持续的发展。监管不是亦不应对生成式人工智能进行围追堵截,关键是如何给新兴技术留下包容乃至试错的空间,将其约束在恰好的规则框架下实现可控发展。如今,国内外科技公司已纷纷下场加入生成式人工智能的军备竞赛中,人工智能的发展应用与安全合规如何更好地互动,如何巩固并继续推进我国在该领域既有的制度竞争优势,有待政产学研等各界长期探索。
注释:
[1] GDPR第6.1(f)条规定的“legitimate interest”,中国《个人信息保护法》未规定该项处理个人信息的合法性基础。