2024年12月17日,欧洲数据保护委员会[1](以下简称为EDPB)正式通过了《关于人工智能模型中个人数据处理的特定数据保护问题的28/2024号意见》[2]。EDPB作为欧盟根据《通用数据保护条例》设立的独立机构,其核心职能是确保GDPR在欧盟范围内的统一解释和应用,其本身不直接行使执法权,在具体的执法上,由各成员国数据监管机构负责。EDPB发布的“意见”,属于GDPR框架下的解释性指南,具有约束力,各成员国应该遵守。
意见中EDPB对AI模型处理用户个人数据的三个核心问题进行了讨论,回应了过去一年众多数据保护机构的争议焦点。该意见首先明确了AI公司在开发、训练、部署模型时要做到匿名化,即保证收集到的任何数据主体信息在数据收集完成后不能被追溯查询;同时,为AI公司提供了如何将“正当利益”作为模型开发合理理由的说理路径,也为各国数据保护机构面对非法收集数据的AI模型提供了处理方法上的建议。欧盟成员国数据监管机构及AI行业、法律与合规咨询机构与受跨境业务影响的主体,例如在欧盟设立实体或提供AI服务、通过跨境电商和APP服务等使用AI处理欧盟用户数据的中资企业,都应特别关注这份意见并及时更新例如数据跨境传输合规、敏感数据处理、用户权利响应(以社交平台为例)等合规框架,在人工智能开发商、提供商和用户的业务活动和管理过程中有效开展治理实践,促进人工智能治理与数据合规的共同目标。
一、各国数据机构对于AI企业非法收集个人数据的合规实践
早在2019年,法国国家信息与自由委员会[3](以下简称为CNIL)就对法国一家名为Q公司的搜索引擎公司发起数据合规调查,原因是该公司用户投诉其收集个人数据而非匿名数据。Q公司向CNIL说明,它采取的技术手段已经对之前收集的数据进行了匿名化处理,由此认为公司并没有传输个人数据。经过深入调查,最终CNIL得出结论:Q公司将数据收集后,再经过匿名化处理,最后传输给另一家公司的数据处理行为,不能被定义为“匿名化”。2020年后,Q公司相应地修改了其隐私政策。2020年5月19日,CNIL在其官网上发布了关于“个人数据匿名化”的定义,并对其解释为“匿名化使得无法从数据集识别一个人,从而可以尊重他或她的隐私[4]”。
德国联邦和州独立数据保护机构会议[5](以下简称DSK)在《AI和数据保护指南》[6]中明确要求,LLM模型[7]等人工智能应用的部署必须严格遵循数据保护原则,尤其强调“谨慎处理输入与输出的包含个人数据的情形”[8]。根据该指南,公共机构和企业在使用LLM时需优先选择不涉及个人数据的应用场景:若无法避免,则必须确保数据处理的合法性基础(如用户明确同意或履行法定义务),并采取封闭系统架构限制数据外流风险。对于可能涉及敏感信息的情形,DSK特别指出需警惕“间接识别性数据”(例如特定职业群体特征)的泄露,并要求在模型训练阶段就完成数据脱敏处理。
某社交媒体公司[9]在2024年6月更新其隐私政策,表示将把用户公开分享的社交媒体内容(包括图片、帖子和评论)用于AI应用程序训练。在使用个人数据进行AI训练时,该公司声称该行为符合GDPR第6条(1)(f)项[10]的“正当利益”要求。然而,这一举措迅速引发热议。GDPR第6条(1)(f)项是否可以作为AI使用个人数据的法律依据、相关操作是否需要数据主体的明确同意等问题均成为热议重点。挪威消费者委员会联合欧洲七家消费者保护机构,向挪威数据保护局提交法律投诉,指控该公司通过"Pay or OK"机制[11]和模糊条款设计,实质上违反了GDPR[12]中关于处理个人数据的条款。投诉指出,公司存在三重违规行为:未明确告知用户数据用于AI训练的具体范围和目的;通过复杂操作路径和设置默认勾选,变相剥夺用户知情权;收集的数据量远超AI模型训练的必要限度[13]。
2024年6月,英国数据监管机构[14](以下简称为ICO)要求某社交媒体公司暂停使用英国用户数据训练AI。该公司原打算用英国用户在其旗下社交平台上的公开内容训练生成式AI模型,但ICO认为该行为可能违反英国《数据保护法》(UK GDPR)。争议焦点在于该公司未充分告知用户数据用途,也未提供有效的“选择退出”机制。ICO强调公司要确保数据处理透明并为用户提供明确反对途径。该公司于当月宣布暂停该计划,并与ICO协商整改方案。2024年9月,在与英国数据机构(ICO)积极沟通后,在ICO的数据合规指导下,依据GDPR第6条(1)(f)项规定的“正当利益”原则,公司被允许使用英国成年人在社交媒体平台上分享的公开帖子来训练 AI,确保其生成式AI能够体现英国文化特色,同时让英国的企业使用到最先进的人工智能技术。ICO表示,尽管目前该公司训练AI的方案通过了数据合规监管,但仍然要对其数据使用、处理进行长期的监督。
2024年8月,在爱尔兰数据保护机构[15](以下简称为DPC)要求下,某社交媒体平台公司同意中止其在2024年5月7号到2024年8月1号期间从欧盟用户发布的公开贴子中采集个人数据训练它的AI 的做法。该决定是在DPC向高等法院提交紧急申请下的背景下做出的。这是DPC首次援引《2018年数据保护法案》第134条[16]所赋予的权力。随后,DPC于2024年9月4日宣布[17],针对该公司的高等法院诉讼已被“驳回”,这一决议是在该公司同意永久停止处理其来自欧盟和欧洲经济区(EEA)用户的个人数据,避免用于人工智能模型训练目的后达成的。同时,DPC正在根据GDPR第64(2)条向欧洲数据保护委员会(EDPB)请求意见,就开发和训练模型过程中出现的一些核心问题提起EDPB层面的讨论,冀望对相关问题获得明确的指引。
2024年9月,荷兰数据保护局[18](AP)对某美国人工智能公司处以3050万欧元罚款,原因是该公司通过非法抓取互联网公开数据,构建了包含超过300亿张人脸照片的全球生物识别数据库,其中涉及大量荷兰公民的个人信息。这一行为被判定严重违反欧盟《通用数据保护条例》(GDPR)的“合法基础”和“数据最小化”原则[19]。AP指出,若继续使用该公司 AI服务,AP将追加最高510万欧元的违规罚款。值得注意的是,该公司此前已因同类问题被意大利罚款2000万欧元[20],并被法国罚款2000万欧元[21]。此次事件凸显生成式AI技术的合规风险:企业若使用未经合法授权或过度收集的敏感数据训练模型,可能面临跨国监管的连锁式追责。
意大利个人数据保护局[22](以下简称为Garante)近年来对大型语言模型(LLM)的数据合规也采取了强硬立场。该机构的核心观点认为,LLM存在系统性违反欧盟《通用数据保护条例》(GDPR)的风险,大量用户个人信息可能被未经授权使用,服务提供商未能建立有效的年龄验证机制,技术漏洞可能引发数据泄露。基于这些风险,Garante在2023年3月31日率先对某人工智能公司产品实施全国禁令[23],成为全球首个封禁该技术的国家监管机构,并要求该公司在20天内完成整改,否则将面临最高2000万欧元罚款。此后,监管力度持续升级,至2024年12月,Garante针对该公司未履行数据最小化原则、训练透明度不足等问题开出1500万欧元罚单,并推动其增加用户数据擦除功能和强制年龄验证模块[24]。
二、EDPB《28/2024号意见》的核心要义与监管革新
可以看出,各国数据保护机构在相关AI与数据保护的技术性认定时有着不同的处理方式。2024年9月4日,爱尔兰数据保护机构DPC请求EDPB就AI模型开发和个人数据保护问题发表意见。关键的四个问题包括:
(1)在什么场景、如何判断AI模型是“匿名化”的?
(2)开发阶段控制者如何能够适当地展现作为法律基础的正当利益(legitimate interest)?
(3)部署阶段控制者如何能够适当地展现作为法律基础的正当利益?
(4)AI模型开发阶段不合法的个人数据处理行为会对其后的数据处理或AI模型的运行产生什么样的后果?
经过数月的意见收集和分析论证,2024年12月17日,EDPB发布《28/2024号意见》。意见以匿名性判定标准、正当利益认定标准和非法处理数据后果为三大亮点,系统性回应了AI开发过程中数据主体权利保护难题,通过动态评估框架(如三步测试法、情景分类)为监管机构与企业提供了可操作的合规路径[25]。
(一)AI模型 “匿名性”判定标准
完全匿名的AI模型不会带来个人数据保护的问题。在没有个人数据处理的情况下,GDPR的相关规则可以不再适用。爱尔兰数据保护机构提出的第一个问题就是如何界定模型的匿名性。
首先,EDPB认为基于个人信息训练的AI模型在任何情况下不能被视为是匿名的[26]。判断AI模型匿名特性的依据应该根据案件的情况具体分析。EDPB 认为,各国监管机构应至少从两个方面做出AI具有匿名特征的判断:
-
任何个人数据被直接提取、追溯的可能性极低;
- 任何人通过AI模型查询、获取此类个人数据的可能性极低。
EDPB在意见中也强调,由于人工智能模型需要对数据主体被识别的可能性进行彻底评估,各国监管机构应该具体案件具体分析,灵活处理。需要考虑的因素包括与个人数据有关的信息(包括已经被数字化处理的信息)、模型可能引申推测出的信息,以及模型开发过程中可能涉及的数据、模型和建模过程的本身,模型部署和运行的环境,可能导致个人被识别出来的额外信息的处理及所需时间和成本,现有技术条件等。
EDPB强调要对在采取控制措施后个人身份被识别出来的剩余风险进行评估。考虑因素包括AI模型设计所需要的数据来源、数据清洗准备过程、训练过程的方法选择、模型输出的方式等,AI模型分析过程,测试和防攻击措施,文档记录等环节也是需要评估的对象。
(二)AI模型开发与部署的“正当利益”理由
根据GDPR第6条[27],“正当利益”评估是证明个人数据处理过程合法性的重要条件之一。AI企业可以通过证明处理过程是为了“正当利益”从而主张数据处理具有合法性。
EDPB在意见中明确了“正当利益”的内涵概念,提出了“正当利益评估”的“三步测试法”[28]。相关测试的具体判断标准如图1所示。
图1:“正当利益评估——三步测试法”
EDPB在意见中指出,运用“三步测试法”进行正当利益的合法性分析时,要逐案评估,这意味着AI模型开发者可以通过前期隐私条款的设计提前用“三步测试法”进行自我评估,并将评估结果作为未来的抗辩证据。
(三)AI模型非法数据处理后果
如果AI模型在开发阶段就涉及了对个人数据的非法处理,会对其后模型的部署和应用产生什么样的影响呢?EDPB根据AI开发模型时“个人数据是否进行匿名化处理”,“后续部署是否由同一控制者进行”,将非法数据处理的人工智能模型分为三种情况[29],分别就后续处理的建议和考量因素进行了说明(见图2)。
图2:AI模型非法处理个人数据的三种情形及处理建议
EDPB的意见包括:
-
如果前后控制者一致时,要分别审核各阶段的处理数据的目的并保证数据与目的相匹配[30],对与目的不匹配的数据进行整改[31]。
-
如果前后控制者不一致时,要审核部署者是否对开发阶段的违法性开展充分的识别,该识别工作可能会影响监管者对部署阶段违法性的判断[32]。
- 关于开发阶段的违法性对部署阶段合法性的影响问题,意见没有做出明确说明,要根据具体情况逐案评估。这意味着在特定情况下,部署阶段AI模型的应用可能仍被允许。
针对AI模型在开发阶段非法处理个人数据的情景,EDPB也建议各国监管机构“具体案件具体分析,逐案评估”,充分尊重每个AI模型在不同阶段的具体情况。上述动态化的框架式建议,也提醒AI模型开发者要及时进行匿名化处理、做好“正当利益”评估等合规自测,来应对数据合规监管。
三、结语
EDPB通过发布专项意见来回应人工智能模型训练处理用户数据的三个核心问题,其核心立场是平衡技术创新与用户隐私权,强调GDPR的不可逾越性。该意见也是AI模型开发和数据保护领域第一个欧洲统一立场,对其他国家的相关法律政策都有指导意义。未来,EDPB可能根据规划,进一步细化AI数据处理指南。其中包括在2024-2025年分阶段推出人工智能数据治理专项指南,重点针对“匿名化”、“正当利益”等概念进一步认定,制定与生成式人工智能收集数据有关的关键技术的可操作标准,推动跨国合作以应对技术迭代的合规挑战[33]。
我们建议AI企业无需等待监管细则的完善,可以提前布局隐私设计(Privacy by Design)[34]等相关工作,将“Privacy by Design"理念深度植入技术研发全生命周期,通过技术设计和业务流程的早期整合,将隐私保护嵌入系统开发的底层架构,避免因监管滞后导致的业务风险。一方面,可以大大减轻监管执法压力,另一方面,企业通过早期的隐私设计提前搭建合规布局,降低合规风险、减少数据泄露风险、增强用户信任。
注释:
[1] European Data Protection Board,欧洲数据保护委员会。
[2] Opinion 28/2024 on certain data protection aspects related to the processing of personal data in the context of AI models,
https://www.edpb.europa.eu/our-work-tools/our-documents/opinion-board-art-64/opinion-282024-certain-data-protection-aspects_en
[3] Commission Nationale de l’Informatique et des Libertés,法国国家信息与自由委员会。
[4] https://www.cnil.fr/fr/technologies/lanonymisation-de-donnees-personnelles
[5] Konferenz der unabhängigen Datenschutzbehörden des Bundes und der Länder,德国联邦和州独立数据保护机构会议。
[6] Orientierungshilfe der DSK zu Künstlicher Intelligenz und Datenschutz,p.48-49,
https://datenschutzkonferenz-online.de/media/oh/20240506_DSK_Orientierungshilfe_KI_und_Datenschutz.pdf
[7] LLM(Large Language Model),大型语言模型,是一种基于深度学习的人工智能模型,用于处理自然语言的各种任务。
[8] Orientierungshilfe der DSK zu Künstlicher Intelligenz und Datenschutz,p.48-49,
https://datenschutzk Orientierungshilfe der DSK zu Künstlicher Intelligenz und Datenschutz,onferenz-online.de/media/oh/20240506_DSK_Orientierungshilfe_KI_und_Datenschutz.pdf
[9] 该公司旗下拥有多个社交媒体平台。
[10] General Data Protection Regulation, Art.6(1)(f) https://gdpr-info.eu/:处理对于控制者或第三方所追求的正当利益是必要的,这包括需要通过个人数据保护以实现数据主体的优先性利益或基本权利与自由,特别是儿童的优先性利益或基本权利与自由。此点不适用公共机构在履行其任务时的处理。
[11] “Pay or OK”:Meta让用户在“付费使用无广告”和“免费使用有广告且被跟踪”之间做出选择。此模式在更多时候引发的是与个人隐私保护相关的担忧,这迫使欧盟用户进行选择:要么接受其隐私侵犯,要么付费在没有跟踪广告的情况下访问 Facebook 和 Instagram。
[12] General Data Protection Regulation, https://gdpr-info.eu/
[13] https://www.forbrukerradet.no/side/the-norwegian-consumer-council-files-legal-complaint-against-meta-for-numerous-violations-of-the-gdpr/
[14] Information Commissioner's Office,英国数据保护监管机构。
[15] Data Protection Commission,爱尔兰数据保护机构。
[16] https://data.oireachtas.ie/ie/oireachtas/act/2018/7/gle/enacted/a0718i.pdf
[17] https://www.dataprotection.ie/en/news-media/press-releases/data-protection-commission-welcomes-conclusion-proceedings-relating-xs-ai-tool-grok
[18] Autoriteit Persoonsgegevens,荷兰数据保护局。
[19] https://autoriteitpersoonsgegevens.nl/actueel/ap-legt-clearview-boete-op-voor-illegale-dataverzameling-voor-gezichtsherkenning
[20] https://www.garanteprivacy.it/web/guest/home/docweb/-/docweb-display/docweb/9751323
[21] https://www.legifrance.gouv.fr/cnil/id/CNILTEXT000046444859/
[22] Garante per la Protezione dei Dati Personali,意大利个人数据保护局。
[23] https://www.garanteprivacy.it/web/guest/home/docweb/-/docweb-display/docweb/9870847
[24] https://www.garanteprivacy.it/web/guest/home/docweb/-/docweb-display/docweb/10085432
[25] EDPB该意见中的AI模型特指基于个人数据通过机器学习、深度学习等技术训练生成的算法结果。
[26] 人工智能模型的“匿名性”是指,模型直接或间接识别出用于提供数据的个人和允许用户通过提示查询从模型中提取此类数据的可能性极低。
[27] GDPR.Art.6.1(f) 必须满足一定条件的数据处理才是合法的,其中一个标准即:数据处理对于控制者或第三方所追求的正当利益是必要的。
[28] Opinion 28/2024 on certain data protection aspects related to the processing of personal data in the context of AI models, p.58-59,
https://www.edpb.europa.eu/our-work-tools/our-documents/opinion-board-art-64/opinion-282024-certain-data-protection-aspects_en
[29] 同上
[30] GDPR.Art.5.1(d):个人数据(与目的)匹配性条款。此条款意在强调AI模型的开发和部署要求个人数据应于开发目的而言是充分,相关且必要的,与目的不符的数据应予以及时删除。
[31] GDPR.Art.58矫正性条款。整改措施包括根据GDPR.Art.17.1(d),GDPR.Art.19对违法处理数据行使删除权;更正、删除非法数据;通知数据主体;并实施相应处罚措施,数据不得再次使用。
[32] 根据GDPR.Art.5.1(a),GDPR.Art.6,综合判断处理数据的合法性。
[33] https://www.edpb.europa.eu/system/files/2024-10/edpb_work_programme_2024-2025_en.pdf
[34] Privacy by Design(隐私设计,简称PbD)由加拿大安大略省信息与隐私专员Ann Cavoukian博士在20世纪90年代首次系统提出。