引言
2022年末以来的数月间,人工智能的世界风起云涌。以2022年11月30日ChatGPT的发布为标志,人工智能大语言模型(Large Language Model, LLM)史无前例地吸引了全球范围内的注意力,并引发了从技术进步、行业发展,到合规监管、社会影响,再到技术伦理、人类未来的广泛讨论——毋庸置疑,大语言模型已经成为了当下最为火热的风口。
在这场技术革新所引发的热潮中,不仅人工智能开发运营企业竞相加入行业赛跑,其他行业中的大量企业也试图在业务与运营中接入大语言模型,以借助其强大的识别、分析与沟通能力,优化客户服务或者企业管理。目前,国内市场上已有头部企业推出自研大模型,如百度的“文心大模型”、阿里的“通义千问大模型”、网易的“玉言大模型”、商汤的“日日新SenseNova大模型”等,以及出门问问也即将于本月20日开启AIGC战略发布会。机遇与风险总是相伴相生,企业在开发、运营大语言模型,及接入、使用大语言模型的过程中,会面临数据安全、个人信息保护、算法管理、内容安全等多个领域的合规风险;且由于大语言模型开发与应用场景的特殊性,这些风险的严重性不容忽视。2023年4月11日,国家互联网信息办公室(以下简称“网信办”)起草了《生成式人工智能服务管理办法(征求意见稿)》(以下简称“《管理办法(征求意见稿)》”),开启了对于生成式人工智能及其相关的大语言模型的专项监管。
本文中,我们将从企业合规的视角出发,结合《管理办法(征求意见稿)》等法律法规,并基于大语言模型商业化可能涉及的不同场景,分析企业在开发运营与接入使用大语言模型过程中的主要风险,以期为开发运营企业、利用模型实现业务运营的接入应用主体(以下简称“接入企业”)及相关从业人员提供合规视角下的初步参考。
一、“魔力之源”——预训练大语言模型
无论是作为ChatGPT基础的GPT-3/GPT-4,Google的PaLM/PaLM-E,Meta的LLaMA,还是国内人工智能企业所自研的大模型,它们都可以被概括为“用于自然语言处理的预训练大语言模型”。从技术之外的角度出发,对于以下几个概念的简单说明有助于我们说明“预训练大语言模型”,并进一步厘清本文的讨论对象。
自然语言处理(Natural Language Processing, NLP)是语言学、计算机科学和人工智能共同的跨学科分支领域,涉及计算机和人类语言之间的互动,即对计算机进行编程以处理、分析大量的自然语言数据[1],其目的为理解(并生成可被理解的)自然语言。[2]
预训练模型(Pre-Trained Model, PTM),也称为生成式预训练(Generative Pre-Training)模型,是先使用大量的无标注数据(Unlabeled Data)基于语言模型目标进行无监督预训练(Unsupervised Pre-Training),得到一个包含高容量初始参数的基础语言模型;随后在基础模型之上,使用标注数据(Labeled Data)基于应用任务的具体特性构建判别性任务(Discriminative Task),并通过有监督训练(Supervised Training)的方式进行微调(Fine-tuning),最终得到一个用于特定处理目的的语言模型。[3]
大模型(Large-Scale Model),是由于具备大规模参数而产生了涌现能力(Emergent Ability)的语言模型。涌现能力是在较小规模的模型中不存在且不能被预测,但在较大规模的模型中存在的能力。[4]涌现能力往往打破比例原则(Scaling Law)而使得其无法通过对于较小规模模型的观察进行预测。涌现能力的出现与计算量、模型参数数量以及训练数据集的大小有关——在上述参数的规模较小时,随着参数的增长,模型的表现符合比例原则并接近于随机分布;而在参数规模超过某一阈值后,模型表现会提升到远高于随机的程度。[5]
生成模型(Generative Model)是用于完成自然语言生成任务的语言模型。如前所述,自然语言处理的所有任务类型可以大致分为自然语言理解(包括文本分类、自动问答)与自然语言生成(机器翻译、文本摘要),[6]而Google研究人员提出的T5 (Text-to-Text Transfer Transformer)模型在预训练模型的基础上,进一步将自然语言理解任务与自然语言生成任务统一转化为条件式生成任务,将相同的文本到文本模型、训练目标、训练程序和解码过程应用于各类自然语言处理任务。[7]
多模态学习(Multimodal Learning)是指使用同一个模型/系统对不同类型、不同来源、不同形式的信息进行分析与输出。广义上的多模态能力包括多语言融合、多媒体融合与异构知识融合。[8]
综上,目前主流的人工智能大语言模型即“以自然语言处理为目的、以统一生成模型为基础、具备多模态学习能力的预训练大语言模型”(以下简称“大语言模型”)。
二、大语言模型开发运营企业的数据合规要点
对于人工智能开发运营企业(以下简称“开发运营企业”)而言,大语言模型人工智能产品/服务的开发与运营离不开对海量数据的处理。在产品/服务投入使用的开发运营全链条过程中,作为数据处理者(同时也是个人信息处理者)的开发运营企业应当注意可能涉及的数据合规义务。
(一)数据收集
在对海量数据开展处理前,开发运营企业首先面临数据收集处理活动。企业内部各部门应当明确收集数据的范围、目的和用途,遵循数据收集的一般原则,而在收集个人信息前,也必须符合《中华人民共和国个人信息保护法》(以下简称“《个保法》”)等法律法规规定的个人信息收集的要点。具体而言,收集数据的各部门应当遵循下述原则:
第一、合法正当,即不得窃取或者以其他非法方式收集数据,同时个人信息的收集需取得《个保法》规定的合法性基础。对于开发运营企业而言,大语言模型产品训练所需的数据类型多样,来源分布广泛。从一个简化的角度看,开发运营企业存在两种数据收集方式:1)自行收集训练数据;2)从第三方开源平台获取预训练数据集。
针对第一种情况,开发运营企业应注意自动获取海量数据时的合规义务。根据《网络数据安全管理条例(征求意见稿)》第十七条,在采用自动化方式访问、收集数据时,应评估对网络服务的性能、功能带来的影响,不得干扰网络服务的正常功能。根据《互联网搜索引擎服务自律公约》第七条,使用网络机器人自动爬取索引网站内容时,需要遵循国际通行的行业惯例与商业规则,并遵守机器人协议(网站的robots.txt文件指令)。因此,开发运营企业若采用自动化工具(例如“爬虫”等自动抓取工具)收集数据,则应当自行评估其“爬取”数据行为对目标网络系统服务的性能、功能带来的影响,不得干扰网络服务的正常功能。如存在影响网络服务正常功能、侵犯他人知识产权、个人信息权益、公平竞争权益等风险时,则应当立即停止收集并采取相应补救措施。同时,对于个人信息的收集,则仅可在取得《个保法》第十三条所规定的合法性基础的前提下开展,且需在收集前履行对个人信息主体的告知义务。
针对第二种情况,开发运营企业可能从相关第三方平台获取开源的预训练模型或数据集。此时企业应当关注并遵守第三方平台的“开源协议”或类似条款中有关“目的限制”的规定,例如禁止“将平台提供的模型用于任何商业目的用途”等。同时,在涉及个人信息的获取时,还应关注该平台的“隐私政策”以了解其已获得的个人信息处理的授权同意范围,并在有条件的情况下与其签订数据处理协议或数据处理条款,以明确其个人信息来源的合法性。
第二、公开透明,即数据处理应当遵循公开、透明原则,公开个人信息处理规则,明示处理的目的、方式和范围。在实践中,开发运营机构可能为某集团公司下属的子公司、业务部门或实验室等情况,其既存在直接面向用户(个人信息主体)个人信息主体收集个人信息的可能性,也有很高概率并不直接面向用户主体,而是依靠其他产品完成对个人信息的收集并进而开展人工智能的模型训练。在此,对于开发运营机构所对应的法人实体及其母公司(如一并涉及)而言,面向用户收集个人信息的相关产品均应当以显著方式、清晰易懂的语言真实、准确、完整地向个人告知其被收集的某类个人信息可能将用于人工智能开发的目的并告知处理的方式,并取得用户的授权同意。然而难点在于,如果相关个人信息是从B端企业处采集的,并且在大模型环境中数据的交互与传输发生的频次与数量均极其之大,在获取个人信息主体的授权及验证授权方面,均需要设置新的模式,既为效率提供保障,也避免合规流于形式。
第三、最小必要,即只应收集满足个人信息主体授权同意范围内的最少类型和数量的个人信息,不应收集与其提供的服务无直接或无合理关联的个人信息。最小必要原则为个人信息保护的关键原则之一,其贯穿了个人信息处理的全生命周期。对于开发运营企业而言,不应当仅出于开发用途而超出授权目的范围收集个人信息。例如,若开发运营企业同时运营某新闻资讯类App产品,其收集的某类个人信息(如聊天记录)可能将用于相关模型的训练。但对于资讯类App产品而言,其基本业务功能为新闻资讯的浏览、搜索,聊天记录属于“无关个人信息”,则该App不得以人工智能模型训练为由收集聊天记录信息,也不应向用户征求基于另一功能所采集的个人信息的同意(即使用户可能同意)。有关不同类型App基本业务功能及收集的必要个人信息范围,可参见《信息安全技术 移动互联网应用程序(App)收集个人信息基本要求(GB/T 41391-2022)》附录A。
(二)算法训练
完成数据收集后,开发运营企业将利用海量数据及相关技术开展训练并完成大语言模型的开发。根据《管理办法(征求意见稿)》,对于用于大语言模型开发的数据进行人工标注的,开发主体应当制定清晰、具体、可操作的标注规则,对标注人员进行必要培训,抽样核验标注内容的正确性。这一要求也是为了保障和规范AI的训练过程,能及时发现问题,及时止损并调整模型参数。避免因源数据本身存在争议、来源不可信或素材违法或侵权,进而产生利用AI生成的内容也存在虚假、歧视或不公平的结果,“毒树之果”将损害用户权利并造成次生伤害。
在我国目前的算法合规体系中,“深度合成服务”与“算法推荐技术”是需要规范的两大深水区。根据2023年1月10日正式实施的《互联网信息服务深度合成管理规定》(以下简称“《深度合成规定》”),深度合成技术,是指利用深度学习、虚拟现实等生成合成类算法制作文本、图像、音频、视频、虚拟场景等网络信息的技术。大语言模型的开发涉及对深度合成技术的利用,因此开发运营企业属于《深度合成规定》中所定义的“深度合成服务提供者”(提供深度合成服务的组织)和/或“深度合成服务技术支持者”(为深度合成服务提供技术支持的组织),其应当履行数据和技术管理规范要求,包括对训练数据(是指被用于训练机器学习模型的标注或者基准数据集)加强管理,采取必要措施保障训练数据的安全与合规使用;同时,开发运营企业还需要通过加强技术管理,以定期审核、评估、验证生成合成类算法机制的正当机理。此外,根据《深度合成规定》,作为深度合成服务提供者的开发主体还应建立科技伦理审查制度。2023年4月4日科技部发布《科技伦理审查办法(试行)(征求意见稿)》,对于从事人工智能研发,且研究内容涉及科技伦理敏感领域的,应设立科技伦理(审查)委员会。大语言模型开发企业应关注相关规定的立法走向,依法履行科技伦理审查义务。
根据2022年3月1日正式实施的《互联网信息服务算法推荐管理规定》(以下简称“《算法规定》”),应用算法推荐技术,是指利用生成合成类、个性化推送类、排序精选类、检索过滤类、调度决策类等算法技术向用户提供信息。开发运营企业所研制或运营的大语音模型可能涉及利用生成合成类等算法技术。对此,作为算法推荐服务提供者的开发运营企业不仅应当定期审核、评估、验证算法机制机理,还应当包括对算法模型、数据和应用结果等进行审核、评估与验证;同时还需要建立健全用于识别违法和不良信息的特征库,并完善入库标准、规则和程序。对于大语言模型而言,开发运营企业应注意不得设置诱导用户沉迷、过度消费等违反法律法规或者违背伦理道德的算法模型。根据《管理办法(征求意见稿)》,开发运营企业在算法设计、训练数据选择、模型生成和优化、提供服务等过程中,采取措施防止出现种族、民族、信仰、国别、地域、性别、年龄、职业等歧视。对于运行中发现、用户举报的不符合《管理办法(征求意见稿)》要求的生成内容,除采取内容过滤等措施外,应当在3个月内通过模型优化训练等方式防止再次生成不符合规定的生成内容。这条对算法技术和算力的要求是比较高的,而且一旦涉及被用户举报成功,则开发主体可能会被要求将其3个月的内的算法模型重置,因此备份历史算法模型版本,并仅清除受影响部分的模型,将有助于最大程度地减少损失和影响进度。
此外,《管理办法(征求意见稿)》 要求利用生成式人工智能产品向公众提供服务前,应当按照《具有舆论属性或社会动员能力的互联网信息服务安全评估规定》向国家网信部门申报安全评估,并按照《算法规定》履行算法备案和变更、注销备案手续。《算法规定》与《深度合成规定》也均要求开发运营企业在涉及“具有舆论属性或社会动员能力”的大语言模型上线运营前,应当开展安全评估,并就其研发使用的推荐性算法通过互联网信息服务算法备案系统进行备案。关于安全评估的申请流程,申报前是否需要企业先行开展自评估、提交申请后多长时间国家网信部门会通过评估,以及需要提交哪些材料,目前仍然需要等《管理办法(征求意见稿)》 生效实施后相关细则出台。但可明确的是,国家要求大模型上线前进行安全审查主要是为了保障国家安全、社会公共利益、正确的意识形态和人民权益。
(三)网络与数据安全保护
对于大语言模型的开发而言,庞大的数据资源同时意味着高标准的网络信息安全与数据安全的保护义务。
在网络安全方面,根据《中华人民共和国网络安全法》,网络运营者应当按照网络安全等级保护制度的要求,履行包括但不限于下列安全保护义务,保障网络免受干扰、破坏或者未经授权的访问,防止网络数据泄露或者被窃取、篡改:(一)制定内部安全管理制度和操作规程,确定网络安全负责人,落实网络安全保护责任;(二)采取防范计算机病毒和网络攻击、网络侵入等危害网络安全行为的技术措施;(三)采取监测、记录网络运行状态、网络安全事件的技术措施,并按照规定留存相关的网络日志不少于六个月;(四)采取数据分类、重要数据备份和加密等措施。在实践中,开发运营企业主体应主动对涉及大语言模型训练及开发的核心系统在规划设计阶段确定与此相关的网络安全保护等级,依法开展网络定级测评与备案、安全建设整改和自查自纠等工作,从设备安全、运行风险、安全防护措施及信息安全角度进行管理,安全技术与组织制度的完善双向并重,将网络安全风险降至最低。
在数据安全方面,对海量数据开展数据分类分级是涉及数据安全防护及后续开发利用的基础。开发运营企业可从如下角度开展相关工作:(1)从便于数据管理和使用的角度,应当结合大语言模型开发的实际需求,对数据进行细化分类从而针对不同类别的数据实施不同的保护策略变得非常必要;(2)开发运营企业还应充分考虑数据在汇聚融合后对数据重要性、安全风险等的影响,通过定量、定性相结合的方式综合确定数据级别;(3)此外,开发运营企业应根据数据安全定级确定管控策略,包括采集策略、存储策略、访问策略、共享策略、审计策略、销毁策略等,并按照上述策略实施分级管控措施以确保开发过程中覆盖数据全生命周期的安全管理。对于开发运营企业而言,其本身存在与其他大语言模型或数据供应商的数据交互合作,因此从实践角度,也需要运用隐私计算、“沙箱”等新技术对数据安全进行保障及监测。再者,开发运营企业应建立数据安全事件应急响应机制,包括对可能出现的数据(包括个人信息)泄露(如数据暴露、丢失、窃取、篡改、假冒)设备设施故障、网络攻击、有害程序等数据安全事件,提前开展应急演练。
在个人信息安全保护方面,在技术条件及开发需求均可满足的情况下,应对个人信息采取匿名化处理以避免个人信息的合规风险。但由于匿名化的标准存在模糊性,因此对于未匿名化的个人信息,应当实行分类分级管理并采取相应的加密、去标识化等安全技术措施;合理确定对个人信息访问及处理的操作权限,并定期对开发人员进行安全教育和培训。同时,在对个人信息进行汇聚融合等对个人权益有重大影响的个人信息处理活动前,应当开展个人信息保护影响评估,并对处理情况进行记录。
值得注意的是,目前大语言模型开发运营企业已出现数据泄露事件并引起广泛关注。美国时间3月25日,OpenAI官方确认有1.2%的ChatGPT Plus的用户数据可能被泄露。而有关国家的监管机构已对大语言模型及其数据安全问题开启调查行动,如意大利个人数据保护局宣布,即日起暂时禁止ChatGPT的使用,同时,对ChatGPT背后的OpenAI公司展开调查;德国联邦数据保护专员亦表示存在暂时禁止使用ChatGPT的可能性。可见,网络与数据安全保护应当成为大语言模型开发运营企业关注的重中之重。
(四)排除数据的垄断行为及不正当竞争行为
在大语言模型受到社会各界高度关注的当下,开发运营企业需要持续投入人力、财力等资源以维持大语言模型在数据、算力等多维度的竞争优势。2022年8月1日正式生效实施的《中华人民共和国反垄断法》规定“经营者不得利用数据和算法、技术、资本优势以及平台规则等从事本法禁止的垄断行为”。2023年3月10日发布(将于2023年4月15日生效)的《禁止滥用市场支配地位行为规定》(以下简称“《规定》”)亦细化规定了经营者具有市场支配地位的认定要素,并新增“具有市场支配地位的经营者不得利用数据和算法、技术以及平台规则等从事滥用市场支配地位行为”的规定。对于具有绝对技术或财力条件优势的从事大模型业务的“行业巨头”企业而言,应关注自身在“相关市场”中是否具有被认定或推定的市场支配地位,同时应比对自身业务运营情况高度关注《规定》中对“滥用市场支配地位”行为的细化认定,并期待“相关市场”的界定能有行业共识。此外,2022年11月发布的《中华人民共和国反不正当竞争法(修订草案征求意见稿)》作出了“经营者不得利用数据和算法、技术、资本优势以及平台规则等从事不正当竞争行为”的原则性规定,这意味着对于不具备“行业巨头”的市场地位的开发运营企业而言,仍应当关注其在生产经营活动中对数据、算法等的利用行为是否实质影响了公平竞争秩序。《管理办法(征求意见稿)》亦提出了较为相似的一般性要求,即相关开发运营企业不得利用算法、数据、平台等优势实施不公平竞争。
三、企业接入应用大语言模型的基本模式与场景
虽然大语言模型以ChatGPT等聊天机器人的形式大火,但大语言模型的能力与应用前景并不限于聊天机器人,其可以为企业提供数据分析、数据筛选、文件起草、策略制定、智能客服等多方面的服务。经过梳理与分析,我们认为在未来一段时间内,企业接入应用大语言模型并与开发运营企业(本节或称“服务商”)建立的合作可能包括内部应用与外部应用两类模式[9]下的共6种具体场景,如下:
基于内部应用模式,接入企业与大语言模型服务提供商建立合作,由使用接入企业直接向服务商提供指令后,人工智能应用为接入企业提供输出,不涉及用户的参与;在该模式下,接入企业可能具有不同的数据处理目的:
1. 数据筛选:接入企业可能以大语言模型为端口收集、外采数据,或使用大语言模型应用协助对于采集的数据进行筛选、梳理。首先,通过大语言模型收集过去特定时间段内的公开信息或对于接入企业已获取的数据进行筛选,是目前可行的合作模式;其次,插件功能的逐步普及,和以PaLM-E为代表的具有传感器实时输入能力的模型,使得大语言模型可以越发自由地接入互联网乃至物质世界;最后,Google的Bard与Microsoft的新NewBing等模型都自带联网功能,可以访问网页并抓取信息。
2. 研究分析:接入企业可能与服务商合作,由服务商针对接入企业的需求对大语言模型进行针对性地微调(同时可能进行本地化部署);接入企业利用微调后的大语言模型进行研究性数据分析,以支持接入企业的产品开发、市场策略、内部管理等。这一场景在应用实例方面,例如摩根士丹利旗下的摩根士丹利财富管理公司(Morgan Stanley Wealth Management, MSWM)自2022年开始引入GPT-3及后续版本进行内部知识管理。MSWM与OpenAI建立了战略合作关系,利用后者提供的技术支持对MSWM自身的智力资本数据库进行梳理,用GPT作为内部系统中的嵌入式聊天机器人与员工进行互动,为员工提供对于内部系统资料的访问、处理与合成,并针对具体场景的问题根据MSWM的内部资料生成易于读取的答案。[10]国内目前关于这一场景的实践中,较为突出的是企业资源管理(Enterprise Resource Planning, ERP)服务商金蝶软件与百度文心一言的合作,将智能对话技术成果应用在云服务领域,实现更高效的信息获取、信息整合、决策分析与数据洞察。[11]
3. 营销分析:接入企业可能利用大语言模型对营销数据与用户个人信息分析,将分析结果用于用户画像、个性化推荐与展示等营销目的。在该场景应用方面,如百度文心在早期与首批生态合作伙伴(尤其是金融机构合作伙伴)的合作发布文案中,反复提及“智能运营、智能营销”,体现了对这一应用场景的重视。[12]
4. 作品生成:接入企业可能利用大语言模型进行多模态作品的生成与修改,作品成果可能基于协议进行发布或进行销售。这一场景的应用主要集中于媒体、智库、研究机构等内容生产型企业,接入企业利用大语言模型将主要集中于多媒体内容的生产与发布。
基于外部应用模式,接入企业与大语言模型服务商建立合作,将大语言模型接入企业产品,为公司的用户或客户提供多模态生成服务。在该模式下,接入企业也同样存在将大语言模型运用到不同场景中。
5. 产品开发:接入企业可能与服务商合作开发,由服务商在预训练模型的基础上,使用接入企业提供的数据、以接入企业的需求作为目标对大语言模型进行微调(并可能进行接入企业内网本地化部署),使微调后的模型成为接入企业的人工智能产品/服务。国内语境下,这一场景下比较突出的实例是多家车企近期宣布接入并利用大语言模型服务商的多模态能力支持智能对话,提供针对汽车智能座舱的智能人机交互体验。[13]另外,上文提到的MSWM除了将GPT大语言模型利用在内部知识管理与研究性分析领域之外,也开发了面向客户的人工智能项目Next Best Action,该项目利用内部嵌入式的大语言模型(在专业金融顾问的指导下)向客户提供实时定制的信息更新,并通过大语言模型的分析与生成能力进一步推动个性化地与客户进行沟通。[14]
6. 产品扩展:接入企业可能使用服务商的API进行自主开发,在公司现有产品中设计互动界面,在界面中调用API(如,以SDK形式运行的智能客服窗口),为用户提供产品扩展功能(并可能针对性地推出付费增值功能)。在这一场景方面,较为领先的是ChatGPT API的早期落地案例,包括社交平台Snapchat中的My AI,学习平台Quizlet引入的Q-Chat,购物平台Shopify客户端Shop的购物助手,[15]以及语言学习平台Duolingo的GPT-4学习体验功能Duolingo Max[16]。而针对这一场景更加高阶、完备的实践,则是Microsoft发布的Microsoft 365 Copilot,其实现了GPT-4功能的全场景调用、产品深度整合与跨产品联动,使得Microsoft Office可以实现全场景下的自然语言指令与开发。[17]
在以上不同的接入使用场景下,接入企业同样会面临包括数据安全、个人信息保护、算法合规等多个领域的合规风险,以下我们将进行展开分析。
四、大语言模型接入企业的数据合规要点
(一)数据来源
上述第1类数据收集场景涉及大语言模型的开发运营企业(本节或称“服务商”),向接入企业传输使用大语言模型收集的数据。因此需要提醒接入企业方注意,根据《管理办法(征求意见稿)》 ,作为生成式人工智能服务提供者(及“利用生成式人工智能产品提供聊天和文本、图像、声音生成等服务”)的接入企业,应当对生成式人工智能产品的预训练数据、优化训练数据来源的合法性负责。对于接入方来说,需要对采用的技术安全能力以及技术供应商的背景做尽职调查、就数据来源合法性提前审查与确认,并要求供应商在数据处理协议中对此进行承诺和保证。
在使用大语言模型进行(或协助进行)数据收集的情境下,接入企业应与服务商签订数据处理协议,在协议中要求服务商对自动化采集行为对网络服务性能的影响进行事先评估与事中监测,并要求服务商运营大语言模型抓取数据的过程中遵守法律法规、行业惯例、商业规则及网站的robots.txt文件指令;符合《中华人民共和国网络安全法》《个保法》等法律法规的要求;不得含有侵犯知识产权的内容;保证数据的真实性、准确性、客观性、多样性。接入企业还应在数据处理协议中要求服务商在抓取并提供个人信息前,确认个人信息来源的合法性,确保大语言模型仅获取已经合法公开的个人信息并进行合理使用,或者基于其他合法性基础收集的个人信息。
(二)用户服务
根据《管理办法(征求意见稿)》,接入使用大语言模型并面向用户提供服务的接入方企业应当注意以下合规要点:
在管理C端用户方面,在与C端用户签订协议或者确认提供服务时,应当要求用户提供真实身份信息。用户不提供真实身份信息的,不得为其提供相关服务。这属于生成类信息发布前也同样需要履行用户生成内容(User Generated Content, UGC)发布规则,并实施实名制认证。同时,企业主体应当指导用户科学认识和理性使用生成式人工智能生成的内容,不利用生成内容损害他人形象、名誉以及其他合法权益,不进行商业炒作、不正当营销。发现用户利用生成式人工智能产品违反法律法规,违背商业道德、社会公德行为时,包括从事网络炒作、恶意发帖跟评、制造垃圾邮件、编写恶意软件,实施不正当的商业营销等,应当暂停或者终止向其提供服务。此处既赋予了企业应积极履行倡导、引导用户守法和符合公序良俗的社会责任,同时也体现了平台治理的思路--给予企业“准监管”地位与“监管”不力将承担“问责”的压力。此外,相应产品应采取适当措施以防范用户过分依赖或沉迷生成内容,这类似于游戏运营者被强制要求采用未成年人防沉迷干预机制,确保青少年严格管理时间、多参加户外锻炼与体育运动,多有时间陪伴家人和读书,培养广泛的兴趣爱好,不过度依赖网络与虚拟世界。
在用户保障方面,企业主体应当明确并公开其服务的适用人群、场合、用途;并提供可以影响用户信任、选择的必要信息,包括预训练和优化训练数据的来源、规模、类型、质量等描述,人工标注规则,人工标注数据的规模和类型,基础算法和技术体系等。对用户的输入信息和使用记录承担保护义务,除法律法规另有规定外,不得非法留存能够推断出用户身份的输入信息,不得根据用户输入信息和使用情况对其进行画像,亦不得向他人提供用户输入信息。同时,接入方对于其使用了大语言模型的产品,应向用户提供安全、稳健、持续的服务,保障用户正常使用,建立用户投诉接收处理机制,及时处置个人提出的关于更正、删除、屏蔽其个人信息的请求;发现、知悉生成的文本、图片、声音、视频等存在侵害他人肖像权、名誉权、个人隐私、商业秘密,或者不符合本办法要求的情况时,应当采取措施,停止生成,防止危害持续。
(三)数据泄露
如果接入企业使用服务商的SaaS云服务,在上述几乎所有的合作场景下都会涉及向服务商传输数据以供大语言模型进行分析、处理。向第三方传输数据(以及由第三方存储数据)有导致发生各类网络安全事件和发生数据泄露、损毁、篡改、丢失的风险,但在涉及大语言模型应用的场景下,则可能由于服务商利用接入企业提供的数据进行大语言模型的训练而产生“新的泄露风险”。
此处“新的泄露风险”,是指由于训练过程中数据脱敏不到位,使得大语言模型向其他用户/客户生成的信息中包含了接入企业向服务商提供的数据。如果接入企业提供的数据被服务商(也即“开发运营企业”)用于继续训练大语言模型,相关数据在进行基本的去标识化后可能会进入服务商的数据库,并在对其他用户输出回答时以重述后的形式提供给其他用户。因此,如果接入企业提供的数据包含诸如公司的战略规划、技术信息等商业秘密,以及接入企业员工与其用户的个人信息等,人工智能应用将可能在训练阶段使用上述信息训练模型,并有可能在回答其他用户提问时运用上述信息,因而导致公司商业秘密泄露或产生个人信息超出授权范围的风险。目前,也已存在知名企业员工使用相关生成式人工智能产品而导致企业内部信息泄露的案例;4月10日,中国支付清算协会发布《关于支付行业从业人员谨慎使用ChatGPT等工具的倡议》,倡导支付清算行业对于ChatGPT等工具的使用应加强风险防范和数据保护意识,不上传国家及金融行业涉密文件及数据、本公司非公开的材料及数据、客户资料、支付清算基础设施或系统的核心代码等。
对此,虽然OpenAI等主流的大语言模型服务商在提供API服务时,只有在获取接入企业同意的情况下才会将获取的数据用于大语言模型训练;但随着大语言模型商业化进程的发展,接入企业会有愈发特定化、精细化的需求,服务商基于接入企业提供的数据对于模型进行微调以适应接入方的特性化需求的趋势越发明显。针对此种情形,接入企业需要在数据处理协议中与服务商明确约定所传输的数据的使用目的与范围,如明确要求所传输的数据仅适用于大语言模型服务商提供给本公司模型的微调;同时可明确禁止服务商将未经脱敏的数据直接用于大语言模型的训练,并约定针对数据进行脱敏的具体策略与技术。
(四)传输合规
根据接入企业与服务商签订的数据处理协议条款的具体内容不同,接入企业向服务商传输数据的行为可能涉及数据共享或委托处理。
如果接入企业与服务商为委托处理关系,根据《个保法》第二十一条与《信息安全技术 个人信息安全规范(GB/T 35273—2020)》第9.1条的规定,接入企业应:
-
与服务商签订数据处理协议,明确约定委托处理的目的、期限、处理方式、个人信息的种类、保护措施以及双方的权利和义务、安全责任及应实施的个人信息安全措施;
-
必要时,针对服务商的数据安全保障技术能力与组织管理能力进行背景调查,并通过审计等方式对其相应的个人信息处理活动进行监督;
-
准确记录和存储委托处理个人信息的情况,并妥善留存相关数据处理协议和管理记录,确保可供相关方查阅;
-
要求服务商建立响应个人信息主体行权、投诉、举报等请求的机制,以供个人信息主体查询、使用;
-
在与服务商的传输过程中,采取符合行业标准的传输协议进行加密传输,以及采取其他安全措施保护其服务器免受未经授权的访问和攻击。
如果双方之间为数据共享关系,除了上述委托处理情形下的注意事项外,根据《个保法》第二十三条,接入企业还需要:
-
向相关个人信息主体明确告知服务商的名称、联系方式、处理目的、处理方式和个人信息的种类,并取得个人信息主体的单独同意;
-
当接入企业涉及提供生物特征识别信息等敏感个人信息时,应当告知个人信息主体相关个人信息的处理目的与必要性,以及可能对其权益产生的影响,并取得其单独同意。
如果基于安全性的考量而采用了本地化部署,接入企业应同时注意严格限制服务商及其他外包商在提供运维服务的过程中对于数据库的访问权限;如果相关数据库内涉及个人信息或重要数据的,接入企业应尽量通过向服务商的运维人员提供日志文件、截图的方式代替由外部人员通过系统接口权限直接访问数据库。
(五)数据出境
如果接入企业与OpenAI等海外服务商合作,由于其服务器与数据中心均部署在中华人民共和国境外,合作过程将不可避免的涉及数据出境。
以ChatGPT为例,当接入企业通过API接入其大语言模型服务时,根据OpenAI隐私政策[18],其可能收集的信息包括公司用户的通信信息、社交信息、技术信息、日志信息、使用信息等,数据也将从用户所在地转移到ChatGPT在美国的设施和服务器进行处理。这意味着,当接入企业(无论基于何种模式/场景)向ChatGPT提供数据时,数据均会被传输到运营商OpenAI位于美国的服务器,在服务器中被ChatGPT模型处理后生成输出信息并传输给公司。因此,接入企业使用ChatGPT的API的场景可能会涉及“将境内收集和产生的数据传输、存储至境外”的行为;而根据《数据出境安全评估申报指南(第一版)》的规定,该行为属于数据出境。
在此情况下,接入企业应按照《个保法》第三十八条的规定,根据企业的具体情况采取不同的出境合规措施,包括:(1)向网信部门申报数据出境安全评估;(2)申请个人信息保护认证;(3)与境外接收方订立个人信息出境标准合同,并向网信部门备案;以及(4)法律、行政法规或者国家网信部门规定的其他条件。根据《数据出境安全评估办法》第四条的规定,当接入企业符合下列情形之一的,应当通过所在地省级网信部门向国家网信部门申报数据出境安全评估:(1)向境外提供重要数据;(2)被认定为关键信息基础设施运营者,或处理100万人以上个人信息,并向境外提供个人信息;(3)自上年1月1日起累计向境外提供10万人个人信息或者1万人敏感个人信息,并向境外提供个人信息;(4)国家网信部门规定的其他需要申报数据出境安全评估的情形。在申报数据出境安全评估之前,接入企业应当开展数据出境风险自评估。
另外,根据2017年工信部发布《关于清理规范互联网网络接入服务市场的通知》,如果公司通过自行建立或租用专线(含虚拟专用网络VPN)的方式接入境外服务商的大语言模型API并向境外传输个人信息,需要获得电信部门的行政许可,且使用用途仅供其内部办公专用,不得用于开展电信业务经营活动。因此,境内接入企业使用境外大语言模型服务的范围较为受限。
如果接入企业与境内的大语言模型服务商合作,是否涉及数据出境则取决于服务商是否会开展数据出境活动。根据我们对目前国内头部人工智能服务商相关隐私政策的调研,多数服务商承诺在境内收集和产生的个人信息将仅存储在中国境内,但仍有小部分服务商提示可能存在数据出境情形。因此,接入企业应与服务商签订数据处理协议,并明确要求服务商不得将自接入企业处获取的数据向境外提供,否则应承担相关责任。
(六)算法及信息内容合规
根据《管理办法(征求意见稿)》《深度合成规定》及《算法规定》,大语言模型的接入企业需要履行包括内容生态管理、算法安全管理、算法备案管理、用户权益保护等义务。
1. 信息内容管理
根据《深度合成规定》第二十三条,接入企业以外部应用模式(或在“营销分析”场景[19]下)与服务商建立合作时,接入企业构成深度合成服务提供者,服务商构成深度合成服务技术提供者,接入企业的客户/用户构成深度合成服务使用者;接入企业以(除“营销分析”场景外的)内部应用模式与服务商建立合作并使用大语言模型时,接入企业构成深度合成服务使用者,服务商构成深度合成服务提供者。
当接入企业作为深度合成服务使用者时,应当注意履行以下义务:
(1)不得利用深度合成服务制作、复制、发布、传播虚假新闻信息;
(2)转载基于深度合成服务制作发布的新闻信息的,应当依法转载新闻信息稿源单位发布的新闻信息;
(3)发布、传播利用大语言模型生成的内容时,需要以显著的方式向内容受众说明相关内容由人工智能深度合成类应用生成。
而当接入企业作为深度合成服务提供者时,应当注意履行以下义务:
(1)采取技术或者人工方式对深度合成服务使用者的输入数据和合成结果进行审核;
(2)建立健全用于识别违法和不良信息的特征库,完善入库标准、规则和程序,记录并留存相关网络日志;
(3)发现违法和不良信息的,应当依法采取处置措施,保存有关记录,及时向网信部门和主管部门报告;
(4)对使用其服务生成或者编辑的信息内容,应当采取技术措施添加不影响用户使用的标识,并依照法律、行政法规和国家有关规定保存日志信息;
(5)对于可能导致公众混淆或者误认的,应当在生成或者编辑的信息内容的合理位置、区域进行显著标识,向公众提示深度合成情况。
2. 算法安全管理
当接入企业作为深度合成服务提供者时,应当注意履行以下算法安全管理义务:
(1)建立健全用户注册、算法机制机理审核、科技伦理审查、信息发布审核、数据安全、个人信息保护、反电信网络诈骗、应急处置等管理制度,具有安全可控的技术保障措施;
(2)制定和公开管理规则、平台公约,完善服务协议,依法依约履行管理责任,以显著方式提示用户承担信息安全义务;
(3)基于移动电话号码、身份证件号码、统一社会信用代码或者国家网络身份认证公共服务等方式对用户进行实名认证,不得向未进行真实身份信息认证的用户提供信息发布服务;
(4)发现利用深度合成服务制作、复制、发布、传播虚假信息的,应当及时采取辟谣措施,保存有关记录,并向网信部门和有关主管部门报告;
(5)设置便捷的用户申诉和公众投诉、举报入口,公布处理流程和反馈时限;
(6)定期审核、评估、验证生成合成类算法机制机理;
(7)具有生成或编辑生物特征识别信息或可能涉及国家安全、国家形象、国家利益和社会公共利益的特殊物体、场景等非生物识别信息的应当依法自行或者委托专业机构开展安全评估;
(8)采取必要措施保障训练数据安全,训练数据包含个人信息的,应当遵守个人信息保护的有关规定;
(9)提供人脸、人声等生物识别信息编辑功能的,应当提示深度合成服务使用者依法告知被编辑的个人,并取得其单独同意;
(10)特别注意进行自动化决策等特殊数据处理场景下的合规义务履行,如进行个人信息保护影响评估等。
3. 算法备案管理
当接入企业作为深度合成服务提供者,且具有舆论属性或者社会动员能力时,应当注意履行以下算法备案管理义务:
(1)按照《算法规定》履行备案和变更、注销备案手续,并在其对外提供服务的网站、应用程序等的显著位置标明其备案编号并提供公示信息链接;
(2)开发上线具有舆论属性或者社会动员能力的新产品、新应用、新功能的,应当按照国家有关规定开展安全评估。
4. 用户权益保护
当接入企业作为深度合成服务提供者,应注意保护用户权益。特别是,当接入企业具有舆论属性或者社会动员能力时,应进一步注意:
(1)在接入大语言模型的产品中,针对涉及的所有人工智能服务,向用户明确说明服务类型、运行规则、涉及的第三方(如有)、数据的收集及使用等;
(2)确保用户可以自主选择是否使用人工智能服务功能以及相关的生成/推荐算法,用户选择关闭的,不得在向用户提供服务的过程中使用相关算法;
(3)确保用户可以自主选择所提供的个人信息是否用于实现产品功能最小必要之外的目的(如,模型训练);
(4)确保用户可以选择或者删除用于算法推荐服务的针对其个人特征的用户标签的功能;
(5)确保用户可以方便地针对算法及其推荐、生成结果进行负反馈,并且产品针对用户的负反馈优化推荐、生成策略;
(6)应用算法对用户权益造成重大影响的,向用户进行清晰说明并承担相应责任;涉及用户个人信息权益的,针对算法应用场景开展个人信息保护影响评估;
(7)向用户说明人工智能相关服务可能涉及哪些法律法规(如个人信息保护法、未成年人保护法、老年人权益保障法、消费者权益保护法、劳动法、交通法等),并说明针对相关法规中规定的个人权利提供了哪些保障机制等。
五、小结
自2022年11月30日OpenAI发布了基于GPT-3.5 (Generative Pre-trained Transformer 3.5)模型的人工智能聊天机器人ChatGPT伊始,至2023年4月网信办发布了《管理办法(征求意见稿)》,大语言模型及生成式人工智能技术在短短4个月间引发了国内外各界的强烈关注。对于相关领域的各参与主体而言,无论身份为相关模型的研发运营或技术开发主体,亦或是利用模型实现业务运营的接入应用主体,其在关注着行业技术的前沿发展以及不断拓展的商业应用边界的同时,也不能将企业的法律风险及其合规义务抛之脑后。除本文所述的数据安全、个人信息保护、算法合规等议题外,有关人工智能大语言模型及其业务模式下的知识产权、不正当竞争以及人机伦理等也已成为不可回避的重要法律命题。在此背景下,需要法律及人工智能行业相关从业人员的共同努力,以探索出适合当下及未来发展的合规实践操作,实现合规创造价值的目的。
注释:
[1] Natural language processing, Wikipedia, https://en.wikipedia.org/wiki/Natural_language_processing.
[2] 一般认为,自然语言处理的概念最早见于艾伦·麦席森·图灵(Alan Mathison Turing)于1950年10月发表于期刊Mind的著名论文《计算机器与智能》(Computing Machinery and Intelligence)。在这篇论文中,图灵不仅通过“模仿游戏(The Imitation Game)”的情景提出了著名的“图灵测试(The Turing Test)”,还选定了去特征化的自然语言文本作为这一测试的媒介,使得“机器可以思考吗?(Can machines think?)”这一问题的回答指向了以下2个命题:(1)机器是否可以准确理解人类语言,以及(2)机器是否可以准确生成能被理解的人类语言。而这2个命题正是自然语言处理中的自然语言理解(Natural Language Understanding, NLU)技术和自然语言生成(Natural Language Generation, NLG)技术所希望达成的目标。Turing, A. M. (1950). Computing Machinery and Intelligence. Mind, 59, 433, 433-6.
[3] Radford, A., Narasimhan, K., Salimans, T. & Sutskever, I. (2018). Improving language understanding by generative pre-training. 预训练模型由OpenAI团队在2018年发表的初代GPT论文《使用生成式预训练提升语言理解》(Improving Language Understanding by Generative Pre-Training)中首次提出,并随着Google团队开发的BERT (Bidirectional Encoder Representation from Transformer)等预训练模型的陆续出现,在近年来获得了长足发展。预训练模型主要是为了解决自然语言处理中各类任务之间的壁垒问题。它可以使得搭建一个面向特定任务的模型不再需要了解非常多的任务背景,而只需要根据任务的输入输出形式微调并应用预训练得到的基础语言模型。同时,无监督预训练与监督微调结合的方式也很好地解决了无标注数据的使用困难,提高了数据利用的效率。
[4] Wei, J., Tay, Y., et al. (2022). Emergent abilities of large language models. Transactions on Machine Learning Research, 08, 1, 2.
[5] Id.
[6] 车万翔,郭江,崔一鸣,《自然语言处理:基于预训练模型的方法》,北京:电子工业出版社(2021),第257页。
[7] Raffel, C., Shazeer, N., et al. (2020). Exploring the limits of transfer learning with a unified text-to-text transformer. Journal of Machine Learning Research, 21, 1, 2-3.
[8] 同上注[6],车万翔,郭江,崔一鸣(2021),第270-284页。一般认为,人工智能的发展分为以下三个方向:计算智能(Computational Intelligence)、感知智能(Perceptual Intelligence)和认知智能(Cognitive Intelligence),Shi, P. (2022). Research on the strategy of autonomous learning under the dual-class model of ideological and political courses based on the knowledge map route. Wireless Communications and Mobile Computing, 2022, 1, 3. 计算智能主要指计算机进行快速计算和存储的能力;感知智能主要指机器的多模态信息识别能力,主要包括对视觉、听觉和触觉的感知能力;认知智能主要指机器对于抽象化信息(如,语言文本)的理解、推理、解释的能力。而目前不断出现的具备多模态能力(尤其是图片和视频能力)的大语言模型,则逐渐模糊了感知智能与认知智能之间的边界,使得大语言模型逐渐走向所谓的通用人工智能(Artificial General Intelligence, AGI)。
[9]内部应用模式下,接入企业基于内部目的使用大语言模型,模型本身不直接面向外部用户/客户,但模型生成的内容或提供的策略可能会被使用与经营与销售中;
外部应用模式下,接入企业基于外部目的使用大语言模型,模型(及其微调版本)本身直接面向外部客户或用户提供服务(包括,面向外部用户经营to C业务,及面向外部客户经营to B业务)。
[10] Morgan Stanley Wealth Management Announces Key Milestone in Innovation Journey with OpenAI, Morgan Stanley, Mar.14, 2023, https://www.morganstanley.com/press-releases/key-milestone-in-innovation-journey-with-openai.
[11] 《金蝶云·苍穹宣布接入百度文心一言能力,打造ERP领域人工智能服务》,“金蝶”微信公众号,2023年2月14日,https://mp.weixin.qq.com/s?__biz=MjM5Mjk3Mjg2NA==&mid=2652912843&idx=2&sn=f4af8b47c1c42539ecf2cd0b34a01955&chksm=bd4ab5e48a3d3cf24d7c34ac9de14d11e8d2880a9229a8831898a04aa129597e36071ea27a31&scene=126&sessionid=1677556508#rd。
[12] 《兴业银行宣布接入百度“文心一言”》,央广网,2023年2月22日,https://www.cnr.cn/jrpd/mxhq/20230222/t20230222_526161763.shtml。
[13] 《国内首款搭载“文心一言”量产车型上市 智能汽车进入“狂飙”时代?》,上游新闻,2023年3月19日,https://www.cqcb.com/gongsifengxiangbiao/2023-03-19/5205444_pc.html。
[14] Morgan Stanley, Mar. 14, 2023.
[15] Introducing ChatGPT and Whisper APIs, OpenAI, Mar. 1, 2023, https://openai.com/blog/introducing-chatgpt-and-whisper-apis.
[16] Introducing Duolingo Max, a learning experience powered by GPT-4, Duolingo, Mar. 14, 2023, https://blog.duolingo.com/duolingo-max/.
[17] Introducing Microsoft 365 Copilot – your copilot for work, Microsoft Blog, Mar. 16, 2023, https://blogs.microsoft.com/blog/2023/03/16/introducing-microsoft-365-copilot-your-copilot-for-work/.
[18] https://openai.com/policies/privacy-policy
[19] 如果接入企业在“营销分析”场景下使用大语言模型,虽然大语言模型此时不直接供企业的用户/客户使用,但接入企业利用大语言模型的生成合成技术向用户提供信息——这将使企业构成《算法规定》下规定的算法推荐服务提供者,并应承担相应义务。