据国家网信办2024年11月24日的披露,中央网络安全和信息化委员会办公室秘书局、工业和信息化部办公厅、公安部办公厅、国家市场监督管理总局办公厅于近日联合发布《关于开展“清朗-网络平台算法典型问题治理”专项行动的通知》,要求各部门、各地区开展专项行动,重点整治同质化推送营造“信息茧房”、违规操纵干预榜单、盲目追求利益侵害新就业形态劳动者权益、大数据“杀熟”、算法向上向善服务缺失侵害用户合法权益等重点问题[1]。通知要求压实算法安全主体责任,在治理上落实导向正确、公平公正、公开透明、自主可控等要求,通过企业自查、监管核验、评估成效、举报处理等具体工作,达到算法合规、推动长效治理的目标。
通知同时公布了《算法专项治理清单指引》,对此次行动的算法核验的范围、要点进行了细化。从企业合规工作常态化的角度,本文结合监管规则,以算法开发、审核、应用、维护升级等生命周期为维度,总结归纳算法合规的工作要求,以期为平台企业开展自查自纠、落实主体责任提供合规路径的建议。
一、算法开发的合规路径
(一)算法开发目的要正当
《关于加强互联网信息服务算法综合治理的指导意见》第(十二)条要求树立算法的正确导向。在算法开发项目的立项阶段,应优先评估算法的目的是否坚持向上向善。例如,动态定价类型的算法在设计目的上首先应该明确不得利用算法在交易价格等条件上实施不合理的差别待遇,不得存在相同商品不同用户原始定价不一致情况。简而言之,就是不得将算法用于大数据“杀熟”等不正当目的。再如,在餐饮快递等新就业形态,使用配送时间、路线规划、配送费用等管理考核指标时,应考虑相关算法规则可能产生的负面效果,完善平台订单分配机制,防止可能侵害劳动者权益的算法应用。
(二)要对算法使用的数据、内容进行审核
算法开发和应用所使用的数据、待加工处理的内容都需要经过清洗、加注、标签、合并等流程。算法安全责任主体应评估数据和信息内容是否符合正能量优质的要求,包括建立机制有效排查涉及违法或不良信息的数据,实施相应的数据清理工作,自动识别和排除、防止不良信息的传播。对基础数据的分析,应关注是否对未成年人、老年人等需关注群体的潜在负面影响。
例如,《互联网信息服务算法推荐管理规定》第十条关于用户标签管理,明确要求完善记入用户模型的兴趣点规则和用户标签管理规则,不得将违法和不良信息关键词记入用户兴趣点或者作为用户标签并据以推送信息。这是对算法使用的基础数据的处理规范要求。该规定第十三条严禁生成合成虚假新闻信息,不得传播非国家规定范围内的单位发布的新闻信息。算法推荐服务提供者提供互联网新闻信息服务的,应有能力发现处理违法违规的生成合成信息、识别违法网络谣言。
(三)算法开发逻辑和设计要合理
在算法的设计方面,要评估相关指标的选择和量化标准是否能够达到既定的目标和预期。各类推荐算法在使用客户历史行为、兴趣偏好、点击、浏览习惯、内容相似度等信息过程中,基于数据相关性建立推荐逻辑。但算法可解释的要求也提醒开发者重视因果关系、因果顺序的合理逻辑。对深度学习、机器学习等复杂算法,应考虑如何实现算法“安全可控”的要求,对复杂、自动化算法设定一定的规则,推动落实公平公正、公开透明的目标。
(四)谨慎选择算法设计的基础假定
算法设计思路应基于稳定的逻辑,对数据模拟使用的数学模型的基础假定应谨慎选择。例如,在决策类算法技术的开发工作中,对测试数据和实际数据的模拟可能选择非线性的不同类型模型。在去除极值、补充关键缺失数据等技术处理后,数学模型的选择应对算法实际应用的场景、实际数据跨度、周期类数据、肥尾类非正态数据分布等特点进行考虑,小心假设、多次验证。
(五)采取措施应对误差和偏离
算法开发过程应考虑可能的重大误差和偏离,对误导、误用的情景采取防范措施。对于可能的系统性误差,应挖掘根本原因,在算法设计方面采取针对性的处理。例如,对于涉及到专家主观测评评分的指标,可以采用引入更多评分人、更多的同类计量指标,进而提炼抽象指标的方法减少人为误差干扰。对算法应用可能偏离设计目标的考虑应关注基于研发数据开发的算法是否可以应用于现实既定目标人群的问题。
(六)有效测试和验证算法,避免算法歧视
算法的测试和验证是在利用数据进行算法构建后,验证算法对预期目标进行描述和预测的能力的过程。只有经过有效的验证,才能将算法和模型投入实际的应用。机器学习和人工智能的开发,甚至将模型的验证自动化,并在不断重复的过程中完成算法的训练和优化,最终进入应用的阶段。在复杂的决策应用中,算法模型在部署应用后仍然需要不断地进行验证和调优。
算法测试和验证的过程也应确保适当的数据治理和模型管理措施。对特定的合规要求,应采取适当措施有针对性进行测试和验证,甄别可能存在的算法歧视,并采取措施降低其影响。例如,有针对性考察算法是否可能对未成年人、老年人等特定人群的健康和安全造成影响。
(七)将算法“黑箱”限制在可控范围内
在近年来迅速发展的深度学习、神经网络技术等人工智能领域,开发和应用人员使用了更多开放式、自我学习和自动化或半自动化动态调整因子和模型参数的方法。其中的模型和指标的构建经过了多层逻辑的运算和筛选,在有监督和未监督的(un-supervised) “自我学习”算法的形成过程中,关键逻辑和指标的可解释性难度大为增加。当海量的大数据被复杂程序经过多个层次的加工和变形时,模型参数自动学习、演进、动态变化,形成的大模型“黑盒”算法对治理工作提出了巨大的挑战。
但是,各国监管部门对算法可控、可验证、可归责的认识已经逐步形成一致的意见。算法黑盒的构建逻辑仍然是有迹可循的。从实证分析方法论的角度,大数据、大模型的合规和治理评估仍然要特别关注数据采集可能存在的系统性偏差、数据可能带有的歧视性等问题。对于涉及算法“黑箱”应用的情况,可以实施安全评估和科技伦理审查,设定标准和使用范围,控制可能的不良影响。
二、算法审核的基本思路
根据算法治理的规范要求,平台企业应落实算法主体责任,健全算法机制机理审核。算法推荐服务提供者不得设置诱导用户沉迷、过度消费等违反法律法规或者违背伦理道德的算法模型。在算法正式应用上线前,应通过评审确保算法的训练数据具有合法来源,保证算法适当水平的准确度、灵敏度和网络安全。同时,也应确认是否配套有必要的合规工作机制。例如,在个人信息权益保障方面,应向用户告知用于内容推送的收集处理的个人信息种类,并征得用户同意。保证电子化日志留痕,如在热搜榜单的应用场景,平台应留存榜单相关网络日志,日志内容包括时间、榜单排名、热度值计算相关数据等信息。
三、算法应用应当积极、透明、可控
算法部署和使用过程应坚持正确积极的导向,关注网民和劳动者合法权益保障,确保应用公平公正、安全可控、透明可解释。此次清朗行动的重点工作包括优化检索、排序、推送等规则的透明度和可解释性,预防和减少争议纠纷。算法责任主体应以适当方式公示算法推荐服务的基本原理、目的意图、主要运行机制等,确保简单、清晰、可理解。向用户提供选择或者删除用于算法推荐服务的针对其个人特征的用户标签的功能,便利用户自主选择兴趣领域。关闭算法推荐服务的选项应做到操作便捷、功能有效。
同时,平台应建立异常活动监测机制,识别水军账号,防范违规操纵榜单、炒作热点、控制热搜等行为。算法推荐服务提供者应当加强信息安全管理,建立健全用于识别违法和不良信息的特征库,完善入库标准、规则和程序。发现未作显著标识的算法生成合成信息的,应当作出显著标识后,方可继续传输。平台还应向用户提供申诉和公众投诉、举报入口,及时处理用户反馈。
四、应持续对算法进行维护与升级
《互联网信息服务算法推荐管理规定》第八条规定,算法推荐服务提供者应当定期审核、评估、验证算法机制机理、模型、数据和应用结果等。《互联网信息服务深度合成管理规定》第十五条也提出了明确要求,深度合成服务提供者和技术支持者应加强技术管理,定期审核、评估、验证生成合成类算法机制机理。
在算法治理逐步走向正轨的背景下,算法模型应用和维护也应成为算法开发和使用者承担的持续管理义务。算法维护需要考虑模型应用的演进,包括对适用于新的场景、新的数据类型进行评估。在发生重大变化情况下,出现新的产品、业务、人群或新的行为模式时,原有的模型应考虑是否需要进行相应的调整和升级迭代。
五、应对算法进行必要的评估与备案
对算法有效性、合规性以及可能涉及的各类风险的评估也是算法责任主体的关键职责。算法安全责任主体应定期分析算法机制机理,对算法模型的可用性、可控性、可解释性以及数据处理、模型训练、部署运营等环节开展安全评估,发现缺陷和漏洞,研判算法应用产生的意识形态、社会公平、道德伦理等安全风险,提出针对性应对措施。
在信息披露方面,专项治理行动要求以适当方式公示算法推荐服务的基本情况。在备案要求上,要求对算法“应备尽备”,备案信息发生变更的及时办理变更或者注销手续。
注释:
[1] 《关于开展“清朗·网络平台算法典型问题治理”专项行动的通知》,https://www.cac.gov.cn/2024-11/24/c_1734143936205514.htm