根据欧盟人工智能法和相关法律对高风险AI的规定[1],体外医疗诊断设备应用的人工智能系统将被归入高风险AI的类型,进而需要遵守该法律对其使用的数据和算法的治理规范要求。本文以目前医学领域视网膜病变筛查辅助诊断糖尿病的AI工具为例,分析相关算法合规的具体应用,以期为AI和算法治理规则落地的方法和路径提供思路[2]。
一、场景介绍:糖尿病视网膜病变筛查
通过对眼底病变的检查,可以发现糖尿病早期人群,进行及时干预,降低患者严重失明的风险。这种对视网膜开展筛查的一个基本逻辑是医学理论和实践证明视网膜损伤可能是糖尿病造成人体器官损害的一个表现。近年来医学界开始尝试通过人工智能算法运用,使用自动化图片分析的方法,对大规模人员眼底图片进行分析筛查,可以提高筛查效率,应对眼科医生不足的现状[3]。
该筛查方法的一个核心基础是界定疾病的典型特征,使用图片识别技术,通过自动程序化的方式区分健康视网膜图片和疾病图片。为了形成对大范围人群糖尿病筛查的能力,研究人员试图建立一套自动化筛查模型,对人群的视网膜图片数据进行自动化分析,从而发现目标人群。在模型构建中,基于医学理论和实践,研究人员首先需要对图片显示的视网膜损伤进行分析和判断[4]。在个案病历中,只有经验丰富的医生才能通过肉眼观察和分析,对损伤进行专业判断。而在大规模筛查中,算法开发人员需要根据专家医生对眼底视网膜图片的分析判断数据,训练形成人工智能的自动化识别能力。其中的关键是构建视网膜损伤的指标化描述特征体系,训练算法自动识别分析图片,判断是否存在损伤,评估损伤的范围、程度及其他特征,形成自动化筛查的能力[5]。
二、算法构建可能面临的问题和解决方法
视网膜的损伤可能由多种原因引发的,糖尿病是原因之一。但是常见的黄斑变性、青光眼,或者视网膜撕裂、视网膜炎、视神经肿胀等也会引发视网膜损伤,形成类似的图片特征。因此,用视网膜损伤来预测糖尿病,并提醒早期治疗和介入的逻辑只是一个统计学意义上的有效逻辑,不见得可以适用于任何人士。
(一)基于基础研究的设计方案选择
按照欧盟人工智能法对高风险算法治理的规范要求,高风险AI系统开发过程中应关注相关系统、模型及基础研究设计上的方法论选择[6]。
在视网膜图片自动筛查工具的开发过程中,技术人员需要对眼底视网膜图片的损伤特征进行描述,形成特征性指标。该指标建构过程需要考虑视网膜损伤的医学特征是否具有独特性,是否会由其他病变引发类似特征,导致针对糖尿病的筛查目标被干扰。如果存在其他系统性的原因导致的视网膜损伤结果,算法开发和应用则需要特别关注,采取措施纠正。针对这一问题,有研究人员在发现使用深度学习技术对视网膜图片的甄别效果时,也提出需要研究不同的筛查算法,以应用于其他类型原因引发的视网膜疾病[7]。
这个例子说明,在构建算法模型的基本结构时,需要对“典型特征预示疾病”的因果关系问题进行关注。一个典型的方法是在研究中除了关注因果的相关性外,还要特别注意排除其他可能的解释,并采取适当的算法对统计学意义上有效的其他干扰因素进行专门分析,进而将研究目标所关注的因果关系独立出来,形成具有相对有效性的算法。
基础研究的科学方法论是达到人工智能治理所要求的按照预期目的使用、便于实现有效监督、确保系统安全性、可靠性的一个关键途径。
(二)数据局限性及其对算法数据训练、验证的影响
在建模过程中,视网膜损伤的病例往往来自于糖尿病治疗的病人数据。而人工智能应用的大规模筛查则需要适用于各类人群,不仅是糖尿病患者。因此,基于病例训练而来的算法是否可以有效地应用于一般人群,属于算法构建的外部有效性问题[8]。即经过实证验证的有效逻辑,或者基于实际数据训练的人工智能算法,是否可以扩展应用于更大范围的对象、不同的地理和社会环境的区域、不同年龄种族的人群等问题,需要考察算法应用逻辑向外部扩展的有效性。
根据欧盟人工智能法对高风险算法治理的要求,需要对数据集的适用性进行评估,即需要关注相关数据的局限性及其对模型或AI系统的影响[9]。
通常,在模型完成后,需要增加使用其他的方法,如采取措施排除并不适用的案例和数据,进而提高算法的有效性和筛查效率。在视网膜筛查的场景中,可以使用对筛查出来的人群额外进行用眼习惯的普查,获得样本中存在物理损伤的数据,进而将其排除在训练数据之外。
(三)误差问题
计量误差的产生可能是随机的,对统计推断有效性的影响不大。但是系统性的误差直接会影响有效性。例如,在眼底筛查场景人工智能算法训练过程中,先会有医生对图片进行定性标签化,形成训练数据。如果不同医生对损伤的评价存在不同的尺度把握,一个医生对图片的评价在积累到一定数量后,就会形成与其他医生完成的标签化数据之间的系统性误差。类似的情况在对数据进行标签化处理过程中都可能发生。例如,在通过使用问卷调查的方法对被调查群体使用毒品、管制药品或者不当驾驶行为等违法活动的调查时,通常需要依赖被调查人的主观配合。但问卷问题的敏感度很容易导致被调查人不愿意提供相关信息,或者提供的信息低于实际情况。这些计量误差直接会影响数据训练产生的算法模型结果。
在数据统计分析或建模过程中,通常应考虑采用系统化的方法,对计量误差进行衡量,并计入算法模型中,从而可以系统化地进行排除处理[10]。基于此,算法和AI治理的规范通常要求检查可能存在的模型或者分析预测系统的误差问题[11]。高风险AI系统的开发需要采取适当的方法甄别、预防可能的误差,并采取措施降低或纠治其影响[12]。
对于涉及到专家主观测评的计量指标,实践中可以采用引入更多评分人、更多的同类计量指标,进而提炼指标的方法。具体的措施也可以包括增加对评分人的培训,提高评估计量的稳定性和一致性,减少影响计量准确度的不可靠因素[13]。
三、小结
出于预测、分类、比对的目的,算法程序和各种模型被广泛应用于大数据分析、人工智能、机器学习中。无论数据和程序多么复杂,算法的设计都围绕着设计开发人员的目标,依照相应的理论逻辑和数据处理、运算规则,建立模型,实现预测和应用的目的。在这个意义上讲,不应存在无法理解的算法。任何算法的逻辑都应该是可以解释的,可以验证的。
虽然数据、算法、人工智能在技术上对于大多数法律工作者都是陌生的。但当前科技的研究和应用已经深入我们的生活,法治的要求不断推动法律研究向科技领域扩展。在立法和监管政策方面,学界也正在呼吁超越单纯的程序性要求,采取更为实质的方法,针对人工智能可能造成的问题进行规制[14]。
在本次应用场景的分析中我们仅仅触及了研究方法设计、数据指标计量有效性等问题。多个国家的立法对人工智能和算法安全、可靠、可控、可解释的监管预期要求算法构建过程中开发人员在数据治理、风险管理等多方面做出科学理性的选择。在具体的技术上,“条条道路通罗马”,只要方法适当、论证有理、证据充分,就应该可以满足算法合规的原则要求。
注释:
[1] EUAIA第53页,第6条,法律文本可在本链接下载,ELI: http://data.europa.eu/eli/reg/2024/1689/oj;
Regulation (EU) 2017/746 of the European Parliament and of the Council of 5 April 2017 on in vitro diagnostic medical devices and repealing Directive 98/79/EC and Commission Decision 2010/227/EU (OJ L 117, 5.5.2017, p. 176).
[2] 本文对医学领域研究和进展的评论仅从目前人工智能和算法治理的法律和合规角度展开,并非对其专业医学和技术进行任何判断或评估。本文评论的内容和意见也仅代表作者个人观点。
[3] 余陶然:《“人工智能医生”筛查糖尿病视网膜病变,准确率堪比专家小组》,载上观新闻2020年12月9日,https://www.shobserver.com/news/detail?id=320117
[4] Zhang Y, Shi J, Peng Y, et al. (2020) Artificial intelligence-enabled screening for diabetic retinopathy: a real-world, multicenter and prospective study. BMJ Open Diab Res Care 2020;8:e001596. doi:10.1136/bmjdrc-2020-001596. Artificial intelligence-enabled screening for diabetic retinopathy: a real-world, multicenter and prospective study - PubMed (nih.gov)
[5] Huang X, Wang H, She C, Feng J, Liu X, Hu X, Chen L and Tao Y (2022) Artificial intelligence promotes the diagnosis and screening of diabetic retinopathy. Front. Endocrinol. 13:946915. doi: 10.3389/fendo.2022.946915 https://www.frontiersin.org/articles/10.3389/fendo.2022.946915/full
[6] EUAIA,第57页,第10(2)(a)条。
[7] Carson Lam, Carolina Yu, Laura Huang, and Daniel Rubin (2018) Retinal Lesion Detection with Deep Learning Using Image Patches. Investigative Ophthalmology & Visual Science January 2018, Vol.59, 590-596, P595. doi:https://doi.org/10.1167/iovs.17-22721
[8] Shadish, William R., Cook, Thomas D., and Campbell, Donald T. (2002) Experimental and Quasi-Experimental Designs for Generalized Causal Inference, Houghton Mifflin Company: Boston, NY. Pp37-42.
[9] EUAIA,第57页,第10(2)(e)条。
[10] Blattman, Chrisopher, Jamison, Julian, Koroknay-Palicz, Tricia, Rodrigues, Katherine, and Sheridan, Margaret, (2016) Measuring the measurement error: A method to qualitatively validate survey data. Journal of Development Economics, Vol 120, May 2016, pps 99-112.
[11] EUAIA,第57页,第10(2)(f)条。
[12] EUAIA,第57页,第10(2)(g)条。
[13] Zhang Y, Shi J, Peng Y, et al. (2020) Artificial intelligence-enabled screening for diabetic retinopathy: a real-world, multicenter and prospective study. BMJ Open Diab Res Care 2020;8:e001596. doi:10.1136/bmjdrc-2020-001596. Artificial intelligence-enabled screening for diabetic retinopathy: a real-world, multicenter and prospective study - PubMed (nih.gov) 为了保证问卷调查的质量和稳定性,Fowler (2002)对培训访谈人的方法和注意事项进行了系统的讨论。Fowler, Jr., Floyd J. (2002) Survey Research Methods, 3rd Ed., Sage Publications. Thousand Oaks。
[14] Hartzog, Woodrow (2024) Two AI Truths and a Lie, in Special Issue: Yale Information Society Project Digital Public Sphere Series, Yale Journal of Law & Technology, Vol 26, Issue 3, pps 595-644.