《人工智能医疗器械注册审查指导原则》解读

来源:IM体育电竞平台 作者:IM体育官方网站 浏览次数:21

  对于软件安全性级别为轻微级别的产品,在软件研究资料中明确算法基本信息即可,无需提供算法研究资料。

  国家药监局器审中心(CMDE)曾发布《人工智能医疗器械注册审查指导原则》。本文首先从整体层面上介绍了框架目录,其次针对指导原则的重点内容进行解读,最后简列了一些相关的规范性文件简介,供大家参考。

  《人工智能医疗器械注册审查指导原则》(以下简称《指导原则》)主要是基于深度学习的审评要点,同时结合了审评工作中的经验,参考国际监管进展,综合制定出台。

  《指导原则》从三个方面介绍了智能医疗企业监管的三条基本原则,从五个方面介绍了人工智能医疗器械的生存周期过程要求,从十六个方面的专题设计了技术考量。

  《指导原则》主要是在深度学习软件审批要点的基础之上进行了进一步细化,并且新增部分内容说明。一是要求更为细致,主要体现在人工智能医疗器械类型、人工智能医疗器械生存周期过程、自动标注、在线标注、算法性能评估结果比较分析、算法性能综合评价、迁移学习、第三方数据库、白盒算法、注册申报资料补充说明等方面;二是内容更为全面,新增压力测试、对抗测试、生成对抗网络、集成学习、强化学习、联邦学习、持续学习/自适应学习、人工智能算法框架、人工智能芯片、注册单元与检测单元、算法研究资料、人因与可用性等说明。

  《指导原则》适用于人工智能医疗器械的注册申报,包括第二类、第三类人工智能独立软件和含有人工智能软件组件的医疗器械(包括体外诊断器械),也适用于自研软件的注册申报,现成软件组件参照执行,不适用于外部软件环境。因此,《指导原则》取代了《深度学习辅助决策医疗器械软件审评要点》非临床部分的要求,可用作人工智能医疗器械体系核查的参考,质量管理软件若采用人工智能技术亦可参考适用要求。

  人工智能算法的类型不同,其算法特性、适用场景也不同,评价重点亦有所侧重;同时,不同类型的人工智能算法可组合使用,需结合各算法特性和算法组合形式进行整体评价。需重点关注算法泛化能力、数据质量控制,兼顾算力不足与失效的影响。

  人工智能医疗器械的风险水平用软件安全性级别进行表述,基于产品的预期用途、使用场景、核心功能进行综合判定,监管要求取决于软件安全性级别(轻微<中等严重)。

  人工智能医疗器械的主要风险从算法角度包括过拟合和欠拟合,从用途角度主要包括假阴性和假阳性,其中假阴性即漏诊,可能导致后续诊疗活动延误,特别是要考虑快速进展疾病的诊疗活动延误风险,而假阳性即误诊,可能导致后续不必要的诊疗活动。此外,进口人工智能医疗器械还需考虑中外差异风险,如人种、流行病学特征、临床诊疗规范等差异。

  人工智能医疗器械是基于“医疗器械数据”,采用人工智能技术实现其预期用途(即医疗用途)的医疗器械。医疗器械数据是指医疗器械产生的用于医疗用途的客观数据;基于医疗器械数据包括医疗器械数据的生成、使用等情况。

  人工智能是指机器表现出与人类智能相关行为的能力,通常是指通过感知周围环境做出合理行动以达到预期目标的计算机软件或系统。机器学习是指与人类学习行为相关的人工智能,通常是指通过整理现有数据和/或获取新数据以提升性能的计算机软件或系统。机器学习虽是人工智能的子集,但却为人工智能的核心领域,当前二者对于医疗器械而言含义基本相同。

  人工智能医疗器械从用途角度可分为辅助决策类和非辅助决策类。其中,辅助决策是指通过提供诊疗活动建议辅助用户进行医疗决策,相当于用户的“助手”。反之,仅提供医疗参考信息而不进行医疗决策即为非辅助决策,相当于用户的“工具”。

  人工智能医疗器械从功能角度大体上可分为处理功能、控制功能、安全功能。其中,处理功能又可分为前处理功能和后处理功能,前处理功能是指采集解剖、生理信息生成医疗器械数据过程的处理功能,如成像流程简化、成像质量改善、成像速度提高等;后处理功能是指利用医疗器械数据生成诊疗信息或进行医疗干预过程的处理功能,如诊疗流程简化、自动测量等。控制功能是指控制/驱动医疗器械硬件运行的功能,如闭环控制、机械臂运动控制等。安全功能是指保证医疗器械安全性的功能,如风险预警、急停控制等。

  人工智能医疗器械从算法角度具有多种类型划分维度。从学习策略角度可分为有监督学习和无监督学习,区别在于是否需要对训练数据进行标注。从学习方法角度可分为基于模型的算法和基于数据的算法。从可解释性角度可分为白盒算法和黑盒算法,前者特征提取需要人为干预,可与现有医学知识建立关联,后者自动完成特征提取,难与现有医学知识建立关联,前者可解释性优于后者。

  同样,人工智能医疗器械从成熟度角度可分为成熟和全新两种类型,其中成熟是指安全有效性已在医疗实践中得到充分证实的情形,全新是指未上市或安全有效性尚未在医疗实践中得到充分证实的情形。人工智能医疗器械的算法、功能、用途若有一项为全新则属于全新类型,反之属于成熟类型。

  人工智能算法更新属于软件更新范畴,故遵循软件更新的基本原则及要求:人工智能算法更新若影响到人工智能医疗器械的安全性或有效性则属于重大软件更新,应申请变更注册;反之,人工智能算法更新若未影响到人工智能医疗器械的安全性和有效性则属于轻微软件更新,通过质量管理体系进行控制,无需申请变更注册,待下次变更注册时提交相应注册申报资料。

  人工智能算法更新可分为算法驱动型更新和数据驱动型更新。其中,算法驱动型更新是指人工智能医疗器械所用算法、算法结构、算法流程、算法编程框架(详见后文)、输入输出数据类型等发生改变,通常属于重大软件更新。此外,算法重新训练即弃用原有训练数据而采用全新训练数据进行算法训练,亦属于算法驱动型更新。

  数据驱动型更新是指仅由训练数据量增加而发生的算法更新。数据驱动型更新是否属于重大软件更新原则上以算法性能评估结果(基于相同的测试集和算法性能评估指标)为准,算法性能评估结果若发生显著性改变则属于重大软件更新,即算法性能评估结果与前次注册(而非前次更新)相比存在统计学差异,反之属于轻微软件更新。

  软件版本命名规则原则上应涵盖算法驱动型更新和数据驱动型更新,明确并区分重大软件更新和轻微软件更新,其中重大软件更新列举常见典型情况。软件版本命名规则的基本要求详见医疗器械软件指导原则、医疗器械网络安全指导原则。

  有监督深度学习是当前人工智能医疗器械的主流算法,故《指导原则》以有监督深度学习为例详述人工智能医疗器械生存周期过程质控要求,其他类型的人工智能算法可参照执行。主要环节包括需求分析、数据收集、算法设计、验证与确认、更新控制等阶段,需重点关注体系记录、数据质控、算法更新、算法可追溯分析,增强透明度。

  此外,人工智能医疗器械所含的每个人工智能算法或算法组合,均需独立开展质控活动,同时考虑人工智能算法组合的整体评价要求,以保证产品的安全有效性。前期已开发的人工智能医疗器械若不满足本指导原则的适用要求,应开展差距分析并予以记录,明确产品使用限制和必要警示提示信息。必要时采取补救措施,以满足质量管理体系要求,并保证产品的安全有效性。

  为保证数据质量和控制数据偏倚,数据收集需考虑数据来源的合规性、充分性和多样性,数据分布的科学性和合理性,数据质控的充分性、有效性和准确性。

  算法性能需结合医疗实际和产品定位,综合考虑假阴性与假阳性、重复性与再现性、鲁棒性/健壮性、实时性等性能指标的适用性及其要求,兼顾不同性能指标的制约关系,如假阴性与假阳性等。同时,结合当前医疗水平情况,考虑金标准或参考标准的确定依据、实现方法和质控要求,以保证算法性能评估的准确性,必要时纳入数据收集过程。

  数据收集基于合规性要求,主要考虑数据采集、数据整理、数据标注、数据集构建等活动的质控要求,以保证数据质量和算法训练效果。

  数据采集需考虑采集设备、采集过程、数据脱敏等质控要求,并建立数据采集操作规范。数据整理基于原始数据库考虑数据清洗、数据预处理的质控要求。数据标注作为有监督学习数据质控的关键环节,需建立数据标注操作规范,明确标注资源管理、标注过程质控、标注质量评估等要求。

  数据集构建是指基于标注数据库构建训练集(用于算法训练)、调优集(若有,用于算法超参数调优)、测试集(用于算法性能评估);为解决样本分布不满足预期的问题,可对训练集、调优集小样本量数据进行扩增,原则上不得对测试集进行数据扩增。

  人工智能算法作为人工智能医疗器械的核心,其设计主要考虑算法选择、算法训练、算法性能评估等要求。

  算法选择提供所用算法的名称、类型(如有监督学习、无监督学习,基于模型、基于数据,白盒、黑盒)、结构(如层数、参数规模)、输入输出数据类型、流程图、算法编程框架、运行环境等基本信息,并明确算法选用依据,包括选用的理由和基本原则。

  算法训练需基于训练集、调优集进行训练和调优,考虑评估指标、训练方式、训练目标、调优方式、训练数据量-评估指标曲线等要求。

  算法性能评估作为软件验证的重要组成部分,需基于测试集对算法设计结果进行评估,综合考虑假阴性与假阳性、重复性与再现性、鲁棒性/健壮性、实时性等适用评估要求,以证实算法性能满足算法设计目标,并作为软件验证、软件确认的基础。亦可基于第三方数据库开展算法性能评估。

  软件验证是指通过提供客观证据认定软件开发、软件更新某一阶段的输出满足输入要求,包括软件验证测试(单元测试、集成测试、系统测试)、设计评审等系列活动。

  软件确认是指通过提供客观证据认定软件满足用户需求和预期目的,包括软件确认测试(用户测试)、临床评价、设计评审等系列活动。根据产品实际情况,软件确认方式可单一使用,亦可组合使用。软件确认测试基于用户需求,由预期用户在真实或模拟使用场景下予以开展,亦可基于测评数据库予以开展。临床评价基于核心功能或核心算法,结合预期用途和成熟度予以综合考虑。同时,开展算法性能比较分析,若各类测试场景(含临床评价)算法性能变异度较大,详述原因并基于分析结果明确产品使用限制和必要警示提示信息。最后,结合算法训练、算法性能评估、临床评价等结果开展算法性能综合评价,针对训练样本量和测试样本量过少、测试结果明显低于算法设计目标、算法性能变异度过大等情况,对产品的适用范围、使用场景、核心功能进行必要限制。

  按照质量管理体系,开展与算法更新、软件更新的类型、内容和程度相适宜的验证与确认活动,将风险管理、可追溯分析贯穿于更新全程,形成记录以供体系核查。

  对于算法更新,无论算法驱动型更新还是数据驱动型更新,均应开展相应验证与确认活动,如算法性能评估、临床评价等,以保证算法更新的安全有效性。

  人工智能医疗器械的注册单元与检测单元划分原则详见医疗器械软件指导原则,人工智能独立软件、人工智能软件组件分别参照独立软件、软件组件的要求。

  若软件核心功能(即软件在预期使用场景完成预期用途所必需的功能)相同,但核心算法(即实现软件核心功能所必需的算法)类型不同,则每类核心算法所对应的核心功能均需检测,即检测对象为核心功能而非核心算法。

  数据转移需明确转移方法、数据污染防护措施、数据销毁等要求。数据整理、数据集构建、算法训练、算法性能评估、软件验证等内部活动需在封闭或受控的网络环境下开展以防止数据污染。数据标注、软件确认等涉及外方的活动需明确数据污染防护措。


im体育电竞