2024.8 设计可解释的 ML 系统以增强对医疗保健的信任：对提出的负责任的临床医生-AI 协作框架的系统评价-EW帮帮网

https://www.sciencedirect.com/science/article/pii/S1566253524001908?via%3Dihub

论文的详细信息如下：

问题：

哪些医疗应用使用了解释性人工智能工具？
医疗应用中的可解释性当前采用了哪些方法？
如何为特定终端用户实施和评估强大的可解释人工智能？
在医疗领域使用可解释人工智能的潜在未来趋势和关键挑战是什么？

挑战：

人工智能算法复杂，难以提供易于理解的决策解释，导致终端用户不信任，尤其是在医疗保健领域。
深度学习模型如 DNN 的输出难以理解和信任，与传统机器学习方法相比，其训练过程复杂，增加了理解难度。
对于黑箱模型，缺乏透明度，决策过程难以理解，引发对模型可靠性的质疑。
尽管可解释性重要，但在追求高精度时，往往会牺牲模型的可解释性。
解释性方法本身存在局限性，如依赖人类解释可能导致认知偏差，且解释的性能难以保证。

创新点：

对医疗领域中可解释机器学习（IML）和可解释人工智能（XAI）的整个过程进行了首次系统综述，并提供了逐步评估和实施路线图。
提出了一个跨三个层次的临床决策支持系统可解释性框架，详细探讨了每个层次中与 XAI 相关的健康应用。
强调了从数据收集到决策的整个智能健康系统过程中实施可解释系统的重要性。

贡献：

提供了医疗领域中可解释人工智能的一般定义。
介绍了临床决策支持系统可解释性框架，涵盖预处理可解释性、可解释建模和后处理可解释性。
探讨了框架各层级中与 XAI 相关的健康应用，并基于相关实验结果进行分析。
讨论了用于评估智能健康系统中 XAI 的质量评估工具。
提出了在临床环境中实施 XAI 的分步路线图。

提出的方法：

遵循系统评价和荟萃分析的首选报告项目（PRISMA）标准进行系统综述，包括确定搜索技术、选择标准和数据提取方法。
提出智能健康系统的可解释性过程，强调在临床系统的整个过程中需要多样化、用户友好且可信的解释，以增强人工智能与临床医生之间的沟通并满足终端用户需求。
建立健康到数据中心（D2H），该中心包含临床医生 - 人工智能沟通台、数据科学家帮助台、质量评估委员会和伦理审查委员会四个关键组件，作为将强大的可解释性和可解释性集成到医疗保健中的系统方法。

指标：

论文未明确提及特定的评估指标，但在质量评估和改进可解释性过程部分，重点关注终端用户（如患者、医生、护士、护理人员、卫生系统管理人员和其他领域专家）对解释的可理解性，以此来评估所提出的可解释性框架在医疗保健和医学中的有效性。

模型结构：

论文未提及具体的模型结构，主要围绕智能健康系统中可解释性和可解释人工智能的过程、方法、应用、挑战等方面进行研究，提出了包含预处理可解释性、可解释建模和后处理可解释性的可解释性过程分类，以及由临床医生 - 人工智能沟通台、数据科学家帮助台、质量评估委员会和伦理审查委员会组成的健康到数据中心（D2H）框架结构，但并非传统意义上的模型结构描述。

结论：

人工智能有望极大影响医学未来，但仅依赖解释性来指导个体患者决策可能并非最佳策略。当前解释性方法无法保证特定决策的正确性、增强信任或证明人工智能推荐的临床应用合理性。然而，这并不削弱在医疗保健和医学中实施强大的可解释机器学习（IML）和可解释人工智能（XAI）的重要性，其对于提高终端用户对健康系统的信任、促进临床医生与人工智能之间的沟通至关重要。

剩余挑战和未来工作：

确定哪种解释方法最有效以及如何评估解释质量。
如何根据特定终端用户定制解释。
如何在性能和可解释性之间取得平衡。
如何针对特定健康应用设计系统并确保持续改进。

数据集：

论文未提及使用特定的数据集，主要是对已发表的关于在医疗环境中应用 IML 和 XAI 的研究进行系统综述，通过在 PubMed、Scopus 和 Web of Science 数据库中使用敏感和特定的搜索字符串进行文献搜索，经过去重、筛选、质量评估等步骤，最终选择了 74 篇出版物进行数据提取，包括 10 篇有见地的综述和 64 篇相关实验研究，但未明确涉及特定数据集的使用情况。

原文

抽象的

背景

基于人工智能(AI) 的医疗设备和数字健康技术，包括医疗传感器、可穿戴健康追踪器、远程医疗、移动医疗 (mHealth)、大型语言模型 (LLM) 和数字护理孪生 (DCT)，极大地影响了医疗保健和医疗应用中临床决策支持系统(CDSS)的过程。然而，考虑到医疗决策的复杂性，至关重要的是，AI 工具生成的结果不仅要正确，而且要经过仔细评估、可理解和可向最终用户（尤其是临床医生）解释。在传达 AI 临床决策时缺乏可解释性，这可能导致决策者之间的不信任和不愿使用这些技术。

客观的

本文系统地回顾了医疗保健和医学领域中可解释机器学习(IML) 和可解释人工智能 (XAI)相关的过程和挑战。其主要目标是研究 IML 和 XAI 的过程、它们的相关方法、应用以及它们在数字健康干预 (DHI) 中带来的实施挑战，特别是从质量控制的角度，以帮助理解和改善 AI 系统与临床医生之间的沟通。IML 过程分为预处理可解释性、可解释建模和后处理可解释性。本文旨在通过回顾相关实验结果，全面理解临床决策支持系统(CDSS) 中稳健可解释性方法的重要性。目标是为未来的研究人员提供见解，以创建在医疗保健决策支持系统中更具交流性的临床医生 AI 工具，并提供对其挑战的更深入了解。

方法

我们的研究问题、资格标准和主要目标是使用系统评价和荟萃分析的首选报告项目 (PRISMA) 指南和 PICO（人群、干预、控制和结果）方法验证的。我们使用敏感且特定的搜索字符串系统地搜索了PubMed、Scopus和 Web of Science 数据库。随后，使用 EndNote 和 Covidence 删除了重复的论文。然后在 Covidence 上进行了两阶段的选择过程，首先按标题和摘要进行筛选，然后进行全文评估。使用元质量评估工具 (MetaQAT) 评估质量和偏倚风险。最后，采用标准化数据提取工具进行可靠的数据挖掘。

结果

搜索共得到 2,241 条记录，其中删除了 555 篇重复论文。在标题和摘要筛选步骤中，共排除了 958 篇论文，在全文审查步骤中，共排除了 482 项研究。随后，在质量和偏倚风险评估中，共删除了 172 篇论文。最终选择了 74 篇出版物进行数据提取，形成了 10 篇富有洞察力的评论和 64 篇相关的实验研究。

结论

本文对医学领域的可解释人工智能 (XAI) 给出了一般定义，并介绍了一个跨三个层次的临床决策支持系统可解释性框架。它探讨了该框架每个层级内与 XAI 相关的健康应用，并以相关实验结果的回顾为基础。此外，本文还详细讨论了用于评估智能健康系统中 XAI 的质量评估工具。它还介绍了在临床环境中实施 XAI 的分步路线图。为了引导未来的研究弥合当前的差距，本文从各个角度研究了 XAI 模型的重要性并承认了它们的局限性。

关键词

可解释的机器学习

基于人工智能的医疗设备

非结构化数据

医学大型语言模型

人机交互

可穿戴医疗设备

可解释的因果分析

负责任的人工智能

1.引言

如今，人工智能(AI) 已深深融入我们的生活，帮助各个领域应对复杂挑战并彻底改变传统的决策方法[1]。机器学习(ML) 和AI 模型可用于我们日常生活的许多方面，例如在汽车中用于导航、在智能手表中用于追踪健康状况[2]、在智能手机中用于识别我们的声音、在诊所中用于预测疾病[3]、在医院中用于协助医生进行手术[4]、在医学中用于药物研发[5]等等。此外，由于 AI 解决方案与传统方法相比具有显著的效率[6] ，各个行业都在探索将 AI 解决方案应用到其流程中。在医疗保健和医学领域，特别是在临床决策支持系统中， AI 技术的应用在不断发展和进步。智能健康系统中的准确预测需要大量数据，而大多数电子病历(EMR) 都是多维的且极其复杂[7] 。此外，由于经典机器学习算法（例如随机森林(RF)、决策树(DT) 和线性回归(LR)）在从临床数据中提取隐藏模式方面不如深度神经网络(DNN)精确，因此必须应用复杂的 DNN [8] 。然而，随着这些预测模型中的层数、特征和超参数数量的增加，这些 AI 工具的操作变得越来越难以理解。[9]。

由于正则化、超参数调整和损失函数， DNN 方法的训练过程非常复杂。因此，与RF、DT 和KNN [10]等经典 ML 方法的输出相比， DNN 算法的输出更难理解和信任。根据这些结果，决策者和护理人员面临着一个重大挑战：黑箱模型[11]。基本 ML 模型更容易解释。在这种情况下，解释是指提供易于理解的解释的能力，旨在增强临床决策支持系统 (CDSS) [12]中的临床医生与 AI 的沟通。更简单的 ML 模型被视为白盒模型，不需要添加参数或函数即可产生透明的结果。此外，还有一个介于黑盒和白盒模型之间的概念，称为灰盒模型。如果设计得当，这些方法很容易解释[13]。以下段落将描述医疗保健系统中黑盒模型面临的挑战。

1.1医疗保健领域可解释性的一般概念

人工智能是一项创新技术，可为实际应用中的决策者带来诸多好处。然而，由于算法的复杂性，现代人工智能系统在为其决策提供易于理解的解释方面面临挑战。这种不透明性可能导致最终用户的不信任，特别是在医疗保健和医学等关键领域[14]。为了解决黑箱问题，开发人员必须优先考虑可解释性，而不是准确性和性能。这一优先事项导致了近年来可解释机器学习(IML) 和可解释人工智能 (XAI) 的兴起。解释机器学习模型涉及理解其预测以及患者、临床医生和开发人员的决策过程。可解释性在许多情况下都至关重要，无论是为了满足法律要求、防止偏见决策还是增强用户信心[15]。可解释性有几个优点，包括 (1) 帮助用户在 ML 模型中找到清晰的模式；(2) 使用户能够理解不准确预测背后的原因；(3) 在模型预测中建立最终用户之间的信任； (4) 使用户能够检测 ML 模型中的偏差；(5) 提供额外的安全措施以防止过度拟合。在大多数情况下，ML 和DL方法充当黑盒模型，用户不知道内部工作原理、如何选择特征以及如何进行预测。这种缺乏透明度的情况常常导致人们产生怀疑，并引发有关医疗系统决策者对模型可靠性的基本问题。图 1说明了有关 AI 决策过程的常见问题和担忧。

图 1.说明了关于医疗保健领域人工智能的常见问题，例如模型成功或失败的情况、特征选择的原因以及模型输出的整体可信度。

XAI 在医疗保健和医学领域有许多应用。目前，可解释性是医学领域的主要关注点，以便为患者和护理人员提供易于理解的结果，并增强他们对特定应用的信任，例如药物发现 [16]、甲状腺 [17]、父母压力 [18]、可穿戴健康追踪器和生物传感器 [19]和呼吸系统疾病 [20]。当系统无法清晰解释模型如何得出决策时，人工智能就会出现黑盒问题。黑盒、灰盒和白盒这几个术语描述了机器学习算法内部运作的不同透明度级别。可解释性的基本原理与可解释性密切相关；如果人类能够理解方法的工作原理并做出决策，则方法被认为是可解释的。

1.2医疗保健透明度的重要性

透明度和可解释性对于医疗环境中的 AI 实施至关重要，因为不准确的决策（例如疾病预测）可能导致严重挑战[11]。医疗系统中的护理人员和决策者过于担心 AI 工具的黑箱性质。该方法涉及创建在可解释性和准确性之间取得平衡的 ML 模型，这可以通过以下方式实现：(a) 设计本质上可解释的白盒或灰盒模型 [21]，同时保持高精度；或 (b) 当白盒或灰盒模型无法达到可接受的精度水平时，用基本的可解释性增强黑盒模型。虽然一些研究人员认为解释黑盒模型是有益的，但最好从开发过程一开始就创建可解释的模型 [21]。依赖解释黑盒工具，而不是本质上设计可解释的模型，可能会导致临床环境中的患者出现严重后果。可解释性方法超越了简单的预测；它提供了额外的信息来了解 AI 临床决策支持系统的工作原理。这对于开发人员和临床医生等终端用户尤其有用 [10]。另一方面，可解释性让终端用户了解临床决策过程，这有助于建立信任，相信人工智能工具能够根据信息做出准确、公正的决策 [1]。

换句话说，白盒模型专为可解释性而设计，使其结果更容易理解，但可能导致准确度略低。它们适用于可解释性和透明度至关重要的应用，例如医疗诊断 [14]。另一方面，黑盒模型虽然更正确，但可解释性较差。它们适用于以实现最高预测准确度为主要目标、可解释性不太重要的任务，例如犯罪问题的图像识别。灰盒模型提供了一种平衡，在可解释性和准确性之间提供了良好的权衡。它们适用于广泛的应用，在白盒模型和黑盒模型之间提供了一个中间立场 [22]。图2显示了这些模型之间的差异。

图 2. a ) 白盒、b) 灰盒和 c) 黑盒模型的比较：说明了不同类型的机器学习模型之间的权衡：a) 白盒模型完全透明且易于理解，尽管准确度可能较低，但仍能赢得用户信任；b) 灰盒模型在一定的可解释性和中等复杂性之间取得平衡，但最终用户仍在寻求进一步的清晰度；c) 黑盒模型准确度高但缺乏透明度，导致最终用户对决策过程感到困惑。

1.3 .平衡医疗保健系统中的准确性和可解释性

在医疗保健和医学领域，研究人员努力寻找合适的模型，而临床医生则寻求易于理解和解释的模型。然而，优先实现最高精度可能会导致更复杂、更难解释的模型。随着人工智能在医学领域的日益普及，认识到这种平衡对于有效的医疗决策至关重要，尤其是在慢性病预测分析等领域。在一些实验中，结合可解释的模型可以提供更多可解释的见解；然而，为了实现最大的准确性，可能会牺牲一定程度的可解释性。例如，虽然决策树 (DT) 本质上是可解释的，但当它们被反复使用并组合在 RF 等模型中时，它们会变得难以理解。这强调了像 DNN 这样的复杂模型可能会为了更高的准确性而牺牲可解释性。在这种情况下，可解释性变得更加关键，因为它有助于理解复杂的黑箱系统 [22]。例如，像 CNN (卷积神经网络) 这样的深度学习技术比 RF 更难解释，而像 DT 这样的经典 ML 方法比 RF 更容易解释。虽然经典的机器学习模型（例如 LR）具有较少的功能，使其更易于理解，但随着参数数量的增加，模型会变得非常复杂。 [23]。在黑盒、灰盒和白盒模型之间定义明确的界限具有挑战性。

值得强调的是，一些作者指出，没有科学证据支持准确性和可解释性之间的总体平衡 [23]。虽然大多数 ML 模型在追求最高精度的过程中往往会牺牲可解释性，但从预处理阶段开始设计精确的可解释性可能会导致可解释性和性能之间的显著权衡。此外，鉴于医疗决策支持系统的关键重要性及其对个人生活的潜在改变影响，在智能医疗系统的整个过程中（从数据收集到决策）实现可解释的系统至关重要。解释对于理解整个过程、增强最终用户和系统之间的信任、改善临床医生和人工智能之间的交互和沟通、帮助决策支持系统随着时间的推移进行学习和更新以及简化不同 ML 模型之间的比较至关重要 [23]。近年来，研究人员越来越多地强调在医疗保健和医学中实施 IML 和 XAI 的重要性 [ 24 , 16 ]。本研究全面概述了可解释性过程在临床决策支持系统中的重要性，包括预处理可解释性、可解释建模和后处理可解释性。可解释性超越了学术兴趣；它将成为未来医疗保健和医学领域人工智能应用的一个重要方面，影响数百万护理人员和患者的日常生活。

1.4 .可解释性在数字健康干预（DHI）中的作用

XAI 工具旨在遵循 WHO（世界卫生组织）的指导方针 [25] ，使智能医疗系统对数字健康干预 (DHI)（包括患者、患者家属、医疗专业人员、医疗系统管理人员和数据服务）更具沟通性和透明度。自动化临床决策和解决问题的系统可能理解医学多维数据中的复杂结构，但难以解释黑箱模型中的隐藏模式。这表明人工智能带来了创造性的解决方案，同时也带来了安全性、隐私性、包容性和多样性以及透明度等关键挑战 [26]。图 3通过在 DHI 领域实施 XAI 打开了一扇窗户来突出显示其优势。

图 3。XAI在数字健康干预中的作用：展示了 XAI 对数字健康领域不同利益相关者的益处：提高患者信任度、帮助医疗保健提供者进行决策、提高管理人员的系统效率、促进数据服务的产品开发。

DHI 分类应用于实施智能健康系统，以满足可解释决策等健康需求，从而增强临床医生的 AI 沟通。该框架概述了需求和挑战，以帮助决策者强调可解释性和可解释性对电子健康结果的重要性 [10]。这种 DHI 分类还描述了适用于各种健康系统的方法，例如电子健康记录(EHR)、远程医疗平台和临床决策支持系统(CDSS)。根据世卫组织旨在提高 AI 可解释性过程中高可沟通性的指南，必须将医疗数字解决方案中的所有这些 DHI（数字健康干预）类别视为目标和非目标客户之间的传输和通信系统。此外，它们还充当医疗保健提供者之间的决策支持、咨询和沟通系统 [27]。

1.5当前健康应用中的可解释性方法

机器学习决策主要有两种解释：固有可解释性和后处理可解释性方法。固有可解释性是指直接且易于理解的输入数据与模型输出之间的联系。DT 或 LR 等模型体现了这种方法。然而，即使是简单易懂的模型也会受到无法立即识别的隐藏因素的限制。人机交互研究表明，过度透明度会阻碍用户指出和纠正重大模型错误的能力。这可能是因为用户被信息淹没了。即使对于有意设计的清晰且易于解释的模型，这种现象也是如此。此外，更多的研究证明，即使是数据科学家有时也会过度依赖可解释性工具，导致难以准确描述这些工具生成的可视化效果。因此，虽然可解释性对于理解和信任机器学习模型至关重要，但在不让用户不知所措的情况下实现透明度的适当平衡仍然是一项重大挑战 [28]。

与本质上可解释的模型不同， 许多现代人工智能应用涉及的数据和模型过于复杂和多维，无法通过简单的输入和输出关系轻松理解。此类复杂模型的示例包括为图像分析、文本处理和声音识别等任务而设计的模型。 在这些情况下，重点已转向阐明模型的决策过程，这种做法称为可解释性。虽然显著图作为事后可解释工具在医学成像中很受欢迎，但它也有局限性。它们可能会突出显示混合了有用和不太有用信息的区域。此外，它们不能准确洞察模型认为哪些方面对诊断很重要。例如，目前尚不清楚模型的决策是由特定的异常、形状还是技术细节引导的 [29]。

机器学习中的可解释性方法通常面临可解释性差距，因为它们依赖于人类来弄清楚给定解释的含义。然而，人类倾向于给出积极的解释，认为他们认为重要的特征就是模型所使用的特征。这种倾向是一种众所周知的认知错误，称为确认偏差。计算机科学家 Cynthia Rudin 简洁地概括了这个问题，她主张不再使用解释黑箱机器学习模型来做高风险决策，而是提倡使用可解释的模型。这种方法旨在减少对人类解释的依赖，并减轻确认偏差带来的潜在偏见。通过采用本质上可解释的模型（如 DT 或 LR），利益相关者可以更有信心理解和信任决策过程，而无需复杂的解释 [21]。

除了热图之外，人们还开发了各种其他方法来解释复杂的医疗数据。其中包括特征可视化等技术。特征可视化涉及创建强烈激活机器学习模型特定部分的合成输入。这使得每个模型决策都可以被理解为在输入中检测到的特征的组合。然而，这种方法的一个局限性是合成输入通常不直接对应于易于解释的人类特征。因此，它们面临着与热图类似的可解释性问题。例如，如果合成输入类似于人类用于规划的特征（例如狗检测 AI 模型中的毛皮状纹理），人类仍然需要弄清楚这是否意味着模型做出了正确的决定。换句话说， 虽然特征可视化提供了对模型如何工作的洞察，但对这些合成输入的解释仍然是主观的，需要仔细考虑以确保有意义的洞察[30]。其他众所周知的当前解释方法也存在类似的问题，如局部可解释的模型不可知解释 (LIME) 和 Shapley 值 (SHAP)。 LIME 专注于理解个人层面的决策，方法是稍微改变输入示例并找出哪些改变最有可能影响决策。图像分析涉及遮挡图像的某些部分，从而生成描述决策关键组成部分的热图。然而，这些解释面临着与显着性映射类似的可解释性挑战。LIME 和 SHAP 都用途广泛，可用于各种类型的医疗保健数据，包括来自电子健康记录的结构化数据和脑电图波形数据 [ 31 , 32 ]。

1.6 .本综述的动机和目的

近年来，医疗卫生和医学领域的学者研究了XAI和IML在疾病诊断等现实医疗应用中的作用。然而，该领域现有的大多数评论和调查主要集中于比较各种XAI方法之间的差异 [24]，探索白盒模型的好处 [33]，讨论避免使用黑盒模型的原因 [34]，以及研究卫生系统中的相关指南 [26]。一些评论强调了XAI在特定健康应用中的作用，如肿瘤学 [35]、心脏病 [36]和药物发现 [16]。附录4总结了医疗卫生和医学领域的重要调查和XAI。在医疗卫生和医学领域，在临床决策支持系统的整个过程中，包括预处理、处理和后处理阶段，解释和理解AI模型至关重要。然而，根据我们目前的知识，还没有一篇评论从预处理阶段彻底研究过XAI和IML的实施。现有的大多数研究主要集中于解释模型及其结果。此外，在深入研究白盒或灰盒模型的选择，或尝试理解黑盒模型在患者预测分析和决策中的作用之前，在预处理阶段使用相关的解释工具至关重要。这些工具可以深入了解数据的分布、质量和关系，帮助识别可能影响模型性能的潜在问题或偏差。通过提前了解数据状况，医疗保健专业人员可以就模型选择和解释做出更明智的决策，从而提高 AI 驱动的医疗保健解决方案的可靠性和有效性。

在人工智能的可解释性背景下，研究人员面临着一个重大挑战：解释通常缺乏性能保证。它们的性能很少得到严格评估，而且在测试时，它通常依赖于启发式测量，而不是直接考虑人类的观点。这带来了一个问题，因为解释只近似于模型的决策过程，可能无法完全代表底层模型的行为方式。 使用后处理可解释人工智能工具来评估模型决策会引入额外的潜在错误来源。生成的解释可能是正确的，也可能是不正确的，就像模型一样。鉴于这些挑战，研究人员必须考虑是倾向于完整的复杂模型，这种模型可能超出人类的理解范围，但具有经过验证的高性能，还是选择可能导致准确性降低和未经验证的解释机制。可解释性方法虽然并非无用，但确实有局限性。它们有时会在理解复杂的人工智能行为时造成混淆或误导。当它们描述模型的行为方式时，它们并不总是能证明其决策的合理性。这种差距导致依赖直觉，从而引入偏见。过度依赖解释可能会导致对人工智能系统的监督不够谨慎。检测和预防算法偏差至关重要，但目前的研究工作还不够。与其对每个预测都使用解释，不如将它们视为模型运作方式的所有视角。例如，如果热图始终显示诊断模型专注于不相关的区域，则可能表示测试数据存在问题。举例来说，在皮肤癌检测模型中，热图显示它更关注手术标记而不是实际的皮肤病变，这突显了模型训练或数据质量的潜在问题 [37]。

解释还有助于在眼科和放射学等领域发现新见解。解释的集体行为提供了有价值的见解，而不是仅仅依靠一种特定的预测 [38]。单靠解释可能无法提供所有答案，但这并不意味着盲目信任人工智能的预测。必须一丝不苟地确认人工智能系统的安全性和有效性，类似于药品和医疗器械的评估过程。采用严格的评估，特别是通过随机对照试验，至关重要。此外，在调查人工智能中的种族偏见等情况下，仅靠透明度可能还不够。需要全面分析投入、输出和结果以发现任何偏见。解释可以作为一种有价值的分析工具，特别是对于人工智能系统的开发者、审计师和监管者而言。它们不仅仅适用于人工智能的最终用户或主体。本文系统地回顾了IML 和 XAI 的过程及其在临床领域的应用。此外，它还详细介绍了 XAI 在数字健康技术（如医疗传感器、可穿戴健康追踪器和大型临床语言模型）中的应用。我们还提出了分步实施路线图，并讨论了在智能健康系统中实施 IML 的主要挑战和未来方向。本文的主要目标是回顾 IML 和 XAI 的过程、相关方法、应用及其在医疗保健和医学背景下的实施挑战，特别是在 CDSS 中。可解释性过程分为预处理可解释性、可解释建模和后处理可解释性。值得注意的是，本文探讨了 IML 在医疗保健和医疗问题中的作用，强调其在数字健康解决方案中的必要性。本文旨在通过回顾相关实验结果，全面了解可解释性在健康决策系统中的重要性。目标是为未来的研究人员提供见解，以便在医疗保健中更可靠地实施 AI 工具，并更深入地了解他们可能面临的挑战。据我们所知，本文首次系统地回顾了智能健康系统中可解释性和可解释性的整个过程，并附上了分步评估和实施路线图。为此，我们使用 PICO 框架提出了 5 个研究问题 [ 39 , 40 ]：

1.
哪些级别的可解释性已在健康应用中得到应用？
2.
哪些医疗保健应用使用了可解释的 AI 工具？
3.
目前健康应用中可解释性的方法有哪些？
4.
我们如何为特定的最终用户实现和评估强大的可解释人工智能？
5.
可解释人工智能在医疗领域的潜在未来趋势和关键挑战是什么？

2.系统评价方法

本系统评价遵循了系统评价和荟萃分析推荐报告要素 (PRISMA) 标准 [ 39 , 40 ]。检索技术、选择标准和数据提取均包含在评价方案中。以下小节对此部分进行了解释：

2.1 .搜索策略和选择标准

随着临床决策支持系统环境中的数字健康和远程护理监控领域的不断发展，研究人员旨在通过开展各种调查和实验结果来追踪其进展，我们的努力是随时了解这一进展。

在本次系统评价中，我们尝试搜索 IML和 XAI工具并遵循其三步流程，提出解决方案，以提高基于 IoT 的传感器、可穿戴设备、远程医疗、移动医疗、医学 LLM 和数字护理孪生的透明度、信任度、可解释性和可解释性。为此，我们首先通过 PubMed、 Scopus和 Web of Science 数据库中的几个关键词（例如“可解释的 AI ”、“可解释的 ML”、“可穿戴设备”和“远程医疗”）进行数据挖掘，快速综合证据。这项练习作为探索感兴趣领域研究活动的初步措施，通过显示研究时间和实际限制内的任意审查边界来指导更有针对性的搜索。因此，我们得出了九个概念框架来指导对“智能健康系统中可解释的远程健康监测”研究的结构化搜索：医疗物联网、远程医疗、临床决策支持系统、远程护理、传感器、可穿戴医疗设备、医学 LLM、数字护理孪生、可解释的 AI 和可解释的 ML。我们在 PubMed、Scopus 和 Web of Science 中根据标题/摘要和特定术语为每个概念框架设计了搜索字符串。本研究的最终布尔搜索字符串是在 2023 年 6 月 16 日进行的。在证据数据挖掘之后，使用 PRISMA 指南和 PICO 方法

随着临床领域的数字健康和远程护理监控不断发展，研究人员一直致力于通过调查和实验研究来追踪其进展。在这篇系统综述中，我们尝试搜索 IML 和 XAI 工具并遵循其三步流程来提出解决方案，以提高基于 IoT 的传感器、可穿戴设备、远程医疗、移动医疗、医学大型语言模型 (LLM) 和数字护理孪生的透明度、信任度、可解释性和可解释性。为了开始这篇综述，我们首先通过 PubMed、Scopus 和 Web of Science 数据库中的几个关键词（例如“可解释的 AI”、“可解释的 ML”、“可穿戴设备”和“远程医疗”）进行数据挖掘，快速综合证据。这项初步措施是对该领域研究活动的探索，指导在本研究的时间和实际限制内进行更有针对性的搜索。随后，我们得出了九个概念框架来指导对“智能健康系统中可解释的远程健康监测”研究的结构化搜索：医疗物联网、远程医疗、临床决策支持系统、远程护理、传感器、可穿戴医疗设备、医学法学硕士、数字护理孪生、可解释的人工智能和可解释的机器学习。这些框架有助于根据标题/摘要和特定术语为每个概念框架设计搜索字符串。这项研究的最终布尔搜索字符串是在 2023 年 6 月 16 日进行的。在证据数据挖掘之后，我们使用 PRISMA 指南和 PICO 方法进行分析和综合 [ 39,40 ] ，我们证明了定义本系统评价的重点和边界的标准。选择资格标准总结在

附录 2。选择由独立审阅者进行。所有纳入研究的标题和摘要均导入参考文献管理器 Endnote21 以删除重复项，然后导入 Covidence。审阅者首先根据标题和摘要排除不相关的研究。如果对排除有任何疑问，则接受研究进行全文筛选。审阅者之间的任何分歧均通过协商解决。

2.2 .质量评价、偏倚风险评估和灰色文献检索

全文审阅后，使用 MetaQAT 工具进行质量和偏倚风险评估。该工具是评估公共卫生证据的元工具，可帮助用户正确应用各种批判性评价工具。它提供了一个更大的指导框架，专门用于公共卫生证据 [41]。在此阶段，所有具有重大偏倚风险的研究均被排除在外。采用这种方法是一种良好实践的衡量标准，以确保只纳入具有稳健方法学质量的研究，从而避免对纳入研究的可靠性产生潜在的误导。图 5显示了这一批判性评价框架的过程。灰色文献被认为不适用于本研究，本研究旨在系统地回顾研究活动，以对该领域的证据进行广泛的了解。在筛选标题和摘要、全文审阅、评估偏倚风险和质量后，最终纳入的研究的所有细节和选定论文的结果都被提取到 Microsoft Excel 中的标准化数据挖掘模板中，保持结构化格式。

2.3数据分析与搜索结果

基于标准化数据提取工具，在 Covidence 中构建了PRISMA 2020 流程图，用于对所有纳入的研究进行筛选和系统映射。针对每个研究目标，使用表格或图形中的描述性统计数据对数据进行分析和叙述性总结 [ 39,40 ]。通过基于概念框架的搜索字符串进行结构化搜索，在 PubMed 中找到了 658 项研究、在 Scopus 中找到了1001 篇文章，在 Web of Science 中找到了 582 篇出版物。最后的布尔搜索操作显示有 2241 项研究被导入 Covidence。在这 2241 项研究中，发现了 555 项重复。然而，在第一阶段的选择中，通过标题和摘要剔除了 958 项研究。随后，在第二阶段的全文审查后，482 项研究被排除在外。此外，在第三步通过批判性评价和偏倚风险评估剔除了 172 篇论文。最终选定了 74 篇论文，其中包括 10 篇相关评论论文和 64 篇实验结果出版物。图 6总结了 PRISMA 2020 最终 74 项数据提取研究的流程图，其中包括 10 篇现有评论和 64 篇研究论文。

2.4纳入研究的数据映射

使用标准化数据提取工具来映射本系统评价中包括的所有 74 项研究的数据。这有助于全面审查研究中概述的所有资格标准。附录 4和

附录 5展示了此数据映射过程的结果；附录 4描述了评论，并且

附录 5描述了实验研究。两位作者仔细检查了所选论文，调查主要集中在智能健康系统可解释性过程中使用的主要方法。所审查论文结果的可解释性是可验证的，因为这些论文中的大多数都发表在顶级期刊和会议上。此外，许多关于可解释人工智能和可解释机器学习工具的评论论文已经在实践中使用，证明了它们的能力。

2.5医疗健康领域可解释人工智能相关调查

尽管针对现实世界健康应用的 XAI 研究数量正在迅速增加（如附录 4所示），但在临床决策支持系统中从数据预处理到建模后可解释性的整个可解释过程的全面调查，以及智能健康系统的 XAI 评估和实施框架之间仍然存在差距。目前已有几篇关于医疗环境中 XAI 的评论论文。尽管如此，这些调查中的大多数都侧重于比较不同类型的 XAI、其应用、挑战以及医疗和医学中的相关指南。例如，在 [42]中，作者首先讨论了基于 AI 的医疗设备的定义，然后比较了现有的利益相关者的 XAI 指南。同样，在 [24]中，作者强调了 XAI 模型在医疗保健中的重要性，强调了不同类型的 XAI 方法及其在医疗保健系统中的应用，并提供了对 XAI 在临床环境中的重要挑战和未来方向的见解。

此外，其中一些综述研究侧重于特定的应用。例如，在 [35]中，作者比较了不同的 XAI 方法，评估了它们的优势和当前挑战，以评估精准肿瘤学的可解释性。此外，在 [16]中，对 XAI 方法、它们的应用以及对药物发现领域研究人员和决策者的未来见解进行了全面的研究。对于 [36]中的心脏病分类，对可解释性方法进行了全面的系统评价，重点是通过心电图 (ECG) 信号进行心脏病诊断。 [43]试图关注黑箱模型、它们的局限性以及在心脏病学应用中的机会，以强调 XAI 模型在该领域的重要性。有关医疗保健和医学领域中最重要的 XAI 和 IML 现有调查的更多详细信息和信息，请参见附录 4。

如图 7所示，据我们所知，这些评论中没有一篇对整个可解释机器学习 (IML) 流程、评估和实施框架以及几种基于 AI 的医疗设备进行了全面的研究。此外，这些调查中的大多数都是在今年发表的，证明了可解释性和可解释性对于为最终用户提供透明、值得信赖、易于理解和可靠的临床医生-AI 通信系统的重要性日益增加。该图突出显示了我们的研究与医疗保健和医学 XAI 领域发表的一些重要评论论文的比较。图 8提供了我们论文中包含的评论论文的定性摘要。该图提供了两个视觉摘要：a) 世界地图根据各地区对评论论文的贡献对各地区进行分类，不同的色调显示贡献水平；b) 饼图显示了 2020 年至 2023 年发表的评论论文的百分比，其中 2023 年的份额最大。

3.智能健康系统的可解释性流程建议

为了增强人工智能和临床医生之间的沟通，解释应该有多可解释？在满足最终用户的要求时，解释应该有多可解释？由于多种因素会影响机器学习模型决策，因此需要在整个临床系统过程中提供各种用户友好且值得信赖的解释。可解释性旨在理解预测模型，从数据收集和训练过程到结果。虽然人们希望仅仅解释这些人工智能模型对最终用户来说是合理和可理解的，但这种观念应该重新考虑。从决策支持系统流程的初步阶段开始，设计和实施固有可解释的技术非常重要[21]。如今，人工智能在医疗保健和医学领域发挥着重要作用。然而，人工智能工具必须对最终用户具有可解释性和透明性。最终用户包括使用或受机器学习模型影响的任何人，包括护理人员、临床医生、患者、用户、数据科学家、监管机构、领域专家、执行董事会成员和经理[22]。因此，由于对理解人工智能工具的行为存在很大担忧，人工智能在医疗环境中的实施受到了限制[14]。

对于医疗决策者来说，AI 系统必须可靠、准确和透明[33]。虽然许多研究人员专注于在模型选择后和建模后阶段使用 XAI，但在整个过程中考虑可解释性也同样重要：（1）数据预处理，（2）模型选择期间，以及（3）建模后。只关注其中一个方面可能无法提供清晰的理解。与后处理可解释性相比，数据科学家和开发人员可能从了解模型的内部工作原理以提高性能和防止过度拟合中受益更多。另一方面，医生、护士和患者等护理人员更感兴趣的是了解特定结果是如何以及为何产生的，以及影响该决策的关键特征。因此，在临床环境中，为所有最终用户和整个决策过程量身定制解释至关重要。

为此，我们引入了医疗保健应用的可解释流程，包括预处理可解释性、可解释处理和后处理可解释性。图 9突出显示了我们提出的可解释性流程，以及

附录 5 总结了现有研究论文中的可解释过程。本研究采用了一个包含所有三个可解释性方面的新框架。这种方法有两个显著的好处：（1）它使可解释系统的设计和开发更具成本效益且更易于理解；（2）它提高了客户、患者、医疗服务提供者、开发人员、研究人员和管理人员等最终用户的满意度，因为他们会收到针对其特定需求量身定制的更有针对性和更清晰的解释，而不是泛泛而谈的解释。研究人员旨在对用于理解学习算法背后推理的解释方法进行分类，并试图回答这个问题：可解释性方法的目的是什么？为了提供全面的解释，可解释性技术必须解决基本问题，例如模型为什么以及如何生成预测和做出决策，正如许多研究 [44]所探讨的那样。表 1证明了我们在卫生系统可解释性过程的拟议框架的每个步骤中寻找的内容。在下一节中，我们将根据本系统综述中的研究论文讨论我们提出的可解释性过程的三个层次及其在医疗保健和医学中的应用。此外，附录 5 对纳入的研究进行了总结。

3.1数据预处理的可解释性及其健康应用

此步骤的主要目标是理解和描述模型开发中使用的数据及其特征。可解释性预处理包括各种工具，旨在更好地理解数据集和训练 ML 模型中使用的特征。由于训练数据集对 AI 模型的决策过程有很大影响，因此这种级别的可解释性至关重要。因此，已经开发了各种交互式数据分析工具来帮助理解输入数据。此外，确保收集的数据得到清理、规范化和平衡也至关重要，因为模型的性能依赖于它。理解数据对于使 AI 系统更具可解释性、效率和稳健性至关重要。这涉及探索性数据分析 (EDA)、可解释特征工程、标准化数据集描述、使用数据集汇总方法和使用知识图等技术。我们将为预处理级别的每个方面提供更多详细信息，并在我们所包含的研究中讨论相关研究。图 10显示了预处理可解释性技术的分类。

3.1.1考虑不同类型的数据集

基于特定数据类型进行分析的重要性怎么强调都不为过，尤其是在处理高维或非结构化数据时。不同的数据类型需要定制的方法来解释和理解。例如，高维数据可能需要降维技术才能有效地提取有意义的见解。同样，非结构化数据（如文本或图像）可能需要自然语言处理或计算机视觉等专门的方法进行全面分析。了解每种数据类型的复杂性可以实现更有效的可解释性技术。根据数据的具体特征定制分析方法可以提高解释的准确性和可靠性，从而产生更强大的人工智能系统 [45]。

此外，分析技术能否适应数据类型的不断发展，对于在快速变化的数字环境中维持人工智能系统的相关性和有效性至关重要。随着新形式数据的出现，例如来自物联网 (IoT) 设备的传感器数据或来自社交媒体平台的流数据，数据分析和解释策略也必须不断发展。这些新兴数据类型通常融合了结构化、非结构化和半结构化数据的特征，给数据处理和分析带来了独特的挑战。例如，流数据需要实时分析和决策能力。相比之下，来自物联网设备的传感器数据则需要能够处理大量不同格式数据的强大算法。

除了考虑不同类型的数据集外，还必须深入研究每种数据类型的可解释性，并探索数据可能是多模态、需要融合可解释性结果的场景。本节旨在深入了解针对各种医疗数据类型定制的可解释性技术以及在多模态数据设置中可解释性结果的集成。

医疗记录 。医疗记录的可解释性技术（例如事实核查）通常涉及自然语言处理(NLP) 方法，以从文本数据中提取有意义的信息。情绪分析和主题建模等技术可以为患者叙述和临床文档提供有价值的见解 [46]。

临床表格数据。临床表格数据的分析可能涉及特征重要性分析和决策树可视化等方法，以了解不同变量之间的关系及其对临床结果的影响 [47]。

医学图像。医学图像的可解释性技术通常使用计算机视觉方法，包括热图和注意力机制，以突出显示感兴趣的区域并为 AI 模型做出的诊断决策提供见解 [48]。

医学信号。医学信号（如脑电图（EEG）或心电图（ECG）数据）的解读通常需要时频分析和波形可视化技术来显示指示潜在生理状况的模式 [49]。

每种数据类型都对可解释性提出了独特的挑战。医疗记录可能存在数据稀疏性和模糊性问题，而图像可能表现出高维度和多变性。信号可能含有会影响解释准确性的噪声和伪影。了解这些挑战对于选择适当的可解释性技术和确保结果的可靠性至关重要。

多模态和多中心数据融合。本文 [50]提出使用概念知识来训练更易于解释、更稳健、偏差更小的机器学习模型，特别是在医学领域，其中各种模态对单一结果有贡献。解决的核心问题是如何使用知识库构建跨图像、文本和基因组数据的多模态特征表示空间。图神经网络被提倡作为一种实现多模态因果关系信息融合的方法，重点是实现特定水平的因果理解。本文旨在激励 XAI 社区深入研究多模态嵌入和交互式可解释性，强调图神经网络在帮助建立图结构内特征之间的因果关系方面的关键作用。

3.1.2探索性数据分析（EDA）

EDA 的目标是收集数据集的重要特征，包括其维数、平均值、标准差、范围和缺失样本信息。Google Facets 是一个强大的工具，可以从数据集中快速提取这些特征 [51] 。此外，EDA 工具可以发现数据集中的偏差，这可能表明类别不平衡的问题。在评估数据集时，仅依靠统计特征往往是不够的。例如， [52]提出了一个可解释的框架，考虑了预处理，重点关注 EEG 数据，应用自适应网络分析数据，提供有关其特征的详细信息，并实现可解释的模型，如 LIME 和 SHAP。为了预测 2 型糖尿病，在本文中 [53]，他们应用了探索性数据分析，但没有考虑用于预处理部分的任何特征工程和可视化工具。数据可视化提供了一系列图表选项 [54]；最合适的图表类型取决于数据集、应用程序和数据科学家想要传达的特定统计特征。

现实世界的健康和医疗数据通常复杂且多维，具有许多变量。在 [55]和 [72]中，由于医学图像分割中形状大小、边界位置和形状大小、边界、位置和形状的多样性，提出了一种新方法来增强医学图像分割的可解释性。该方法侧重于创建更易于理解的注意特征图，从而可以提取不同类型的医学图像（如 CT（计算机断层扫描）和 MRI（磁共振成像）（磁共振成像）扫描）中最关键的特征。然而，可视化这种高维医疗数据面临着重大挑战。使用平行坐标图（PCP）等专门图表是解决此问题的一种方法 [56]。这些图表有助于确定哪些特征是重要的，应该保留或删除。此外，高维数据集可以转换为低维数据。主成分分析(PCA) 和 t 分布随机邻域嵌入 (t-SNE) 是两种著名的方法 [57]，Embedding Projector 工具箱支持这两种技术的使用 [58]。当底层结构主要是线性时，PCA 是合适的，否则最好使用 t-SNE。然而，值得注意的是，t-SNE 在应用于大型数据集时可能会很慢。在这种情况下，降维方法（如均匀流形近似和投影 (UMAP)）可能更有效 [59]，据称与 t-SNE 相比，它更精确、更具可扩展性。

3.1.3数据集描述标准化

医疗数据经常在没有足够描述的情况下被共享。标准化可以帮助解决偏见和缺失值等问题，因为标准化允许数据收集者和最终用户之间进行清晰的沟通。在应对这一挑战时，诸如数据集的数据表 [60]和自然语言处理（NLP）的数据声明 [61]之类的工具有助于实现数据集描述的标准化。这些方法为与数据集相关的特定信息提供了不同的框架，并有助于跟踪数据集的开发、内容、数据收集过程以及法律和道德考虑。学者们已经应用了各种方法进行数据标准化。例如，在使用心脏 MRI 预测心肌炎疾病领域， [62]的研究人员实施了几个步骤来预先建模可解释性。他们采用了诸如噪声消除、图像调整大小以及 CutMix 和 MixUp 算法来数据增强等技术。此外，在人类活动识别研究中 [63] ，引入了一种称为 XAI-HAR 的创新方法，用于从放置在智能家居内各个位置的传感器收集的数据中提取特征。

3.1.4 .数据集汇总方法

基于案例的推理是一种可解释的建模技术，通过将给定输入与训练数据中的类似案例进行比较来预测其结果 [64]。这些类似案例以及模型的预测可以作为对最终用户的解释。然而，一个重大挑战是整个训练数据集的存储要求，这对于大型数据集来说可能成本高昂或不切实际。为了解决这个问题，可以保存训练数据的代表性子集；数据集汇总旨在解决这个问题。在数据分析中，使用文档汇总 [65]、场景汇总 [66]和原型选择 [67]等汇总技术。汇总数据集涉及找到可以快速概览大数据的典型样本。例如，在使用 PPG 信号进行心血管疾病诊断时，在数据预处理阶段，将数据分成 30 秒间隔，并通过减去平均值并除以标准差在块级别应用归一化 [68]。数据压缩是另一种数据汇总技术 [69]，旨在创建产生相关结果的较小版本的数据集。与数据汇总不同，此方法通常使用类似于贝叶斯学习的标准为较小版本的数据集中的样本分配权重。

3.1.5 .数据增强技术

当样本数量不足时，有效分类将变得具有挑战性，而当数据集规模较小时，过度拟合的风险很大。在这种情况下，ML 模型很难准确地从数据中学习，而倾向于记忆数据。为了解决这个问题，一种广泛使用的方法是数据增强。数据增强涉及通过对现有数据集应用各种转换来生成人工数据点。在这种情况下，SMOTE（合成少数类过采样技术）可以看作是一种数据增强的形式。这是因为，在平衡数据集的同时，SMOTE 为少数类创建了合成样本，从而有效地扩大了原始数据集的整体大小。 [70]引入的 SMOTE是一种依赖 k 最近邻生成合成样本的过采样技术。例如，在 [71]中，人们应用数据增强方法来防止牙齿图像数量少对检测龋齿产生的负面影响。此外，自动编码器(AE) 技术可用于生成人工数据，如本研究所示：用于冠状动脉疾病早期诊断的 AI 框架，应用 SMOTE、自动编码器和 CNN，从而获得更高的准确度[72]。

3.1.6 .可解释的特征工程

特征归因是指理解模型决策过程中最显著的特征[73]。相关特征也应该易于解释，开发人员必须理解它们的含义，并为特定的最终用户（如医疗保健提供者）找到最相关的特征解释。换句话说，预测模型的准确性完全与属性有关 [74]。可解释性特征工程的两种主要方法是领域特定方法（依赖于领域专家的输入和 EDA 的见解）和基于模型的方法。基于模型的特征工程使用数学模型来揭示数据集的底层结构[75]。例如，在[76]中，基于 Attention ResNet18 的深度特征工程模型的新型可解释方法已被用于哮喘预测。该过程涉及预处理、训练网络、提取深度特征、优先选择特征和分类。在卒中后压力和焦虑诊断的模型开发之前，已经使用了数据的统计分析、预处理和特征工程[77]。现有的关于预处理可解释性的文献不仅限于以上段落，其定性研究总结如附录 5 所示。

3.2 .模型选择的可解释过程及其健康应用

即使在可解释性预处理阶段仔细准备、清理和平衡数据，如果模型不具有明确的可解释性，开发人员仍可能难以将其能力融入学习过程以获得更好的结果。因此，除了可解释的数据预处理之外，理解模型也至关重要；可解释和精确的 ML 算法在医学等应用中至关重要，因为错误会对人们的生活造成严重后果。可解释处理试图设计本质上可解释和可解释的模型。使用固有可解释的模型进行 AI 工具选择通常与采用可解释建模有关。然而，当前的方法仍然需要在准确性和可解释性之间进行权衡。例如，虽然决策树是可解释的，并广泛应用于健康和医学疾病诊断，但它们的准确性始终被集成方法和 DNN等可解释性较差的 ML 模型所超越；尽管它们对计算和内存的要求很高 [11]。以下部分将介绍处理可解释性的各个方面及其在医疗保健和医学中的应用。此外，您还可以在表格中找到可解释建模四个方面的比较。 2。

3.2.1 .固有可解释的机器学习模型（白盒）

实现可解释模型的传统方法涉及选择 DT 和 LR等白盒方法。例如，在 [78]中，DT 方法被设计为一种可解释的 ML 技术，以显示健康记录中的隐藏模式以预测痴呆症。此外，对于 COVID-19 检测，应用了基于 DT 的可解释梯度增强框架，该框架可与可穿戴传感器数据一起使用 [79]。此外， [80]中的研究人员开发了一种 K 最近邻 (KNN) 模型，用于更可解释和更易于理解的 2 型糖尿病、高血压和血脂异常风险预测。为了更好地理解和更正确的中风预测模型， [81]中的研究人员构建了贝叶斯规则列表。然而，选择可解释的模型并不总能保证可解释性。某些模型（如 LR）可能难以模拟高维数据，从而降低其可解释性 [23]，为了解决这个问题，可以使用一些技术（如正则化）来简化模型。一些研究人员已经证明，创建可解释且性能高的模型是可能的。挑战在于在易于理解的简单性和准确性的复杂性之间找到适当的平衡。例如，在 [68]中，他们开发了学习内核，以实现心血管疾病检测中可解释且更精确的 PPG 信号处理。

3.2.2 .混合可解释方法

为了创建高性能且可解释的模型，一种方法是将固有的白盒技术与复杂的黑盒方法相结合 [82]。这个概念构成了混合可解释方法的基础。另一方面，白盒模型可用于正则化步骤。这类方法的示例包括深度 k 最近邻（DkNN） [83]、深度加权平均分类器（DWAC） [84]、自解释神经网络（SENN） [85]、上下文解释网络（CEN） [86]、BagNets [87]、神经符号（NeSy）模型 [88]和 X-NeSyL（可解释神经符号学习）方法 [89]。在 [62]中，湍流神经变压器（TNT）和基于可解释的 Grad Cam 方法被应用于心脏 MRI 中心肌炎疾病的自动诊断。将白盒模型 (LR) 与黑盒模型 (ANN) 相结合，用于急性冠状动脉综合征的临床风险预测 [90]。此外，为了在早期检测中风， [91]采用了树提升模型和多层感知器(MLP)，并提供了更可解释的预测。

3.2.3 .联合预测和解释方法

联合方法侧重于同时生成预测和解释。换句话说，可以明确设计一个复杂模型来阐明其决策。例如，决策教学解释 (TED) 框架 [92]用于通过对决策的解释来增强训练数据。它在训练过程中结合输出和解释，并提供用户友好的结果。此外， [93]引入了一种类似于 TED 的方法来生成多模态解释，这需要一个包含文本和视觉解释的训练数据集。在 [55]中，设计了一个可解释的多模块语义引导的基于注意的网络来分割医学图像，例如多器官 CT 图像和脑肿瘤 MRI 图像，该网络在所有指标之间都表现出色。此外，还应用了神经加性模型来预测可理解的心脏病发作 [94] 。在 MIMIC-III 数据库中，应用基于注意的循环神经网络的可解释预测模型进行死亡率预测 [95]。

3.2.4 .通过架构调整实现可解释性

修改模型架构是增强其可解释性的有效方法。例如， [96]开发了一个具有可解释结构的 CNN，使用多个 EEG 频率作为异常预测的输入。修改后的 CNN 不仅获得了更易于理解的信息，还获得了更高的准确性。对于脑肿瘤诊断， [97]设计了一个预训练的视觉语言模型(VLM)，并证明了其在为医疗应用提供可解释预测方面的有效性。关于处理可解释性的现有文献不仅限于上述段落；纳入研究的摘要见附录 5。

3.3 .后处理可解释性及其健康应用

在可解释性过程概述的前两部分中，我们研究了预处理可解释性和可解释建模，它们侧重于数据集级别和模型开发过程中的可解释性。然而，与建模后可解释性相比，这些都是相对较小的兴趣点。这部分涉及模型建立后的理解，也是大多数 XAI 科学家关注和研究的地方。预处理可解释性的目的是提供用户友好的解释，以描述更易于理解的预先开发的方法。它可以分为六个部分，如果适用，将在以下段落讨论其在医疗保健中的应用：（1）归因方法，（2）可视化方法，（3）基于示例的解释方法，（4）博弈论方法，（5）知识提取方法，和（6）神经方法[1]。

3.3.1 .归因方法

在医学图像分析中，大多数归因方法依赖于像素连接来显示每个像素在模型激活中的重要性。这为输入图像中的每个像素分配了相关性或贡献值 [97]。在过去的几年中，出现了几种新的归因技术。归因技术主要有四组：深度泰勒分解 (DTD)、扰动方法、反向传播方法和深度提升。这些将在图 11中总结，但这里不会提供有关具体方法的其他详细信息，因为它已在文献中进行了详细描述。在 [63]中，带有 RF 分类器的 LIME用于为患有慢性疾病的人开发支持 XAI 的人类活动识别模型。 [76]的另一项研究介绍了一种使用梯度加权类激活映射 (Grad-CAM) 的可解释的基于注意力的哮喘检测模型。该模型证明了高性能和可解释性。在另一项研究中，LIME 用于通过放置在不同位置的可穿戴传感器对老年人进行活动识别 [19]。

3.3.2可视化方法

通过可视化 AI 模型的表示来发现隐藏的模式，从而探索其内部工作原理是一个基本思想。这些可视化技术通常应用于监督学习模型。值得注意的是，这包括部分依赖图 (PDP) [98]、累积局部效应 (ALE) [99]和个体条件期望(ICE) [100]等技术。在肝炎和肝病的背景下，开发了一个集成 SHAP、LIME 和 PDP 的透明模型。这些工具专门用于提高决策的清晰度 [101]。此外，关于用于预测高血压的 ML 模型的可解释性，本研究 [102]采用了五种全局可解释性技术（特征重要性、部分依赖图、个体条件期望、特征交互、全局替代模型）和两种局部可解释性技术（局部替代模型、Shapley 值）。

3.3.3 .基于实例的解释方法

基于示例的解释（也称为基于案例的解释）包括原型和批评 [103]、反事实 [104]和对抗性示例 [105]等方法，用于生成此类解释。

3.3.4 .博弈论方法

1953 年，劳埃德·沙普利 (Lloyd Shapley) 开始探索博弈中每个玩家的贡献。后来，这个想法被应用于机器学习，以理解可解释性和预测之间的关系 [106]。在这种情况下，“博弈”是指数据集中的单个预测，“收益”是实际预测与数据集中所有预测的平均值之间的差异，“玩家”是共同作用以计算出收益的特征。特征的沙普利值告诉我们它对特定预测的贡献有多大。此外，SHAP 提供了一种统一的方法来解释任何机器学习模型的输出。它使用联盟博弈中的最佳沙普利值来解释单个预测 [107]。SHAP 方法广泛应用于医疗保健应用。例如，在 [18]中，构建了一个带有 SHAP 的 XAI 模型来预测孕妇第二天的感知压力和生理压力水平。这个过程涉及找到预测父母压力的关键风险因素。此外，SHAP 技术已被开发用于预测胺碘酮诱发甲状腺功能障碍的风险，可作为个性化风险评估的工具并辅助临床决策 [17]。使用 SHAP 方法的可解释模型增强了使用心率变异性数据进行精神压力检测的能力，为医生提供了详细的结果可视化效果，并提供了对结果的更深入理解 [108]。

3.3.5 .知识提取方法

理解黑盒模型的内部工作原理是一项挑战。例如，在 ANN算法中，对隐藏层过滤器/内核的修改可能会导致复杂的内部表示。从 ANN中提取解释涉及将每层获取的知识转换成人类可理解的格式。文献提供了从黑盒模型中提取见解的各种技术，主要依赖于规则提取 [109]和模型蒸馏方法 [110]。例如，在 [108]中，开发了一种用于心脏病发作预测的神经加性解释，提高了模型性能的效率。

3.3.6 .神经方法

神经网络解释技术对于理解和洞察复杂的神经网络模型至关重要，可以使它们更加透明和易于理解。特征重要性和敏感性分析等方法已被用于解释神经网络 [111]。在适用的情况下，针对预处理可解释性的每个方面都介绍了医疗保健中的应用。然而，值得注意的是，现有的关于后处理可解释性的文献超出了这里讨论的方法。附录 5提供了所含研究的摘要。

4.可解释性在基于人工智能的医疗设备中的应用

在医学领域，人工智能具有双重用途：它可以补充现有的医疗设备，也可以独立运行。根据《欧洲医疗器械法规》，医疗器械包括各种仪器、软件、植入物和材料，这些仪器、软件、植入物和材料可以单独使用或组合使用，用于特定医疗目的 [112]。基于人工智能的医疗设备构成了一类增强人类能力的健康技术。它们用于预测疾病、对疾病管理数据进行分类、完善医疗治疗和辅助疾病诊断。美国FDA（食品和药物管理局）（食品和药物管理局）（食品和药物管理局）（食品和药物管理局）将用于疾病预防、诊断、治疗或治愈的人工智能驱动的医疗软件归类为“医疗设备软件”。数字健康和基于人工智能的医疗设备的日益普及凸显了它们在全球范围内提供公平获得专业医疗服务的潜力 [113]。这有能力减轻全球健康差距并提高整体生活质量 [114]。

尽管基于物联网的医疗传感器和可穿戴设备、远程医疗、医学法学硕士和数字护理孪生等技术不断进步，但最终用户（包括患者和临床医生）仍然对这些技术及其结果的可信度表示担忧。解决这些问题需要回答几个关键问题：如何增强数字健康技术的可解释性？如何有效地将可交付成果传达给最终用户？如何改善基于人工智能的医疗设备中临床医生与人工智能沟通的可解释决策？如何确保智能健康系统的多样性和包容性？[ 26 , 115 ]。

在本节中，我们使用远程医疗、移动医疗、数字护理双胞胎、医学 LLM、生物传感器和可穿戴设备等短语进行了搜索。但是，我们只在下一节中找到了 XAI 的应用，我们将在其中深入研究可解释性及其在医疗传感器、可穿戴健康追踪器和医学大型语言模型中的应用。据我们所知，这篇系统综述代表了对涵盖这些数字健康技术类别的 XAI 应用的首次全面审查。图 12提供了基于 AI 的 MD 中当前 XAI 应用的比较。

这里有医学诊断耶

4.1 .基于物联网的生物传感器和可穿戴医疗设备中的可解释性应用

由于身体传感器数据在智能医疗系统中的应用十分广泛，因此将其集成到医疗保健领域引起了研究人员的极大关注[ 116 , 117 ]。然而，这种集成也带来了挑战，特别是在透明度和可解释性方面。XAI 通过为用户提供对模型内部工作原理的全面洞察来解决这些问题[118]。

通过将 XAI 集成到基于物联网 (IoT) 的医疗传感器和可穿戴健康追踪器中，我们可以开发一个高效管理大数据并提高最终用户透明度和可解释性的系统。这种集成使用户能够更好地理解和信任这些设备提供的见解，从而促进医疗保健环境中做出更明智的决策。表 3 总结了可穿戴医疗设备 (WMD) 中现有的 XAI 应用。然而，XAI 在基于医疗物联网(IoMT) 的医疗设备中的使用超出了表 3的范围，表 3 仅展示了该领域中一些值得注意的例子。

4.2 . chatGPT 和医学 LLM 中的可解释性应用

人工智能的最新进展促成了 GPT-4 和 Bard 等复杂大型语言模型 (LLM) 的开发。这些模型在医疗保健领域具有重要前景，可提供从协助临床记录到充当患者问询的聊天机器人等各种潜在应用。然而，将 LLM 引入医疗保健领域需要慎重考虑，因为它们具有独特的特性，这使得它们有别于受监管的人工智能技术，特别是在患者护理的关键环境中[124]。在医疗保健领域对 LLM（包括 GPT-4 和其他生成式人工智能系统等模型）进行监管是一项挑战。它需要在确保安全、坚持道德标准和保护患者隐私之间取得微妙的平衡，同时还要发挥变革潜力。如果没有足够的人工监督和负责任的实施实践，生成式人工智能在医疗保健领域的应用可能会传播错误信息或生成不准确的内容，从而可能损害患者护 https://www.sciencedirect.com/science/article/pii/S1566253524001908?via%3Dihub#tbl0004 理和对医疗保健系统的信任。因此，强有力的监管框架和道德准则对于指导 LLM 在医疗保健环境中的整合和部署至关重要，确保它们在帮助患者的同时坚持最高的安全性、准确性和隐私保护标准。

值得注意的是，这些工具可能会出现错误、误导和偏见。例如，ChatGPT由于其不透明性而缺乏透明度，这可能会给需要清晰解释的医疗专业人员带来挑战。此外，训练数据中的偏差可能会改变准确性，从而可能导致错误的诊断或治疗建议[125]因此，医疗专业人员必须彻底审查和验证 ChatGPT 建议，然后才能将其纳入临床决策过程（从预处理到后处理）。最近，研究人员在将 LLM 应用于医学领域时使用了可解释性和可解释性技术。表 4重点介绍了该领域的一些值得注意的例子，尽管只有少数研究在 LLM 中应用了 XAI。此外，这里不提供具体方法的详细描述，因为它们已经在现有文献中进行了详细描述。

5.可解释性过程的质量评估与改进

在本节中，我们将深入研究如何评估和评估我们提出的可解释性框架在医疗保健和医学领域的有效性。我们的主要重点是评估最终用户对解释的可理解性，他们通常是最终的决策者。我们特别优先考虑在医疗保健领域担任关键角色的个人，例如患者、医生、护士、护理人员、卫生系统管理人员和其他领域专家。

这种评估对于衡量我们的可解释人工智能 (XAI) 系统在实际现实场景中的实用性和有效性至关重要。此部分包括（1）准确性、（2）可靠性、（3）稳健性、（4）可解释性、（5）可用性、（6）人机交互、（7）伦理考虑、（8）对反馈的响应、（9）符合监管标准、（10）临床验证和证据基础、（11）透明度和（12）可扩展性[192]。表 5对所有这些方面进行了全面描述，而图 13 则直观地表示了可解释性过程的质量水平。

6.实施负责任的临床医生-人工智能协作框架的分步路线图

本节概述了将强大的可解释性和可解释性集成到医疗保健和医学中的系统方法，如图14 所示。在卫生系统内成功实施强大的 XAI 和 IML 流程的关键部分涉及建立健康到数据中心 (D2H)。该中心包含四个基本组成部分：（1）临床医生-AI 沟通台，（2）数据科学家帮助台，（3）质量评估委员会，和（4）伦理审查委员会。该中心强调这些团体之间的密切合作，以帮助医疗保健领域的 AI 逐步决策。图 14提供了在智能健康系统中实施该框架的详细见解，涵盖预处理、处理和后处理阶段，然后是对过程的评估。它解释了为满足特定最终用户需求而定制的 ML 决策。

在三级可解释性方法的整个过程中，从数据预处理到模型选择和后处理，考虑表 1中提供的问题至关重要。通过思考这些问题，我们可以为针对特定最终用户（例如患者、临床医生、健康管理者或开发人员）的 AI 系统的每个步骤提供更全面的解释。

【我的方法应该从预处理，推理到后处理都有足够的可解释性】

遵循可解释性流程后，开发和设计质量评估工具来评估 ML 方法做出的决策和 XAI 系统的稳健性至关重要。在稳健性方面，对 ML 决策过程的全面评估包括评估模型的弹性和稳定性 [127]。通过结合解决潜在对抗性攻击、数据扰动和现实场景中的变化的方法来确保稳健性。此外，设计和实施质量评估工具来评估 ML 决策的准确性和有效性并衡量整个 XAI 系统的稳健性也至关重要。这些工具在确认系统在不同条件下的可靠性方面发挥着关键作用，并有助于在医疗保健环境中建立对人工智能决策能力的信任 [128]。

7.讨论

从多年来在医疗环境中应用 IML 和 XAI 的已发表研究分布情况可以看出，基于 AI 的医疗设备在医疗保健和医学领域越来越普遍。这一趋势凸显了开发负责任且可解释的 AI 框架的重要性日益增加，以增强医疗系统中最终用户之间的信任，尤其是临床医生和 AI 之间的信任。

附录 5对本评论中审查的论文进行了全面的总结，阐明了许多研究中使用的方法和方式。

根据审查研究，SHAP 和 LIME 是医疗保健应用中最常用的 XAI 方法之一。我们的分析表明，后处理方法已成为在医疗应用中提供可解释性的主要方法。有趣的是，对所研究的 XAI 方法的概述表明，在开发用于临床决策支持的可解释系统时，黑盒模型比白盒方法更常用。尽管采用复杂的技术来实现高精度，但研究人员经常看到事后可解释性方法来阐明其复杂的框架并增强可解释性。

我们的研究结果强调了在可穿戴医疗设备和用于健康追踪的生物传感器中应用 XAI 和 IML 方法的显著差距。尽管这些设备的使用越来越多，但只有一小部分研究利用 XAI 方法来增强可穿戴健康追踪器所做决策的可解释性。同样，将 XAI 方法应用于 LLM 和医疗应用的生成式 AI 的研究也有限，这表明这是一个有待进一步探索的潜在领域。

在审查的 74 篇文章中，只有大约 10 个实验结果被展示。身体传感器数据与医疗保健的整合因其在智能医疗系统中的广泛应用而引起了研究人员的广泛关注 [ 116， 117 ]。然而，这种整合带来了挑战，特别是在透明度和可解释性方面。 XAI 通过为用户提供对模型内部工作原理的全面见解来解决这些问题 [118]。

通过将 XAI 集成到基于物联网 (IoT) 的医疗传感器和可穿戴健康追踪器中，我们可以开发一个高效管理大数据并提高最终用户透明度和可解释性的系统。这种集成使用户能够更好地理解和信任这些设备提供的见解，从而促进医疗保健环境中做出更明智的决策。表 3总结了可穿戴医疗设备 (WMD) 中现有的 XAI 应用。然而，XAI 在基于医疗物联网 (IoMT) 的医疗设备中的使用超出了表 3 的范围，表 3 仅展示了该领域中一些值得注意的例子。

表 3证明了 XAI 方法在可穿戴健康追踪器中的应用。此外，AI 的最新进展中只有三项研究导致了复杂的大型语言模型 (LLM) 的开发，例如 GPT-4 和 Bard。这些模型在医疗保健领域具有重要前景，提供从协助临床文档到用作患者问询的聊天机器人等潜在应用。然而，将 LLM 引入医疗保健需要仔细考虑，因为它们具有独特的特性，这使它们有别于受监管的 AI 技术，特别是在患者护理的关键环境中[124]。在医疗保健领域监管 LLM，包括 GPT-4 和其他生成式 AI 系统等模型，是一项挑战。它需要在确保安全、坚持道德标准和保护患者隐私之间取得微妙的平衡，同时发挥变革潜力。如果没有足够的人为监督和负责任的实施实践，生成式 AI 在医疗保健中的应用可能会传播错误信息或生成不准确的内容，从而可能损害患者护理和对医疗保健系统的信任。因此，强有力的监管框架和道德准则对于指导 LLM 在医疗保健环境中的整合和部署至关重要，确保它们在帮助患者的同时坚持最高的安全性、准确性和隐私保护标准。

表 4探讨了在 LLM 和 ChatGPT 中使用 XAI 方法进行医疗保健的目的。这些发现强调需要在这些领域进行更多研究，以提高 AI 驱动的医疗保健系统的可信度和可解释性。

我们的研究强调了可解释过程在增强对临床决策支持系统的信任以及为特定最终用户提供易于理解的结果方面的关键作用。我们建议建立一个数据到健康中心，促进临床医生、数据科学家以及伦理和质量控制委员会之间的密切合作，以确保卫生系统绩效的稳健性和可靠性。图 15全面总结了我们审查中包括的研究，重点介绍了关键发现和未来研究领域。

图 15中的饼图代表了所审查的医学研究中使用的几种类型的 AI 工具的分布。它表明，绝大多数（80％）的工具被归类为 AI 工具。此类别涵盖了广泛的 AI 技术。同时，15％的工具是可穿戴医疗设备 (WMD)，在研究中具有中等代表性。最小的部分（5％）归因于 ChatGPT 等 LLM，表明它们在所审查的研究背景下的作用正在兴起但仍然很小。

条形图说明了医疗保健应用中不同处理阶段中不同可解释性方法的流行程度。这些阶段包括预处理、处理和事后分析。数据显示，超过 100% 的案例都使用了事后分析方法，这表明在某些研究中，可能应用了一种以上的事后分析方法。处理阶段也很重要，尽管不如事后分析重要，而预处理是三者中使用最少的。这种趋势表明，人们更倾向于在事后（事后分析）解释人工智能决策，而不是将可解释性集成到模型本身（预处理）或模型运行期间（处理）。

图 15支持了这样一种说法：尽管 AI 工具在医学研究中得到广泛应用，但可穿戴设备和语言模型等特定领域的探索较少。此外，对事后可解释性的偏好表明，该领域倾向于在 AI 系统做出决策后提供解释，这可能反映了将可解释性集成到更动态、实时的系统中是复杂的。

8.医疗系统中XAI面临的挑战和未来见解

值得强调的是，尽管可解释人工智能策略、指标和工具非常丰富，但仍存在许多问题。例如，哪种方法提供了最有效的解释，我们应该如何评估这些解释的质量？我们如何为特定的最终用户量身定制解释？我们如何在性能和可解释性之间取得平衡？我们如何为特定的健康应用设计系统并确保持续改进？本节探讨了在医疗保健和医学领域实施可解释性过程的挑战。我们讨论了该领域的关注点，并展示了必须实现哪些目标才能增强临床决策支持系统中最终用户的信任。

8.1 .健康应用中后处理解释器的误用

目前，人工智能的黑箱性质引发了人们对其在医学等关键领域的使用的担忧。人们相信可解释的人工智能可以建立医疗专业人士之间的信任，提供决策透明度，并可能有助于解决偏见问题。然而，我们认为，这些对可解释人工智能的期望可能并不现实，因为事后解释器的内在问题可能会使其结果不可信。目前的方法不太可能完全实现在患者层面提供决策支持的目标。本文认为，仅仅依靠后处理解释算法来满足解释医疗保健领域机器学习算法的法律要求可能并不有效。这种无效性源于在各方利益冲突的情况下需要解释，其中解释可能会被操纵以服务于特定的议程。这些解释固有的不确定性使问题进一步复杂化，难以实现法律规定的透明度目标。论文建议对后处理解释的潜力和局限性进行更公开、更诚实的讨论，特别是在临床决策支持系统中，因为这直接影响患者的生活并且可能出现利益冲突。

8.2 .为特定健康应用设计XAI框架

本节强调了采用结构化路线图来将 XAI 应用于医疗保健和医学领域的重要性，这种方法体现在所谓的“数据到健康中心”中。如图 13 4 所示，该框架重点关注最终用户的关键作用。它还引起了人们对定制 XAI 框架以满足每个特定健康应用或目标的独特要求的必要性的关注，确保在流程的每个阶段都考虑相关查询。

这种量身定制的方法的一个关键方面是持续努力平衡性能和可解释性。这需要在开发高性能人工智能模型和保持用户可理解的透明度之间做出微妙的妥协，从而建立信任并确保人工智能的决策过程能够得到评估和确认。找到这种平衡至关重要，因为它直接改变了人工智能在临床环境中的有效性和接受度。路线图意味着一个迭代的、以用户为中心的设计过程，其中性能指标和可解释性指南与医疗保健专业人员合作不断完善，以满足不断变化的患者护理和医学研究需求 [129]。

8.3 .可解释性和准确性之间的权衡

关于可解释性和准确性之间权衡的讨论解决了医疗保健系统中 XAI 的一个基本方面。它对最终用户（包括患者和医疗保健专业人员）如何看待和信任 ML 模型做出的决策有着深远的影响。该概念认为，随着 AI 系统的可解释性增加，其性能可能会相反下降。因此，AI 系统通常根据其在决策过程中提供的透明度级别分为黑盒、灰盒和白盒模型 [130]、 [131]、 [132]。

理想情况下，医疗保健系统会从那些既提供重要可解释性又提供令人满意的性能的模型中获得帮助。然而，系统以人类可理解的方式呈现模式的能力与准确拟合复杂数据的能力之间往往需要妥协。这种平衡至关重要，因为它涉及到减轻错误分类可能带来的临床和人为风险，这个问题应该清楚地传达给最终用户，以使他们对该系统的能力和局限性的期望和理解保持一致 [21]。此外，实现高度透明度不仅限于模型。它还包括数据预处理——确保以可解释的方式处理输入模型的数据，这极大地影响了 ML 模型的整体可解释性。这意味着，要使医疗保健领域的 AI 系统完全可解释，从数据预处理到模型决策的整个流程都必须以透明性为设计理念。

8.4 .道德准则（包容性和多样性）

道德准则（包容性和多样性）部分重点介绍了在有关道德人工智能的定义及其应用所需标准的持续争论中，各组织关于道德人工智能的原则和准则的演变。文中强调了数字健康举措中性别平等这个至关重要但经常被忽视的方面，尤其是在大流行期间。这些举措虽然旨在通过改善医疗保健机会和减少无偿护理工作来增强妇女权能，但却无意中加剧了性别差异。这是由于家庭暴力增多、女性失业率上升以及家庭护理负担加重等问题，而这些问题是由于医疗机会有限和普遍存在的有害刻板印象所致。这种情况凸显了迫切需要专门努力解决数字健康背景下的性别不平等问题 [26]。

此外，人工智能（尤其是在医疗保健领域）的伦理应用是一项多方面的挑战，需要跨学科合作。伦理问题包括公平、偏见、隐私和安全，这些可以通过数据预处理和算法调整等策略在技术上得到缓解。然而，伦理考量也深受具体应用领域的影响。例如，医疗人工智能系统带来了与患者安全和隐私相关的独特伦理挑战，需要专门的技术和法律框架 [ 133 , 134 ]。

人工智能中的伦理指导被认为需要一种定制的、特定领域的方法。IEEE 全球人工智能和自主系统伦理考虑倡议和欧盟可信人工智能伦理指南等倡议因在建立人工智能的伦理发展和实施框架和建议方面所做的贡献而受到重视。这些努力反映出人们越来越认识到需要制定严格的伦理指南，这些指南要敏感地考虑到包括医疗保健在内的各种应用领域的细微差别，以确保以公平、安全的方式开发和部署人工智能技术，并尊重所有人的隐私和安全[ 135,136 ]。

8.5 .以用户为中心的人工智能系统

本节强调了根据最终用户（包括患者和临床医生）的需求和理解量身定制医疗保健领域人工智能系统的重要性。它指出，揭开机器学习方法的内部运作和结果的神秘面纱，以在这些关键利益相关者群体中培养信任非常重要。它重点介绍了研究结果，指出当前对人工智能决策的解读和说明都是以开发人员为中心的，往往忽视了最终用户的实际需求。这种错位要求对人工智能系统进行更加以用户为中心的验证，以确保它们符合透明度、问责制和公平性的基准 [137]、 [138]、 [139]、 [140]。

该论述进一步强调了 ML 专家和临床医生之间密切合作的必要性，以弥合 AI 技术与临床实践之间的沟通鸿沟。这种合作不仅对于增进这些群体之间的相互理解至关重要，而且对于根据临床见解完善 AI 系统也至关重要。临床医生在解释 XAI 输出和确定模型增强机会方面发挥着关键作用，这一点尤其突出 [ 141 , 142 ]。

此外，本节还涉及专家和普通用户对解释的不同期望和偏好。虽然 ML 专业人员可能倾向于更技术性的数学解释，但临床医生和患者可能会发现视觉或更直观易懂的解释更有用。这种差异凸显了 XAI 领域的一个更广泛的挑战——在解释的技术准确性和用户可理解性之间取得平衡 [143]。社会学研究表明，有效的解释是那些简洁、社会可接受且能够对比不同结果或场景的解释，从而指出需要设计 XAI 输出以迎合具有不同技术能力水平的不同受众。解决这些偏好和感受上的差异对于在医疗保健领域成功实施XAI 至关重要，确保所有最终用户都可以访问、可操作且有意义 [ 144,145 ]。

8.6 .评估指标（质量控制工具）

在评估医疗保健系统中人工智能的可解释性时，使用正确的评估指标至关重要。在不同目标中应用统一的质量控制指标的复杂性对 XAI 系统提出了重大挑战。一个实用的解决方案是采用针对每个评估的具体维度量身定制的各种量表，从而在评估过程中实现细微的区分。例如，在衡量用户信任时，可以通过不同的量表细致地分析一系列变量，采用调查和访谈等方法。这可以全面了解与人工智能系统相关的信任。此外，为了有效评估人工智能系统提供的解释质量，重要的是要考虑用户对解释的可理解性、有用性和所提供信息的充分性的满意度。这些因素可以通过有针对性的反馈机制来评估，该机制旨在捕捉用户对人工智能系统的体验和信念 [146]。

在迭代设计中，不同设计方法和评估类型之间的战略平衡至关重要。这可以确保人工智能系统的设计目标与所选的评估指标相一致，尤其是对于医疗保健应用而言。这种方法不仅有助于改进人工智能系统以满足特定的医疗保健需求，而且符合使人工智能系统对医疗保健专业人员和患者都更加透明、易懂和用户友好的总体目标。这种协调是培养对人工智能驱动的医疗保健解决方案的信任和信心的关键，有助于改善健康结果和提高医疗服务效率 [ 147 , 148 ]。

8.7 .认知和可用性工程

医疗保健领域的认知工程以创建与医疗保健专业人员和患者的认知能力相协调的系统和技术为中心。这种方法旨在深入了解人类认知（其优势和局限性）以及这些方面如何影响交互系统的设计。一个关键重点是以用户为中心的设计原则，旨在最大限度地减少认知负荷并提高沟通的清晰度。通过优化信息呈现和及时提供相关的临床决策支持，认知工程简化了更有效的决策过程。

此外，认知工程有助于开发不仅简单易用而且能满足患者需求的工具。这包括增强医疗信息系统（如电子健康记录）的可用性，以及帮助完成复杂的认知任务（包括解释医学图像）。通过发现和解决认知偏差并大力强调患者安全，认知工程促进了技术与人类认知过程之间的协同关系，从而确保提供高质量的医疗服务。

在 XAI 领域，整合认知和可用性工程原理至关重要。这种整合可确保临床环境中的 AI 框架在设计时能够敏锐地意识到对用户的认知需求。这样一来，这些系统不仅对医疗专业人员和患者来说都变得更加易于访问和直观，而且还能促进更安全、更有效的医疗环境。这种综合方法强调了在开发和实施 XAI 系统时考虑认知和可用性方面的必要性，确保它们与最终用户的认知工作流程和需求保持一致 [ 149 , 150 ]。

8.8不确定性量化

本节强调了评估和理解医疗预测、诊断和治疗结果中固有的不确定性的重要性。随着人工智能模型融入医疗保健，这一方面变得越来越重要，因为做出安全和明智决策的能力取决于准确评估与人工智能产生的见解相关的不确定性水平。 [145] 该研究强调了人工智能模型的持续改进和偏见减轻对于提高医疗保健公平性和公正性的重要性。它提倡采取护理人员、数据科学家、质量评估专业人员和道德委员会共同参与的方式。这种多学科合作确保人工智能模型的增强以临床能力为基础并遵守道德标准，从而使技术进步与医疗保健的核心价值保持一致 [151]。

此外，与最终用户和利益相关者建立强大的反馈回路对于找到潜在的改进领域至关重要。这种参与有助于完善人工智能系统，使其更能适应不断变化的医疗需求。通过这种反复的反馈和改进过程，人工智能医疗应用将变得更加可靠、准确和可解释。人工智能能力的这些进步有助于改善患者护理、决策过程和医疗治疗的整体效果。对不确定性量化和持续改进的重视反映了对以优先考虑患者安全、治疗效果和医疗保健自动决策的伦理影响的方式推进人工智能技术的承诺[ 152，153，154 ]。

8.9 .可解释的因果推理技术

因果推理在人工智能领域发挥着至关重要的作用，尤其是在不确定的情况下提供可靠的建议时。这个过程涉及确定观察到的变量之间的关系是否反映了因果动态。人工智能系统要想提供值得信赖的建议，就必须找到这些关系并阐明其建议背后的理由，包括任何相关风险。这种能力是通过部署因果模型来实现的，因果模型可以描绘出各种行动与其潜在结果之间的联系，从而显示系统对不同行动可能造成的后果的理解 [155]。

此外，复杂的人工智能系统还具有适应用户意图和目标变化的特点。这样的系统善于识别用户计划的变化，根据先前学习的模式及时调整响应，或在必要时进行更慎重的推理以学习最合适的行动方案。这种响应能力和理解力凸显了因果推理在人工智能中的重要性，使其能够在各种场景中有效发挥作用。通过利用因果推理的原理，人工智能技术可以超越单纯的模式识别，更深入地理解因果关系的复杂性，这对于产生既相关又可靠的见解和建议至关重要 [156]。

8.10 .改善与持续改进

在我们系统内对 XAI 流程进行全面评估后，可以清楚地看出，持续改进是最重要的因素。Kaizen 的理念侧重于持续、渐进式改进，通过提高质量、安全性、满意度、信任度、效率和 AI 系统对最终用户的可解释性，为医疗保健和医学带来了实质性的好处。通过系统地减少错误、缺陷和可变性，Kaizen 方法显著提高了护理监测过程及其结果的透明度、稳健性和效率 [ 152 , 157 ]。

在医疗保健领域的 XAI 背景下，应用 Kaizen 原则对于改善患者治疗效果和保持 AI 驱动系统的可信度至关重要。这种方法需要一个迭代周期，根据现实世界的反馈和医学知识的不断发展来完善模型、算法和可解释性技术。定期更新模型以包含新数据、研究结果和临床见解至关重要，这使得 AI 系统能够在不断变化的医疗保健需求和环境中保持相关性和有效性。

此外，自动疾病诊断的准确性可能会受到多种因素的影响，包括数据噪声。这凸显了量化和传达人工智能模型固有的不确定性以确保人工智能诊断可靠性的重要性。通过在 XAI 框架内采用 Kaizen 方法，医疗保健组织可以培养一种持续学习和改进的文化，从而产生更可靠、更易理解、更用户友好的人工智能应用程序，以支持高质量的患者护理和明智的临床决策 [158]。

8.11 .可穿戴健康追踪器和医学法学硕士的 XAI

在医疗保健领域，可穿戴物联网 (IoT) 设备代表着一项重大进步，可作为患者佩戴的设备直接连接到云端。这些设备有助于实时收集和传输健康数据，帮助持续监测健康，并能够快速响应医疗需求。事实证明，可穿戴技术在医疗保健的各个方面都非常有益，包括慢性病管理、治疗、康复支持、诊断和身体活动跟踪 [159]。

截至 2022 年，可穿戴医疗设备的市场规模约为 224.4 亿美元，预计到 2027 年可能会增至约 604.8 亿美元。这一预期增长的复合年增长率(CAGR) 为 21.9%，主要由以下几个关键因素推动：与生活方式相关的慢性病发病率上升、老年人口增加、对家庭医疗保健和远程监控解决方案的需求增加，以及对个性化患者护理的更加关注。值得注意的是，86% 的患者报告称，由于使用可穿戴技术，他们的健康状况有所改善。需求激增导致越来越多的医疗保健提供者寻求专门的可穿戴软件，以确保将患者生成的健康数据 (PGHD) 高效安全地传输到基于云的服务器以及电子健康记录 (EHR) 或电子病历(EMR) 系统。此外，此类软件还配备了高级分析功能，可进一步完善医疗保健监测和决策过程 [160]。

可穿戴医疗设备及其相关应用程序为医疗专业人员提供了患者健康状况的详细概述，使患者能够积极参与健康检查。这种协作方式可以显著改善护理结果。尽管可穿戴技术在医疗保健领域的应用越来越广泛，其重要性显而易见，但 XAI 在该领域的应用仍然存在明显差距。鉴于统计数据强调的可穿戴技术的大幅增长和依赖，必须集中精力为这些设备开发和设计一个强大、可解释的框架。这些进步将增强可穿戴医疗设备的功能和用户体验，并确保他们的决策对患者和医疗服务提供者来说是透明和可理解的，从而提高对可穿戴医疗技术的信任和可靠性。

9.结论

总之，人工智能 (AI) 有望对医学的未来产生重大影响，旨在最大限度地提高患者的利益。尽管如此，完全依赖可解释性来指导个体患者的决策可能并不是最好的策略。当前的可解释性方法无法保证特定决策的正确性、建立信任或证明 AI 建议的临床应用是合理的。但这并没有降低可解释性在确保 AI 安全方面的重要性；它仍然是诊断模型和审计系统中的问题以提高其性能并发现潜在偏见或问题的资产。

目前，可解释性方法应作为开发人员和审计人员的工具。除非可解释人工智能取得突破性进展，否则可能有必要将这些系统视为黑匣子，并根据其经验验证的性能对它们产生信任。在复杂的机器学习算法背景下，寻求人类可以理解的解释是一项持续的挑战。因此，医疗保健专业人员在依赖人工智能生成的解释时应谨慎行事。同样，监管机构在要求对人工智能技术的临床实施进行解释之前也应仔细考虑。

这项研究强调了可信赖人工智能在医疗保健领域的至关重要性，并对可解释人工智能 (XAI) 文献状况进行了全面研究。它证明了标准定义，并对数据预处理、模型选择和后处理阶段的可解释性进行了分类。XAI 实施的建议路线图主张设定明确的设计目标、吸引各种最终用户并促进跨学科合作。此外，该研究还根据不同用户群体对解释的特定需求量身定制其方法。它强调了公平性、隐私性、问责制、可持续性和稳健性等关键因素的融合，以在临床决策支持系统中创建可靠的 AI 管道。

通过人工智能和医疗界的合作，机器学习模型的可解释性已经取得了重大进展。然而，将这些进步转化为现实环境中的实际应用对于建立对智能医疗系统的真正信任仍然至关重要。缩小法律要求与技术进步之间的差距对于开发风险意识场景和扩大可信度要求的范围至关重要。虽然医疗保健领域的可解释人工智能旨在促进更好的理解和信任，但目前的方法可能不足以实现完全可解释的人工智能系统。因此，提供解释并征求反馈的交互式系统在说服最终用户和决策者相信人工智能的可靠性、促进其无保留地采用方面发挥着至关重要的作用。

附录 4

附录 4.医疗保健和医学领域中有关 IML 和 XAI 的重要调查摘要。

空单元格	空单元格	空单元格	空单元格	空单元格	空单元格	空单元格	基于人工智能的医疗设备					IML工艺
空单元格	参考	年	发行商	评论类型	评审主题	主要学科领域	医学法学硕士	远程医疗	智能随钻测量系统	移动医疗	数字孪生	预建模	造型	后期建模
*	我们的评论	2023		系统评价	稳健的可解释性方法可增强医疗保健领域的可信 AI：对过去十年提出的框架进行系统回顾	医疗保健中的 IML 和 XAI 流程、评估、实施以及几种基于 AI 的 MD	*	*	*	*	*	*	*	*
1	[42]	2023	梅奥诊所	范围审查	基于人工智能的医学博士的绩效、可解释性和可解释性的健康技术评估	指南和医疗保健利益相关者		*					*	*
2	[24]	2023	论文	简要回顾	医疗保健领域可解释人工智能的简要回顾	医疗保健应用中的XAI方法		*					*	*
3	[161]	2023	爱思唯尔	系统评价	可解释人工智能在医疗健康领域的应用	XAI的可用性和可靠性		*					*	*
4	[35]	2023	牛津	叙述性回顾	精准肿瘤学：评估几种可解释方法的可解释性的综述	精准肿瘤学中XAI方法的比较		*					*	*
5	[36]	2023	糖尿病指数	系统评价	基于心电图的心脏病分类中的可解释机器学习技术	通过专注于通过心电图信号进行心脏病诊断，开发可解释的机器学习技术			*	*			*	*
6	[16]	2023	论文	系统评价	可解释的人工智能在药物发现和开发中的应用——综合调查	XAI 方法及其在药物研发中的应用		*					*	*
7	[162]	2022	科学指导	系统评价	可解释人工智能在医疗保健中的应用：过去十年（2011-2022）的系统回顾	医疗保健领域 XAI 方法的比较		*					*	*
8	[43]	2021	爱思唯尔	叙述性回顾	打开黑匣子：可解释机器学习在心脏病学中的前景和局限性	心脏病学中的 XAI		*					*	*
9	[163]	2021	电气电子工程师学会	叙述性回顾	可解释人工智能（XAI）综述：面向医学的 XAI	医学中的XAI方法		*					*	*
10	[131]	2020	牛津	范围审查	使用现实世界的电子健康记录数据来解释人工智能模型	XAI 在生物医学和医学中的应用		*					*	*

附录 5

附录 5.可解释智能健康系统现有论文的简要摘要。

不	参考	年	发行商	主题及目标	应用	方法论和主要发现	预建模	造型	后期建模
空单元格	空单元格	空单元格	空单元格	空单元格	空单元格	空单元格	可解释性过程
1	[63]	2023	边界	支持 XAI 的人类活动识别 (HAR) 方法依赖于从智能家居传感器数据中提取的关键特征	慢性病患者的体力活动	使用随机森林 (RF) 分类器的局部可解释模型不可知 (LIME) 提高了识别准确率。	*	*	*
2	[18]	2023	杰米尔	利用机器学习和可解释性预测孕妇第二天的感知压力和生理压力	产前压力	Shapley 加法解释，建立 XAI 模型并显示风险因素来预测第二天的父母压力。		*	*
3	[17]	2023	杰米尔	可解释的机器学习技术来预测胺碘酮诱发的甲状腺功能障碍风险	甲状腺	Shapley 加法解释 (SHAP) 是一种个性化风险预测和临床决策支持的工具。		*	*
4	[123]	2023	施普林格	基于心率变异性的精神压力检测：一种可解释的机器学习方法	心率和精神压力	SHAP Global Explainability 通过可视化结果为医生提供更多细节。		*	*
5	[53]	2023	威利	透明的机器学习表明，决定 2 型糖尿病患者开始胰岛素治疗的关键因素	糖尿病	逻辑学习机，实时数据支持循证医学。	*	*	*
6	[164]	2023	通知	高血压治疗计划中的可解释政策和可解释性的代价	高血压	马尔可夫决策过程（MDP），单调、清晰、高效、有效的决策策略	*	*	*
7	[165]	2023	电子商务	利用 ChatGPT 发挥 XAI 的强大功能，实现基于提示的医疗保健决策支持	心脏病	基于 LLM 的情境提示、零样本和少样本提示学习、关于特征重要性的见解，以支持临床决策过程	*	*	*
8	[126]	2023	论文集	使用 ChatGPT 实现可解释的心理健康分析	心理健康	预训练语言模型（PLM），ChatGPT 是一个 XAI 工具。	*	*	*
9	[97]	2023	国际激光医学联合会	ChatGPT 辅助可解释零样本医学图像诊断框架	脑肿瘤	预训练视觉语言模型 (VLM)、CLIP、VLM 和 LLM 在医疗应用中的有效性	*	*	*
10	[12]	2023	国际光学工程学会	向放射科医生传达可解释的 AI 决策的用户界面	乳腺癌	提高读者在临床决策中的信心和准确性	*	*	*
11	[68]	2023	公爵	用于可解释且高效的 PPG 信号质量评估和伪影分割的学习核	心血管疾病	学习内核，低功耗设备中可靠且清晰的信号评估	*	*	*
12	[166]	2023	CHIL（健康、推理和学习会议）	医疗保健数据中的缺失值和归因：可解释的机器学习可以提供帮助吗？	婴儿死亡	可解释增强机 (EBM) ，了解缺失数据和风险	*	*	*
十三	[167]	2023	公爵	一种可解释的机器学习系统，用于识别发作期-发作间期-损伤连续体上的脑电图模式	ICU 中的脑损伤	Proto Med-EEG，增强最终用户对 ML 预测的信任	*	*	*
14	[76]	2023	科学指导	基于可解释注意力 ResNet18 的模型，用于使用听诊器肺音检测哮喘	哮喘	梯度加权类激活映射（Grad-CAM），获得高精度和可解释的结果	*	*	*
15	[52]	2023	科学指导	Adazd-Net：使用 EEG 信号的自动自适应和可解释的阿尔茨海默病检测系统	阿尔茨海默症	LIME、SHAP 和 MS、自适应灵活解析小波变换 (AFAWT)、精确且可解释的 AZD 检测	*	*	*
16	[77]	2023	糖尿病指数	使用机器学习技术对 1780 名患者进行中风后不良心理后果的可解释风险预测	中风后不良精神后果 (PSAMO)	夏普利加性解释（SHAP），中风后的早期干预。	*	*	*
17	[71]	2023	糖尿病指数	使用全景 X 光片图像预测龋齿的可解释深度学习模型	龋齿	ResNet-50，与 EfficientNet-B0 和 DenseNet-121 相比性能更佳	*	*	*
18	[62]	2022	论文集	使用深度 Transformers 和可解释 AI 自动诊断心脏 MRI 中的心肌炎疾病	心肌炎疾病	湍流神经变压器（TNT），基于可解释的 Grad Cam 方法	*		*
19	[55]	2022	科学指导	用于医学图像分割的可解释多模块语义引导注意力网络	多器官 CT 图像、脑肿瘤 MRI 图像	多模块语义引导注意力网络（MSGA-Net），各项指标均表现优异	*	*	*
20	[168]	2022	公爵	可解释的深度学习模型，助力临床乳房 X 线摄影中临床医生与人工智能更好地沟通	乳房X光检查	边缘预测和形状预测，更易于解释的毁灭模型	*	*	*
21	[118]	2022	电气电子工程师学会	XAIoT框架利用智能手表追踪生理健康。	生理健康	缓解医院拥挤，为每位患者提供清晰的医疗解释，并通过单独跟踪更快地进行诊断。			*
22	[119]	2022	施普林格	利用雾计算和可解释的深度学习技术预测妊娠糖尿病	妊娠糖尿病	Shapley 加性解释（SHAP）以经济高效的解决方案提供局部和全局解释以及早期预测。	*	*	*
23	[169]	2022	爱思唯尔	用于可解释心脏病发作预测的神经加性模型	心脏病发作	神经加性模型，评估预测效率			*
24	[170]	2022	电气电子工程师学会	提高决策中局部因素的可解释性和可用性	儿童福利检查	SIBYL，一种可解释且交互式的预测算法可视化工具		*	*
二十五	[96]	2022	PubMed	可解释脑电图异常检测的特征重要性算法的一致性	脑电图异常	使用多个 EEG 频率作为输入创建 CNN，并使用 4 种特征重要性方法：LRP（逐层相关性传播）（逐层相关性传播）（逐层相关性传播）、Deep LIFT、IG 和 Guided Grad CAM。			*
二十六	[171]	2022	PubMed	通过检查 ML 模型中的特征子组来增强 XAI	阿尔茨海默症	哈佛-牛津（皮层下）图谱，评估决策中的专家定义类别。			*
二十七	[172]	2022	自然	MIMIC‑IV 数据集上深度学习模型的可解释性和公平性评估	死亡率预测	IMVLSTM69. 用于同时学习网络参数和特征重要性的简化解释模型	*	*	*
二十八	[173]	2022	公共科学图书馆	早期发现死亡率或意外再入院在回顾性队列研究中的应用	意外死亡	Shapley 变量选择工具 (Shapley VIC)，增强决策者对预测模型的可解释性		*	*
二十九	[174]	2022	边界	COVID-19 疫情期间在线心理求助行为的预测：一种可解释的机器学习方法	心理健康	Shapley 加法解释 (SHAP)，实现快速、早期且易于理解的检测		*	*
三十	[175]	2022	糖尿病指数	基于逻辑学习机器的可解释规则准确分层原发性胆汁性胆管炎的遗传风险	原发性胆汁性胆管炎	逻辑学习机（LLM），一种具有可解释规则提取的高效个体级预测工具。	*	*	*
31	[176]	2022	糖尿病指数	测量基于 ML Web 的口腔舌癌预测工具的可用性和解释质量	口腔舌癌	系统可用性量表（SUS）和系统因果关系量表（SCS），提供可交付的可用性和可解释的结果		*	*
三十二	[177]	2022	边界	医院内压疮的机器学习方法：电子病历的回顾性研究	医院内压力性损伤	Shapley 加性解释 (SHAP)，实时预测方法，防止不必要的伤害	*	*	*
33	[178]	2022	电气电子工程师学会	基于 XAI 的 IMU 数据增强生成对抗网络新评估	身体疲劳监测	逻辑学习机有助于发现虚假数据集	*	*	*
三十四	[179]	2022	维护管理中心	打开黑匣子：可解释的机器学习用于预测代谢综合征	代谢综合征	事后模型不可知解释方法找到了最可靠的预测因子。			*
三十五	[180]	2022	维护管理中心	通过在结构化临床记录中应用可解释的机器学习技术来发现痴呆症的存在及其严重程度	失智	决策树，正确预测痴呆症的存在和严重程度	*	*	*
三十六	[181]	2022	维护管理中心	可解释的机器学习方法和呼吸振荡仪用于诊断结节病的呼吸异常	呼吸系统疾病	遗传编程和语法进化帮助临床医生做出决策并提高肺功能服务效率。	*	*	*
三十七	[182]	2022	维护管理中心	机器学习技术在预测卵巢癌生存率中的应用	卵巢癌	SHAP方法+DT+RF，更可靠、更透明	*	*	*
三十八	[183]	2021	自然	使用可穿戴传感器和XAI工具被动检测COVID-19	新冠肺炎	基于决策树的可解释梯度提升预测模型，突出了在没有任何设备自我报告症状的环境中适用性。	*	*	*
三十九	[184]	2021	自然	基于案例的可解释深度学习模型，用于数字乳腺摄影中肿块病变的分类	乳腺癌	可解释的乳腺病变人工智能算法，即使图像数据集较小，也更准确、更易于解释	*	*	*
40	[185]	2021	电气电子工程师学会	自动特征选择和分类流程可提高临床预测模型的可解释性	肾脏、心血管、糖尿病	集成树 ML 模型，用于寻找最佳特征选择和 ML 方法的管道	*	*	*
41	[19]	2021	自然	使用可穿戴传感器、判别分析和基于长短期记忆的神经结构学习进行人类活动识别	老年人	本地可解释模型无关解释 (LIME)，检测不同环境下人们的行为	*		*
四十二	[186]	2021	糖尿病指数	使用可解释的机器学习器早期检测感染性休克的发生	感染性休克	8 个 ML 模型，利用入院后 6 小时内的实时临床和管理数据进行诊断	*	*	*
43	[187]	2021	ESC键	“心脏病学中的可解释人工智能”：一种为从事体育活动的老年人提供心脏健康状况个性化预测的工具	心脏病学	诸如 Shapley Addictive Explanations (SHAP) 之类的 XAI 工具在实际临床应用中衡量特征重要性的作用。		*	*
四十四	[187]	2021	施普林格	预测缺血性卒中患者 6 个月不良预后的概率	缺血性中风	整体和局部可解释性技术，通过协助护理人员参与决策过程来减少中风死亡		*	*
四十五	[20]	2021	传感器	通过可解释的人工智能找到从医疗设备收集的心脏特征（HRV 和 BPM）与 COVID-19 之间的联系	新冠肺炎	通过局部可解释模型不可知解释 (LIME) 在出现任何症状之前 48 小时（约 2 天）预测感染。	*	*	*
四十六	[121]	2021	传感器	使用 GAN 增强来自 IoMT 传感器的数据，并使用 XAI 与真实数据进行比较	慢性阻塞性肺疾病	GAN，LLM，DT，可与真实日期进行比较的生成数据		*	*
四十七	[101]	2021	施普林格	用于预测肝炎患者病情恶化风险的可解释人工智能框架	肝炎和肝病	Shapley 加性解释 (SHAP)、局部可解释模型无关解释 (LIME) 和部分依赖图 (PDP) 提高了复杂模型的透明度和决策能力	*	*	*
四十八	[188]	2021	骨科医疗器械	SMILE：使用可解释学习和进化的系统代谢组学	阿尔茨海默病	线性遗传规划（LGP），清晰易懂的预测模型			*
49	[80]	2021	骨科医疗器械	患者相似性分析可解释临床风险预测	2 型糖尿病、高血压和血脂异常	K-最近邻，开发更可解释的机器学习的实用方法		*	*
50	[90]	2021	PubMed	临床风险预测的可解释性和可靠性的新方法：急性冠状动脉综合征情景	急性冠状动脉综合征（ACS）	逻辑回归（LR）、人工神经网络（ANN）和临床风险评分模型（即全球急性冠状动脉事件登记处 - GRACE）		*	*
51	[2]	2020	计算机协会	利用智能手表传感器的数据检测糖尿病	糖尿病	SHAP（Shapley 加法解释）用于在智能手表上归因特征并清楚地解释决策。	*	*	*
52	[95]	2020	维护管理中心	使用基于注意力机制的循环神经网络对临床结果进行可解释的预测	在 MIMIC-III 数据库中预测死亡率	循环神经网络，准确率更高，可视化更易于解释			*
53	[189]	2020	IOS 新闻	机器学习可解释性预测乳腺癌 10 年总体生存率	乳腺癌	SHapley 附加解释 (SHAP)、局部可解释模型无关解释 (LIME)、更好地接受 AI 工具			*
54	[190]	2020	糖尿病指数	可解释的图像分类问题机器学习框架	胶质瘤	比较白盒模型和黑盒模型，采用透明的特征提取方法和可解释的预测框架	*	*	*
55	[91]	2020	公共科学图书馆	打开人工智能黑匣子，为临床决策支持	中风	树提升和多层感知器 (MLP)，现代 ML 方法可以提供更多的可解释性。	*		*
56	[191]	2020	维护管理中心	Ada-WHIPS：解释 AdaBoost 分类及其在健康科学中的应用	计算机辅助诊断（CAD）	自适应加权高重要性路径片段（Ada-WHIPS）被证明是一个更好的解释	*	*	*
57	[102]	2019	维护管理中心	基于机器学习的高血压预测模型的可解释性	高血压	5 种全局可解释性技术（特征重要性、部分依赖图、个体条件期望、特征交互、全局替代模型）和 2 种局部可解释性技术（局部替代模型、Shapley）	*	*	*
58	[192]	2018	爱思唯尔	增强自动提取的机器学习特征的可解释性：应用于 RBM-随机森林系统在脑病变分割中的应用	脑肿瘤和缺血性中风	RBM-随机森林，简单易懂，突出模式		*	*
59	[193]	2016	自然	MediBoost：精准医疗时代可解释决策的患者分层工具	精准医疗	MediBoost，一种单一且易于理解的树，具有高精度，类似于集成方法		*	*
60	[194]	2016	PubMed	用于 ICU 结果预测的可解释深度模型	急性肺损伤 (ALI)	梯度提升树为临床医生提供可解释的结果		*	*
61	[81]	2015	阐明	使用规则和贝叶斯分析的可解释分类器：建立更好的中风预测模型	中风	贝叶斯规则列表，更精确且更容易理解		*	*
62	[195]	2014	PubMed	数据立方体上的可解释关联：应用于医院管理决策	乳腺癌	COGARE 方法、更简单的规则和增强的可解释性改善了过度拟合		*	*
63	[144]	2014	公共科学图书馆	可解释贝叶斯分类器组合的蚁群优化算法	心脏病和心动图	蚁群优化以及 Bagging 和 boosting 模型改善了与患者的沟通	*		*
64	[143]	2012	公共科学图书馆	可解释的临床决策支持的数学模型	妇科	间隔编码评分 (ICS) 系统，增强患者与临床医生之间的沟通		*	*

2024.8 设计可解释的 ML 系统以增强对医疗保健的信任：对提出的负责任的临床医生-AI 协作框架的系统评价