cite:Tianxiang Liu, Cangzhi Jia, Yue Bi, Xudong Guo, Quan Zou, Fuyi Li, scDFN: enhancing single-cell RNA-seq clustering with deep fusion networks, Briefings in Bioinformatics, Volume 25, Issue 6, November 2024, bbae486, https://doi.org/10.1093/bib/bbae486
代码地址:https://github.com/11051911/scDFN
摘要
单细胞核糖核酸测序 (scRNA-seq) 技术可以对单个细胞的转录组进行高分辨率分析。因此,这项技术在准确分析日益复杂的异质性单细胞数据集方面得到了广泛应用。scRNA-seq 数据解析的核心是通过聚类方法揭示转录组的多样性并推测细胞行为模式。然而,由于其复杂性,处理单细胞数据固有的异质性及有限的基因表达特征需要采用先进的方法论。在此,我们提出了一种基于深度学习的单细胞聚类新算法,称为 scDFN,通过融合网络策略显著增强了 scRNA-seq 数据的聚类效果。
scDFN 算法采用双重机制:首先通过自动编码器提取属性信息,其次通过改进的图自动编码器捕获拓扑细节,并通过跨网络的信息融合机制结合,同时辅以三重自监督策略。该融合过程通过对四种不同损失函数的整体优化实现最佳效果。与五种领先的 scRNA-seq 聚类方法在多个数据集上的对比分析表明,scDFN 在标准化互信息 (NMI) 和调整兰德指数 (ARI) 评价指标上具有明显优势。此外,scDFN 展现了在多聚类数据集上的强大性能,以及对批次效应的卓越抗干扰能力。
消融实验进一步突出了自动编码器和改进的图自动编码器组件的关键作用,同时验证了四种联合损失函数对算法整体效果的重要贡献。通过这些创新,scDFN 在单细胞聚类领域树立了新标杆,并可作为单细胞转录组学分析的有效工具,为更精细的研究提供支持。
引言
单细胞RNA测序(scRNA-seq)技术是高通量技术的一项重要进步,可以在最精细的层面分析单个细胞的转录组[1]。这种技术不同于传统的群体RNA测序方法,后者无法捕捉细胞之间的复杂异质性[2]。随着单细胞数据中异质性内容的不断增加,开发专门用于单细胞转录组分析的高效工具变得尤为重要[3]。细胞聚类是一种重要的技术,可用于确定细胞的异质性、分析细胞的发育轨迹[4],以及执行KEGG通路分析和基因本体(GO)分析。通过根据表达矩阵对细胞进行分组,聚类有助于揭示内部结构信息和分子特征,从而影响单细胞转录组学下游分析的质量。然而,由于单细胞转录组数据的高异质性和低基因表达率,单细胞聚类面临诸多挑战。
传统的聚类方法,如k-means聚类[5]、层次聚类[6]、主成分分析(PCA)和K近邻算法(KNN),已经被用于开发细胞聚类方法。例如,SC3[7]结合基因筛选与PCA和拉普拉斯变换,通过在k-means聚类中加入层次聚类来增强聚类效果,并通过整合初值和条件变化改进了聚类结果。该方法通过确保一致性克服了贪心算法的局限性。此外,像加速细化社区表型分析(PARC)[8]和Seurat[9]等方法利用KNN根据计算距离和邻居数量将细胞分配到最近的聚类中,但这些距离和邻居数量的定义可能存在显著变化。Tools for single cell analysis(TSCAN)是一种无监督方法,将基因表达与细胞的时间或空间定位联系起来,支持通过轨迹推断分析进行细胞聚类[10]。然而,面对大数据集时,传统的聚类技术在可扩展性上存在困难,而方法如KNN的效果很大程度上依赖于计算距离和最近邻居数量的选择。
深度学习为scRNA-seq数据的聚类和分析引入了各种先进方法。这些基于深度学习的单细胞数据聚类方法根据网络优化目标分为五大类,包括基于生成对抗网络的方法(例如scGPCL[11]和scDECL[12])、基于子空间聚类的方法(例如scBGEDA[13])、基于高斯混合模型的方法(例如scSSA[14])、基于谱聚类的方法(例如Secuer[15]和scDSSC[16]),以及基于自我优化的方法(例如scziDesk[17]、scDeepCluster[18]、DESC[19]和GraphSCC[20])。表1总结了这些基于深度学习的单细胞聚类方法。例如,scDSSC[16]使用自动编码器进行去噪和降维,并通过稀疏自表达矩阵进行谱聚类。然而,该模型在不同数据集的训练过程中需要使用不同的超参数。DESC[19]通过自动编码器获取参数,并通过迭代优化聚类目标函数学习空间结构。此外,DESC使用传统的均方误差(MSE)损失作为数据重建误差,但忽略了相似细胞之间的距离,因此无法保持数据的全局和局部结构。DCA[21]采用深度计数自动编码器网络对scRNA-seq数据进行去噪。在scDeepCluster[18]中,自动编码器通过同时减少重建损失和分离损失来训练,从而能够同时学习转录组表达和聚类特征。然而,由于其未预先选择高变异基因作为输入特征,其聚类精度较低、耗时长且需要大量内存。scSSA[14]使用半监督自动编码器和快速独立成分分析(fastICA)进行降维,并构建高斯混合模型以获得精确的聚类结果。然而,不同数据集可能需要不同的训练轮数来最小化损失。由于其使用半监督自动编码器,训练过程中需要对部分细胞进行标注,否则聚类性能可能受到较大影响。scziDesk[17]模型结合了深度学习技术和去噪自动编码器对scRNA-seq数据进行表征,并在潜在学习空间中使用软自训练k-means算法对细胞群体进行聚类。scBGEDA[13]通过双去噪自动编码器和二分图集成聚类算法执行单细胞聚类。上述大多数模型在初始化时使用k-means聚类,并基于聚类损失优化结果。然而,这些模型忽略了细胞之间的结构信息,在处理大数据集时也面临困难。scTAG[22]开发了一种拓扑自适应图卷积自动编码器,用于学习细胞之间的拓扑表示。假设无偏的细胞学习框架scGNN[23]使用图神经网络表征细胞之间的关系。scGAE[24]采用面向多任务的图自动编码器进行降维,以保留scRNA-seq数据的拓扑结构和属性信息。GraphSCC[20]结合了图卷积网络(GCN)和去噪自动编码器以整合scRNA-seq数据的结构信息,并设计了一个双自监督模块以优化潜在表示。在scMGCA[25]中,构建了一个图嵌入自动编码器以同时学习细胞拓扑表示和聚类分配。值得注意的是,Ding等人[26]提供了一个端到端工具包DANCE,它支持3个模块和8项任务,涉及21个基准数据集中的32种最新方法。然而,图自动编码器通常会遗漏基因表达数据中的关键模式,这是这些方法的主要局限性。
基于这些方法,已经开发出多种深度图聚类方法,这些方法结合了自编码器和图编码器以提取图的结构和属性信息。这种组合相比单独使用自编码器或图自编码器具有显著优势。SDCN [27] 基于自编码器和图卷积网络 (GCN) 的双自监督组合整合了数据的多重表示和结构。在此过程中,自编码器和GCN相互配合以提高聚类性能。DFCN [28] 则通过自编码器和图编码器捕获输入数据中局部和全局信息的共享表示。这些结果表明,结合经典自编码器和图自编码器是一种提取scRNA-seq数据中细胞信息和细胞间拓扑信息的有效方法。
在本研究中,我们提出了一种自优化深度单细胞聚类算法(scDFN),该算法通过融合网络提取scRNA-seq数据的属性信息和结构信息。scDFN 包含三个主要模块:数据处理模块、信息编码模块和信息融合模块。数据处理模块用于选择高变异基因并降低输入scRNA-seq数据特征的维度。信息编码模块通过自编码器和改进的图自编码器提取细胞表示信息。这是首次在单细胞水平应用增强图网络以实现数据的拓扑表示。信息融合模块基于跨网络信息融合机制和三重自监督策略结合提取的属性和拓扑信息。整个模型采用四重联合损失来优化细胞聚类表示。综合评估和分析结果表明,scDFN 能够有效提升scRNA-seq聚类性能。与五种最先进的scRNA-seq聚类方法相比,scDFN 在多个数据集上取得了更高的NMI [29]、ARI [30]、局部反辛普森指数 (LISI) 和平均轮廓宽度 (ASW) [31]。此外,scDFN 能够有效分析多聚类数据集。消融研究不仅验证了自编码器和改进图自编码器的必要性,还揭示了四重联合损失的重要性。我们的scDFN方法在聚类中还表现出卓越的鲁棒性,并能有效消除批次效应。
模型
scDFN 方法主要包括三个部分,通过学习细胞的低维表示来优化聚类结果,其整体框架如图 1 所示。第一部分是利用 Python 的 Scanpy 包 [32] 进行数据处理。我们选择了高变异基因,并绘制了一个 KNN 图,作为改进图自编码器 (IGAE) 的输入。第二部分是建立 AE(自编码器)和 IGAE 的框架,以获取细胞的低维潜在表示。在这一部分中,AE 用于整合细胞的属性信息并获得低维潜在嵌入;IGAE 通过学习表达矩阵和细胞图提取细胞的主要信息及其拓扑结构。
第三部分是最重要的部分,采用了零膨胀负二项分布 (ZINB),不仅用于模拟细胞的分布,还作为解码器重构基因表示。我们使用均方误差 (MSE) 重构损失来重构 AE 和 IGAE 的细胞表示。在嵌入表示上执行基于 Kullback–Leibler (KL) 散度的自优化聚类任务,这被称为三重自监控机制。通过同时优化聚类损失、基于 ZINB 的损失、细胞图和表达矩阵的重构损失,我们捕获了细胞的最优属性信息和拓扑信息。
实验
与五种最先进的单细胞RNA测序聚类方法的性能比较
将scDFN与五种先进的单细胞聚类方法进行了比较,这些方法使用来自多个平台的32个scRNA-seq数据集来评估其聚类性能。这些方法包括scMGCA、scDEFR、scTAG、scDeepCluster和scDSSC,是近年来开发的最先进方法,并取得了良好的聚类效果。为了确保比较的公平性,对基线模型的方法进行了分析,发现其与原始文献保持一致。比较结果总结在图2和在线可用的补充表S2和S3中(http://bib.oxfordjournals.org/)。
我们发现,在所有32个数据集上,scDFN的NMI(0.8131)和ARI(0.7518)平均分数最高,而scDEFR的得分次高(NMI=0.8161,ARI=0.7518;图2a和b)。具体来说,scDFN在15个数据集上的NMI得分表现出色,其中QS_Diaphragm数据集的最高得分为0.9693,而scDEFR在7个数据集上的表现出色,QS_Limb_Muscle数据集的最佳得分为0.9637(图2g)。在ARI值方面,scDFN在16个数据集上的表现良好,QS_Diaphragm数据集的最高得分为0.9813;而scDSSC在6个数据集上的表现位居第二(图2h)。
我们还比较了这些方法在各种数据平台上的总体聚类性能(NMI和ARI),包括基于板的平台、流式芯片平台、Smart-Seq 2、SMARTer、10X Genomics和inDrop(图2c–f)。此外,还使用ASW和cLISI评估聚类性能(图S1和S2;补充表S4和S5,在线可用:http://bib.oxfordjournals.org/)。所有聚类方法的cLISI得分均大于0.97,其中scDFN的最高值为0.9967。对于ASW,scTAG是表现最好的方法,得分达到0.8769,而我们的scDFN仅排名第四,得分为0.5709。
我们还评估了scDFN与其他五种聚类算法在我们的PC上运行的计算时间。如表S6和图S4所示(在线可用:http://bib.oxfordjournals.org/),scDFN在大小不等的32个数据集上的平均运行时间为3.41分钟,与scDSSC和scMGCA几乎相当,但多于scTAG和scDeepCluster,远低于scDEFR(图S3和补充表S6)。
实验结果显示,scMGCA算法在跨平台上的聚类性能优于其他五种聚类算法,这验证了scMGCA算法在跨平台聚类中的有效性和准确性。然而,不可否认的是,我们的模型在某些数据集(如Camp_Brain、Xin和Romanov)上的表现较差。主要原因可能是我们的模型未针对每个数据集调整参数,且某些数据集可能包含大量噪声或无关信息。在Camp_Brain和Romanov数据集上的聚类结果中,所有预测方法的表现都不如其他数据集,这可能是数据本身的内在特性所导致。结果分析表明,该模型在未来工作中需要进一步优化。
在多聚类数据集上的性能
分析具有大量细胞聚类的scRNA-seq数据集是具有挑战性的,因为无监督学习方法会受到聚类数量的影响【54】。我们发现,scDFN在具有大量聚类的数据集上能够实现更好的NMI和ARI性能(补充表S2和S3,在线可用:http://bib.oxfordjournals.org/)。例如,对于Chen数据集(46个聚类)和TASIC数据集(49个聚类),scDFN的NMI得分分别为0.7655和0.8178,ARI得分分别为0.6420和0.5689。scDFN的高性能主要是因为新构建的交互潜在空间能够捕捉不同细胞聚类之间的微妙差异。例如,TASIC数据集包含49个聚类,其中9个聚类的每个聚类包含的细胞数不到15个(补充表S7,在线可用:http://bib.oxfordjournals.org/)。TASIC的原始细胞表达矩阵如图3a所示,展示了几个聚类之间的混合情况。经过在scDFN中重构交互潜在空间后,大多数聚类被成功分离(图3b)。为了评估scDFN如何区分TASIC中稀有的细胞聚类,我们选择了稀有细胞聚类进行t-SNE投影,发现这些细胞聚类在潜在空间中得到了良好的分离(图3c)。此外,图S4(在线可用:http://bib.oxfordjournals.org/)提供了在TASIC数据集上,三种最先进方法scMGCA、scDEFR和scTAG的t-SNE投影结果。
模型就是讲DFCN用于单细胞聚类任务中,但是实验做得不错,可以学习。。