Title
题目
Learning multi-modal representations by watching hundreds of surgical video lectures
通过观看数百个外科手术视频课程来学习多模态表征
01
文献速递介绍
近年来,外科计算机视觉领域的进展已开始为手术室(OR)的新一代人工智能辅助支持系统铺平道路(Maier-Hein 等,2017,2022;Ward 等,2021;Mascagni 等,2022;Madani 等,2020;Yuan 等,2021)。该领域取得了显著进步,从粗略的手术 workflow 识别(Blum 等,2008,2010;Padoy 等,2012;Twinanda 等,2016;Dergachyova 等,2016)发展到通过手术动作三元组(Nwoye 等,2022)、像素级场景分割(Allan 等,2019;Alapatt 等,2021)和手术场景重建(Wang 等,2022;Pfeiffer 等,2019;Rivoir 等,2021)实现的细粒度手术场景理解。然而,当前的进展存在三个主要局限性:首先,这些方法主要集中于构建特定任务的全监督深度学习模型,需要临床专家付出大量努力来生成带标签的真值;其次,这些方法的有效性主要在有限数量的单中心、特定手术流程的手术视频数据集上得到验证,不足以涵盖整个手术 workflow 的复杂细节(Eisenmann 等,2022);第三,这些方法在设计中没有明确整合自然语言文本的丰富语义。包含广泛视觉概念的自然语言文本可以作为视觉模型的自然监督,确保其对多种下游任务具有高度的通用性和可用性。能够利用最少标记的自然语言监督扩展到多个下游任务,同时利用大规模多手术流程视频的方法,将有助于扩大这些方法的应用范围。 在通用计算机视觉领域,结合视觉和自由形式自然文本信息的多模态表征学习(Radford 等,2021;Miech 等,2020)正成为一种可行的替代方案,可避免为不同下游任务收集带标签的训练数据(Radford 等,2021;Jia 等,2021)。这些方法旨在通过在大规模配对的视觉-文本输入上预训练两个并行编码器(一个用于视觉,一个用于文本)来学习低维联合潜在空间。两种模态的共享潜在空间支持零样本迁移学习,即预训练的视觉和文本编码器能够适应不同的下游任务,而无需使用特定任务的标签进行微调。这一突破在广泛的通用计算机视觉应用中取得了令人瞩目的成果,包括零样本图像分类(Radford 等,2021)、图像 captioning(Nukrai 等,2022)、语义图像检索(Sain 等,2023)和文本到形状生成(Sanghi 等,2022)。 考虑到多模态表征学习的这一令人印象深刻的进展,一个自然的问题产生了:能否为外科计算机视觉学习到这种高级别的联合表征?如果可能,这将是外科数据科学(Maier-Hein 等,2022)进展中的重要一步。通过获得这样的表征,我们不仅能够在不使用特定任务标签的情况下执行现有的手术视频分析任务,例如从粗粒度到细粒度的手术 workflow 识别(Twinanda 等,2016;Nwoye 等,2022),还将为手术室中可扩展的智能认知辅助开辟新途径。这些包括视觉-语言应用,如手术视觉问答(Seenivasan 等,2022)、手术报告生成(Xu 等,2021b)以及促进临床医生与手术设备之间的交互式通信。 本研究引入了 SurgVLP(Surgical Vision Language Pre-training,外科视觉语言预训练),这是一种用于外科计算机视觉大规模多模态表征学习的深度学习方法。开发这种方法并非没有独特的挑战。主要障碍之一是与通用计算机视觉领域中可用的数百万多模态视觉-文本对相比,缺乏大规模多模态多手术流程的手术数据集(Radford 等,2021;Grauman 等,2022;Miech 等,2019)。例如,最近开发的 Ego4D(Grauman 等,2022)数据集收集了 3000 小时的活动视频并对其进行了人工叙述。由于收集和标注手术视频需要大量人力,这种方法在外科领域是无法实现的。 作为我们的第一个贡献,我们提议利用通过开放外科电子学习平台(如 WebSurg(Websurg,2023)和 EAES(EAES,2023))以及在线视频分享平台(如 YouTube(YouTube,2023))获得的手术视频课程进行视觉-文本多模态学习。与人工标注的医学影像报告(Chen 等,2022a)或手术说明(Rojas-Muñoz 等,2020)相比,我们提议使用未处理的、可能带有噪声的音频作为多模态表征学习的主要监督来源。我们利用语音识别(ASR)(Mehrish 等,2023)的最新进展,将课程音频转录为句子,并将其与相应的视频片段链接,构建大量的视频片段-文本对,如图 1 所示。由此产生的手术视频课程(SVL)数据集包含了各种手术流程中手术事件、器械使用和解剖状态的多样化描述,从而为外科多模态表征学习提供了足够的监督。 然而,使用 SVL 数据集进行多模态表征学习面临着若干语言挑战。首先,这些视频中描述的外科概念使用领域特定知识和科学术语,这在通用计算机视觉中并不常见。例如,“抓住胆囊颈部并将其向左下腹牵拉以打开肝胆囊三角”和“在连接 Rouviere 沟和第四肝段底部的假想安全线上方进行解剖”是腹腔镜胆囊切除术手术视频课程中常见的特定手术描述。此外,手术视频片段与其相应的文本描述之间可能存在语义错位。事实上,描述手术过程的讲师可能会偏离当前病例,回忆一个类似的有出血事件的病例,即使相关视频中并未显示。此外,这些视频具有长程依赖性。例如,讲师可能会评论充分解剖以获得无张力吻合的重要性,即使该解剖步骤在手术开始时已展示或被编辑掉。最后,虽然最新的 ASR 模型(Chen 等,2022b;Radford 等,2023)能够有效转录日常 speech,但由于前面描述的外科特定语言挑战,它们在外科场景中的表现并不理想。例如,最先进的 ASR Whisper 模型(Radford 等,2023)能够理解句子结构和常用词汇,但在处理外科特定术语时存在困难(例如,将“空肠造口术”转录为“egenostomy”)。商业医疗特定解决方案,如 AWS(2023),在转录医学术语方面明显更好,但往往无法捕捉句子的整体结构和边界。 我们提出了两种关键技术来发展特定于外科的多模态表征学习。首先,我们采用来自两个有噪声但互补的 ASR 系统(即 Whisper(Radford 等,2023)和 AWS(2023))的文本转录,以获得改进的学习过程监督信号,如图 1 所示,有效缓解了每个系统相关的局限性和不准确性。其次,我们提出了一种新的对比学习目标,该目标利用来自 ASR 系统的双重文本转录和相应的视频片段。所提出的对比学习目标旨在促使视频片段和相应双重文本转录的嵌入向量在联合潜在空间中靠近。通过这样做,学习到的多模态表征保留了有噪声的 ASR 转录中存在的共同语义,实现了视觉和文本信息的更有效融合。 为了有效展示所学习的联合潜在空间的表征能力,我们引入了各种外科视觉-语言任务作为多模态评估基准。这些任务包括基于文本的视频检索、时间活动定位和视频 captioning。基于文本的视频检索任务旨在将给定的文本查询与各种视频片段相关联,而时间活动定位任务涉及将给定的文本查询定位到整个视频中的特定视频片段。这两个任务检验了联合潜在空间捕捉外科视觉信息及其文本描述中固有潜在关系的程度。视频 captioning 任务旨在为给定的手术视频片段生成 caption。由于这是一个生成任务,它需要使用文本解码器来产生连贯的文本输出。我们提出了一种构建文本解码器的方法,并将其附加到我们的预训练编码器上,无缝地将我们的预训练模型重新用于视频 captioner。整个过程只需要文本数据来训练文本解码器模型。我们证明了在所有视觉-语言任务上,与基线方法相比有显著改进。 接下来,我们评估了我们的方法在应用于未见过的手术数据集和任务时的稳健性和适应性。具体而言,我们检查了其在传统纯视觉手术任务中的表现,包括手术工具、阶段和动作三元组识别(Twinanda 等,2016;Nwoye 等,2022)。我们通过将类别标签(工具、阶段或动作三元组)处理为文本形式,并基于视觉和文本潜在向量的相似性对视频帧进行分类,来评估我们的方法作为零样本迁移学习的性能。结果表明,从各种手术流程中通过我们的多模态联合表征学习到的通用外科概念可以有益于特定的手术流程,例如腹腔镜胆囊切除术。据我们所知,这是第一项展示自监督多模态预训练用于无标注识别手术工具、阶段和动作三元组的工作。虽然我们的零样本性能落后于全监督基线,特别是在需要细粒度解剖推理的任务中,但结果突出了 SurgVLP 作为基础骨干的潜力,可减少下游任务的标注成本。最后,我们进行了广泛的消融研究,以阐明我们方法的不同组件及其对结果的影响。我们工作的贡献可以简要总结为以下四个关键方面: - 我们提议利用可通过开放外科电子学习平台获取的手术视频课程知识进行视觉-文本多模态表征学习。为此,我们引入了一个大规模的手术视频课程(SVL)数据集,包含 1.4k 个手术视频。 - 我们提议利用来自两个互补的 ASR 系统(Whisper 和 AWS)的文本转录,通过解决这些 ASR 系统产生的语言不准确句子来增强表征学习过程。 - 我们提出了一种新颖的对比学习目标,该目标利用来自 ASR 系统的双重文本转录和相应的视频片段,旨在促使嵌入向量在联合潜在空间中接近。 - 我们展示了我们提出的框架在多个视觉-语言和纯视觉任务中的零样本迁移能力。
Abatract
摘要
Recent advancements in surgical computer vision applications have been driven by vision-only models, whichdo not explicitly integrate the rich semantics of language into their design. These methods rely on manuallyannotated surgical videos to predict a fixed set of object categories, limiting their generalizability to unseensurgical procedures and downstream tasks. In this work, we put forward the idea that the surgical video lecturesavailable through open surgical e-learning platforms can provide effective vision and language supervisorysignals for multi-modal representation learning without relying on manual annotations. We address the surgeryspecific linguistic challenges present in surgical video lectures by employing multiple complementary automaticspeech recognition systems to generate text transcriptions. We then present a novel method, SurgVLP —Surgical Vision Language Pre-training, for multi-modal representation learning. SurgVLP constructs a newcontrastive learning objective to align video clip embeddings with the corresponding multiple text embeddingsby bringing them together within a joint latent space. To effectively demonstrate the representational capabilityof the learned joint latent space, we introduce several vision-and-language surgical tasks and evaluate variousvision-only tasks specific to surgery, e.g., surgical tool, phase, and triplet recognition. Extensive experimentsacross diverse surgical procedures and tasks demonstrate that the multi-modal representations learned bySurgVLP* exhibit strong transferability and adaptability in surgical video analysis. Furthermore, our zero-shotevaluations highlight SurgVLP’s potential as a general-purpose foundation model for surgical workflow analysis,reducing the reliance on extensive manual annotations for downstream tasks, and facilitating adaptationmethods such as few-shot learning to build a scalable and data-efficient solution for various downstreamsurgical applications.
近年来,外科计算机视觉应用的进步主要由纯视觉模型推动,这些模型在设计中并未明确整合丰富的语言语义。此类方法依赖人工标注的外科手术视频来预测固定的目标类别集,这限制了它们在未见过的外科手术流程及下游任务中的泛化能力。 在本研究中,我们提出一种思路:开放外科电子学习平台上的手术视频课程,可在不依赖人工标注的情况下,为多模态表征学习提供有效的视觉和语言监督信号。为解决手术视频课程中存在的特定于外科领域的语言挑战,我们采用了多个互补的自动语音识别系统来生成文本转录内容。 随后,我们提出了一种新颖的方法——SurgVLP(外科视觉语言预训练),用于多模态表征学习。SurgVLP构建了一种新的对比学习目标,通过将视频片段嵌入与对应的多个文本嵌入在一个联合潜在空间中聚合,实现二者的对齐。 为有效证明所学习到的联合潜在空间的表征能力,我们引入了多个外科领域的视觉-语言任务,并评估了多种特定于外科的纯视觉任务,例如手术工具识别、手术阶段识别和三元组识别。 在不同外科手术流程和任务上的大量实验表明,SurgVLP学习到的多模态表征在外科视频分析中表现出强大的迁移能力和适应性。此外,我们的零样本评估结果凸显了SurgVLP作为外科工作流分析通用基础模型的潜力,它减少了下游任务对大量人工标注的依赖,并有助于通过少样本学习等适配方法,为各种下游外科应用构建可扩展且数据高效的解决方案。
Conclusion
结论
6.1. Discussion
6.1.1. Future workThis work shows that the proposed SurgVLP achieves superior zeroshot performance than the state-of-the-art methods (Radford et al.,from the general computer vision field. The better performanceis enabled due to the constructed large-scale surgical vision-languagedataset and pretraining strategy with multiple text views. However,the zero-shot adaptation of SurgVLP is not supervised by any annotated data, leading to a suboptimal performance compared to thefully supervised works (Twinanda et al., 2016; Czempiel et al., 2020).A potential improvement towards real-world application is to adaptthe learned multi-modal representations of the pretrained SurgVLP tothe downstream tasks using less labeled data with fully-supervisedfinetuning. Specifically, the SurgVLP’s dual-branch architecture canencode domain-specific textual knowledge while capturing detailedvisual patterns from the surgical scene (Kan et al., 2023). Consequently,the feature extractor of fully supervised methods (Twinanda et al.,2016; Czempiel et al., 2020) could be boosted by the complementary information from the textual side. Another future work line isto explore ‘‘cheaper’’ self-supervision signals within the visual andtextual modalities. Typical work includes building the external knowledge base (Shen et al., 2022) and performing retrieval-augmentedvision-language pretraining (Xie et al., 2023). Witnessing the recentemergence of large language models (Touvron et al., 2023) and itsencoded clinical knowledge, exploring the usage of these languagemodels by eliciting their knowledge can help to merge the domaingap. Furthermore, the current work overlooks the hierarchical structureinherent in surgical videos. To address this, hierarchical multi-modalpretraining can be incorporated to further improve the performance forthe surgical downstream tasks requiring long temporal context for theprediction.
6.1. 讨论 6.1.1. 未来工作 本研究表明,所提出的SurgVLP在零样本性能上优于通用计算机视觉领域的最先进方法(Radford等人,2021)。这种更优的性能得益于构建的大规模手术视觉-语言数据集以及采用多文本视图的预训练策略。然而,SurgVLP的零样本适配没有任何标注数据的监督,因此与全监督方法(Twinanda等人,2016;Czempiel等人,2020)相比,性能并非最优。 面向实际应用的一个潜在改进方向是,通过使用较少标注数据进行全监督微调,使预训练的SurgVLP所学习到的多模态表征适应下游任务。具体而言,SurgVLP的双分支架构能够在编码领域特定文本知识的同时,捕捉手术场景中的详细视觉模式(Kan等人,2023)。因此,全监督方法(Twinanda等人,2016;Czempiel等人,2020)的特征提取器可以通过来自文本侧的互补信息得到增强。另一个未来的研究方向是探索视觉和文本模态中“更廉价”的自监督信号。典型工作包括构建外部知识库(Shen等人,2022)以及进行检索增强的视觉-语言预训练(Xie等人,2023)。鉴于最近大型语言模型(Touvron等人,2023)的兴起及其所编码的临床知识,通过挖掘这些语言模型的知识来探索其应用,有助于缩小领域差距。此外,当前工作忽略了手术视频中固有的层次结构。为解决这一问题,可以引入层次化多模态预训练,以进一步提高需要长时时间上下文进行预测的手术下游任务的性能。
Figure
图
Fig. 1. Examples of video clip-text pairs from SVL dataset. The video clip-text pairs are pairs of video clips and their corresponding transcripts. We generate transcripts forhundreds of surgical video lectures using two ASR systems, i.e., AWS Medical Transcribe (AWS, 2023) and Whisper (Radford et al., 2023). The transcripts usually illustrate theessential concept of surgical anatomies, instruments and events. We use large-scale video clip-text pairs to learn joint multi-modal representations.
图1. SVL数据集中的视频片段-文本对示例。 视频片段-文本对由视频片段及其对应的文字转录内容组成。我们使用两个自动语音识别(ASR)系统——AWS Medical Transcribe(AWS, 2023)和Whisper(Radford等, 2023),为数百个手术视频课程生成文字转录内容。这些转录内容通常阐释了外科解剖结构、器械和事件的核心概念。我们利用大规模的视频片段-文本对来学习联合多模态表征。
Fig. 2. Pipeline of proposed SurgVLP. Figure (a) shows examples of video clip-text pairs and their construction process. We have two text views and we pair them to randomlengths of video clips. Figure (b) presents the contrastive learning objective with AWS sentences and Whisper sentences. SurgVLP utilizes the Info-NCE and MIL-NCE losses forAWS and Whisper sentences, respectively. Figure (c) illustrates how to perform downstream tasks in the zero-shot setting. We show the vision-and-language tasks, e.g., text-basedvideo retrieval and temporal activity grounding, at the top and the vision-only tasks at the bottom.
图2. 所提出的SurgVLP的流程框架 (a)展示了视频片段-文本对的示例及其构建过程。我们有两个文本视图,并将它们与随机长度的视频片段配对。 (b)呈现了针对AWS和Whisper生成的句子所设计的对比学习目标。SurgVLP分别对AWS句子和Whisper句子采用Info-NCE损失和MIL-NCE损失。 (c)说明了在零样本设置下如何执行下游任务。上方展示了视觉-语言任务(如基于文本的视频检索和时间活动定位),下方展示了纯视觉任务。
Fig. 3. Text-only-training for video captioning: We use the learned joint embeddingspace where text is encoded in a representation close to the ones of its correspondingvideo clips. During training, we train the text decoder to generate captions from textembeddings. During inference, the visual embeddings are fed to the visual encoder andthen to the text decoder to generate the text captions
图3. 用于视频字幕生成的纯文本训练: 我们利用学习到的联合嵌入空间,其中文本的编码表示与其对应视频片段的编码表示相近。训练阶段,我们训练文本解码器从文本嵌入生成字幕;推理阶段,视觉嵌入先输入视觉编码器,再传入文本解码器以生成文本字幕。
Fig. 4. Qualitative results of text-based video retrieval on SVL-Retrieval dataset using *SurgVLP*’s learned joint multi-modal representations. For each language query, we retrieve3 video clips from the repository. The ground truth video clip is framed in green. It is here always mentioned in the top-3 results.
图4. 利用SurgVLP学习到的联合多模态表征在SVL-Retrieval数据集上进行基于文本的视频检索的定性结果 对于每个语言查询,我们从库中检索出3个视频片段。真值视频片段用绿色边框标注,且在本图中始终出现在前三名结果中。
Fig. 5. Textual-visual activation maps from different sentence queries. The first row shows the ground truth. The second row shows the predicted activation map along the timeaxis for the raw sentence. The third row shows the newly generated activation maps conditioned by modified sentences. When the whole sentence is decomposed into sub-sentences,the SurgVLP approach generates a focused textual-visual activation map for the sentence with clear and less ambiguous words. This shows that SurgVLP responds to specific surgicalterms rather than general terminology
图5. 不同句子查询的文本-视觉激活图 第一行展示真值结果。第二行展示针对原始句子在时间轴上的预测激活图。第三行展示由修改后的句子所生成的新激活图。当完整句子被分解为子句时,SurgVLP方法会为包含清晰且歧义较少词汇的句子生成聚焦的文本-视觉激活图。这表明SurgVLP对特定外科术语有响应,而非通用术语。
Fig. 6. Textual-visual activation maps of the SurgVLP model, computed on two language queries from SVL-Retrieval testing set. The language queries are shown at the top of thefigure, and the first row shows the ground truth activation map. The second and the third row shows the activation maps of SurgVLP trained with one text view, i.e., AWS textsand Whisper texts, respectively. The last row shows that when the SurgVLP model is trained on both AWS and Whisper texts, it generates more concrete activation maps with lessnoise
图6. SurgVLP模型的文本-视觉激活图 基于SVL-Retrieval测试集中的两个语言查询计算得出。语言查询显示在图的顶部,第一行展示真值激活图。第二行和第三行分别展示仅使用单一文本视图(即AWS文本和Whisper文本)训练的SurgVLP的激活图。最后一行显示,当SurgVLP模型同时使用AWS和Whisper文本训练时,生成的激活图更具体,噪声更少。
Fig. 7. Qualitative results of temporal activity grounding. We show the grounding results of two videos with three language queries. Each set of images represents a video clip.We show top-2 grounded clips for given text queries. Video clips framed in green are the ground truth to the given text. 1: top-1 grounded result. #2: top-2 grounded result
图7. 时间活动定位的定性结果 我们展示了两个视频在三个语言查询下的定位结果。每组图像代表一个视频片段。对于给定的文本查询,我们展示了排名前2的定位片段。绿色边框标注的视频片段是给定文本对应的真值。#1:排名第1的定位结果;#2:排名第2的定位结果。
Fig. 8. Caption results from text-only training for video captioning. Random: randomly initialized SurgVLP. CLIP (Radford et al., 2021): publicly available joint embedding spacefrom OpenAI pre-trained CLIP model. SurgVLP shows more reliable captioning results with more overlap to the ground truth sentence. Also, the SurgVLP approach can generatedetailed captions with the surgical instrument mentioned, e.g. ‘‘pledgets’’ in the top row last column
图8. 基于纯文本训练的视频字幕生成结果 - Random(随机):随机初始化的SurgVLP模型。 - CLIP(Radford等,2021):OpenAI预训练的CLIP模型公开可用的联合嵌入空间。 SurgVLP生成的字幕结果更可靠,与真值句子的重叠度更高。此外,SurgVLP方法能够生成包含外科器械细节的字幕,例如第一行最后一列中的“pledgets(止血垫)”。
Fig. 9. Effect of our designed contextual prompts to the zero-shot transfer of vision-only downstream tasks. Our contextual prompts outperform their counterparts by encodingmore specific action and anatomy information, thus boosting phase recognition and instrument-verb recognition.
图9. 我们设计的上下文提示对纯视觉下游任务零样本迁移的影响** 我们设计的上下文提示通过编码更具体的动作和解剖结构信息,性能优于其他提示方式,从而提升了阶段识别和器械-动词识别的效果。
Fig. 10. Text architecture selection. We calculate the cosine similarity score betweenthe transcript texts from ASR and pre-segment texts from metadata to measure whichtext encoder retains the semantic information between these two texts
图 10. 文本架构选择我们通过计算自动语音识别(ASR)生成的转录文本与元数据中的预分段文本之间的余弦相似度得分,来衡量哪种文本编码器保留了这两种文本之间的语义信息。
Table
表
Table 1Comparison of transcriptions generated by AWS and Whisper ASR systems
表1 AWS与Whisper自动语音识别(ASR)系统生成的转录内容对比
Table 2Manually designed contextual prompts for the class names of the surgical phase and tool recognition tasks. The main action of scissors is cutting, but this action can be performedby many other instruments, such as hook. Therefore, we use ‘‘I use scissors’’ as the context prompt for the ‘‘Scissors’’ class
表2 为手术阶段和工具识别任务的类别名称手动设计的上下文提示 剪刀的主要动作是切割,但许多其他器械(如钩状器械)也能执行该动作。因此,我们将“我使用剪刀”作为“剪刀”类别的上下文提示。
Table 3Comparison of different datasets in this work. Human: if the dataset requires intervention by human annotators. SVL-Caption and SVL-Retrieval require partial intervention becausetexts are not annotated from scratch by human annotators
表3 本研究中不同数据集的对比 “Human(人工)”一列表示该数据集是否需要人工标注者参与。SVL-Caption(SVL字幕数据集)和SVL-Retrieval(SVL检索数据集)需要部分人工参与,因为其文本内容并非完全由人工从头标注生成。
Table 4Ablation studies. We conduct three sets of experiments to demonstrate the effect of key designs in our approach, multiple text views, clips ofrandom lengths, and frame sampling from video clip. {𝑣𝑖 , 𝑎𝑖 } 𝐾 𝑖=1: model trained with one AWS text view; {𝑣𝑖 , 𝑤𝑚 𝑖 } 𝐾 𝑖=1: model trained with oneWhisper text view; {𝑣𝑖 , 𝑎𝑖 , 𝑤𝑚 𝑖 } 𝐾 𝑖=1: model trained with both text views. Random: Selecting a video clip with a duration randomly chosen fromthe range of 2 to 10 s.
表4 消融实验 我们通过三组实验验证本方法中关键设计的效果,包括多文本视图、随机长度片段以及从视频片段中进行帧采样。 - {𝑣𝑖, 𝑎𝑖} 𝐾 𝑖=1:仅使用AWS单一文本视图训练的模型; - {𝑣𝑖, 𝑤𝑚 𝑖} 𝐾 𝑖=1:仅使用Whisper单一文本视图训练的模型; - {𝑣𝑖, 𝑎𝑖, 𝑤𝑚 𝑖} 𝐾 𝑖=1:使用两种文本视图训练的模型。 - Random(随机):选择时长在2到10秒范围内随机取值的视频片段。
Table 5Comparison of different methods in text-based video retrieval and temporal activity grounding tasks
表5 不同方法在基于文本的视频检索和时间活动定位任务中的对比
Table 6SVL-Retrieval dataset. We show the categorical tags of the videos in the SVL-Retrieval testing set. Each video can belong to multiple categories, reflecting the diverse range ofsurgical procedures included in the testing set.
表6 SVL检索数据集 表中展示了SVL检索测试集中视频的分类标签。每个视频可属于多个类别,体现了测试集中所包含的手术流程的多样性。
Table 7Quantitative results of text-only training for video captioning. We report 6 conventional metrics to measure the similarity between generated text
and ground text. Our proposed SurgVLP significantly outperforms previous work, especially for ROUGE, which requires an accurate representationof not only individual words but also their correct order
表7 基于纯文本训练的视频字幕生成定量结果 我们采用6种传统指标来衡量生成文本与真值文本之间的相似度。我们提出的SurgVLP显著优于先前的研究成果,尤其在ROUGE指标上表现突出——该指标不仅要求准确表征单个词汇,还需体现词汇的正确顺序。
Table 8Zero-shot tool recognition on Cholec80. T1: grasper; T2: bipolar; T3: hook; T4: scissor; T5: clipper; T6: irrigator; T7: specimen bag. Fullysupervised: ResNet50 model with full supervision
表 8 基于 Cholec80 数据集的零样本工具识别结果
T1:抓钳;T2:双极电凝器;T3:钩状器械;T4:剪刀;T5:钳夹器;T6:冲洗器;T7:标本袋。
全监督(Fully supervised):采用全监督方式训练的 ResNet50 模型。
Table 9Zero-shot phase recognition on Cholec80. P1: preparation; P2: calot triangle dissection; P3: clipping and cutting; P4: gallbladder dissection;P5: gallbladder packing; P6: cleaning and coagulation; P7: gallbladder extraction. F1-Score is used as the evaluation metric. Fully-supervised:ResNet50 model with full supervision
表9 基于Cholec80数据集的零样本阶段识别结果 - P1:准备阶段;P2:Calot三角解剖阶段;P3:夹闭与切割阶段;P4:胆囊解剖阶段;P5:胆囊包裹阶段;P6:清理与凝固阶段;P7:胆囊取出阶段。 - 评估指标采用F1分数(F1-Score)。 - 全监督(Fully-supervised):采用全监督方式训练的ResNet50模型。
Table 10Zero-shot triplet recognition results. We report the average precision for each component and the combination of the components. i: instrument, v: verb, t: target, iv:instrument-verb, it: instrument-target, ivt: instrument-verb-target triplet
表 10 零样本三元组识别结果我们报告了每个组件及其组合的平均精度(average precision)。
i:器械(instrument);v:动词(verb);t:目标(target)iv:器械 - 动词(instrument-verb);it:器械 - 目标(instrument-target)ivt:器械 - 动词 - 目标(instrument-verb-target)三元组
Table 11Cosine similarity scores comparison among different text encoders.
表 11 不同文本编码器的余弦相似度得分对比