CV最新论文｜4月8日 arXiv更新论文合集-EW帮帮网

以下内容由马拉AI整理，今天为大家带来4月8日 arXiv 计算机视觉和模式识别相关论文：

1、Sigma: Siamese Mamba Network for Multi-Modal Semantic Segmentation

Sigma：用于多模态语义分割的暹罗曼巴网络

摘要：多模态语义分割显著增强了 AI 智能体的感知和场景理解，尤其是在弱光或过度曝光环境等不利条件下。利用其他模态（X模态）以及传统的RGB热敏和深度，可提供互补信息，从而实现更强大、更可靠的分割。在这项工作中，我们介绍了Sigma，一个用于多模态语义分割的暹罗曼巴网络，利用选择性结构化状态空间模型Mamba。与依赖 CNN 的传统方法不同，CNN 的局部感受野有限，或者视觉转换器（ViT）以二次复杂度为代价提供全局感受野，我们的模型实现了线性复杂度的全局感受野覆盖。通过采用暹罗编码器和创新曼巴融合机制，我们有效地从不同模式中选择基本信息。然后开发一个解码器来增强模型的通道建模能力。我们的Sigma方法在RGB-Therive和RGB-Depth分割任务上都进行了严格的评估，证明了其优越性，并标志着状态空间模型（SSM）在多模态感知任务中的首次成功应用。代码可在此 https URL 中找到。

2、Who Evaluates the Evaluations? Objectively Scoring Text-to-Image Prompt Coherence Metrics with T2IScoreScore (TS2)

谁来评估评估？使用 T2IScoreScore （TS2）客观地对文本到图像提示一致性指标进行评分

摘要：随着文本到图像（T2I）模型质量的提高，人们开始关注其提示忠实度的基准测试——生成的图像与它们所依赖的提示的语义一致性。利用跨模态嵌入和视觉语言模型（VLM）的进步，提出了各种 T2I 忠实度指标。然而，这些指标并没有经过严格的比较和基准测试，而是通过与一组易于区分的图像上的人类李克特分数的相关性，在少数弱基线上呈现。

我们介绍了 T2IScoreScore （TS2），这是一组精心策划的语义错误图，其中包含提示和一组越来越错误的图像。这些使我们能够严格判断给定的提示忠实度量是否可以根据其客观错误计数正确地对图像进行排序，并使用从已建立的统计测试中得出的元度量分数来显着区分不同的错误节点。令人惊讶的是，我们发现我们测试的最先进的基于 VLM 的指标（例如，TIFA、DSG、LLMScore、VIEScore）未能显着优于 CLIPScore 等基于简单特征的指标，尤其是在自然发生的 T2I 模型错误的硬子集上。TS2 将通过更严格地比较 T2I 在客观标准下与预期排序和分离的一致性，从而开发更好的 T2I 提示忠实度指标。

3、DiffOp-net: A Differential Operator-based Fully Convolutional Network for Unsupervised Deformable Image Registration

DiffOp-net：一种基于差分算子的全卷积网络，用于无监督变形图像配准

摘要：现有的无监督可变形图像配准方法通常依赖于应用于预测位移场或速度场梯度的度量作为正则化项来确保变换平滑度，这可能会限制配准精度。在这项研究中，我们提出了一种新方法，通过在配准框架中引入新的差分算子来增强无监督可变形图像配准。该算子作用于速度场并将其映射到对偶空间，确保了优化过程中速度场的平滑度，便于准确的可变形配准。此外，为了解决捕获图像对内大变形的挑战，我们引入了交叉坐标注意力模块（CCA），并将其嵌入到基于全卷积网络（FCN）的多分辨率配准架构中。在两个磁共振成像（MRI）数据集上进行评估实验。与各种最先进的配准方法（包括传统算法和三种具有代表性的无监督学习方法）相比，我们的方法实现了卓越的精度，保持了理想的微分同构特性，并表现出有希望的配准速度。

4、Identity Decoupling for Multi-Subject Personalization of Text-to-Image Models

文本到图像模型多主体个性化的身份解耦

摘要：文本到图像扩散模型在基于一些参考图像生成个性化主题方面取得了显着成功。然而，目前的方法难以同时处理多个主题，通常会导致来自不同主题的混合属性的混合身份。在这项工作中，我们提出了MuDI，这是一种新颖的框架，通过有效地将身份与多个主体分离来实现多主体个性化。我们的主要思想是利用 Segment Anything 模型生成的分段主题进行训练和推理，作为生成过程训练和初始化的数据增强的一种形式。我们的实验表明，MuDI可以在没有身份混合的情况下产生高质量的个性化图像，即使对于高度相似的受试者，如图1所示。在人类评估中，与现有基线相比，MuDI 在不混合身份的情况下对多个受试者进行个性化改造的成功率是现有基线的两倍，并且比最强基线更受欢迎超过 70%。更多结果可在此 https URL 中找到。

5、Physical Property Understanding from Language-Embedded Feature Fields

从语言嵌入特征字段理解物理属性

摘要：计算机能否仅通过视觉感知物体的物理特性？认知科学和视觉科学的研究表明，人类擅长识别材料并纯粹根据视觉外观来估计其物理特性。在本文中，我们提出了一种使用图像集合对物体物理特性进行密集预测的新方法。受人类如何通过视觉推理物理学的启发，我们利用大型语言模型为每个对象提出候选材料。然后，我们构建了一个语言嵌入的点云，并使用零样本核回归方法估计每个 3D 点的物理属性。我们的方法是准确的，无注释的，适用于开放世界中的任何对象。实验证明了所提出的方法在各种物理性质推理任务中的有效性，例如估计常见物体的质量，以及摩擦力和硬度等其他性质。

6、Deep Learning for Satellite Image Time Series Analysis: A Review

深度学习在卫星图像时间序列分析中的应用进展

摘要：50多年来，地球观测（EO）卫星任务一直在提供有关地球状况及其土地覆盖的详细图像。长期任务，如美国宇航局的Landsat、Terra和Aqua卫星，以及最近的欧空局哨兵任务，每隔几天就会记录整个世界的图像。虽然单个影像提供时间点数据，但同一区域的重复影像或卫星影像时间序列（SITS）提供有关植被和土地利用变化状态的信息。这些 SITS 可用于模拟动态过程和季节性变化，例如植物物候。它们对土地和自然资源管理的许多方面都有潜在的好处，包括农业、森林、水和灾害管理、城市规划和采矿方面的应用。然而，由此产生的卫星图像时间序列（SITS）很复杂，包含来自时间、空间和光谱维度的信息。因此，经常部署深度学习方法，因为它们可以分析这些复杂的关系。本文总结了使用深度学习方法从SITS数据中对环境、农业和其他地球观测变量进行建模的最新方法。我们的目标是为有兴趣使用深度学习技术来增强地球观测模型的时间信息的遥感专家提供资源。

7、RaSim: A Range-aware High-fidelity RGB-D Data Simulation Pipeline for Real-world Applications

RaSim：适用于实际应用的距离感知高保真 RGB-D 数据仿真流水线

摘要：在机器人视觉中，事实上的范式是在模拟环境中学习，然后转移到现实世界的应用程序中，这对弥合模拟与真实领域的差距提出了重要挑战。虽然主流工作在RGB领域解决了这个问题，但我们专注于深度数据合成，并开发了范围感知RGB-D数据模拟管道（RaSim）。特别是，通过模仿真实世界传感器的成像原理来生成高保真深度数据。进一步引入范围感知渲染策略，丰富数据多样性。大量实验表明，使用 RaSim 训练的模型可以直接应用于真实场景，无需任何微调，并且在下游 RGB-D 感知任务中表现出色。

8、Physics-Inspired Synthesized Underwater Image Dataset

受物理启发的合成水下图像数据集

摘要：本文介绍了受物理启发的合成水下图像数据集（PHISWID），这是一个通过受物理启发的图像合成来增强水下图像处理的数据集。用于水下图像增强的深度学习方法通常需要大量的数据集，但获得成对的干净和退化的水下数据集带来了重大挑战。虽然已经提出了几个使用基于物理的综合的水下图像数据集，但缺乏可公开访问的集合。此外，大多数水下图像合成方法不打算再现大气场景，导致增强不完整。PHISWID通过提供一组成对的地面真实（大气）和合成降解的水下图像来弥补这一差距，不仅展示了颜色退化，还展示了经常被忽视的海洋雪的影响，海洋雪是有机物和沙粒的复合物，大大损害了水下图像的清晰度。该数据集将这些退化应用于大气RGB-D图像，增强了数据集的真实性和适用性。PHISWID对于在监督学习环境中训练深度神经网络以及在基准分析中客观评估图像质量特别有价值。我们的结果表明，即使是基本的U-Net架构，当使用PHISWID进行训练时，在水下图像增强方面也大大优于现有方法。我们打算公开发布PHISWID，为水下成像技术的进步贡献重要资源。

9、Finsler-Laplace-Beltrami Operators with Application to Shape Analysis

Finsler-Laplace-Beltrami 算子在形状分析中的应用

摘要:拉普拉斯-贝尔特拉米算子（LBO）是从研究配备黎曼度量的流形中产生的。它通常被称为几何处理的瑞士军刀，因为它可以捕获固有的形状信息，并产生热扩散、测地线距离和多种形状描述符。它在几何深度学习中也发挥着核心作用。在这项工作中，我们将芬斯勒流形作为黎曼流形的推广进行探索。我们重新审视了Finsler热方程，并推导出了Finsler热核和Finsler-Laplace-Beltrami算子（FLBO）：一种新的理论上合理的各向异性拉普拉斯-贝尔特拉米算子（ALBO）。在实验评估中，我们证明了所提出的FLBO是传统的基于黎曼的LBO和ALBO的空间滤波和形状对应估计的有价值的替代方案。我们希望所提出的Finsler热核和FLBO能够激发计算机视觉社区对Finsler几何的进一步探索。

10、Neural-Symbolic VideoQA: Learning Compositional Spatio-Temporal Reasoning for Real-world Video Question Answering

神经符号视频QA：学习真实世界视频问答的组合时空推理

摘要：组合时空推理在视频问答（VideoQA）领域提出了重大挑战。现有的方法难以建立有效的符号推理结构，这对于回答构成时空问题至关重要。为了应对这一挑战，我们提出了一种称为神经符号视频QA（NS-VideoQA）的神经符号框架，该框架专为现实世界的VideoQA任务而设计。NS-VideoQA的独特性和优越性有两个方面：1）它提出了一个场景解析器网络（SPN），将静态动态视频场景转换为符号表示（SR），将人、物体、关系和动作年表结构化。2）符号推理机（SRM）是为自上而下的问题分解和自下而上的组合推理而设计的。具体来说，构建了一个多态程序执行器，用于从SR到最终答案的内部一致推理。因此，我们的NS-VideoQA不仅改善了实际VideoQA任务中的组合时空推理，而且还可以通过跟踪中间结果来实现分步错误分析。对 AGQA Decomp 基准测试的实验评估证明了所提出的 NS-VideoQA 框架的有效性。实证研究进一步证实，NS-VideoQA在回答作文问题时表现出内在一致性，显著提高了VideoQA任务的时空和逻辑推理能力。

11、Framework to generate perfusion map from CT and CTA images in patients with acute ischemic stroke: A longitudinal and cross-sectional study

急性缺血性卒中患者从 CT 和 CTA 图像生成灌注图的框架：一项纵向和横断面研究

摘要：中风是导致残疾和死亡的主要原因。有效的治疗决策需要早期和信息丰富的血管成像。4D 灌注成像是理想的，但很少在卒中后 1 小时内可用，而 CT 平片和 CTA 通常可用。因此，我们提出了一个框架来提取来自 CT 和 CTA 图像的预测灌注图（PPM）。在所有 18 名患者中，我们发现我们预测的灌注图（PPM）与源自 4D-CTP 的 T-max 图之间存在显着高的空间相似性（平均 Spearman 相关性 = 0.7893）。在 2,110 名受试者的大型队列中，PPM 和美国国立卫生研究院卒中量表（NIHSS）的 L/R 手部运动、凝视和语言子评分之间的体素相关性可靠地将症状映射到预期的梗死位置。因此，如果 4D 灌注成像不可用，我们的 PPM 可以作为 4D 灌注成像的替代方案，以研究入院后最初几个小时的血液灌注情况。

12、InstructHumans: Editing Animated 3D Human Textures with Instructions

InstructHumans：使用说明编辑动画 3D 人体纹理

摘要：我们介绍了 InstructHumans，这是一个用于指令驱动的 3D 人体纹理编辑的新框架。现有的基于文本的编辑方法使用分数蒸馏抽样（SDS）从生成模型中提取指导。这项工作表明，天真地使用这样的分数对编辑是有害的，因为它们会破坏与源头像的一致性。取而代之的是，我们提出了一种替代的编辑 SDS （SDS-E），它选择性地将 SDS 的子项纳入扩散时间步长。我们通过空间平滑度、正则化和基于梯度的视点采样进一步增强了 SDS-E，以实现具有清晰和高保真细节的高质量编辑。InstructHumans 明显优于现有的 3D 编辑方法，与初始头像一致，同时忠实于文本说明。项目页面：https://jyzhu.top/instruct-humans .

13、Dynamic Risk Assessment Methodology with an LDM-based System for Parking Scenarios

基于LDM的停车场景系统的动态风险评估方法

摘要：本文介绍了在停车场景中为ADAS（高级驾驶辅助系统）算法构建动态风险评估的方法，融合了外部和内部感知，以更好地了解场景并进行更全面的风险评估。这包括定义一种动态风险方法，该方法取决于车辆内部和外部的情况，创建用于ADAS基准测试的多传感器风险评估数据集，以及融合来自汽车外部和内部数据的局部动态地图（LDM），以构建基于LDM的动态风险评估系统（DRAS）。

14、No Time to Train: Empowering Non-Parametric Networks for Few-shot 3D Scene Segmentation

无暇训练：为小镜头 3D 场景分割赋能非参数网络

摘要：为了减少对大规模数据集的依赖，最近在3D分割方面的工作采用了小样本学习。目前的 3D 小样本分割方法首先在“可见”类上预训练模型，然后在“不可见”类上评估其泛化性能。然而，先前的预训练阶段不仅会带来过多的时间开销，还会在“看不见的”类上产生明显的领域差距。为了解决这些问题，我们提出了一种用于少样本 3D 分割的非参数网络 Seg-NN 及其参数化变体 Seg-PN。无需训练，Seg-NN 即可通过手工制作的滤波器提取密集表示，并实现与现有参数化模型相当的性能。由于消除了预训练，Seg-NN可以缓解领域间隙问题并节省大量时间。基于Seg-NN，Seg-PN只需要训练一个轻量级的QUEry-Support Transferring（QUEST）模块，增强了支持集和查询集之间的交互。实验表明，Seg-PN在S3DIS和ScanNet数据集上的mIoU分别优于+4.19%和+7.71%，同时将训练时间缩短了-90%，表明其有效性和效率。

15、Label Propagation for Zero-shot Classification with Vision-Language Models

使用视觉语言模型进行零样本分类的标签传播

摘要：视觉语言模型（VLM）在零样本分类方面表现出令人印象深刻的性能，即仅提供类名列表时的分类。在本文中，我们解决了存在未标记数据的情况下的零样本分类情况。我们利用未标记数据的图形结构，并引入了ZLaP，这是一种基于标签传播（LP）的方法，利用测地线距离进行分类。我们将LP定制为包含文本和图像特征的图形，并进一步提出了一种基于对偶解和稀疏化步骤的归纳推理的有效方法。我们进行了大量的实验，以评估我们的方法在14个常见数据集上的有效性，并表明ZLaP优于最新的相关工作。代码：此 https URL

16、Dynamic Prompt Optimizing for Text-to-Image Generation

动态提示优化文本到图像生成

摘要：文本到图像生成模型，特别是那些基于扩散模型（如 Imagen 和 Stable Diffusion）的模型，已经取得了实质性进展。最近，人们对文本提示的精细化产生了浓厚的兴趣。用户在文本提示中分配权重或更改某些单词的注入时间步长，以提高生成图像的质量。然而，精细控制提示的成功取决于文本提示的准确性以及权重和时间步长的仔细选择，这需要大量的人工干预。为了解决这个问题，我们引入了 \textbf{P}rompt \textbf{A}uto-\textbf{E}diting （PAE）方法。除了完善图像生成的原始提示外，我们还进一步采用在线强化学习策略来探索每个单词的权重和注入时间步长，从而产生动态精细控制提示。训练期间的奖励函数鼓励模型考虑美学分数、语义一致性和用户偏好。实验结果表明，所提方法有效地改进了原始提示，在保持语义一致性的同时生成了更具视觉吸引力的图像。代码可在此 https URL 中找到。

17、3D Facial Expressions through Analysis-by-Neural-Synthesis

通过神经合成分析实现 3D 面部表情

摘要：虽然现有的从野外图像中重建 3D 面部的方法在恢复整体面部形状方面表现出色，但它们通常会遗漏微妙、极端、不对称或很少观察到的表情。我们通过SMIRK（基于图像的运动学重建的空间建模）改进了这些方法，该模型忠实地从图像中重建了富有表现力的3D面孔。我们确定了现有方法的两个关键局限性：其自我监督训练公式的缺点，以及训练图像中缺乏表达多样性。对于训练，大多数方法都采用可微分渲染来将预测的人脸网格与输入图像进行比较，以及大量额外的损失函数。这种可微分的渲染损失不仅需要提供监督来优化 3D 人脸几何体、相机、反照率和照明，这是一个不恰当的优化问题，而且渲染和输入图像之间的域差距进一步阻碍了学习过程。取而代之的是，SMIRK 用神经渲染模块替换了可微分渲染，该模块给定渲染的预测网格几何体和输入图像的稀疏采样像素，生成人脸图像。由于神经渲染从采样的图像像素中获取颜色信息，因此基于神经渲染的重建损失可以仅关注几何体。此外，它使我们能够在训练时生成具有不同表达式的输入身份的图像。然后，这些被用作重建模型的输入，并用作地面实况几何的监督。这有效地增强了训练数据，并增强了对不同表达式的泛化。我们的定性、定量，特别是我们的感知评估表明，SMIRK在准确表达重建方面实现了新的最先进的性能。项目网页：此 https URL。

18、Cross-Modality Gait Recognition: Bridging LiDAR and Camera Modalities for Human Identification

跨模态步态识别：桥接 LiDAR 和摄像头模态以进行人体识别

摘要：目前的步态识别研究主要集中在识别被同类型传感器捕获的行人，而忽略了个体可能被不同的传感器捕获以适应各种环境的事实。更实用的方法应该涉及不同传感器之间的跨模态匹配。因此，本文重点研究了跨模态步态识别问题，目的是通过不同的视觉传感器准确识别行人。我们提出了受特征对齐策略启发的 CrossGait，能够交叉检索不同的数据模式。具体来说，我们通过最初提取每个模态中的特征，然后跨模态对齐这些特征来研究跨模态识别任务。为了进一步提高跨模态性能，我们提出了一个原型模态共享注意力模块，该模块从两个模态特定特征中学习模态共享特征。此外，我们还设计了一个跨模态特征适配器，将学习到的模态特定特征转换为统一的特征空间。在SUSTech1K数据集上进行的大量实验证明了CrossGait的有效性：（1）在不同场景中从不同传感器检索不同模态的行人方面表现出良好的跨模态能力，（2）CrossGait不仅学习了用于跨模态步态识别的模态共享特征，而且还保持了用于单模态识别的模态特定特征。

19、No "Zero-Shot" Without Exponential Data: Pretraining Concept Frequency Determines Multimodal Model Performance

没有指数数据就没有“零样本”：预训练概念频率决定了多模态模型的性能

摘要：网络爬虫预训练数据集是多模态模型令人印象深刻的“零样本”评估性能的基础，例如用于分类/检索的 CLIP 和用于图像生成的 Stable-Diffusion。然而，目前尚不清楚“零样本”泛化的概念对这种多模态模型有多大意义，因为尚不清楚它们的预训练数据集在多大程度上包含了“零样本”评估期间所针对的下游概念。在这项工作中，我们问：多模态模型在下游概念上的性能如何受到这些概念在其预训练数据集中的频率的影响？我们在 34 个模型和 5 个标准预训练数据集（CC-3M、CC-12M、YFCC-15M、LAION-400M、LAION-Aesthetics）中全面研究了这个问题，生成了超过 300GB 的数据伪影。我们一致发现，多模态模型远非表现出“零样本”泛化，而是需要成倍增加的数据来实现下游“零样本”性能的线性改进，遵循样本低效的对数线性缩放趋势。即使在控制预训练数据集和下游数据集之间的样本级相似性，并在纯合成数据分布上进行测试时，这种趋势仍然存在。此外，根据我们的分析，对长尾数据进行基准测试，我们证明多模态模型整体表现不佳。我们将这个长尾测试集作为“Let it Wag！”的基准，以进一步研究这个方向。综上所述，我们的研究揭示了对训练数据的指数级需求，这意味着在大规模训练范式下“零样本”泛化能力的关键仍有待发现。

20、Improving Detection in Aerial Images by Capturing Inter-Object Relationships

通过捕获对象间关系改进航空图像的检测

摘要：在许多图像域中，场景中对象的空间分布表现出由其语义关系控制的有意义的模式。但是，在大多数现代检测管道中，检测建议是独立处理的，忽略了对象之间的基础关系。在这项工作中，我们引入了一种基于转换器的方法来捕获这些对象间关系，以优化检测到的对象的分类和回归结果。在两级检测器的基础上，我们对要由变压器编码器处理的感兴趣区域（RoI）建议进行标记化。特定的空间和几何关系被纳入注意力权重中，并自适应地调制和正则化。实验结果表明，所提方法在DOTA-v1.0、DOTA-v1.5和HRSC 2016等3个基准测试中均实现了一致的性能提升，特别是在DOTA-v1.5和HRSC 2016上均排名第一。具体来说，与基线相比，我们的新方法在 DOTA-v1.0 上分别增加了 1.59 mAP、在 DOTA-v1.5 上和 HRSC 2016 上分别增加了 4.88 mAP 和 2.1 mAP。

CV最新论文｜4月8日 arXiv更新论文合集

网站公告

今日签到

热门文章

最新发布