即插即用Transformer、扩散模型、机器人规划、长文本检索增强生成

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

ProTransformer: Robustify Transformers via Plug-and-Play Paradigm

近年来，基于Transformer的架构在机器学习的各个领域占据了主导地位。本文介绍了一种新颖的鲁棒性注意力机制，旨在增强基于Transformer架构的韧性。关键在于，这种技术可以作为即插即用的层集成到现有的Transformer中，无需额外的训练或微调即可提升其鲁棒性。通过全面的实验和消融研究，本研究证明了ProTransformer在多种预测任务、攻击机制、骨干架构和数据领域中显著增强了Transformer模型的鲁棒性。值得注意的是，在经典TextFooler攻击下，ProTransformer无需进一步微调，分别将BERT、ALBERT、DistilBERT和RoBERTa的性能提升了19.5%、28.3%、16.1%和11.4%。此外，ProTransformer在面对基于提示的攻击时，在大型语言模型（LLMs）中展现出良好的韧性，分别将T5和LLaMA的性能提升了24.8%和17.8%，并将Vicuna在Jailbreaking攻击下的性能平均提升了10.4%。除了语言领域，ProTransformer在视觉和图领域也展现出卓越的鲁棒性。

文章链接：

https://arxiv.org/pdf/2410.23182

Prune and Repaint: Content-Aware Image Retargeting for any Ratio

图像重定向是调整图像宽高比以适应不同显示设备或展示环境的任务。然而，现有的重定向方法常常难以平衡关键语义的保留和图像质量，导致图像出现变形、重要对象丢失，或引入局部伪影，例如不连续的像素和不一致的再生内容。为了解决这些问题，本文提出了一种名为PruneRepaint的内容感知重定向方法。该方法引入了每个像素的语义重要性，以指导识别需要剪枝或保留的区域，从而维持关键语义。此外，本文还引入了一个自适应重绘模块，该模块根据剪枝像素的分布以及前景尺寸与目标宽高比之间的比例，选择图像区域进行重绘，从而在剪枝后实现局部平滑。通过专注于前景的内容和结构，PruneRepaint方法能够自适应地避免关键内容的丢失和变形，同时通过局部重绘有效减少伪影。作者在公共的RetargetMe基准测试集上进行了实验，并通过客观的实验结果和主观的用户研究证明，该方法在保留语义和美学方面优于以往的方法，并且在不同宽高比下的泛化能力更强。

文章链接：

https://arxiv.org/pdf/2410.22865

VisualPredicator: Learning Abstract World Models with Neuro-Symbolic Predicates for Robot Planning

广泛智能的智能体应当形成特定任务的抽象表示，有选择性地暴露任务的关键要素，同时隐藏原始感知运动空间的复杂性。本文提出了一种名为“神经符号谓词（Neuro-Symbolic Predicates）”的一阶抽象语言，它结合了符号和神经知识表示的优势。作者详细描述了一种在线算法，用于发明此类谓词并学习抽象的世界模型。在五个模拟机器人领域的分布内和分布外任务中，本文的方法与层次强化学习、视觉语言模型规划以及符号谓词发明方法进行了比较。结果表明，本文的方法在样本复杂度、分布外泛化能力和可解释性方面均表现更优。

文章链接：

https://arxiv.org/pdf/2410.23156

FuseAnyPart: Diffusion-Driven Facial Parts Swapping via Multiple Reference Images

面部局部替换的目标是从源图像中选择性地将感兴趣的区域转移到目标图像上，同时保持目标图像的其余部分不变。大多数专门针对全脸替换的面部替换研究在进行单独面部局部替换时要么无法实现，要么受到显著限制，这阻碍了精细和定制化的角色设计。然而，专门针对面部局部替换设计这种方法面临着合理的多参考特征融合的挑战，这种融合需要既高效又有效。为克服这一挑战，提出了FuseAnyPart方法，以促进面部的无缝“任意局部融合”定制化。在FuseAnyPart中，不同人的面部局部在基于掩码的融合模块的潜在空间中被组装成一张完整的脸。随后，整合后的特征被发送到基于加法的注入模块，在扩散模型的UNet中进行融合，以创造新的角色。广泛的实验从定性和定量两个方面验证了FuseAnyPart的优越性和鲁棒性。

文章链接：

https://arxiv.org/pdf/2410.22771

A Monte Carlo Framework for Calibrated Uncertainty Estimation in Sequence Prediction

从图像和其他高维数据中对序列进行概率预测仍然是一个关键挑战，尤其是在安全关键领域。在这些场景中，通常需要量化与预测相关的不确定性（而不是像在语言建模中那样仅仅确定最可能的序列）。本文提出了一种蒙特卡洛框架，用于估计与序列相关的概率和置信区间。该框架使用蒙特卡洛模拟器（以自回归方式训练的神经网络）根据图像输入对序列进行采样，然后利用这些样本来估计概率和置信区间。在合成数据和真实数据上的实验表明，该框架能够产生准确的判别性预测，但可能会出现校准不足的问题。为解决这一不足，本文提出了一种时间依赖的正则化方法，能够生成校准良好的预测。

文章链接：

https://arxiv.org/pdf/2410.23272

OS-ATLAS: A Foundation Action Model for Generalist GUI Agents

现有的构建图形用户界面（GUI）智能体的研究工作高度依赖于强大的商业视觉-语言模型（VLMs），例如GPT-4o和GeminiPro Vision。由于开源VLMs在性能上与闭源模型存在显著差距，尤其是在GUI定位和分布外（Out-Of-Distribution, OOD）场景中，实践者往往不愿意使用开源VLMs。为了推动该领域的未来研究，作者开发了OS-Atlas——一个基础的GUI行为模型，通过在数据和建模方面的创新，在GUI定位和OOD任务中表现出色。作者投入了大量的工程努力，开发了一个开源工具包，用于在多个平台（包括Windows、Linux、MacOS、Android和Web）上合成GUI定位数据。利用该工具包，作者发布了迄今为止最大的开源跨平台GUI定位语料库，其中包含超过1300万个GUI元素。结合模型训练方面的创新，这一数据集为OS-Atlas理解GUI截图并泛化到未见界面提供了坚实基础。通过在六个跨越三种不同平台（移动、桌面和Web）的基准测试中的广泛评估，OS-Atlas相较于以往的最先进模型展现出显著的性能提升。此外，评估还揭示了关于持续改进和扩展开源VLMs代理能力的宝贵见解。

文章链接：

https://arxiv.org/pdf/2410.23218

LONG^2RAG:Evaluating Long-Context & Long-Form Retrieval-Augmented Generation with Key Point Recall

检索增强生成（Retrieval-Augmented Generation, RAG）是一种有希望解决大型语言模型（LLMs）中固定知识局限性的方法。然而，当前用于评估RAG系统的基准测试存在两个关键缺陷：（1）由于缺乏能够反映检索文档特征的数据集，它们无法充分衡量LLMs处理长文本检索的能力；（2）它们缺乏一种全面的评估方法来衡量LLMs生成有效利用检索信息的长篇回答的能力。为解决这些不足，本文引入了LONG?RAG基准测试和关键点回忆（Key Point Recall, KPR）指标。LONG?RAG包含280个问题，涵盖10个领域和8个问题类别，每个问题都关联有5篇检索到的文档，平均长度为2444个单词。KPR指标评估LLMs在生成回答时将检索文档中提取的关键点纳入其中的程度，从而更细致地评估它们利用检索信息的能力。