Voice Jailbreak Attacks Against GPT-4o
➡️ 论文标题:Voice Jailbreak Attacks Against GPT-4o
➡️ 论文作者:Xinyue Shen, Yixin Wu, Michael Backes, Yang Zhang
➡️ 研究机构: CISPA Helmholtz Center for Information Security
➡️ 问题背景:随着多模态大语言模型(Multimodal Large Language Models, MLLMs)的发展,尤其是GPT-4o的出现,这些模型在音频、视觉和文本等多个模态上实现了更自然的人机交互。然而,GPT-4o的语音模式可能引入新的安全威胁,如越狱攻击(jailbreak attacks),这些攻击旨在绕过模型的安全防护,诱导模型生成有害内容。
➡️ 研究动机:尽管GPT-4o在语音模式下对直接转换的文本越狱提示和禁止问题表现出良好的抵抗能力,但研究团队发现,通过虚构故事的方式可以显著提高越狱攻击的成功率。为了探索这一现象,研究团队设计了一种名为VOICEJAILBREAK的新型语音越狱攻击,该攻击通过虚构故事的元素(如设定、角色和情节)来诱导模型。
➡️ 方法简介:研究团队首先评估了GPT-4o在不同语音输入下的响应,包括直接转换的文本越狱提示和禁止问题。然后,他们提出了VOICEJAILBREAK,该方法通过构建虚构故事的三个关键元素(设定、角色和情节)来生成简单、易听且有效的语音越狱提示。此外,研究团队还探讨了如何通过高级写作技巧(如视角、误导和预示)进一步增强攻击效果。
➡️ 实验设计:研究团队在六个禁止场景(非法活动、仇恨言论、身体伤害、欺诈、色情和隐私暴力)中进行了实验,评估了VOICEJAILBREAK在不同交互步骤、不同语言和不同虚构写作元素组合下的表现。实验结果表明,VOICEJAILBREAK显著提高了攻击成功率,平均攻击成功率(ASR)从0.033提高到0.778。
LLMs Meet Multimodal Generation and Editing: A Survey
➡️ 论文标题:LLMs Meet Multimodal Generation and Editing: A Survey
➡️ 论文作者:Yingqing He, Zhaoyang Liu, Jingye Chen, Zeyue Tian, Hongyu Liu, Xiaowei Chi, Runtao Liu, Ruibin Yuan, Yazhou Xing, Wenhai Wang, Jifeng Dai, Yong Zhang, Wei Xue, Qifeng Liu, Yike Guo, Qifeng Chen
➡️ 研究机构: The Hong Kong University of Science and Technology, The Chinese University of Hong Kong, Tsinghua University, Tencent AI Lab
➡️ 问题背景:随着大型语言模型(LLMs)的快速发展,越来越多的研究开始探索将LLMs与多模态学习结合,以实现更强大的多模态生成和编辑能力。尽管在单模态生成方面已经取得了显著进展,但如何有效地利用LLMs来增强多模态生成的质量和功能,特别是在图像、视频、3D和音频等领域的生成和编辑,仍然是一个重要的研究方向。
➡️ 研究动机:本研究旨在系统地回顾和分析LLMs在多模态生成和编辑中的应用,包括图像、视频、3D和音频等不同模态。通过对比LLMs出现前后的生成技术,研究团队希望提供一个清晰的视角,展示这些技术的发展和改进。此外,研究还探讨了LLMs在多模态生成中的多种角色,以及这些角色如何提升生成质量和功能。
➡️ 方法简介:研究团队首先回顾了不同类型的生成模型、多模态对齐模型、大型语言模型和多模态大型语言模型的基本原理。然后,详细讨论了LLMs在不同视觉模态生成中的应用,包括图像、视频、3D和音频模态。此外,研究还探讨了多模态生成的安全性问题、新兴应用和未来发展方向。
➡️ 实验设计:研究通过对比分析LLMs出现前后的生成技术,评估了LLMs在多模态生成中的性能和功能改进。实验设计涵盖了多个模态的生成任务,包括文本到图像、文本到视频、文本到3D和文本到音频的生成和编辑。研究还讨论了多模态生成的安全性问题,包括减少有毒和偏见内容、保护版权和应对多模态生成模型创建的虚假内容。
Efficient LLM-Jailbreaking by Introducing Visual Modality
➡️ 论文标题:Efficient LLM-Jailbreaking by Introducing Visual Modality
➡️ 论文作者:Zhenxing Niu, Yuyao Sun, Haodong Ren, Haoxuan Ji, Quan Wang, Xiaoke Ma, Gang Hua, Rong Jin
➡️ 研究机构: 西安电子科技大学、西安交通大学、Wormpex AI Research、Meta
➡️ 问题背景:大型语言模型(LLMs)如ChatGPT等在多种任务中表现出色,但同时也存在严重的安全风险,如真实性、毒性、偏见等问题。其中,越狱攻击(jailbreaking attack)是一种能够诱使LLMs生成不当内容的攻击方式。传统的越狱方法主要针对纯文本LLMs,但效率较低,且难以找到有效的文本提示后缀。
➡️ 研究动机:研究团队提出了一种通过构建多模态大型语言模型(MLLMs)来提高越狱攻击效率的方法。该方法首先将视觉模块引入目标LLM,构建MLLM,然后通过MLLM越狱生成越狱嵌入(embJS),最后将embJS转换为文本空间,以实现对目标LLM的越狱。研究发现,MLLMs比纯文本LLMs更容易被越狱,因此该方法在效率和效果上均优于现有方法。
➡️ 方法简介:研究团队提出了一种系统的方法,通过构建MLLM并进行MLLM越狱,生成越狱嵌入(embJS)。随后,通过反嵌入和反标记化操作将embJS转换为文本提示后缀(txtJS),用于越狱目标LLM。此外,研究团队还提出了一种图像-文本语义匹配方案,以选择合适的初始输入图像(InitJS),从而提高越狱成功率。
➡️ 实验设计:研究团队在多个公开数据集上进行了实验,包括AdvBench等。实验设计了不同类型的有害行为类别(如暴力、金融犯罪、网络犯罪等),并评估了不同方法在白盒和黑盒越狱场景下的性能。实验结果表明,该方法在效率和效果上均优于现有方法,且具有较强的跨类别越狱能力。
NoiseBoost: Alleviating Hallucination with Noise Perturbation for Multimodal Large Language Models
➡️ 论文标题:NoiseBoost: Alleviating Hallucination with Noise Perturbation for Multimodal Large Language Models
➡️ 论文作者:Kai Wu, Boyuan Jiang, Zhengkai Jiang, Qingdong He, Donghao Luo, Shengzhi Wang, Qingwen Liu, Chengjie Wang
➡️ 研究机构: Tencent Youtu Lab, Tongji University
➡️ 问题背景:多模态大语言模型(MLLMs)在理解和生成视觉信息方面表现出强大的能力,但它们在生成长而详细的图像描述时容易出现幻觉(hallucinations),即生成与输入图像不匹配的内容。这种幻觉现象限制了MLLMs在现实世界应用中的可靠性。
➡️ 研究动机:现有的缓解幻觉的方法主要集中在定制解码器的开发或标注特定的幻觉数据集上,这些方法要么增加了计算负担,要么需要额外的数据集。本研究旨在通过分析幻觉的根本原因,提出一种简单且广泛适用的方法,即NoiseBoost,以减少MLLMs的幻觉现象,同时不增加额外的数据或训练成本。
➡️ 方法简介:研究团队提出了一种通过在视觉特征中注入噪声来重新分配模型对视觉和语言特征注意力的方法。NoiseBoost通过增加视觉理解的难度,迫使模型更加均匀地分配注意力权重,从而减少对语言先验的过度依赖。具体来说,NoiseBoost在监督微调、强化学习和半监督学习中均能有效提升MLLMs的性能。
➡️ 实验设计:实验在多个数据集上进行,包括幻觉数据集POPE、问答数据集GQA、VizWiz、Text-VQA、MME、SEED Bench和Flickr30K。实验设计了不同的训练方法(如监督微调、强化学习和半监督学习),以及不同的噪声注入策略(如噪声概率和噪声规模),以全面评估NoiseBoost的有效性和泛化能力。实验结果表明,NoiseBoost在减少幻觉和提高生成质量方面表现出了显著的效果,尤其是在长描述生成任务中。
Typography Leads Semantic Diversifying: Amplifying Adversarial Transferability across Multimodal Large Language Models
➡️ 论文标题:Typography Leads Semantic Diversifying: Amplifying Adversarial Transferability across Multimodal Large Language Models
➡️ 论文作者:Hao Cheng, Erjia Xiao, Jiayan Yang, Jiahang Cao, Qiang Zhang, Le Yang, Jize Zhang, Kaidi Xu, Jindong Gu, Renjing Xu
➡️ 研究机构: HKUST (GZ)、CUHK (SZ)、XJTU、HKUST、Drexel University、University of Oxford
➡️ 问题背景:多模态大语言模型(MLLMs)在多种零样本任务中表现出色,这得益于其出色的跨模态交互和理解能力。然而,这些模型仍然存在人类难以察觉的对抗性漏洞。对抗性样本的可转移性被认为是这些漏洞中最大的威胁,因为这些样本可以在一个模型上生成,却能成功欺骗其他模型。然而,目前缺乏对MLLMs生成的对抗性样本的跨模型可转移性的系统研究。
➡️ 研究动机:为了全面探索MLLMs生成的对抗性样本的跨模型可转移性,研究团队提出了一个评估方法,并引入了多语义角度偏差评分(MADs)来量化数据增强方法对MLLMs对抗性可转移性的影响。此外,研究团队还提出了一种专门针对MLLMs生成的对抗性样本的可转移性增强方法——Typography Augment Transferability Method (TATM)。
➡️ 方法简介:TATM方法通过在图像中添加文字来增强视觉模态信息的多样性,并同时编辑语言模态信息。研究团队通过构建一个包含多种语义信息的图像数据集,评估了TATM在不同条件下的表现。TATM不仅在有害词插入(Harmful Word Insertion, HWI)任务中表现出色,还在重要信息保护(Important Information Protection, IIP)任务中显示出强大的性能。
➡️ 实验设计:实验在两个流行的MLLMs(InstructBLIP和LLaVA-v1.5)上生成对抗性样本,并在多个受害模型(包括不同版本的BLIP2、InstructBLIP、MiniGPT-4、LLaVA-v1.5和LLaVA-v1.6)上测试这些样本的可转移性。实验设计了不同类型的攻击目标(如有害内容、保护性内容、中性内容),以及不同数量和类型的文字提示(如名词、形容词、动词),以全面评估模型对文字提示注入的敏感性和抗干扰能力。实验结果表明,TATM在多种条件下均表现出色,具有广泛的应用前景。