探索AI安全治理,打造大模型时代的可信AI
0. 前言
随着人工智能 (Artificial Intelligence
, AI
) 技术,特别是大模型的迅猛发展,AI
技术滥用与造假问题愈加严重,给全球经济和社会发展带来了前所未有的挑战。人工智能的滥用不仅危及个人隐私安全,还对社会秩序和法律规范构成潜在威胁。在这一背景下,AI
安全的有效治理已经成为学术界和产业界共同关注的焦点。作为其中的重要组成部分,AI
视觉安全尤为关键,它涉及如何保障计算机视觉技术在各类应用中的可靠性、透明度和公平性,确保人工智能在面对复杂现实场景时能够做出合规、可信的决策。这一领域的研究和技术发展,已成为保障社会稳定与科技进步的重要支柱。
在本文中,我们将回顾在《CCF-CV 企业交流会—走进合合信息
》活动中,来自 AI
安全领域的权威专家分享的 AI
安全领域的最新研究成果以及实践经验,介绍计算机视觉领域最新进展和人工智能可信发展趋势。
1. CCF-CV 企业交流会
1.1 活动介绍
伴随着 AI
产品的快速迭代更新,人工智能引发的风险也在与日俱增。深度伪造技术和个人隐私侵权等问题挑战着社会秩序,为探寻 AI
安全治理道路,近期,由中国计算机学会计算机视觉专委会主办,合合信息承办,中国运筹学会数学与智能分会协办的《打造大模型时代的可信 AI
》活动顺利举行。活动特邀来自上海交通大学、电子技术标准化研究院、中国科学技术大学、中科院、合合信息等机构与企业的专家们,分享了计算机视觉领域最新进展和人工智能可信发展趋势,助力 AI
向善发展。
1.2 走进合合信息
合合信息是一家深耕智能文字识别和商业大数据领域的公司,研发了多款深受全球用户喜爱的 C 端
产品,同时提供 AI
加大数据赋能数字化转型的 B 端
服务,此外,合合信息主要的平台产品包括智能文字识别服务平台和商业大数据技术与资产平台,其中,智能文字识别服务平台 TextIn 提供高精准度的智能文字识别引擎及场景化产品,支持多种部署方式,提升文档处理流程的效率,例如光学字符识别 (Optical Character Recognition
, OCR
)、图像切边增强、图像篡改检测以及图像矫正等。
2. 大模型发展与安全挑战
随着大模型在各个领域的深入应用,安全性问题已经成为制约 AI
发展的重要挑战。从数据隐私到对抗攻击,从偏见问题到滥用风险,大模型面临的安全挑战多种多样,需要技术和监管多方面的合作与努力来解决。只有在保障安全的前提下,AI
技术才能更好地服务于社会,并带来更大的价值。当前,大模型面临的安全挑战主要包括:
- 数据隐私与泄露:大模型的训练通常需要海量的数据集,这些数据集可能包含了个人隐私、敏感信息和商业机密。在训练过程中,尽管通过去标识化和数据匿名化手段试图保护隐私,但依然可能存在信息泄露的风险
- 模型篡改与对抗攻击:对抗攻击是指通过对输入数据进行精心设计的微小扰动,使得大模型的预测结果发生显著变化。攻击者通过这种方式可以使模型输出错误的决策,甚至误导自动化决策系统。这类攻击不仅威胁到模型的安全性,还可能影响其在现实世界中的应用,如自动驾驶、金融交易等领域。此外,攻击者还可以通过直接篡改模型的参数或训练过程,注入恶意代码或虚假数据,从而使得模型在特定情境下做出错误的判断
- 偏见与公平性问题:大模型的训练数据来源广泛,可能包含了历史上的偏见和歧视,导致模型在输出时产生偏见(如性别偏见、种族偏见等)。这些偏见可能反映在模型对不同群体的推荐、决策或预测结果上,从而加剧社会不公平问题,甚至对某些群体造成伤害
- 模型滥用与恶意应用:大模型能够在多个领域中提供强大的功能,但如果被恶意使用,它们也可能带来严重的社会风险。例如,利用大模型生成虚假图像、诈骗信息或假新闻,可能会导致社会信任危机,甚至引发恐慌。此外,黑客还可能利用模型进行自动化的钓鱼攻击、虚假广告等恶意行为
3. 打造大模型时代的可信 AI
3.1 平衡生成式AI的创新与风险
以 ChatGPT
为代表的大语言模型 (Large Language Models
, LLM
) 技术飞速发展的同时,关于数据安全、知识产权、算法偏见和有害内容生成等大语言模型的内容安全问题逐渐引发了人们的关注。论坛上,上海交通大学人工智能研究院教授、总工程师金耀辉围绕大模型训练过程分享了如何平衡生成式 AI
的创新与风险,主要包括面向安全的训练对齐、面向安全的提示引导和面向安全的文本过滤。
面向安全的训练对齐是指对 LLM
进行微调以对齐安全需求。从颗粒度逐渐细化,将安全概念逐渐明确。Safe RLHF
模型对安全中的有益性和无害性偏好解耦,并在对齐过程中动态调整 LLM
对内容安全的偏好。FINE-GRAINED RLHF
模型引入细粒度的人类反馈来作为奖励信号。通过 调整奖励模型的权重,控制不同类型反馈之间 的平衡,以确保 LLM
生成内容的安全。
面向安全的提示引导是指利用提示词引导 LLM
生成安全的响应,面向安全的提示引导往往会基于人类的心理,借鉴人类心理学研究中的概念。通过加入带有安全引导的提示词,大语言模型的安全属性能够被显著提升。
面向安全的文本过滤是指检测有害内容并触发适当的安全处理机制。安全过滤是保障大语言模型安全的外围护栏,能够直接防止有害内容的产生。基于规则的文本过滤通过预定义规则来检测和捕获有害文本特征,能够通过文本的全局特征和局部特征进行识别。基于模型的文本过滤利用自然语言处理和机器学习技术,通过预训练的语言模型或专门训练的分类模型,自动检测并过滤有害内容。
3.2 视觉内容安全技术的前沿进展与应用
图像,作为当前数字内容中广泛应用的一种形式,由于其便于获取、传播和编辑,已成为不法分子进行各种篡改和伪造的主要目标。图像篡改和人脸伪造是当前图像处理和人工智能领域的重要课题,不仅包括局部区域的细节修改,还可能涉及整幅图像的全局性修改,尤其是在深度伪造技术和生成对抗网络等新兴技术的推动下,图像篡改和人脸伪造的手段愈加复杂且隐蔽。这种现象带来了巨大的安全隐患,特别是在社交媒体、新闻报道、金融欺诈等领域危害愈加显著。
由于篡改手段的多样性以及隐蔽性,当前的篡改检测任务面临着诸多复杂的难题。首先,篡改手段多种多样,从简单的像素替换到复杂的图像合成,攻击者可以采用不同的策略来掩盖其篡改行为。这使得检测系统很难建立起有效的识别标准。其次,篡改的隐蔽性使得篡改痕迹往往微弱,甚至在仔细审查的情况下也难以察觉。更为棘手的是,篡改图像与原始图像在内容和形式上可能高度相似,这种相似性进一步增加了识别的难度。
合合信息图像算法研发总监郭丰俊介绍了该公司技术团队依托先进的深度学习技术和数据驱动的神经网络模型,研发出了领先行业水平的图像篡改检测解决方案。考虑到伪造和篡改的技术也在快速更新,合合信息提出了基于小样本在线增量学习的篡改检测模型,以快速响应客户需求,融合空域与频域关系、知识蒸馏和教师-学生网络等方法提升 CNN Tamper Detector
性能,检测 RGB
域和噪声域存在痕迹的篡改,能够在像素级识别证件、票据等各类重要的商业材料中的 PS
痕迹。
与证照篡改检测相比,截图的背景没有纹路和底色,整个截图没有光照差异,难以通过拍照时产生的成像差异进行篡改痕迹判断,现有的视觉模型通常难以充分发掘原始图像和篡改图像的细粒度差异特征。尽管视觉模型在处理普通图像上表现出色,但当面临具有细粒度差异的原始图像和篡改图像时,它们往往难以有效地进行区分。这是因为篡改操作可能只会对截图进行轻微的修改,这些细节变化对于传统的视觉模型而言很难捕捉到。
应用合合信息的通用篡改检测技术,不仅能够识别图像篡改后所留下的微小痕迹,还能够检测出多种不同形式的篡改,例如局部剪辑、拼接、伪造、内容替换等,具有较强的多样性和适应性,在近两年的两项国际性技术竞赛中脱颖而出,成功夺得冠军,证明了其技术在全球范围内的竞争力和领先地位。
同时,合合信息与中国信通院、中国图象图形学学会等机构联合发布了《文本图像篡改检测系统技术要求》团体标准,能够推动相关技术更好的落地应用,为行业提供有效指引。
人脸伪造图像检测是一个快速发展的领域,旨在识别和验证人脸图像的真实性,以防止欺诈和虚假信息传播。但随着人脸伪造技术的不断演进,检测模型需适应各种生成方法,如生成对抗网络、Deepfake
和扩散模型等,确保能够识别不同类型的人脸伪造图像。
合合信息构建的人脸伪造图像检测系统利用前沿的深度学习技术,基于大量 Deepfake
实际样图训练,具备优秀的泛化识别表现,能够快速而准确地检测单人图像中的人脸伪造行为。通过深度学习算法的高级特征提取和分析,系统能够识别贴图、面部重演、Deepfake
人脸替换等各种伪造行为,同时具备高效的实时处理能力,能够在短时间内对上传的人脸图像进行检测和分析,及时给出检测结果,满足快速反应和处理的需求。
目前,合合信息提出的伪造人脸检测模型已与一些央企及金融机构展开落地合作,相关产品也可以在线体验,例如,使用伪造人脸检测识别使用 Stable Diffusion
生成人脸图像,模型能够准确给出图像“是伪造”的结论。
新的大模型技术的出现为 AI
视觉安全领域带来了前所未有的机遇。大模型通过大量的数据训练和复杂的神经网络结构,能够从更加深层次的特征中提取信息,从而提高模型的泛化能力和鲁棒性。尤其是在抗攻击能力方面,大模型在训练过程中能够学习到更丰富的图像特征和篡改模式,使得其在面对复杂攻击时仍然能够保持较高的检测精度。与此同时,随着硬件技术和计算能力的不断提升,大模型的训练和部署也变得更加可行,进一步推动了 AI
视觉安全技术的发展。
3.3 人工智能安全检测评估的逻辑和要点
规范标准作为 AI
健康发展的外部驱动力,发挥着至关重要的作用。中国电子标准院网络安全中心测评实验室副主任、CCIA
数字安全委员会常务副主任何延哲指出,当前人工智能面临网络信息安全、科技伦理安全、算力网络安全、算法模型安全、数据安全和隐私保护等诸多风险,但 AI
安全检测主要集中在内容安全领域,且其检测方法仍显单一,难以全面应对复杂的安全挑战。为此,他将 AI
安全检测评估体系细分为六个关键领域:算力网络安全、数据安全、个人信息保护、算法模型安全、网络信息安全以及科技伦理安全。这一综合评估框架不仅能够全方位识别和防范 AI
系统中的潜在风险,还为标准化工作提供了系统性参考,为未来技术的发展方向提供了可行的引领路径。
3.4 深度伪造视频的主动防御与被动检测技术
以扩散模型、Sora
等为代表的图像与视频创作 AI
工具,带来了巨大的创新,推动了整个行业的变革。然而,随之而来的也有一些潜在风险,尤其是合成图像与伪造视频的威胁,对个人隐私、媒体可信度构成挑战。深度伪造是指利用深度学习技术,伪造或生成人脸图像,包括整幅人脸合成、人脸属性编辑、身份替换和表情迁移。对此,中国科学技术大学教授谢洪涛,通过对特定人物深度伪造视频的研究,从主动防御和被动检测两个角度介绍了应对深度伪造视频的防御技术,旨在应对 AI
视频合成带来的安全隐患。
主动防御是指在视频生成及传播的初期阶段,采取一系列预防性措施,以降低伪造和篡改的风险,即便伪造也能够顺利溯源。通过嵌入鲁棒性水印,使图像具有较强的抗篡改能力;通过嵌入半脆弱性水印,能够在视频被修改时,产生明显的可视或结构性变化,确保视频内容的真伪可以被追踪和验证。针对现有深度伪造主动取证工作中,未能有效利用面部高级语义信息,导致半脆弱水印嵌入依赖于白盒 Deepfake
模型的问题,提出了语义水印嵌入,通过解耦面部表征,并根据不同类别语义特征的性质设计合理的水印嵌入与提取算法。
被动检测是指人脸素材被恶意伪造后,利用伪造视频自身获取线索或提取特征进行检测。利用图像级的不一致性检测,提出多层级人脸数据增广和令牌一致性度量,利用时空身份不一致性分析,引入区域身份信息提取和时空知识蒸馏。通过上述方法,能够在视频内容传播或使用后的阶段检测其是否存在虚假成分。例如,通过分析视频中的人物动作、面部表情、环境光照等因素,评估视频中是否存在技术上无法完全还原的细微不一致性,从而有效判断视频是否被伪造或篡改。
3.5 生成式人工智能安全与治理
与传统人工智能不同,生成式人工智能不仅能够对输入数据进行处理,更能学习和模拟事物内在规律,自主创造出新的内容。AI
鉴别与合成技术处于相互博弈、密切交织的状态,二者之间的关系紧密而复杂。中国科学院自动化研究所的研究员赫然博士,深入探讨了深度合成技术的最新发展,重点分析了虚拟身份生成、身份替换和人脸重演这三种典型的合成技术。
随着深度合成技术的不断进步和深化,更多的鉴别线索逐渐浮出水面,为检测和防范伪造内容提供了有力的依据。这些线索包括模型指纹、图像拼接痕迹、时序闪烁、音视频一致性和语义合理性等细节,通过它们可以有效识别合成视频或图像的真伪。为此,提出了一种多模态、多线索相结合的综合鉴伪方法,利用不同类型的线索共同提升鉴别精度和可靠性,同时使用时空频提示学习方法有效增强了伪造检测模型的泛化能力。此外,还介绍了一种基于 Transformer
架构的视频鉴别技术,这种方法能够通过分析视频内容中的时空特征,识别伪造或篡改的痕迹,从而有效提升视频内容的真伪辨识能力。
小结
随着 AI
技术的快速发展,AI
造假问题也越来越严重,为经济、社会发展带来了诸多挑战,也威胁着的个人的隐私安全和社会的秩序,AI
安全的治理目前是学术界和产业界非常关注的课题。为了应对这一挑战,本文回顾了在《CCF-CV 企业交流会—走进合合信息
》活动中,与会专家从监管、前沿研究、技术实践等多个维度分享的 AI
安全领域的最新研究成果以及实践经验,以推动 AI
在保障安全和公平的基础上健康发展。