5.5 模型编辑应用
大语言模型面临更新成本高、隐私保护难、安全风险大等问题。模型编辑技术:
通过细粒度修改预训练模型,避免从头训练,降低更新成本;
能够精准修改特定事实,保护隐私信息;
还能精细控制编辑过程,及时识别并消除安全隐患,提升模型的安全性和可靠性。
5.5.1 精准模型更新
模型编辑技术是一种通过直接修改或调整模型参数来更新模型知识或行为的方法。相比传统的微调方法,它减少了对大量数据和计算资源的依赖,同时避免了遗忘原有知识的风险。这种方法具有高效、精准的特点,能够快速修复模型的特定问题或添加新知识,特别适用于大语言模型的即时更新场景。
例如,2023年12月,Gemini Pro 询问“你是谁”时,Gemini Pro 会回答“我是百度文心大模型”。仅仅一天之后,Gemini Pro 便不再回答类似的内容。考虑到重新训练模型的成本和时间不可接受,推测 Google 使用了模型编辑技术进行了紧急修复,快速纠正了模型的回答。这种技术的外科手术般的精准性使其成为应对模型即时更新需求的理想选择。
5.5.2 保护被遗忘权
被遗忘权(RTBF,Right to be forgotten)是个人有权要求删除互联网上的私人信息的权利,旨在平衡隐私与信息自由流通。欧盟法院在冈萨雷斯诉谷歌案中确立了这一权利,并纳入《通用数据保护条例》。大语言模型因记忆和使用个人信息而受此约束,需采取技术措施删除或修改信息。
大语言模型可能泄露隐私,如生成文本泄露身份信息、攻击者分析输出推断敏感信息或模型参数遭不当访问。现有隐私保护方法虽能减少泄露,但仍存在漏洞。例如,Nasr等人发现重复输入特定词汇可能导致模型泄露隐私。为此,模型编辑技术如DPEN结合隐私神经元检测器和编辑器,定位并消除与隐私相关的参数,实现机器遗忘,有效保护隐私。
5.5.3 提升模型安全
祛除毒性
大语言模型可能因有害输入生成有毒输出,传统方法(如对齐数据微调)成本高且抗干扰能力弱。
模型编辑通过微调少量参数,引导模型输出更积极内容,降低毒性风险,同时减少优化成本。
现有研究(如 Geva 等)通过操作神经元权重提升积极内容输出,但过度回避敏感词汇可能导致模型能力受限。未来需开发能兼顾语义安全和内容多样性的编辑方法。
减弱偏见
模型可能吸收训练数据中的偏见,导致不公平输出。
LSDM 和 DAMA 等研究通过定位编辑法(如因果分析和正交投影)调整模型参数,有效减少性别偏见,同时保持模型性能。
模型编辑技术在降低更新成本、保护隐私和应对安全风险方面具有优势,未来有望推动大语言模型更广泛应用。
.
其他参考:【大模型基础_毛玉仁】系列文章
声明:资源可能存在第三方来源,若有侵权请联系删除!