关键词:大模型,大模型安全,漏洞研究
1. 引入
promptfoo(参考1)是一款开源大语言模型(LLM)测试工具,能对 LLM 应用进行全面漏洞测试,它可检测包括安全风险、法律风险在内的多种漏洞,如数据泄露、注入攻击、版权侵权等,还能防范有害内容生成和业务风险。
promptfoo官方文档中(参考1),将大模型的漏洞归结为如下四大类:
- 安全与访问控制(Security & Access Control)
- 合规与法律(Compliance & Legal)
- 信任与安全(Trust & Safety)
- 品牌(Brand)
下面详细讲解这四种类型的漏洞相关细节。
2. 四类漏洞
1. 安全与访问控制(Security & Access Control)
(1)访问控制(Access Control, RBAC, BOLA):基于角色的访问控制(RBAC,Role-Based Access Control),确保只有授权用户能访问特定资源和功能,防止未授权访问。
(2)注入攻击(Injection Attacks):攻击者通过输入恶意数据,操纵模型执行非预期命令或获取敏感信息。
(3)数据保护(Data Protection, PII):保护个人身份信息(PII),防止数据泄露、滥用等安全问题。
2. 合规与法律(Compliance & Legal)
(1)知识产权侵权(IP Violations):模型可能生成侵犯他人知识产权的内容,如版权、专利等。
(2)未经授权的建议(Unauthorized Advice):模型给出未经授权的法律、医疗等专业建议,可能导致法律风险。
(3)犯罪内容(Criminal Content):模型生成或处理与犯罪相关的内容,如恐怖主义、非法活动等。
3. 信任与安全(Trust & Safety)
(1)有害内容(Harmful Content):包括可能对用户造成伤害的内容,如鼓励自残、暴力等。
(2)仇恨言论(Hate Speech):针对特定群体的歧视性、侮辱性或攻击性言论。
(3)明确内容(Explicit Content):色情、低俗等不适当的内容。
4. 品牌(Brand)
(1)错误信息(Misinformation):模型生成并传播错误或误导性信息,损害品牌声誉。
(2)幻觉(Hallucination):模型生成看似合理但实际不存在或错误的信息。
(3)竞争对手背书(Competitor Endorsement):模型不当提及或支持竞争对手,影响品牌形象。
3. 总结
大语言模型(LLM)的漏洞,分为安全与访问控制、合规与法律、信任与安全、品牌四大类。具体包括注入攻击、知识产权侵权、有害内容、错误信息等多种风险。
4. 参考
- https://www.promptfoo.dev/docs/red-team/llm-vulnerability-types/#privacy-vulnerabilities