SIGKDD-2023《Complementary Classifier Induced Partial Label Learning》

发布于:2025-08-19 ⋅ 阅读:(12) ⋅ 点赞:(0)

核心思想

论文的核心思想是针对部分标签学习(Partial Label Learning, PLL)问题提出一种新型方法PL-CL(Partial Label learning based on Complementary Learning)。在PLL中,每个训练样本关联一个候选标签集,其中只有一个是真实的ground-truth标签,而现有方法的主要挑战是消歧(disambiguation),即从候选标签集中识别出真实标签。现有工作通常忽略了非候选标签集(即互补标签,complementary labels)的价值,这些标签精确地指示了样本不属于的类别集。

论文创新性地利用非候选标签诱导一个互补分类器(complementary classifier),该分类器与传统PLL的普通分类器(ordinary classifier)形成对抗关系(adversarial relationship),从而消除候选标签集中的假阳性标签。同时,假设特征空间和标签空间共享相同的局部拓扑结构(local topological structure),通过一个动态图(dynamic graph)捕捉这种结构一致性,进一步辅助消歧。整体框架如论文图1所示:候选标签生成普通分类器,非候选标签生成互补分类器,通过对抗约束和图正则化实现优化。该方法充分利用实例间相关性、实例到候选标签的映射以及非候选标签的准确信息,提升PLL的性能。

目标函数

论文的目标函数是基于最小化损失的形式化,综合考虑普通分类器、互补分类器、对抗关系以及图正则化。完整的目标函数如下:

min⁡W,b,W^,b^,P,Q,G∥XW+1nbT−P∥F2+β∥1n×l−P−Q∥F2+α∥XW^+1nb^T−Q∥F2+μ∥PT−PTG∥F2+γ∥XT−XTG∥F2+λ(∥W∥F2+∥W^∥F2) \min_{W,b,\hat{W},\hat{b},P,Q,G} \left\| XW + 1_n b^T - P \right\|_F^2 + \beta \left\| 1_{n \times l} - P - Q \right\|_F^2 + \alpha \left\| X \hat{W} + 1_n \hat{b}^T - Q \right\|_F^2 + \mu \left\| P^T - P^T G \right\|_F^2 + \gamma \left\| X^T - X^T G \right\|_F^2 + \lambda \left( \left\| W \right\|_F^2 + \left\| \hat{W} \right\|_F^2 \right) W,b,W^,b^,P,Q,Gmin XW+1nbTP F2+β1n×lPQF2+α XW^+1nb^TQ F2+μ PTPTG F2+γ XTXTG F2+λ(WF2+ W^ F2)

约束条件:

P1q=1n,0n×l≤P≤Y,Y^≤Q≤1n×l P 1_q = 1_n, \quad 0_{n \times l} \leq P \leq Y, \quad \hat{Y} \leq Q \leq 1_{n \times l} P1q=1n,0n×lPY,Y^Q1n×l

GT1n=1n,0n×n≤G≤U G^T 1_n = 1_n, \quad 0_{n \times n} \leq G \leq U GT1n=1n,0n×nGU

其中:

  • X∈Rn×qX \in \mathbb{R}^{n \times q}XRn×q 是实例矩阵(nnn个样本,qqq维特征)。
  • Y∈{0,1}n×lY \in \{0,1\}^{n \times l}Y{0,1}n×l 是部分标签矩阵(lll个类别),Y^=1n×l−Y\hat{Y} = 1_{n \times l} - YY^=1n×lY 是互补标签矩阵。
  • P∈Rn×lP \in \mathbb{R}^{n \times l}PRn×l 是标签置信矩阵(labeling confidence matrix),pijp_{ij}pij 表示第jjj个标签是第iii个样本真实标签的概率。
  • Q∈Rn×lQ \in \mathbb{R}^{n \times l}QRn×l 是互补标签置信矩阵,qijq_{ij}qij 表示第jjj个标签不是第iii个样本真实标签的置信度。
  • G∈Rn×nG \in \mathbb{R}^{n \times n}GRn×n 是局部相似性图矩阵,捕捉特征和标签空间的局部结构。
  • W,W^∈Rq×lW, \hat{W} \in \mathbb{R}^{q \times l}W,W^Rq×lb,b^∈Rlb, \hat{b} \in \mathbb{R}^lb,b^Rl 分别是普通分类器和互补分类器的权重和偏置。
  • UUUkkk-最近邻位置矩阵,1n1_n1n 是全1向量,∥⋅∥F\left\| \cdot \right\|_FF 是Frobenius范数。
  • α,β,γ,μ,λ\alpha, \beta, \gamma, \mu, \lambdaα,β,γ,μ,λ 是超参数,用于平衡不同项。

函数分解:

  • 第一项:普通分类器的最小二乘损失。
  • 第二项:对抗损失,确保P+Q=1n×lP + Q = 1_{n \times l}P+Q=1n×l
  • 第三项:互补分类器的损失。
  • 第四、五项:图正则化,确保特征和标签空间的局部一致性。
  • 第六项:正则化控制模型复杂度。

目标函数详细的优化过程

优化采用交替迭代(alternating optimization)方式,逐个变量固定其他变量求解,直到收敛。论文引入核扩展(kernel extension)以处理非线性关系,使用高斯核K(xi,xj)=exp⁡(−∥xi−xj∥22/(2σ2))K(x_i, x_j) = \exp(-\left\| x_i - x_j \right\|_2^2 / (2\sigma^2))K(xi,xj)=exp(xixj22/(2σ2)),其中σ\sigmaσ为训练样本平均距离。定义输出矩阵H=ΦW+1nbTH = \Phi W + 1_n b^TH=ΦW+1nbTH^=ΦW^+1nb^T\hat{H} = \Phi \hat{W} + 1_n \hat{b}^TH^=ΦW^+1nb^T,其中Φ\PhiΦ是核映射后的特征矩阵,核矩阵K=ΦΦTK = \Phi \Phi^TK=ΦΦT

  1. 更新 W,bW, bW,bW^,b^\hat{W}, \hat{b}W^,b^

    • 对于普通分类器:求解 min⁡W,b∥XW+1nbT−P∥F2+λ∥W∥F2\min_{W,b} \left\| XW + 1_n b^T - P \right\|_F^2 + \lambda \left\| W \right\|_F^2minW,b XW+1nbTP F2+λWF2
    • 核版本使用拉格朗日乘子AAA,通过KKT条件得:
      A=(12λK+12In×n)−1(P−1nbT),b=sPs1nT A = \left( \frac{1}{2\lambda} K + \frac{1}{2} I_{n \times n} \right)^{-1} \left( P - 1_n b^T \right), \quad b = \frac{s P}{s 1_n}^T A=(2λ1K+21In×n)1(P1nbT),b=s1nsPT
      其中s=1nT(12λK+12In×n)−1s = 1_n^T \left( \frac{1}{2\lambda} K + \frac{1}{2} I_{n \times n} \right)^{-1}s=1nT(2λ1K+21In×n)1
    • 类似地更新A^,b^\hat{A}, \hat{b}A^,b^,替换PPPQQQλ\lambdaλλ/α\lambda / \alphaλ/α
  2. 更新 QQQ

    • 子问题:min⁡Q∥Q−αH^+β(1n×l−P)α+β∥F2\min_Q \left\| Q - \frac{\alpha \hat{H} + \beta (1_{n \times l} - P)}{\alpha + \beta} \right\|_F^2minQ Qα+βαH^+β(1n×lP) F2,s.t. Y^≤Q≤1n×l\hat{Y} \leq Q \leq 1_{n \times l}Y^Q1n×l
    • 解:元素-wise阈值操作
      Q=T1(TY^(αH^+β(1n×l−P)α+β)) Q = T_1 \left( T_{\hat{Y}} \left( \frac{\alpha \hat{H} + \beta (1_{n \times l} - P)}{\alpha + \beta} \right) \right) Q=T1(TY^(α+βαH^+β(1n×lP)))
      其中T1(m)=min⁡{1,m}T_1(m) = \min\{1, m\}T1(m)=min{1,m}TY^(m)=max⁡{y^ij,m}T_{\hat{Y}}(m) = \max\{\hat{y}_{ij}, m\}TY^(m)=max{y^ij,m}
  3. 更新 GGG

    • 子问题:min⁡Gγ∥XT−XTG∥F2+μ∥PT−PTG∥F2\min_G \gamma \left\| X^T - X^T G \right\|_F^2 + \mu \left\| P^T - P^T G \right\|_F^2minGγ XTXTG F2+μ PTPTG F2,s.t. GT1n=1n,0n×n≤G≤UG^T 1_n = 1_n, 0_{n \times n} \leq G \leq UGT1n=1n,0n×nGU
    • 列-by-列求解,对于第iiig^i\hat{g}_ig^i(仅更新kkk最近邻系数):转化为二次规划(QP)
      min⁡g^ig^iT(γBxi+μBpi)g^i,s.t.g^iT1k=1,0k≤g^i≤1k \min_{\hat{g}_i} \hat{g}_i^T (\gamma B_{x_i} + \mu B_{p_i}) \hat{g}_i, \quad \text{s.t.} \quad \hat{g}_i^T 1_k = 1, \quad 0_k \leq \hat{g}_i \leq 1_k g^iming^iT(γBxi+μBpi)g^i,s.t.g^iT1k=1,0kg^i1k
      其中Bxi,BpiB_{x_i}, B_{p_i}Bxi,Bpi是Gram矩阵,使用QP求解器。
  4. 更新 PPP

    • 子问题:min⁡P∥P−H+β(1n×l−Q)1+β∥F2+μ1+β∥PT−PTG∥F2\min_P \left\| P - \frac{H + \beta (1_{n \times l} - Q)}{1 + \beta} \right\|_F^2 + \frac{\mu}{1 + \beta} \left\| P^T - P^T G \right\|_F^2minP P1+βH+β(1n×lQ) F2+1+βμ PTPTG F2,s.t. P1q=1n,0n×l≤P≤YP 1_q = 1_n, 0_{n \times l} \leq P \leq YP1q=1n,0n×lPY
    • 向量化后转化为QP:min⁡p⃗12p⃗T(C+2(1+β)μInl×nl)p⃗−2(1+β)μo⃗Tp⃗\min_{\vec{p}} \frac{1}{2} \vec{p}^T (C + \frac{2(1 + \beta)}{\mu} I_{nl \times nl}) \vec{p} - \frac{2(1 + \beta)}{\mu} \vec{o}^T \vec{p}minp 21p T(C+μ2(1+β)Inl×nl)p μ2(1+β)o Tp ,s.t. 行和约束,使用QP求解器。其中CCC是块对角矩阵基于(I−G)(I−G)T(I - G)(I - G)^T(IG)(IG)T

复杂度:总体为O(n3+nql+nl+nk3+n3q3)O(n^3 + n q l + n l + n k^3 + n^3 q^3)O(n3+nql+nl+nk3+n3q3)

主要的贡献点

  1. 首次引入互补分类器:在PLL文献中首次提出利用非候选标签诱导互补分类器,该分类器提供准确的负信息,帮助消除候选集中的假阳性标签。
  2. 对抗项设计:提出对抗损失β∥1n×l−P−Q∥F2\beta \left\| 1_{n \times l} - P - Q \right\|_F^2β1n×lPQF2,将互补分类器的信息传递到普通分类器,指导消歧过程。
  3. 自适应图正则化:引入动态图GGG捕捉特征和标签空间的局部一致性,提升鲁棒性。
  4. 实验验证:在4个控制UCI数据集和6个真实世界数据集上显著优于SOTA方法(如PL-AGGD、SURE等),并通过消融研究证实互补分类器和图结构的有效性。胜率达92.1%以上,且对超参数鲁棒。

算法的实现过程

算法实现基于伪代码(Algorithm 1),采用迭代优化框架。输入:部分标签数据DDD,超参数α,β,μ,γ,λ\alpha, \beta, \mu, \gamma, \lambdaα,β,μ,γ,λ,测试样本x∗x^*x。输出:x∗x^*x的预测标签y∗y^*y

  1. 初始化

    • 初始化GGG:求解min⁡G∥XT−XTG∥F2\min_G \left\| X^T - X^T G \right\|_F^2minG XTXTG F2,s.t. GT1n=1n,0n×n≤G≤UG^T 1_n = 1_n, 0_{n \times n} \leq G \leq UGT1n=1n,0n×nGU(基于kkk-NN的重构)。
    • 初始化PPP:求解min⁡P∥PT−PTG∥F2\min_P \left\| P^T - P^T G \right\|_F^2minP PTPTG F2,s.t. P1q=1n,0n×l≤P≤YP 1_q = 1_n, 0_{n \times l} \leq P \leq YP1q=1n,0n×lPY
    • 初始化QQQ:对于每个qijq_{ij}qij,如果yij=0y_{ij}=0yij=0qij=1/(l−∑jyij)q_{ij}=1/(l - \sum_j y_{ij})qij=1/(ljyij),否则qij=0q_{ij}=0qij=0
  2. 迭代优化(重复直到收敛):

    • 更新A,bA, bA,b:使用公式(16)计算普通分类器的核参数。
    • 更新A^,b^\hat{A}, \hat{b}A^,b^:使用公式(17)计算互补分类器的核参数。
    • 更新QQQ:使用公式(19)的阈值操作。
    • 更新GGG:列-by-列QP求解公式(22)。
    • 更新PPP:QP求解公式(25)。
  3. 预测新样本

    • 对于未见样本x∗x^*x,计算预测:
      y∗=arg⁡max⁡k∑i=1n12λAikK(x∗,xi)+bk y^* = \arg \max_k \sum_{i=1}^n \frac{1}{2\lambda} A_{ik} K(x^*, x_i) + b_k y=argkmaxi=1n2λ1AikK(x,xi)+bk

实现细节:在实践中,使用QP求解器(如CVXOPT或Gurobi)处理QP子问题。核矩阵KKK预计算以加速。收敛标准可设为目标函数变化小于阈值或最大迭代次数。实验中k=10k=10k=10,超参数通过网格搜索选择。


网站公告

今日签到

点亮在社区的每一天
去签到