1 概述

1.1 题目

2021IJCAI：多示例学习优化间隔分布机 (Optimal margin distribution machine for multi-Instance learning)

1.2 摘要

最近的间隔理论研究表明，间隔分布 (Margin distribution) 对泛化能力的影响重于最小间隔 (Minimal margin)。受此启发，提出了多示例 (Multi-instance learning, MIL) 最优间隔分布机 (ODM)，其通过优化间隔分布来鉴别关键实例。进一步扩展随机加速镜像近似方法 (Stochastic accelerated mirror prox method) 来解决该公式化的极小极大问题。

1.3 Bib

@inproceedings{Zhang:2021:23832389,
author		=	{Teng Zhang and Hai Jin},
title		=	{Optimal margin distribution machine for multi-instance learning},
booktitle	=	{International Conference on International Joint Conferences on Artificial Intelligence},
pages		=	{2383--2389},
year		=	{2021}
url			=	{https://www.ijcai.org/proceedings/2020/0330.pdf}
}

2 基础知识

令 $\mathcal{X}\subseteq\mathbb{R}^n$ 和 $\mathcal{Y}=\{-1,1\}$ 分别表示输入和输出空间。对于任意的 $m\leq1$ ，整数的集合 $\{1,\dots,m\}$ 表示为 $[m]$ 。与某个正定核 $\kappa$ 关联的特征映射表示为： $\phi:\mathcal{X}\to\mathbb{H}$ 。

2.1 ODM

定义有标记实例 $(\boldsymbol{x},y)$ 的间隔 $\gamma(\boldsymbol{x},y)$ 为Sign决策值，即 $\gamma(\boldsymbol{x},y)=y\boldsymbol{w}^T\phi(\boldsymbol{x})$ ，其可以作为预测的置信度 (Confidence)。间隔越大，预测的标签也越可信。
众所周知，SVM使用最大边界理论来描绘决策边界，所获得的分割超平面包含少量实例，也称支持向量，余下的实例则是可以忽略的。当噪声实例存在时，学习者可能被误导，从而产生次优决策边界。
与此相应，优化间隔分布是一个更健壮性的策略，其通过探索整个数据集来防止噪声实例的干扰。描述间隔分布最简单的方法是通过第一和第二统计，即间隔均值和方差。此外，同时最大化均值和最小化方差可以产生更严格的泛化边界。优化间隔分布机 (Optimal margin distribution machine, ODM) 被初定义为😮‍：
$\tag{1} \begin{array}{rl} \min_{\boldsymbol{w},\overline{\gamma},\xi_i,\epsilon_i}&\frac{1}{2}\|\boldsymbol{w}\|^2-\eta\overline{\gamma}+\frac{\lambda}{m}\sum_{i\in[m]}(\xi_i^2+\epsilon_i^2),\\ \text { s.t.} &\gamma(\boldsymbol{x}_i,y_i)\geq\overline{\gamma}-\xi_i,\\ &\gamma(\boldsymbol{x}_i,y_i)\leq\overline{\gamma}+\epsilon_i,\forall i\in[m], \end{array}$ 其中 $\eta$ 喝 $\lambda$ 是正则权衡参数， $\overline{\gamma}$ 是间隔均值，以及 $\xi_i$ 和 $\epsilon_i$ 是 $\gamma(\boldsymbol{x},y)$ 和间隔均值之间的偏差，因此公式1中的最后一项 $\sum_{i\in[m]}(\xi_i^2+\epsilon_i^2)/m$ 其实是间隔方差。
为了使得模型清晰有效，ODM被引入了三个改进：

固定间隔均值；
不同的偏差分配不同的权重；
允许偏差小于给定阈值 $\theta$ 以获取稀疏解。具体如下：

$\tag{2} \begin{array}{rl} \min _{\boldsymbol{w}, \xi_i, \epsilon_i} & F(\boldsymbol{w})=\frac{1}{2}\|\boldsymbol{w}\|^2+\frac{\lambda}{m} \sum_{i \in[m]} \frac{\xi_i^2+\nu \epsilon_i^2}{(1-\theta)^2}, \\ \text { s.t. } & y_i \boldsymbol{w}^{T} \phi\left(\boldsymbol{x}_i\right) \geq 1-\theta-\xi_i, \\ & y_i \boldsymbol{w}^{T} \phi\left(\boldsymbol{x}_i\right) \leq 1+\theta+\epsilon_i, \forall i \in[m] . \end{array}$ 其中 $v$ 是不同偏差的权衡参数，以及 $(1-\theta)^2$ 用于缩放第二项的替代损失。

3 方法

给定包含 $m$ 个的训练集 $\mathcal{S}=\{\mathcal{B}_i,y_i\}_{i\in[m]}$ ，其中 $\mathcal{B}_i=\{\boldsymbol{x}_{i,1},\dots,\boldsymbol{x}_{i,m_i}\}$ 是第 $i$ 个包、 $y_i\in\{\pm1\}$ 是包标签，以及 $m_i$ 是包中实例的数量。在不失一般性的前提下，假设前 $p$ 个是正包，余下 $m - p$ 是负包，即所有包可以被排序为：
$y_i=\left\{ \begin{array}{ll} 1,&i\in[p],\\ -1,&i\in[m]\setminus[p]. \end{array} \right.$ 包的标签预测由其实例的最大决策值决定，即 $f(\mathcal{B}_i)=\max_{j\in[m_i]}\boldsymbol{w}^T\phi(\boldsymbol{x}_{i,j})$ 。代入公式2有：
$\tag{3} \begin{array}{lll} \min \limits_{\boldsymbol{w}, \xi_i, \epsilon_i} & \frac{1}{2}\|\boldsymbol{w}\|^2+\frac{\lambda_1}{p} \sum_{i=1}^p \frac{\xi_i^2+\nu \epsilon_i^2}{(1-\theta)^2}+\frac{\lambda_2}{q} \sum_{i=p+1}^m \frac{\xi_i^2+\nu \epsilon_i^2}{(1-\theta)^2}, \\ \text { s.t. }&y_i \max _{j \in\left[m_i\right]} \boldsymbol{w}^{T} \phi\left(\boldsymbol{x}_{i, j}\right) \geq 1-\theta-\xi_i, \\ &y_i \max _{j \in\left[m_i\right]} \boldsymbol{w}^{T} \phi\left(\boldsymbol{x}_{i, j}\right) \leq 1+\theta+\epsilon_i, \forall i \in[m], \end{array}$ 其中 $\lambda_1$ 和 $\lambda_2$ 是权衡参数。
对于每一个正包 $\mathcal{B}_i$ ，引入二元向量：
$\boldsymbol{a}_i=[a_{i,1};\dots;a_{i,m_i}]\in\{0,1\}^{m_i}$ 来指示具有最大决策值的关键实例。依据标准多示例假设，每个正包中只有一个正实例，则有 $\boldsymbol{e}^T\boldsymbol{a}_i=1$ ，其中 $\boldsymbol{e}$ 是一个全1向量。令 $\boldsymbol{c}=[\boldsymbol{a}_1;\dots,\boldsymbol{a}_p]$ ，以及 $\mathcal{C}$ 表示其领域。然后公式3中的约束 $y_i \max _{j \in\left[m_i\right]} \boldsymbol{w}^{T} \phi\left(\boldsymbol{x}_{i, j}\right) \geq 1-\theta-\xi_i$ 可以重写为 $\max_{\boldsymbol{a}_i}\sum_{j\in[m_i]}a_{i,j}\boldsymbol{w}^T\phi(\boldsymbol{x}_{i,j})\geq1-\theta-\xi_i$ 。
负包 $\mathcal{B}_i$ 中所有的实例都是负的，公式3与之相应的约束可以替换为：
$\left\{ \begin{array}{l} -\boldsymbol{w}^T\phi(\boldsymbol{x}_{i,j})\geq1-\theta-\xi_i,\\ -\boldsymbol{w}^T\phi(\boldsymbol{x}_{i,j})\leq1+\theta+\epsilon_i,\quad\forall_j\in[m_i]. \end{array} \right.$ 为了使得包更灵活，允许包有不同的松弛变量：
$\{\xi_{s(i,j)}\}_{i\in[m]\setminus[p],j\in[m_i]},\qquad\{\epsilon_{s(i,j)}\}_{i\in[m]\setminus[p],j\in[m_i]},$ 其中索引 $s(i,j)=J_{i-1}-J_p+j+p$ 的范围为 $p + 1$ 到 $J_m-J_p+p$ ，以及 $J_i=\sum_{t=1}^im_t$ ( $J_0=0$ )。这个就是把所有的索 $s (i, j)$ 重新索引至 $p$ 到所有包的数量加 $p$ 。结合以上，公式3转换为：
$\ [ p ] , ∀ j ∈ [ m i ] . (4) \tag{4} \begin{array}{ll} \min _{\boldsymbol{c} \in \mathcal{C}} & \min _{\boldsymbol{w}, \xi_i, \epsilon_i} \frac{1}{2}\|\boldsymbol{w}\|^2+\frac{\lambda_1}{p} \sum_{i=1}^p \frac{\xi_i^2+\nu \epsilon_i^2}{(1-\theta)^2} \\ & +\frac{\lambda_2}{q} \sum_{i=p+1}^m \sum_{j \in\left[m_i\right]} \frac{\xi_{s(i, j)}^2+\nu \epsilon_{s(i, j)}^2}{(1-\theta)^2}, \\ \text { s.t. } & \sum_{j \in\left[m_i\right]} a_{i, j} \boldsymbol{w}^{T} \phi\left(\boldsymbol{x}_{i, j}\right) \geq 1-\theta-\xi_i, \\ & \sum_{j \in\left[m_i\right]} a_{i, j} \boldsymbol{w}^{T} \phi\left(\boldsymbol{x}_{i, j}\right) \leq 1+\theta+\epsilon_i, \forall i \in[p], \\ & -\boldsymbol{w}^{T} \phi\left(\boldsymbol{x}_{i, j}\right) \geq 1-\theta-\xi_{s(i, j)}, \\ & -\boldsymbol{w}^{T} \phi\left(\boldsymbol{x}_{i, j}\right) \leq 1+\theta+\epsilon_{s(i, j)}, \\ & \forall i \in[m] \backslash[p], \forall j \in\left[m_i\right]. \end{array}$ 作为核方法，由于潜在的无限维特征映射，通常通过对偶形式处理公式4的内部最小化。引入对偶变量 $\boldsymbol{u}=\left[u_1 ; \ldots ; u_2\left(J_m-J_p+p\right)\right] \succeq \mathbf{0}$ ，公式4的拉格朗日形式为：
$\tag{5} \begin{aligned} &\min _{\boldsymbol{c} \in \mathcal{C}} \max _{\boldsymbol{u} \in \mathcal{U}}-\frac{1}{2} \boldsymbol{u}^{T}\left[\begin{array}{cc} \mathbf{K} & -\mathbf{K} \\ -\mathbf{K} & \mathbf{K} \end{array}\right] \boldsymbol{u} \\ &-\frac{(1-\theta)^2}{4} \boldsymbol{u}^{T}\left[\begin{array}{cc} \frac{1}{\lambda_1} \mathbf{I} & \mathbf{0} \\ \mathbf{0} & \frac{1}{\lambda_2 \nu} \mathbf{I} \end{array}\right] \boldsymbol{u}-\left[\begin{array}{c} (\theta-1) \boldsymbol{e} \\ (\theta+1) \boldsymbol{e} \end{array}\right]^{T} \boldsymbol{u} \end{aligned}$ 其中 $\mathcal{U}$ 是非负象限，以及 $\mathbf{K}_{i, j}=\boldsymbol{\Psi}_i^{\top} \boldsymbol{\Psi}_j \in \mathbb{R}^{q \times q}$ 是带有
$\ [ p ] , j ∈ [ m i ] \boldsymbol{\Psi}_i= \begin{cases}\sum_{j \in\left[m_i\right]} a_{i, j} \phi\left(\boldsymbol{x}_{i, j}\right) & i \in[p], j \in\left[m_i\right] \\ -\phi\left(\boldsymbol{x}_{i, j}\right) & i \in[m] \backslash[p], j \in\left[m_i\right]\end{cases}$ 的核矩阵。
为了克服混合整数规划的求解困难，一些凸松弛方法被使用，例如半正定规划松弛，以及最大松弛 (Minimax relaxation)。本文则使用后者。改变最大最小的顺序，有：
$\max _{\boldsymbol{u} \in \mathcal{U}}\min _{\boldsymbol{c} \in \mathcal{C}}D(\boldsymbol{u},\boldsymbol{c}),$ 其中 $D(\boldsymbol{u},\boldsymbol{c})$ 是公式5中的优化目标。此外，通过重写内部优化，以上公式转换为：
$\tag{6} \max _{\boldsymbol{u} \in \mathcal{U}}\min _{\boldsymbol{c} \in \mathcal{C}}d\quad\text{s.t. }D(\boldsymbol{u},\boldsymbol{c}_k)\geq d,\forall\boldsymbol{c}_k\in\mathcal{C}.$ 进一步于内优化引入对偶变量 $\boldsymbol{v}=\left[v_1 ; \ldots ; v_{|\mathcal{C}|}\right] \succeq \mathbf{0}$ ，公式6的拉格朗日形式为：
$\min _{\boldsymbol{v} \succeq 0} \max _d\left\{d+\sum_{k: \boldsymbol{c}_k \in \mathcal{C}} v_k\left(D\left(\boldsymbol{u}, \boldsymbol{c}_k\right)-d\right)\right\} .$ 设置 $d$ 的derivative为 $0$ ，有 $\sum_{k: c_k \in \mathcal{C}} v_k=1$ ，以及对偶问题转换为：
$\tag{7} \min _{\boldsymbol{v} \in \mathcal{V}} \sum_{k: c_k \in \mathcal{C}} v_k D\left(\boldsymbol{u}, \boldsymbol{c}_k\right),$ 其中 $\mathcal{V}=\left\{\boldsymbol{v} \in \mathbb{R}_{+}^{|\mathcal{C}|} \mid e^{\top} \boldsymbol{v}=1\right\}$ 是 $\mathbb{R}^{|\mathcal{C}|}$ 上的单纯形 (Simplex)为了简洁， $\sum_{k: \boldsymbol{c}_k \in \mathcal{C}} v_k D\left(\boldsymbol{u}, \boldsymbol{c}_k\right)$ 表示为 $G(\boldsymbol{u}, \boldsymbol{v})$ ，代入公式7，有：
$\max _{\boldsymbol{u} \in \mathcal{U}} \min _{\boldsymbol{v} \in \mathcal{V}} G(\boldsymbol{u}, \boldsymbol{v}) .$ $G(\boldsymbol{u}, \boldsymbol{v})$ 是负正定象限函数的凸组合，因此 $v$ 凸 $u$ 凹，以及根据Siont最大理论，这里存在一个鞍点 $\left(\boldsymbol{u}^{\star}, \boldsymbol{v}^{\star}\right) \in \mathcal{U} \times \mathcal{V}$ 使得：
$\tag{8} \begin{gathered} \min _{\boldsymbol{v} \in \mathcal{V}} \max _{\boldsymbol{u} \in \mathcal{U}} G(\boldsymbol{u}, \boldsymbol{v}) \leq \max _{\boldsymbol{u} \in \mathcal{U}} G\left(\boldsymbol{u}, \boldsymbol{v}^{\star}\right)=G\left(\boldsymbol{u}^{\star}, \boldsymbol{v}^{\star}\right) \\ =\min _{\boldsymbol{v} \in \mathcal{V}} G\left(\boldsymbol{u}, \boldsymbol{v}^{\star}\right) \leq \max _{\boldsymbol{u} \in \mathcal{U}} \min _{\boldsymbol{v} \in \mathcal{V}} G(\boldsymbol{u}, \boldsymbol{v}) . \end{gathered}$ 结合最大不等式：
$\min _{\boldsymbol{v} \in \mathcal{V}} \max _{\boldsymbol{u} \in \mathcal{U}} G(\boldsymbol{u}, \boldsymbol{v})\leq \max _{\boldsymbol{u} \in \mathcal{U}} \min _{\boldsymbol{v} \in \mathcal{V}} G(\boldsymbol{u}, \boldsymbol{v}),$ 因此MI-ODM制定为：
$\tag{9} \min _{\boldsymbol{v} \in \mathcal{V}} \max _{\boldsymbol{u} \in \mathcal{U}} G(\boldsymbol{u}, \boldsymbol{v}).$ 最优质为鞍点 $\left(\boldsymbol{u}^{\star}, \boldsymbol{v}^{\star}\right)$ 。

4 优化

简要地介绍最大问题，并详述用于快速最优值求解的随机加速镜像近似方法。

4.1 最大问题

根据一阶凸性不等式， $G(\boldsymbol{u},\cdot)$ 和 $G(\cdot,\boldsymbol{v})$ 均为凸函数，对于任意的对 $(\hat{\boldsymbol{u}}, \hat{\boldsymbol{v}}) \in \mathcal{U} \times \mathcal{V}$ ，有：
$\begin{aligned} &G(\boldsymbol{u}, \hat{\boldsymbol{v}})-G(\hat{\boldsymbol{u}}, \hat{\boldsymbol{v}}) \leq-\partial_{\boldsymbol{u}} G(\hat{\boldsymbol{u}}, \hat{\boldsymbol{v}})^{\top}(\hat{\boldsymbol{u}}-\boldsymbol{u}), \forall \boldsymbol{u} \in \mathcal{U}, \\ &G(\hat{\boldsymbol{u}}, \hat{\boldsymbol{v}})-G(\hat{\boldsymbol{u}}, \boldsymbol{v}) \leq \partial_{\boldsymbol{v}} G(\hat{\boldsymbol{u}}, \hat{\boldsymbol{v}})^{\top}(\hat{\boldsymbol{v}}-\boldsymbol{v}), \forall \boldsymbol{v} \in \mathcal{V} . \end{aligned}$ 叠加以上不等式，并增广 $\boldsymbol{u}$ 和 $\boldsymbol{v}$ ，有：
$\tag{10} G(\boldsymbol{u}, \hat{\boldsymbol{v}})-G(\hat{\boldsymbol{u}}, \boldsymbol{v}) \leq g(\hat{\boldsymbol{w}})^{\top}(\hat{\boldsymbol{w}}-\boldsymbol{w}), \forall \boldsymbol{u}, \boldsymbol{v},$ 其中 $\boldsymbol{w}=[\boldsymbol{u} ; \boldsymbol{v}]$ ，以及 $g(\hat{\boldsymbol{w}})=\left[-\partial_{\boldsymbol{u}} G(\hat{\boldsymbol{w}}) ; \partial_{\boldsymbol{v}} G(\hat{\boldsymbol{w}})\right]$ 。与一般的凸优化相比， $g(\hat{\boldsymbol{w}})$ 扮演着梯度的角色。因此对于任意的 $\boldsymbol{u}$ 和 $\boldsymbol{v}$ ，有：
$\tag{11} \max _{\boldsymbol{u} \in \mathcal{U}} G(\boldsymbol{u}, \hat{\boldsymbol{v}})-\min _{\boldsymbol{v} \in \mathcal{V}} G(\hat{\boldsymbol{u}}, \boldsymbol{v}) \leq g(\hat{\boldsymbol{w}})^{\top}(\hat{\boldsymbol{w}}-\boldsymbol{w}) .$ 公式11的LHS可以进一步分解为当前点 $G(\hat{\boldsymbol{u}}, \hat{\boldsymbol{v}})$ 与鞍点 $\left(\boldsymbol{u}^{\star}, \boldsymbol{v}^{\star}\right)$ 之间的间隔：
$\begin{aligned} &\max _{\boldsymbol{u} \in \mathcal{U}} G(\boldsymbol{u}, \hat{\boldsymbol{v}})-G\left(\boldsymbol{u}^{\star}, \boldsymbol{v}^{\star}\right)+G\left(\boldsymbol{u}^{\star}, \boldsymbol{v}^{\star}\right)-\min _{\boldsymbol{v} \in \mathcal{V}} G(\hat{\boldsymbol{u}}, \boldsymbol{v}) \\ &=\underbrace{\max _{\boldsymbol{u} \in \mathcal{U}} G(\boldsymbol{u}, \hat{\boldsymbol{v}})-\min _{\boldsymbol{v} \in \mathcal{V} \boldsymbol{u} \in \mathcal{U}} \max _{\boldsymbol{U}} G(\boldsymbol{u}, \boldsymbol{v})}_{\geq 0} +\underbrace{\max _{\boldsymbol{u} \in \mathcal{U}} \min _{\boldsymbol{v} \in \mathcal{V}} G(\boldsymbol{u}, \boldsymbol{v})-\min _{\boldsymbol{v} \in \mathcal{V}} G(\hat{\boldsymbol{u}}, \boldsymbol{v})}_{\geq 0} . \end{aligned}$ 两个间隔均非负，其值越小越接近鞍点。公式11的LHS可以看作是一般凸优化中的“对偶间隔”，并作为算法设计的停止标准。

4.2 随机加速镜像近似

$\boldsymbol{u}$ 和 $\boldsymbol{v}$ 的可行域分别对应框约束和单纯形。镜像下降方法用于探索其结构信息。对于变量 $\boldsymbol{u}$ ，欧式距离镜像图 $\psi_\mathcal{U}=\|\boldsymbol{u}\|_2^2/2$ 可以工作的很好，对于变量 $\boldsymbol{v}$ ，负熵镜像图 $\psi_\mathcal{V}(\boldsymbol{v})=\sum_k\log v_k$ 很适用，因为它可以使得时间复杂度与维度的依赖程度是对数的。
镜像下降方法在镜像映射引起的对偶空间中执行梯度下降。为了使得最大结构得以像一般优化问题那样容易处理，引入联合镜像图 $\psi(\boldsymbol{w})=a\psi_\mathcal{U}(\boldsymbol{u})+b\psi_\mathcal{V}(\boldsymbol{v})$ ，其中 $a=\sqrt{2}/\tau\sqrt{J_m-J_p+p}$ ，以及 $b=1/\sqrt{\log|\mathcal{C}|}$ 。这表明 $\nabla\psi\mathcal{U}(\boldsymbol{u})=\boldsymbol{u}$ ，以及 $\nabla\psi_\mathcal{V}(\boldsymbol{v})=\log\boldsymbol{v}+\boldsymbol{e}$ 。结合在一起有 $\nabla\psi(\boldsymbol{w})=[a\boldsymbol{u};b\log\boldsymbol{v}+b\boldsymbol{e}]$ 。
如图1所示，在第 $t$ 次迭代中，首先将当前点 $\boldsymbol{w}_t=\left[\boldsymbol{u}_t ; \boldsymbol{v}_t\right]$ 映射到对偶空间 $\nabla \psi\left(\boldsymbol{w}_t\right)=$ $\left[a \boldsymbol{u}_t ; b \log \boldsymbol{v}_t+b \boldsymbol{e}\right]$ 并执行一次梯度下降
$\begin{aligned} & \nabla\left(\hat{\boldsymbol{w}}_t\right)=\nabla \psi\left(\boldsymbol{w}_t\right)-\eta g\left(\boldsymbol{w}_t\right) \\ =& {\left[a \boldsymbol{u}_t+\eta \partial_{\boldsymbol{u}} G\left(\boldsymbol{u}_t, \boldsymbol{v}_t\right) ; b \log \boldsymbol{v}_t+b \boldsymbol{e}-\eta \partial_{\boldsymbol{v}} G\left(\boldsymbol{u}_t, \boldsymbol{v}_t\right)\right] ,} \end{aligned}$ 其中 $\eta$ 是步长大小，然后将 $\nabla \psi\left(\hat{\boldsymbol{w}}_t\right)$ 映射回最初的空间，即找到 $\hat{\boldsymbol{w}}_t=\left[\hat{\boldsymbol{u}}_t ; \hat{\boldsymbol{v}}_t\right]$ ：
$\left[\begin{array}{c} a \hat{\boldsymbol{u}}_t \\ b \log \hat{\boldsymbol{v}}_t+b \boldsymbol{e} \end{array}\right]=\left[\begin{array}{c} a \boldsymbol{u}_t+\eta \partial_{\boldsymbol{u}} G\left(\boldsymbol{u}_t, \boldsymbol{v}_t\right) \\ b \log \boldsymbol{v}_t+b \boldsymbol{e}-\eta \partial_{\boldsymbol{v}} G\left(\boldsymbol{u}_t, \boldsymbol{v}_t\right) \end{array}\right],$ 其表明 $\hat{\boldsymbol{u}}_t=\boldsymbol{u}_t+\eta \partial_{\boldsymbol{u}} G\left(\boldsymbol{u}_t, \boldsymbol{v}_t\right) / a$ 且 $\hat{\boldsymbol{v}}_t=$ $\boldsymbol{v}_t \exp \left(-\eta \partial_{\boldsymbol{v}} G\left(\boldsymbol{u}_t, \boldsymbol{v}_t\right) / b\right)$ 。最后，基于镜像图中的Bregman距离执行映射 $\left[\hat{\boldsymbol{u}}_t ; \hat{\boldsymbol{v}}_t\right]$ 到 $\mathcal{U} \times \mathcal{V}$ 。特别地，欧式距离镜像图使用常用的欧氏距离，负熵镜像图使用Kullback-Leible散度。这可以制定为以下子优化问题：
$\begin{aligned} \boldsymbol{u}_{t+1}=&\argmin_{\boldsymbol{u}\in\mathcal{U}}\|\boldsymbol{u}-\hat{\boldsymbol{u}}_t\|_2^2,\\ \boldsymbol{v}_{t+1}=&\argmin_{\boldsymbol{v}\in\mathcal{V}}\boldsymbol{v}^T\log\frac{\boldsymbol{v}}{\hat{\boldsymbol{v}}_t}. \end{aligned}$

图1：镜像下降的一个迭代

这两个子优化问题都有近似解，前者将 $\hat{\boldsymbol{u}}_t$ 映射到非负象限，因此 $\boldsymbol{u}_{t+1}=\max\{\hat{u}_t,0\}$ 。后者中引入对偶变量 $z$ ，则拉格朗日形式为：
$\max _z \min _{\boldsymbol{v}} \boldsymbol{v}^{T} \log \left(\boldsymbol{v} / \hat{v}_t\right)+z\left(\boldsymbol{e}^{T} \boldsymbol{v}-1\right) .$ 设置 $v$ 的derivative为 $0$ ，有 $\log \left(\boldsymbol{v} / \hat{\boldsymbol{v}}_t\right)+\boldsymbol{e}+$ $\boldsymbol{e}=\mathbf{0}$ ，其表明 $\boldsymbol{v}_{t+1}=\hat{\boldsymbol{v}}_t \exp (-1-z)$ 。注意 $\boldsymbol{v}_{t+1}$ 属于一个单纯形，因此 $1=\boldsymbol{e}^{\top} \boldsymbol{v}_{t+1}=\boldsymbol{e}^{\top} \hat{\boldsymbol{v}}_t \exp (-1-z)=\left\|\hat{\boldsymbol{v}}_t\right\|_1 \exp (-1-z)$ 。代入到 $\exp (-1-z)=1 /\left\|\hat{v}_t\right\|_1$ ，得到近似解 $v_{t+1}=\hat{v}_t /\left\|\hat{v}_t\right\|_1$ 。

有了 $\boldsymbol{y}_{t+1} \triangleq\left[\boldsymbol{u}_{t+1} ; \boldsymbol{v}_{t+1}\right]$ 后，从 $\boldsymbol{w}_t$ ；当在对偶空间执行梯度下降时，使用 $\boldsymbol{y}_{t+1}$ 而非 $\boldsymbol{w}_t$ 。换言之，一个两步镜像下降方法在每次迭代中执行，其从同一点开始，但第二次使用的梯度在第一次的结束点进行评估。该过程已被证明有很好的收敛性。图2展示了该方法的一次迭代。

图2：镜像近似的一次迭代

镜像近似方法可以进一步通过Nesterov加速技术提速。方法是在 $\left\{\boldsymbol{w}_t\right\}$ 和 $\left\{\boldsymbol{y}_t\right\}$ 之外额外保留两个序列 $\left\{\underline{\boldsymbol{w}}_t\right\}$ 和 $\left\{\overline{\boldsymbol{w}}_t\right\}$ ，其是 $\left\{\boldsymbol{w}_t\right\}$ 和 $\left\{\boldsymbol{y}_t\right\}$ 的结合。特别地，在第 $t$ 次迭代中，首先更新 $\underline{\boldsymbol{w}}_t=\left(1-\gamma_t\right) \bar{\boldsymbol{w}}_t+\gamma_t \boldsymbol{y}_t$ ，其中 $\gamma_t$ 是Nesterov加速系数，通常设置为 $2/ (t + 1)$ 。随后，两部镜像近似基于 $\underline{\boldsymbol{w}}_t$ 来获得 $\boldsymbol{y}_{t+1}$ 和 $\boldsymbol{w}_{t+1}$ 。此外，为了使得数据集更好的适应大数据，该方法被扩展为一个随机版本，关键问题转换为找到无偏梯度 $\partial_{\boldsymbol{u}} \widetilde{G}\left(\boldsymbol{u}_t, \boldsymbol{v}_t\right)$ 和 $\partial_{\boldsymbol{v}} \widetilde{G}\left(\boldsymbol{u}_t, \boldsymbol{v}_t\right)$ 。注意 $G(\boldsymbol{u}, \boldsymbol{v})=$ $\sum_{k: c_k \in \mathcal{C}} v_k D\left(\boldsymbol{u}, \boldsymbol{c}_k\right)$ ，则有
$\begin{aligned} &\partial_{\boldsymbol{u}} G\left(\boldsymbol{u}_t, \boldsymbol{v}_t\right)=\left[\partial_{\boldsymbol{u}} D\left(\boldsymbol{u}_t, \boldsymbol{c}_1\right), \ldots, \partial_{\boldsymbol{u}} D\left(\boldsymbol{u}_t, \boldsymbol{c}_{|\mathcal{C}|}\right)\right] \boldsymbol{v}_t \\ &\partial_{\boldsymbol{v}} G\left(\boldsymbol{u}_t, \boldsymbol{v}_t\right)=\left[D\left(\boldsymbol{u}_t, \boldsymbol{c}_1\right), \ldots, D\left(\boldsymbol{u}_t, \boldsymbol{c}_{|\mathcal{C}|}\right)\right]. \end{aligned}$ 随机采样的索引 $i_t$ 基于 $\boldsymbol{v}_t$ 在 $\{1,2, \ldots,|\mathcal{C}|\}$ 的分布获得，有 $\partial_{\boldsymbol{u}} \widetilde{G}\left(\boldsymbol{u}_t, \boldsymbol{v}_t, i_t\right)=$ $\partial_{\boldsymbol{u}} D\left(\boldsymbol{u}_t, \boldsymbol{c}_{i_t}\right)$ . 另一方面，均匀采样的索引 $j_t$ 来自 $\{1,2, \ldots,|\mathcal{C}|\}$ ，有 $\partial_{\boldsymbol{v}} \widetilde{G}\left(\boldsymbol{u}_t, \boldsymbol{v}_t, j_t\right)=$ $\left[0, \ldots,|\mathcal{C}| D\left(\boldsymbol{u}_t, \boldsymbol{c}_{j_t}\right) \ldots, 0\right]$ 。这可以表示为：
$\begin{aligned} \mathbb{E}\left[\partial_{\boldsymbol{u}} \widetilde{G}\left(\boldsymbol{u}_t, \boldsymbol{v}_t, i_t\right) \mid \boldsymbol{u}_t, \boldsymbol{v}_t\right] &=\partial_{\boldsymbol{u}} G\left(\boldsymbol{u}_t, \boldsymbol{v}_t\right), \\ \mathbb{E}\left[\partial_{\boldsymbol{v}} \widetilde{G}\left(\boldsymbol{u}_t, \boldsymbol{v}_t, j_t\right) \mid \boldsymbol{u}_t, \boldsymbol{v}_t\right] &=\partial_{\boldsymbol{v}} G\left(\boldsymbol{u}_t, \boldsymbol{v}_t\right), \end{aligned}$ 以及 $\widetilde{g}\left(\boldsymbol{w}_t\right)=\left[-\partial_u \widetilde{G}\left(\boldsymbol{u}_t, \boldsymbol{v}_t, i_t\right) ; \partial_{\boldsymbol{v}} \widetilde{G}\left(\boldsymbol{u}_t, \boldsymbol{v}_t, j_t\right)\right]$ 是 $g\left(\boldsymbol{w}_t\right)$ 的期望无偏估计。
综合以上步骤，将获得随机加速镜像近似方法MI-ODM，如算法1。

本文含有隐藏内容，请开通VIP 后查看

论文阅读 (71)：Optimal Margin Distribution Machine for Multi-Instance Learning

文章目录