以二分类问题为例,常见的损失函数有
- 负对数似然损失(neg log-likelihood loss),
- 交叉熵损失(cross entropy loss),
- deviance loss
- 指数损失(exponential loss)。
前三者虽然名字不同,但却具有相同的表达形式。此外,neg log-likelihood loss 和 exponential loss在期望意义下具有相同的解
逻辑回归(Logistic Regression)
逻辑回归是最常见的分类模型,具有如下形式:
图片展示的是 逻辑回归(Logistic Regression)模型的概率预测函数,它是机器学习中经典的二分类算法核心公式。以下是详细解析:
1. 公式组成
p ( x ; ω , b ) = σ ( ω T x + b ) = 1 1 + e − ( ω T x + b ) p(x; \omega, b) = \sigma(\omega^T x + b) = \frac{1}{1 + e^{-(\omega^T x + b)}} p(x;ω,b)=σ(ωTx+b)=1+e−(ωTx+b)1
输入:
- ( x ): 特征向量(如图像特征、用户行为数据等)。
- ( ω \omega ω ): 权重向量(模型需要学习的参数)。
- ( b ): 偏置项(截距)。
输出:
- ( p(x; ω \omega ω, b) ): 样本 ( x ) 属于类别1的概率(范围0到1)。
关键函数:
- Sigmoid函数(σ):将线性组合 ω T x + b \omega^T x + b ωTx+b 映射到概率空间。
def sigmoid(z): return 1 / (1 + np.exp(-z))
- Sigmoid函数(σ):将线性组合 ω T x + b \omega^T x + b ωTx+b 映射到概率空间。
2. 逻辑回归的核心思想
- 本质:通过线性回归 + Sigmoid激活函数,实现二分类概率预测。
- 决策规则:
- 若 ( p(x) \geq 0.5 ),预测为类别1;
- 若 ( p(x) < 0.5 ),预测为类别0。
3. 逻辑回归的BCE损失
- 逻辑回归通常使用**二元交叉熵(BCE)**作为损失函数,而Focal BCE是对BCE的改进,用于处理类别不平衡问题。
# 逻辑回归的BCE损失 loss = -[y * log(p) + (1-y) * log(1-p)]
损失函数设计举例
4. 参数学习(θ = (b, ω))
- 优化目标:通过梯度下降最小化交叉熵损失,调整 ( ω \omega ω ) 和 ( b )。
- 学习过程:
ω ← ω − η ⋅ ∂ L ∂ ω , b ← b − η ⋅ ∂ L ∂ b \omega \leftarrow \omega - \eta \cdot \frac{\partial \mathcal{L}}{\partial \omega}, \quad b \leftarrow b - \eta \cdot \frac{\partial \mathcal{L}}{\partial b} ω←ω−η⋅∂ω∂L,b←b−η⋅∂b∂L- ( η \eta η ): 学习率
- ( L \mathcal{L} L ): 损失函数(如BCE)
5. 为什么用Sigmoid?
- 概率压缩:将线性输出 ( ω T \omega^T ωT x + b ) 映射到 (0,1) 区间,符合概率定义。
- 可解释性:输出可直接解释为“属于正类的置信度”。
总结
逻辑回归的概率函数,它是:
- 二分类模型的基础;
- 通过Sigmoid函数输出概率;
- 常与交叉熵损失配合使用(可扩展为Focal BCE处理不平衡数据)。