文章目录
文章目录
1. 回归分析概述
1.1 基本概念
- 定义:通过建立自变量(X)与因变量(Y)之间的数学模型,预测连续型数值
- 应用场景:房价预测、销量预估、温度预测等
1.2 与分类的区别
回归问题 | 分类问题 |
---|---|
输出连续值 | 输出离散标签 |
评估指标:MSE/R² | 评估指标:准确率/F1 |
2. 常见回归算法
2.1 线性回归
用于预测连续数值的监督学习算法,通过拟合最佳直线(或超平面)建立输入特征与输出值之间的线性关系。
from sklearn.linear_model import LinearRegression
model = LinearRegression()
特点:
- 简单易解释
- 假设数据线性可分
2.2 决策树回归
from sklearn.tree import DecisionTreeRegressor
model = DecisionTreeRegressor(max_depth=3)
特点:
- 可处理非线性关系
- 易过拟合
2.3 逻辑回归(Logistic Regression)
虽然名字含"回归",但实际是处理二分类问题的算法,通过Sigmoid函数将线性结果转换为0~1之间的概率值,常用于预测事件发生的可能性。
from sklearn.linear_model import LogisticRegression
logreg = LogisticRegression(penalty='l2', C=1.0)
特点:
- 输出概率结果:通过Sigmoid函数输出0-1之间的概率值,适合需要概率预测的场景(如风险评估)
- 强解释性:模型参数可直接解释为特征对对数几率(log-odds)的影响,便于业务分析
- 线性决策边界:本质是线性模型(可通过特征工程扩展非线性),对简单模式的数据效率极高
2.3 其他算法
- 随机森林回归
- SVM回归
- XGBoost回归
补充:通俗版:决策树 vs 随机森林
🌳 决策树:像玩「20个问题」游戏
基本逻辑
游戏规则:通过一系列是/否问题逐步缩小范围
(比如:“是动物吗?→ 会飞吗?→ 有羽毛吗?”)现实例子:
- 判断水果好坏:
① 表面有黑点吗? → 有 → 坏果
② 没有 → 闻起来香吗? → 香 → 好果
- 判断水果好坏:
优缺点:
✅ 简单直观,像流程图一样好懂
❌ 容易钻牛角尖(比如遇到一个特例就乱改规则)
🌲🌳🌴 随机森林:一群专家投票
核心思想
组建专家团:
- 随机找100个普通人(每人都用部分数据训练)
- 每人给不同的答题线索(每人随机看部分特征)
民主决策:
- 判断水果:
① 专家A看颜色 → 觉得是坏果
② 专家B摸硬度 → 觉得是好果
…
👉 最终按多数意见决定
- 判断水果:
为什么更好:
✅ 不容易被误导(个别人判断失误不影响整体)
✅ 能处理复杂情况(综合多种角度)
❌ 需要更多计算资源(要训练很多树)
💡 生活类比
场景 | 决策树 | 随机森林 |
---|---|---|
看病 | 一个老中医把脉诊断 | 专家会诊(各科医生共同判断) |
天气预报 | 只看云层厚度预测 | 综合温度/湿度/气压等多因素 |
点菜 | 只看招牌菜决定 | 参考大众点评TOP10推荐 |
简单记住:
- 单棵树 = 个人直觉判断
- 森林 = 群众智慧(三个臭皮匠顶个诸葛亮)
3. 建模流程
3.1 数据预处理
# 标准化示例
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
3.2 特征工程
- 特征选择:剔除共线性特征
- 特征构造:多项式特征
3.3 训练与验证
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
4. 模型评估
4.1 常用指标
指标 | 公式 | 说明 |
---|---|---|
MSE | 1 n ∑ ( y i − y i ^ ) 2 \frac{1}{n}\sum(y_i-\hat{y_i})^2 n1∑(yi−yi^)2 | 越小越好 |
R² | 1 − S S r e s S S t o t 1-\frac{SS_{res}}{SS_{tot}} 1−SStotSSres | [0,1]越近1越好 |
4.2 可视化方法
import matplotlib.pyplot as plt
plt.scatter(y_test, predictions)
plt.plot([min(y_test), max(y_test)], [min(y_test), max(y_test)], 'r--')
5. 常见问题
Q1: 如何处理过拟合?
- 增加训练数据
- 使用正则化(L1/L2)
Q2: 非线性数据怎么办?
- 使用多项式回归
- 切换树模型或神经网络
Q3: 类别特征如何处理?
- One-Hot编码
- 目标编码
6. 示例
(可参见前文用Cursor AI编程工具完成case客户续保预测)
由于前文是Cursor生成的代码,因此这里又用AI进行了一次示例总结的撰写,帮助自己理解整个实战过程:
保险客户续保预测实战案例
1. 数据准备
数据概览
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
# 读取数据
train = pd.read_excel('training.xlsx')
test = pd.read_excel('test.xlsx')
print("训练集形状:", train.shape)
print("测试集形状:", test.shape)
print("\n训练集前5行:")
display(train.head())
字段说明
字段名 | 类型 | 描述 |
---|---|---|
age | 数值 | 客户年龄 |
policy_age | 数值 | 保单年限 |
claim_history | 数值 | 历史理赔次数 |
premium | 数值 | 年缴保费 |
income | 数值 | 年收入 |
renewal | 类别 | 是否续保(0/1) |
2. 特征工程
2.1 数据预处理
# 处理缺失值
train.fillna(train.median(), inplace=True)
# 特征标准化
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
num_features = ['age', 'policy_age', 'claim_history', 'premium', 'income']
train[num_features] = scaler.fit_transform(train[num_features])
test[num_features] = scaler.transform(test[num_features])
2.2 特征可视化
# 数值特征分布
plt.figure(figsize=(12, 6))
for i, col in enumerate(num_features):
plt.subplot(2, 3, i+1)
sns.histplot(train[col], kde=True)
plt.tight_layout()
plt.show()
# 特征相关性
plt.figure(figsize=(8, 6))
sns.heatmap(train.corr(), annot=True, cmap='coolwarm')
plt.title('特征相关性矩阵')
plt.show()
3. 模型训练
3.1 逻辑回归
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report 准备数据
X_train = train.drop('renewal', axis=1)
y_train = train['renewal']
X_test = test.drop('renewal', axis=1)
y_test = test['renewal']
# 训练模型
lr = LogisticRegression(penalty='l2', C=1.0)
lr.fit(X_train, y_train)
# 预测概率
y_prob = lr.predict_proba(X_test)[:, 1]
3.2 决策树回归
from sklearn.tree import DecisionTreeClassifier
dt = DecisionTreeClassifier(max_depth=3, min_samples_leaf=20)
dt.fit(X_train, y_train)
# 特征重要性
plt.figure(figsize=(10, 4))
pd.Series(dt.feature_importances_, index=X_train.columns).sort_values().plot.barh()
plt.title('决策树特征重要性')
plt.show()
4. 模型评估
4.1 性能对比
from sklearn.metrics import roc_curve, auc
# ROC曲线
plt.figure(figsize=(8, 6))
for model, name in [(lr, '逻辑回归'), (dt, '决策树')]:
y_score = model.predict_proba(X_test)[:, 1]
fpr, tpr, _ = roc_curve(y_test, y_score)
plt.plot(fpr, tpr, label=f'{name} (Aauc(fpr, tpr):.2f})')
plt.plot([0, 1], [0, 1], 'k--')
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('ROC曲线对比')
plt.legend()
plt.show()
4.2 分类报告
print("逻辑回归性能:")
print(classification_report(y_test, lr.predict(X_test)))
print("\n决策树性能:")
print(classification_report(y_test, dt.predict(X_test)))
5. 业务应用
5.1 续保概率分布
plt.figure(figsize=(10, 5))
sns.kdeplot(y_prob[y_test==0], label='未续保客户', fill=True)
sns.kdeplot(y_prob[y_test==1], label='续保客户', fill=True)
plt.xlabel('续保概率预测值')
plt.title('续保概率分布')
plt.legend()
plt.show()
5.2 关键特征分析
# 逻辑回归系数
coef_df = pd.DataFrame({'特征':X_train.columns, '系数':lr.coef_[0]})
coef_df.sort_values('系数', ascending=False)