case客户续保预测中用到的特征工程、回归分析和决策树分析的总结-EW帮帮网

文章目录

@[toc]

1. 回归分析概述

1.1 基本概念

1.2 与分类的区别

2. 常见回归算法

2.1 线性回归

2.2 决策树回归

2.3 逻辑回归（Logistic Regression）

2.3 其他算法

补充：通俗版：决策树 vs 随机森林

🌳 决策树：像玩「20个问题」游戏

基本逻辑

🌲🌳🌴 随机森林：一群专家投票

核心思想

💡 生活类比

3. 建模流程

3.1 数据预处理

3.2 特征工程

3.3 训练与验证

4. 模型评估

4.1 常用指标

4.2 可视化方法

5. 常见问题

Q1: 如何处理过拟合？

Q2: 非线性数据怎么办？

Q3: 类别特征如何处理？

6. 示例

保险客户续保预测实战案例

1. 数据准备

数据概览

字段说明

2. 特征工程

2.1 数据预处理

2.2 特征可视化

3. 模型训练

3.1 逻辑回归

3.2 决策树回归

4. 模型评估

4.1 性能对比

4.2 分类报告

5. 业务应用

5.1 续保概率分布

5.2 关键特征分析

1. 回归分析概述

1.1 基本概念

定义：通过建立自变量（X）与因变量（Y）之间的数学模型，预测连续型数值
应用场景：房价预测、销量预估、温度预测等

1.2 与分类的区别

回归问题	分类问题
输出连续值	输出离散标签
评估指标：MSE/R²	评估指标：准确率/F1

2. 常见回归算法

2.1 线性回归

用于预测连续数值的监督学习算法，通过拟合最佳直线（或超平面）建立输入特征与输出值之间的线性关系。

from sklearn.linear_model import LinearRegression
model = LinearRegression()

特点：

简单易解释
假设数据线性可分

2.2 决策树回归

from sklearn.tree import DecisionTreeRegressor
model = DecisionTreeRegressor(max_depth=3)

特点：

可处理非线性关系
易过拟合

2.3 逻辑回归（Logistic Regression）

虽然名字含"回归"，但实际是处理二分类问题的算法，通过Sigmoid函数将线性结果转换为0~1之间的概率值，常用于预测事件发生的可能性。

from sklearn.linear_model import LogisticRegression
logreg = LogisticRegression(penalty='l2', C=1.0)

特点：

输出概率结果：通过Sigmoid函数输出0-1之间的概率值，适合需要概率预测的场景（如风险评估）
强解释性：模型参数可直接解释为特征对对数几率（log-odds）的影响，便于业务分析
线性决策边界：本质是线性模型（可通过特征工程扩展非线性），对简单模式的数据效率极高

2.3 其他算法

随机森林回归
SVM回归
XGBoost回归

补充：通俗版：决策树 vs 随机森林

🌳 决策树：像玩「20个问题」游戏

基本逻辑

游戏规则：通过一系列是/否问题逐步缩小范围
（比如：“是动物吗？→ 会飞吗？→ 有羽毛吗？”）
现实例子：
- 判断水果好坏：
  ① 表面有黑点吗？ → 有 → 坏果
  ② 没有 → 闻起来香吗？ → 香 → 好果
优缺点：
✅ 简单直观，像流程图一样好懂
❌ 容易钻牛角尖（比如遇到一个特例就乱改规则）

🌲🌳🌴 随机森林：一群专家投票

核心思想

组建专家团：
- 随机找100个普通人（每人都用部分数据训练）
- 每人给不同的答题线索（每人随机看部分特征）
民主决策：
- 判断水果：
  ① 专家A看颜色 → 觉得是坏果
  ② 专家B摸硬度 → 觉得是好果
  …
  👉 最终按多数意见决定
为什么更好：
✅ 不容易被误导（个别人判断失误不影响整体）
✅ 能处理复杂情况（综合多种角度）
❌ 需要更多计算资源（要训练很多树）

💡 生活类比

场景	决策树	随机森林
看病	一个老中医把脉诊断	专家会诊（各科医生共同判断）
天气预报	只看云层厚度预测	综合温度/湿度/气压等多因素
点菜	只看招牌菜决定	参考大众点评TOP10推荐

简单记住：

单棵树 = 个人直觉判断

森林 = 群众智慧（三个臭皮匠顶个诸葛亮）

3. 建模流程

3.1 数据预处理

# 标准化示例
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

3.2 特征工程

特征选择：剔除共线性特征
特征构造：多项式特征

3.3 训练与验证

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

4. 模型评估

4.1 常用指标

指标	公式	说明
MSE	$\frac{1}{n}\sum(y_i-\hat{y_i})^2$	越小越好
R²	$1-\frac{SS_{res}}{SS_{tot}}$	[0,1]越近1越好

4.2 可视化方法

import matplotlib.pyplot as plt
plt.scatter(y_test, predictions)
plt.plot([min(y_test), max(y_test)], [min(y_test), max(y_test)], 'r--')

5. 常见问题

Q1: 如何处理过拟合？

增加训练数据
使用正则化（L1/L2）

Q2: 非线性数据怎么办？

使用多项式回归
切换树模型或神经网络

Q3: 类别特征如何处理？

One-Hot编码
目标编码

6. 示例

（可参见前文用Cursor AI编程工具完成case客户续保预测）
由于前文是Cursor生成的代码，因此这里又用AI进行了一次示例总结的撰写，帮助自己理解整个实战过程：

保险客户续保预测实战案例

1. 数据准备

数据概览

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# 读取数据
train = pd.read_excel('training.xlsx')
test = pd.read_excel('test.xlsx')

print("训练集形状:", train.shape)
print("测试集形状:", test.shape)
print("\n训练集前5行:")
display(train.head())

字段说明

字段名	类型	描述
age	数值	客户年龄
policy_age	数值	保单年限
claim_history	数值	历史理赔次数
premium	数值	年缴保费
income	数值	年收入
renewal	类别	是否续保(0/1)

2. 特征工程

2.1 数据预处理

# 处理缺失值
train.fillna(train.median(), inplace=True)

# 特征标准化
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
num_features = ['age', 'policy_age', 'claim_history', 'premium', 'income']
train[num_features] = scaler.fit_transform(train[num_features])
test[num_features] = scaler.transform(test[num_features])

2.2 特征可视化

# 数值特征分布
plt.figure(figsize=(12, 6))
for i, col in enumerate(num_features):
    plt.subplot(2, 3, i+1)
    sns.histplot(train[col], kde=True)
plt.tight_layout()
plt.show()

# 特征相关性
plt.figure(figsize=(8, 6))
sns.heatmap(train.corr(), annot=True, cmap='coolwarm')
plt.title('特征相关性矩阵')
plt.show()

3. 模型训练

3.1 逻辑回归

from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report 准备数据
X_train = train.drop('renewal', axis=1)
y_train = train['renewal']
X_test = test.drop('renewal', axis=1)
y_test = test['renewal']

# 训练模型
lr = LogisticRegression(penalty='l2', C=1.0)
lr.fit(X_train, y_train)

# 预测概率
y_prob = lr.predict_proba(X_test)[:, 1]

3.2 决策树回归

from sklearn.tree import DecisionTreeClassifier

dt = DecisionTreeClassifier(max_depth=3, min_samples_leaf=20)
dt.fit(X_train, y_train)

# 特征重要性
plt.figure(figsize=(10, 4))
pd.Series(dt.feature_importances_, index=X_train.columns).sort_values().plot.barh()
plt.title('决策树特征重要性')
plt.show()

4. 模型评估

4.1 性能对比

from sklearn.metrics import roc_curve, auc

# ROC曲线
plt.figure(figsize=(8, 6))
for model, name in [(lr, '逻辑回归'), (dt, '决策树')]:
    y_score = model.predict_proba(X_test)[:, 1]
    fpr, tpr, _ = roc_curve(y_test, y_score)
    plt.plot(fpr, tpr, label=f'{name} (Aauc(fpr, tpr):.2f})')

plt.plot([0, 1], [0, 1], 'k--')
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('ROC曲线对比')
plt.legend()
plt.show()

4.2 分类报告

print("逻辑回归性能:")
print(classification_report(y_test, lr.predict(X_test)))

print("\n决策树性能:")
print(classification_report(y_test, dt.predict(X_test)))

5. 业务应用

5.1 续保概率分布

plt.figure(figsize=(10, 5))
sns.kdeplot(y_prob[y_test==0], label='未续保客户', fill=True)
sns.kdeplot(y_prob[y_test==1], label='续保客户', fill=True)
plt.xlabel('续保概率预测值')
plt.title('续保概率分布')
plt.legend()
plt.show()

5.2 关键特征分析

# 逻辑回归系数
coef_df = pd.DataFrame({'特征':X_train.columns, '系数':lr.coef_[0]})
coef_df.sort_values('系数', ascending=False)

case客户续保预测中用到的特征工程、回归分析和决策树分析的总结

文章目录

1. 回归分析概述

1.1 基本概念

1.2 与分类的区别

2. 常见回归算法

2.1 线性回归

2.2 决策树回归

2.3 逻辑回归（Logistic Regression）

2.3 其他算法

补充：通俗版：决策树 vs 随机森林

🌳 决策树：像玩「20个问题」游戏

基本逻辑

🌲🌳🌴 随机森林：一群专家投票

核心思想

💡 生活类比

3. 建模流程

3.1 数据预处理

3.2 特征工程

3.3 训练与验证

4. 模型评估

4.1 常用指标

4.2 可视化方法

5. 常见问题

Q1: 如何处理过拟合？

Q2: 非线性数据怎么办？

Q3: 类别特征如何处理？

6. 示例

保险客户续保预测实战案例

1. 数据准备

数据概览

字段说明

2. 特征工程

2.1 数据预处理

2.2 特征可视化

3. 模型训练

3.1 逻辑回归

3.2 决策树回归

4. 模型评估

4.1 性能对比

4.2 分类报告

5. 业务应用

5.1 续保概率分布

5.2 关键特征分析

网站公告

今日签到

热门文章

最新发布