机器学习--数据填充-EW帮帮网

一、引言

在机器学习领域，数据的质量直接关乎模型的性能。而数据缺失是实际数据收集过程中极为常见的问题，它像一颗隐藏的 “暗雷”，随时可能影响模型训练的准确性与稳定性。数据填充作为解决数据缺失问题的核心手段之一，有着多种不同的策略与方法。本文将着重探讨平均值填充、中位数填充、众数填充、基于线性回归的填充以及基于随机森林的填充方法，深入剖析它们的原理、应用场景、优缺点，并通过 Python 代码示例进行直观展示，助力读者在面对数据缺失难题时，能够精准地选择合适的填充方法。

二、常见数据填充方法详解

（一）平均值填充

原理：对于数值型特征，计算该特征所有非缺失值的算术平均值，然后用这个平均值去填充该特征的缺失值。其背后的逻辑是，以整体数据的平均水平来估计缺失值，认为缺失值在整体数据分布中接近平均状态。

优点：计算简单，易于理解和实现。在数据分布相对均匀，且不存在极端值干扰的情况下，能在一定程度上保持数据的集中趋势，对后续的数据分析和模型训练有一定的辅助作用。

缺点：对异常值敏感。如果数据集中存在少数极大或极小的异常值，这些异常值会拉高或拉低平均值，导致填充后的缺失值偏离真实情况，进而影响模型对数据特征的准确学习。

适用场景：适用于数据分布较为均匀，且不存在明显异常值的数据。例如，在统计某班级学生的平均身高时，如果个别学生的身高数据缺失，在没有异常身高（如特别高或特别矮的学生）的情况下，使用班级平均身高来填充缺失值是较为合理的。

（二）中位数填充

原理：将数值型特征的非缺失值进行排序，取中间位置的值（若数据个数为奇数）或中间两个值的平均值（若数据个数为偶数）作为中位数，用这个中位数来填充该特征的缺失值。中位数反映的是数据的中间水平，相比平均值，它对极端值的敏感度较低。

优点：能有效避免异常值对填充结果的影响。当数据分布存在偏态，或者有少量极端值时，中位数能更好地代表数据的一般水平，使得填充后的数据集更加稳健，有利于后续模型训练的稳定性。

缺点：计算相对平均值略复杂，需要先对数据进行排序。并且在某些情况下，中位数可能无法像平均值那样充分利用数据的所有信息，对于一些数据分布较为特殊的情况，填充效果可能不够理想。

适用场景：适用于数据分布存在偏态或有异常值的数据。比如在统计某地区居民收入时，可能存在少数高收入人群（如企业高管、明星等），这些高收入值属于异常值，此时用中位数来填充居民收入的缺失值，能更准确地反映该地区居民收入的一般水平。

（三）众数填充

原理：对于类别型特征，统计该特征中出现频率最高的类别，将这个类别作为众数，用来填充该特征的缺失值。其依据是在大量数据中，出现次数最多的类别具有一定的代表性。

优点：计算简单，适用于类别型数据。能快速对缺失值进行填充，尤其在类别分布不均衡，某一类别占主导地位的情况下，众数填充能使数据集在类别分布上保持一定的合理性。

缺点：仅考虑了类别出现的频率，忽略了数据之间可能存在的其他潜在关系。如果类别分布较为均匀，众数的代表性可能不强，填充效果不佳。

适用场景：主要用于类别型数据，特别是当某一类别明显占多数时。例如，在统计某电商平台用户的性别时，若大部分用户为女性，那么对于性别缺失值，使用 “女性” 作为众数进行填充是较为合理的选择。

（四）基于线性回归的填充

原理：构建线性回归模型，以其他特征作为自变量，将需要填充的特征作为因变量。利用已有完整数据训练线性回归模型，然后使用训练好的模型对缺失值进行预测填充。线性回归假设因变量与自变量之间存在线性关系，通过最小化误差的平方和来寻找数据的最佳拟合直线。

优点：考虑了数据特征之间的线性相关性，相比简单的平均值、中位数和众数填充，能更充分地利用数据中的信息。如果数据特征之间确实存在较强的线性关系，基于线性回归的填充方法可以得到较为准确的填充结果，有助于提升后续模型训练的准确性。

缺点：对数据的要求较高，需要数据特征之间存在明显的线性关系。如果实际数据不符合线性假设，那么模型的预测效果会很差，填充值与真实值偏差较大。此外，构建和训练线性回归模型需要一定的计算资源和时间。

适用场景：适用于数据特征之间存在较强线性关系的数据。比如在房地产数据中，房屋价格与房屋面积、房间数量、楼层等特征之间可能存在线性关系。当房屋面积的某些值缺失时，可以利用其他特征构建线性回归模型来预测缺失的房屋面积值。

（五）基于随机森林的填充

原理：随机森林是一种集成学习算法，它由多个决策树组成。基于随机森林的数据填充方法，首先利用已有完整数据训练随机森林模型。对于每个缺失值，将其他特征作为输入，通过训练好的随机森林模型进行预测，得到填充值。随机森林通过对多个决策树的预测结果进行综合（如多数投票法用于分类问题，平均法用于回归问题），来提高预测的准确性和稳定性。

优点：能处理复杂的数据关系，不需要对数据的分布和特征之间的关系做严格假设。相比线性回归，它可以更好地捕捉数据中的非线性关系。并且随机森林模型具有较好的鲁棒性，对异常值和噪声数据有一定的抵抗能力，因此填充结果相对可靠。

缺点：计算复杂度较高，训练模型需要消耗较多的计算资源和时间。模型的可解释性相对较差，虽然可以得到填充值，但难以直观理解模型是如何做出预测的。

适用场景：适用于数据特征之间关系复杂，可能存在非线性关系的数据。例如，在客户消费行为数据中，客户的购买金额与客户年龄、收入水平、购买频率等多个特征之间的关系可能是非线性的。此时，基于随机森林的填充方法可以更准确地预测购买金额的缺失值。

三、代码实现（Python 示例）

（一）平均值填充示例

import pandas as pd

from sklearn.impute import SimpleImputer

# 生成包含缺失值的示例数据

data = pd.DataFrame({

'数值特征': [1, 2, None, 4],

'类别特征': ['A', 'B', None, 'D']

})

print("原始数据：\n", data)

# 创建平均值填充器

mean_imputer = SimpleImputer(strategy='mean')

# 对数值特征进行填充

data['数值特征'] = mean_imputer.fit_transform(data[['数值特征']])

print("平均值填充后的数据：\n", data)

（二）中位数填充示例

import pandas as pd

from sklearn.impute import SimpleImputer

data = pd.DataFrame({

'数值特征': [1, 2, None, 4],

'类别特征': ['A', 'B', None, 'D']

})

print("原始数据：\n", data)

# 创建中位数填充器

median_imputer = SimpleImputer(strategy='median')

# 对数值特征进行填充

data['数值特征'] = median_imputer.fit_transform(data[['数值特征']])

print("中位数填充后的数据：\n", data)

（三）众数填充示例

import pandas as pd

from sklearn.impute import SimpleImputer

data = pd.DataFrame({

'数值特征': [1, 2, None, 4],

'类别特征': ['A', 'B', None, 'D']

})

print("原始数据：\n", data)

# 创建众数填充器

mode_imputer = SimpleImputer(strategy='most_frequent')

# 对类别特征进行填充

data['类别特征'] = mode_imputer.fit_transform(data[['类别特征']])

print("众数填充后的数据：\n", data)

（四）基于线性回归的填充示例

import pandas as pd

from sklearn.linear_model import LinearRegression

from sklearn.model_selection import train_test_split

from sklearn.impute import SimpleImputer

data = pd.DataFrame({

'特征1': [1, 2, 3, 4, 5],

'特征2': [2, 4, 6, 8, 10],

'目标特征': [3, 6, None, 12, 15]

})

# 分离特征和目标变量

X = data.drop('目标特征', axis=1)

y = data['目标特征']

# 处理特征中的缺失值（简单示例，这里假设特征中无缺失值）

X_imputer = SimpleImputer(strategy='mean')

X = X_imputer.fit_transform(X)

# 划分训练集和测试集

X_train, X_test, y_train, y_test = train_test_split(X, y.dropna(), test_size=0.2, random_state=42)

# 训练线性回归模型

model = LinearRegression()

model.fit(X_train, y_train)

# 预测缺失值

missing_data = data[data['目标特征'].isnull()][['特征1', '特征2']]

missing_data = X_imputer.transform(missing_data)

filled_value = model.predict(missing_data)

data.loc[data['目标特征'].isnull(), '目标特征'] = filled_value

print("基于线性回归填充后的数据：\n", data)

（五）基于随机森林的填充示例

import pandas as pd

from sklearn.ensemble import RandomForestRegressor

from sklearn.model_selection import train_test_split

from sklearn.impute import SimpleImputer

data = pd.DataFrame({

'特征1': [1, 2, 3, 4, 5],

'特征2': [2, 4, 6, 8, 10],

'目标特征': [3, 6, None, 12, 15]

})

# 分离特征和目标变量

X = data.drop('目标特征', axis=1)

y = data['目标特征']

# 处理特征中的缺失值（简单示例，这里假设特征中无缺失值）

X_imputer = SimpleImputer(strategy='mean')

X = X_imputer.fit_transform(X)

# 划分训练集和测试集

X_train, X_test, y_train, y_test = train_test_split(X, y.dropna(), test_size=0.2, random_state=42)

# 训练随机森林模型

model = RandomForestRegressor(n_estimators=100, random_state=42)

model.fit(X_train, y_train)

# 预测缺失值

missing_data = data[data['目标特征'].isnull()][['特征1', '特征2']]

missing_data = X_imputer.transform(missing_data)

filled_value = model.predict(missing_data)

data.loc[data['目标特征'].isnull(), '目标特征'] = filled_value

print("基于随机森林填充后的数据：\n", data)

四、总结

数据填充在机器学习的数据预处理阶段扮演着至关重要的角色。平均值、中位数、众数填充方法简单直接，适用于不同类型数据的初步处理；基于线性回归和随机森林的填充方法则通过构建模型，利用数据特征间的关系进行填充，能更好地应对复杂的数据情况。在实际应用中，我们需要深入分析数据的特点、特征之间的关系以及项目的具体需求，综合权衡各种填充方法的优缺点，从而选择最合适的方法来处理数据缺失问题，为后续的机器学习模型训练提供高质量的数据基础。

机器学习--数据填充