【python】在【机器学习】与【数据挖掘】中的应用:从基础到【AI大模型】

发布于:2025-09-01 ⋅ 阅读:(17) ⋅ 点赞:(0)

目录

💗一、Python在数据挖掘中的应用💕

💖1.1 数据预处理💞

数据清洗💞

数据变换💞

数据归一化💞

高级预处理技术💞

💖1.2 特征工程💕

特征选择💕

特征提取💕

特征构造💕

💗二、Python在机器学习中的应用💕

💖2.1 监督学习💞

分类💞

 回归💞

💖2.2 非监督学习💞

聚类💞

降维💞

💗三、Python在深度学习中的应用💕

💖3.1 深度学习框架💞

TensorFlow💞

PyTorch💞

💗四、Python在AI大模型中的应用💕

💖4.1 大模型简介💞

💖4.2 GPT-4o实例💞

💗五、实例验证💕

💖5.1 数据集介绍💞

💖5.2 模型构建与训练💞

💖5.3 模型优化💞

💗六.深度扩展与具体实例💕

💖1.数据预处理扩展:💞

缺失值填补💞

异常值检测与处理💞

数据增强💞

💖2.特征工程扩展:💞

💖3.模型选择与评估:💞

💖4.深度学习实例:💞

💖5.AI大模型应用:💞

💖6.进一步实例验证与优化:💞

💗总结💕


在大数据时代,数据挖掘与机器学习成为了各行各业的核心技术。Python作为一种高效、简洁且功能强大的编程语言,得到了广泛的应用。

💗一、Python在数据挖掘中的应用💕

cb120410bbd14d46a1b702c6484653ae.png

💖1.1 数据预处理💞

数据预处理是数据挖掘的第一步,是确保数据质量和一致性的关键步骤。良好的数据预处理可以显著提高模型的准确性和鲁棒性。

数据清洗💞

数据清洗是数据预处理的重要组成部分,主要包括去除缺失值、去除重复值和处理异常值。

import pandas as pd

# 读取数据
data = pd.read_csv('data.csv')

# 数据清洗
data = data.dropna()  # 去除缺失值
data = data.drop_duplicates()  # 去除重复值

数据变换💞

数据变换包括将数据从一种格式转换为另一种格式,例如将字符串日期转换为日期对象,以便于进一步分析和处理。

data['date'] = pd.to_datetime(data['date'])  # 日期格式转换

数据归一化💞

数据归一化是将数据缩放到特定范围内,以消除不同特征之间量级的差异,从而提高模型的性能和训练速度。

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
data[['feature1', 'feature2']] = scaler.fit_transform(data[['feature1', 'feature2']])

高级预处理技术💞

除了基本的清洗和归一化外,高级预处理技术还包括缺失值填补、异常值处理和数据增强等。

  • 缺失值填补:利用插值法或KNN方法填补缺失值。
  • 异常值处理:利用Z-score方法检测并处理异常值。
  • 数据增强:通过随机裁剪、翻转、旋转等方法增加数据的多样性。
# 使用插值法填补缺失值
data = data.interpolate()

# 使用KNN方法填补缺失值
from sklearn.impute import KNNImputer

imputer = KNNImputer(n_neighbors=3)
data_imputed = imputer.fit_transform(data)

# 使用Z-score方法检测异常值
from scipy import stats
import numpy as np

z_scores = np.abs(stats.zscore(data))
data = data[(z_scores < 3).all(axis=1)]

💖1.2 特征工程💕

特征工程是提升模型性能的重要手段。

特征选择💕

特征选择是从原始数据中选择最具代表性的特征,以减少数据维度,提高模型的性能和训练速度。

from sklearn.feature_selection import SelectKBest, f_classif

# 特征选择
X = data.drop('target', axis=1)
y = data['target']
selector = SelectKBest(score_func=f_classif, k=5)
X_new = selector.fit_transform(X, y)

特征提取💕

特征提取是从原始数据中提取新的、更具代表性的特征,如通过主成分分析(PCA)进行降维。

from sklearn.decomposition import PCA

pca = PCA(n_components=2)
X_pca = pca.fit_transform(X)

特征构造💕

特征构造是通过组合或转换现有特征来创建新的特征,从而提高模型的预测能力。例如,创建交互特征或多项式特征。

from sklearn.preprocessing import PolynomialFeatures

poly = PolynomialFeatures(degree=2, interaction_only=True)
X_poly = poly.fit_transform(X)

💗二、Python在机器学习中的应用💕

c6c67eee5ae6409d966e123e84509cf0.png

💖2.1 监督学习💞

监督学习是机器学习的主要方法之一,包括分类和回归。Scikit-learn是Python中常用的机器学习库,提供了丰富的模型和工具。

分类💞

分类任务的目标是将数据点分配到预定义的类别中。以下示例展示了如何使用随机森林分类器进行分类任务。

from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 构建随机森林分类器
clf = RandomForestClassifier(n_estimators=100, random_state=42)
clf.fit(X_train, y_train)

# 预测
y_pred = clf.predict(X_test)

# 评估
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy:.2f}')

 回归💞

回归任务的目标是预测连续值。例如,使用线性回归模型来预测房价。

from sklearn.linear_model import LinearRegression

# 构建线性回归模型
model = LinearRegression()
model.fit(X_train, y_train)

# 预测
y_pred = model.predict(X_test)

# 评估
from sklearn.metrics import mean_squared_error
mse = mean_squared_error(y_test, y_pred)
print(f'Mean Squared Error: {mse:.2f}')

使用随机森林分类器进行分类任务。首先,将数据集划分为训练集和测试集,然后构建随机森林分类器并进行训练,最后在测试集上进行预测并计算准确率。