【竞赛系列】机器学习实操项目08——全球城市计算AI挑战赛（数据可视化分析）-EW帮帮网

上一章：【竞赛系列】机器学习实操项目07——全球城市计算AI挑战赛（baseline、时间序列分析、地铁流量预测）
下一章：
机器学习核心知识点目录：机器学习核心知识点目录
机器学习实战项目目录：【从 0 到 1 落地】机器学习实操项目目录：覆盖入门到进阶，大学生就业 / 竞赛必备

文章目录

本文基于已有的地铁流量训练数据，进一步聚焦多站点、多日期的流量对比分析，通过时间特征提取与可视化，验证不同站点、不同日期的流量分布规律，为后续预测模型优化提供更细致的数据支撑。

通过网盘分享的文件：天池地铁流量预测
链接: https://pan.baidu.com/s/1k-sI1sDGufBSLJveNTm6nA?pwd=pgkk 提取码: pgkk

一、工具库导入与数据加载

1.1 导入数据分析与可视化工具库

该步骤加载数据处理（numpy/pandas）、特征工程（TF-IDF/SVD）、模型训练（XGBoost/LightGBM）及可视化（matplotlib/seaborn）所需库，部分库（如文本处理、机器学习模型）为备用，核心用于后续数据EDA的工具已标注，同时屏蔽警告确保输出简洁。

## 数据工具包（核心用于数值计算与表格数据处理）
import numpy as np
np.random.seed(42)  # 设置numpy随机种子，确保随机操作可复现
import pandas as pd  # 核心库，用于DataFrame构建、数据读写与清洗
from tqdm import tqdm  # 显示循环进度条，便于追踪数据处理进度

## 字符串处理工具包（本EDA案例暂未使用，备用）
import string  # 字符串操作（如标点处理）
import re  # 正则表达式，用于文本匹配与提取
import gensim  # 文本语义建模（如Word2Vec）
from collections import Counter  # 计数工具，用于统计元素频次
import pickle  # 数据序列化存储，便于保存中间结果
from nltk.corpus import stopwords  # NLTK停用词库，用于文本去噪

# 特征工程与模型评估工具（本EDA案例暂未使用机器学习模型，备用）
from sklearn.feature_extraction.text import TfidfVectorizer  # 文本TF-IDF特征提取
from sklearn.decomposition import TruncatedSVD  # 截断SVD，用于高维特征降维
from sklearn.preprocessing import StandardScaler  # 数据标准化，消除量纲影响
from sklearn.model_selection import train_test_split  # 划分训练集与测试集
from sklearn.metrics import roc_auc_score  # 计算AUC指标，评估分类模型
from sklearn.model_selection import KFold  # K折交叉验证，避免模型过拟合

import warnings
warnings.filterwarnings('ignore')  # 屏蔽运行过程中的警告信息，避免干扰输出

# 梯度提升树模型（本EDA案例暂未使用，备用）
import xgboost as xgb  # XGBoost模型，适用于结构化数据预测
import lightgbm as lgb  # LightGBM模型，高效处理大规模数据
from functools import partial  # 函数偏应用，用于固定部分函数参数

# 系统操作与时间处理工具（核心用于文件路径、内存管理与时间特征）
import os  # 系统文件操作，用于路径拼接、文件夹创建
import gc  # 垃圾回收，释放未使用的内存，避免内存溢出
from scipy.sparse import vstack  # 垂直堆叠稀疏矩阵（本案例暂未使用）
import time  # 时间管理，用于记录代码运行耗时
import datetime  # 日期时间处理，核心用于后续提取时间特征

import joblib  # 模型与特征保存工具（本案例暂未使用，备用）

# 多进程与可视化工具（核心用于并行处理与图表绘制）
import multiprocessing as mp  # 多进程处理，提升数据处理效率（本案例暂未使用）
import pandas as pd  # 重复导入，确保代码独立运行时无依赖问题
import numpy as np  # 重复导入，确保代码独立运行时无依赖问题
import matplotlib.pyplot as plt  # 核心可视化库，用于绘制折线图、柱状图等
import re  # 重复导入，确保代码独立运行时无依赖问题
%matplotlib inline  # 设置Jupyter Notebook中图像内嵌显示，无需额外调用plt.show()
import seaborn as sns  # 基于matplotlib的高级可视化库，美化图表样式
%matplotlib inline  # 重复设置，确保图像内嵌生效

1.2 读取地铁流量训练数据与测试提交模板

该步骤读取核心训练数据（df_data.csv）与测试提交模板（testA_submit_2019-01-29.csv），训练数据包含“站点ID、时间段、进站人数、出站人数”等关键信息，后续EDA将基于训练数据展开，测试模板用于后续预测结果填充（本部分暂未涉及）。

from tqdm import tqdm  # 重复导入，确保代码块独立运行
from tqdm import tqdm_notebook  # 显示Notebook环境下的进度条（本案例暂未使用）

# 读取地铁流量训练数据：包含314928条10分钟级记录，涵盖多个站点的进出站人数
df_data = pd.read_csv('./input/df_data.csv')
# 读取测试提交模板：需预测2019-01-29日各站点的10分钟级进出站人数，本部分暂用其结构
test_A_submit = pd.read_csv('./input/testA_submit_2019-01-29.csv')

二、时间特征工程（提取精细化时间维度）

2.1 从时间戳提取多维度时间特征

该步骤将原始startTime（字符串格式）解析为datetime格式，进一步提取“日（day）、小时（hours_in_day）、星期几（day_of_week）、日内10分钟段（ten_minutes_in_day）”4个核心时间特征，为后续“按日期/小时/时段”的流量对比分析提供维度支持。

# 时间相关特征：将startTime（字符串）解析为datetime格式，便于提取细分时间特征
df_data['time'] = pd.to_datetime(df_data['startTime'])
# 提取“日”特征：1-31，对应月份中的具体日期（如1月1日为1，1月2日为2）
df_data['day'] = df_data['time'].dt.day  
# 提取“小时”特征：0-23，对应一天中的24个小时（如凌晨0点为0，中午12点为12）
df_data['hours_in_day'] = df_data['time'].dt.hour 
# 提取“星期几”特征：0-6，0代表星期一，6代表星期日（用于区分工作日/周末）
df_data['day_of_week'] = df_data['time'].dt.dayofweek 
# 提取“日内10分钟段”特征：0-143，一天24小时×6个10分钟段=144个段（如00:00-00:10为0，23:50-24:00为143）
df_data['ten_minutes_in_day'] = df_data['hours_in_day'] * 6 + df_data['time'].dt.minute // 10 
# 删除临时的time列（已提取所有所需时间特征，避免数据冗余）
del df_data['time']

三、多站点流量可视化分析（按日期对比）

3.1 1月1日0-9号站点进站人数对比

该步骤筛选1月1日（day==1）的数据，以“日内10分钟段”为x轴、“进站人数（inNums）”为y轴，绘制0-9号共10个站点的流量趋势图，核心目的是对比不同站点在同一日期的流量分布差异（如高峰时段、流量峰值大小）。

# 筛选1月1日（day==1）的所有站点数据
tmp = df_data[df_data.day==1]
# 生成x轴数据：日内10分钟段的索引（0-143），基于0号站点的时段数量构建，确保所有站点x轴一致
dt = [r for r in range(tmp.loc[tmp.stationID==0, 'ten_minutes_in_day'].shape[0])]

# 创建图像：设置画布大小为20×10（宽×高），便于清晰展示10条曲线
fig = plt.figure(1,figsize=[20,10])
# 设置y轴标签：进站人数（inNums）
plt.ylabel('inNums')
# 设置x轴标签：日期（此处特指1月1日，x轴实际为日内10分钟段）
plt.xlabel('date')
# 设置图表标题：1月1日0-9号站点进站人数对比
plt.title('inNums of stationID ')

# 循环绘制0-9号站点的进站人数趋势
for i in range(0,10):
    # 筛选当前站点（i）的1月1日数据，按10分钟段排序后取inNums，绘制折线
    plt.plot(dt, tmp.loc[tmp.stationID==i, 'inNums'], label = str(i)+' stationID' )

# 添加图例：区分不同站点的曲线，默认显示在右上角
plt.legend()
# 显示图像（因设置了%matplotlib inline，可省略，但保留确保兼容性）
plt.show()