5.预训练模型跑分
回顾赛题
挑战与难点:
标注数据少 ——> 半监督学习 or 数据增强
聚类分析噪点影响严重
回顾Baseline
问题:
- TF-IDF无法捕捉以下语义。
- 聚类分析粗糙,未评估聚类质量。
提升方案:
- 分类任务(任务一和任务二)
- 使用BERT模型
- 数据增强(对于任务一)
- 微调方式
- 聚类任务
预训练模型步骤
任务一:商品识别
- 数据准备: 我们把文字标签(比如 “Xfaiyx Smart Translator”)映射成数字(0, 1),因为模型只能理解数字。
- 模型和分词器:
AutoTokenizer
负责把汉字句子切分成模型认识的“词元”(Token)。AutoModelForSequenceClassification
是一个专门用于分类任务的BERT模型结构。 - 训练:
TrainingArguments
用来设置训练的超参数(比如训练几轮、每批次用多少数据等)。Trainer
是一个高级封装,我们把模型、参数、数据都喂给它,它就会自动帮我们完成整个复杂的训练过程。 - 预测: 训练好后,我们用
pipeline
这个便捷工具对所有视频的文本进行预测,得到商品名称。
任务二:情感分析
- 这个过程和任务一非常类似,但是我们用一个
for
循环来为四个不同的情感维度分别独立地训练四个模型。 - 因为每个维度的分类任务都不同(比如
sentiment_category
是5分类,而user_scenario
是2分类),所以为每个任务单独训练一个模型效果最好。 - 注意,这里我们将
1,2,3,4,5
这样的原始标签也转换成了从0
开始的0,1,2,3,4
,训练完再转换回去。这是Hugging Face模型的标准要求。
任务三:评论聚类
- 句向量模型: 我们加载
SentenceTransformer
模型,它会把每个评论变成一个包含384或768个数字的向量,这个向量精准地捕捉了评论的语义。 - 寻找最佳K: 这是关键的改进!代码会遍历 K 从 5 到 8,对每个 K 值都进行一次KMeans聚类,并计算轮廓系数。轮廓系数越高,代表聚类效果越好(类内越紧密,类间越疏远)。最后,代码会选用分数最高的那个 K 值。
- 最终聚类: 使用找到的最佳 K,进行最后一次聚类,并把每个评论分到的簇标签(比如属于第0簇,第1簇…)记录下来。
- 主题生成: 我们为每个簇生成了一个简单的名字,比如
positive_主题_1
。这样做的好处是清晰明了,并且百分百符合提交格式。
步骤
前期准备
- 安装所需要的库
!pip install --upgrade transformers accelerate sentence-transformers -q
2. 导入
import pandas as pd
import numpy as np
import torch
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score
from transformers import (
AutoTokenizer,
AutoModelForSequenceClassification,
TrainingArguments,
Trainer,
pipeline,
)
from sentence_transformers import SentenceTransformer
from datasets import Dataset
import os
import zipfile
- 全局设置(模型定义)和准备数据
# ---------------------------------
# 1. 全局设置和模型定义
# ---------------------------------
print("\n--> 1. 开始进行全局设置...")
CLASSIFICATION_MODEL = 'bert-base-multilingual-cased'
EMBEDDING_MODEL = 'sentence-transformers/paraphrase-multilingual-mpnet-base-v2'
DEVICE = 'cuda' if torch.cuda.is_available() else 'cpu'
print(f"将使用设备: {DEVICE}")
# ---------------------------------
# 2. 加载和准备数据
# ---------------------------------
print("\n--> 2. 开始加载和准备数据...")
video_data = pd.read_csv("origin_videos_data.csv")
comments_data = pd.read_csv("origin_comments_data.csv")
video_data["text"] = video_data["video_desc"].fillna("") + " " + video_data["video_tags"].fillna("")
因为评论有多个国家的语言,所以分类模型选的bert-base-multilingual-cased
,多语言句向量模型sentence-transformers/paraphrase-multilingual-mpnet-base-v2
(也可以尝试其它模型)
任务一:商品识别
- 数据准备:处理数据和标签
# 1. 筛选出有商品名的数据
train_video_df = video_data[~video_data["product_name"].isnull()].copy()
# 2. 获取所有不重复的商品名,并排序
labels_list = sorted(train_video_df["product_name"].unique())
# 3. 创建“商品名” -> “数字ID” 的映射 (字典)
label2id = {label: i for i, label in enumerate(labels_list)}
# 4. 创建“数字ID” -> “商品名” 的映射 (反向字典,方便以后查看结果)
id2label = {i: label for i, label in enumerate(labels_list)}
# 5. 在数据中创建新的一列 "label",存放转换后的数字ID
train_video_df["label"] = train_video_df["product_name"].map(label2id)
- 分词与编码
# 1. 加载一个预训练好的分词器
# CLASSIFICATION_MODEL 是一个预训练模型的名字,比如 "bert-base-chinese"
tokenizer = AutoTokenizer.from_pretrained(CLASSIFICATION_MODEL)
# 2. 对所有文本进行分词和编码
# - tolist(): 把一列文本转换成一个列表
# - truncation=True: 如果句子太长,就截断
# - padding=True: 如果句子太短,就用特殊数字填充,让所有句子一样长
# - max_length=128: 指定句子的最大长度
train_encodings = tokenizer(train_video_df["text"].tolist(), truncation=True, padding=True, max_length=128)
# 3. 把我们之前转换好的数字标签也放进这个编码结果里
train_encodings['label'] = train_video_df["label"].tolist()
# 4. 将整个编码结果(包含文本编码和标签)封装成一个标准的数据集对象
train_dataset = Dataset.from_dict(train_encodings)
- 加载模型与配置训练
# 1. 加载预训练模型
model = AutoModelForSequenceClassification.from_pretrained(
CLASSIFICATION_MODEL, # 模型的名字,要和Tokenizer一致
num_labels=len(labels_list), # 告诉模型我们总共有多少个分类
id2label=id2label, # 把我们之前创建的ID->标签映射告诉模型
label2id=label2id # 也把标签->ID的映射告诉模型
).to(DEVICE)
# 2. 设置训练参数
training_args = TrainingArguments(
output_dir='./results', # 训练结果存到哪里
num_train_epochs=3, # 所有数据要学习3遍
per_device_train_batch_size=8, # 每次看8个样本
logging_dir='./logs', # 日志存到哪里
logging_steps=10, # 每训练10步就打印一次日志
report_to="none" # 不上报到第三方平台
)
trainer = Trainer(
model=model,
args=training_args,
train_dataset=train_dataset
)
4.训练与预测
# 1. 开始训练
trainer.train()
# 2. 使用 pipeline(管道)
classifier = pipeline(
"text-classification", # 任务类型是文本分类
model=model, # 用我们刚训练好的模型
tokenizer=tokenizer, # 用我们之前加载的分词器
device=0 # 0代表使用第一块GPU,-1代表使用CPU
)
# 3. 把所有视频的文本都扔给它进行预测
predictions = classifier(video_data["text"].tolist())
# 4. 从预测结果中提取出标签名字,并更新回原数据
video_data["product_name"] = [pred['label'] for pred in predictions]
pipeline
是 Hugging Face 提供的最高度封装的预测工具。它把“输入原始文本 -> 分词 -> 转换成ID -> 模型预测 -> 输出 logits -> Softmax -> 翻译回标签”这一整套繁琐的流程,压缩成了一步
classifier = pipeline("任务名称", model=训练好的模型, tokenizer=配套的分词器)
优化尝试
因为我用BERT微调之后,看了一下分数只有80左右,
数据太少: 生成伪标签
+ 5折交叉验证
假设标签是“答案”,有标签的数据是“教材”,就是让5个专家做没有答案的练习册,如果5个专家的答案都一样,就把这道题收入到教材,这样教材的内容就更多了,最后再让学生学习这本“教材”
- 分离数据: 一部分有标签(答案)和一部分没标签
# 有答案的“教材”
train_video_df = video_data[~video_data["product_name"].isnull()].copy()
# 没答案的“练习题”
unlabeled_video_df = video_data[video_data["product_name"].isnull()].copy()
# ... (标签数字化的部分和之前一样) ...
- 训练5个模型(专家),并让每个专家做一次“练习册”,收集“答案”
- 把教材(
train_video_df
)平均分成5份。 - 第1轮:用第1、2、3、4份当教材训练模型,第5份当模拟考(这里代码省略了验证,直接训练)。
- 第2轮:用第1、2、3、5份当教材训练模型,第4份当模拟考。
- …以此类推,一共训练5个模型。
- 每个模型都学习了80%的数据,而且学习的内容都不完全相同,这样就组成了我们的“专家委员会”。
- 把教材(
# 引入分层K折交叉验证工具,它能保证每一折里各类别的比例都差不多
from sklearn.model_selection import StratifiedKFold
# 设定交叉验证:分成5份,打乱顺序
skf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)
unlabeled_preds = [] # 用来存放5个专家对“练习题”的答案
# skf.split(...) 会自动循环5次,每次都生成不同的训练集索引(train_idx)
for fold, (train_idx, val_idx) in enumerate(skf.split(train_video_df['text'], train_video_df['label'])):
print(f"\n===== 开始训练第 {fold+1} 位专家 =====")
# 1. 准备当前这位专家的教材
train_fold_df = train_video_df.iloc[train_idx]
# (数据编码过程,和之前一样,只是数据源是 train_fold_df)
train_dataset = ...
# 2. 请来一位全新的专家(模型)
model = AutoModelForSequenceClassification.from_pretrained(...)
# 3. 对这位专家进行特训
trainer = Trainer(model=model, args=training_args, train_dataset=train_dataset)
trainer.train()
# 4. 专家学成!让他去做“练习题”(unlabeled_video_df)
unlabeled_dataset = ... # 把练习题也编码成模型能读懂的格式
# trainer.predict 返回原始的、未经处理的预测分数(logits)
raw_preds, _, _ = trainer.predict(unlabeled_dataset)
# 5. 将该专家的答案(处理成0-1之间的概率后)存起来
unlabeled_preds.append(F.softmax(torch.from_numpy(raw_preds), dim=-1).numpy())
- 生成“新教材”
# 1. 计算平均意见:对5位专家的预测概率取平均值
# axis=0 表示在“专家”这个维度上求平均
avg_preds = np.mean(unlabeled_preds, axis=0)
# 2. 确定最终投票结果:取平均概率最高的那个类别作为预测结果(第一题选A, 对应标签0)
pred_labels = np.argmax(avg_preds, axis=1) # 得到数字标签,如 0, 1, 2
# 3. 取最高的那个平均概率作为置信度分数
pred_scores = np.max(avg_preds, axis=1) # 得到分数,如 0.98, 0.75, 0.91
# 4. 只有信心超过90%的答案,我们才采纳
confidence_threshold = 0.90
pseudo_df = pd.DataFrame({'text': unlabeled_video_df['text'], 'label': pred_labels, 'score': pred_scores})
high_confidence_pseudo_df = pseudo_df[pseudo_df['score'] > confidence_threshold].copy()
# 5. 将“新教材”和“老教材”合并
if not high_confidence_pseudo_df.empty:
print(f"成功筛选出 {len(high_confidence_pseudo_df)} 条新教材!")
combined_train_df = pd.concat([train_video_df, high_confidence_pseudo_df], ignore_index=True)
else:
# 如果没筛出来,就还用老教材
combined_train_df = train_video_df
4.得到新的数据集,进行训练
# 1. 准备最全的教材
final_dataset = Dataset.from_pandas(combined_train_df)
final_dataset = final_dataset.map(...) # 编码
# 2. 加载模型
final_model = AutoModelForSequenceClassification.from_pretrained(...)
# 3. 用所有数据进行训练
final_trainer = Trainer(model=final_model, args=training_args, train_dataset=final_dataset)
final_trainer.train()
print("\n--- 开始预测所有视频... ---")
final_classifier = pipeline("text-classification", model=final_model, ...)
final_predictions = final_classifier(video_data["text"].tolist())
# 更新最终结果
video_data["product_name"] = [pred['label'] for pred in final_predictions]
任务二:情感分析
任务二与任务一类似
,并且数据够多。用一个 for
循环来为四个不同的情感维度分别独立地训练四个模型。
任务三:评论聚类
上期使用循环选择聚类个数得分50+, 本来打算使用UMAP降维试试,但是分数还是50+(暂时没有提高分数的头绪,等提高了再补充)
结果
心得
算是第一次参加这类大赛,通过Datawhale的教程,很轻松的入门,写的很详细。遇到不会的也可以在群里交流,对自己提升很多。