数据向量化初探

发布于:2025-06-07 ⋅ 阅读:(16) ⋅ 点赞:(0)
一句话总结:

向量化是将非数值型数据(如文本、图像)转换为数值向量(一组数字)的过程,使计算机能高效处理并捕捉数据语义特征

详解数据向量化

以下从文本、图像和结构化数据三个领域,展示具体向量化实例及其技术原理,帮助你直观理解数据如何转换为数值向量:

一、文本数据向量示例
  1. One-Hot编码(简单但高维稀疏)

• 示例:词汇表 [“苹果”, “香蕉”, “樱桃”]

◦ 苹果 → [1, 0, 0]

◦ 香蕉 → [0, 1, 0]

◦ 樱桃 → [0, 0, 1]

• 特点:维度=词表大小,仅一个位置为1。

  1. TF-IDF向量(加权词频)

• 示例:句子 “我爱学习机器学习” 的分词结果:[“我”, “爱”, “学习”, “机器学习”]

◦ 向量维度:[“我”:0.283, “爱”:0.283, “学习”:0.543, “机器学习”:0.743, …]

◦ 说明:数值反映词语在句子中的重要性,其他未出现词维度值为0。

  1. Word2Vec词向量(稠密语义表示)

• 示例:预训练词向量(维度=300)

◦ “国王” ≈ [0.21, -0.34, …, 0.76]

◦ “女王” ≈ [0.22, -0.32, …, 0.78]

• 特点:语义相近的词向量距离小(如 国王 - 男人 + 女人 ≈ 女王)。

二、图像数据向量示例
  1. 像素值直接展开(原始表示)

• 示例:3x3 RGB图片 → 扁平化为向量

◦ [ [R,G,B], [R,G,B], … ] → [128, 0, 255, 34, 200, 78, …](长度=3x3x3=27)。

  1. CNN特征向量(深层语义表示)

• 示例:ResNet提取的2048维特征

◦ 猫图片 → [0.12, -0.05, 1.34, …, 0.87]

◦ 生成方式:通过卷积神经网络压缩信息。

  1. 嵌入向量(离散特征编码)

• 示例:图像区域量化后的向量

◦ 嵌入矩阵:[[-0.078, 0.271, -0.241], [0.399, -0.549, 0.263], …]

◦ 图像区域索引2 → 向量[0.399, -0.549, 0.263]。


三、结构化数据向量示例
  1. 数值特征标准化

• 原始数据:用户浏览时长 [120, 300, 180]

◦ 标准化后:[-1.34, 1.34, -0.44](均值为0,标准差为1)。

  1. 类别特征独热编码

• 原始数据:颜色 [“红”, “绿”, “蓝”]

◦ 向量化后:

▪ 红 → [1, 0, 0]

▪ 绿 → [0, 1, 0]

▪ 蓝 → [0, 0, 1]。
  1. 混合特征拼接

• 示例:用户行为日志(数值+类别)

◦ 标准化时长 [-0.5] + 独热编码动作 [0, 1, 0] → 合并向量 [-0.5, 0, 1, 0]。

四、关键注意事项
  1. 维度差异

◦ One-Hot向量维度与词表大小一致(可能数万维);

◦ 词嵌入向量固定为50~300维。

  1. 稀疏性

◦ One-Hot、TF-IDF是稀疏向量(多数位置为0);

◦ 神经网络生成的是稠密向量(无零值)。

  1. 预处理影响结果

◦ 文本需分词(如"机器学习"是否拆分为"机器"+“学习”);

◦ 图像需归一化像素值(0~1范围)。

💡 实际应用中需根据任务选择向量化方法:

• 分类任务常用 TF-IDF 或 词嵌入;

• 相似度计算推荐 稠密向量(如Word2Vec);

• 表格数据需 混合编码 后拼接为统一向量。

如果需要生成具体数据的向量实例(如自定义句子或表格),可提供数据样本,我会进一步演示完整转换过程。