模型学习系列之考试

发布于:2025-08-05 ⋅ 阅读:(19) ⋅ 点赞:(0)

背景

Task & Benchmark

Task & Benchmark

Task列
  • 定义:描述的是「人工智能模型需要完成的具体任务类型」
  • 何时用:在训练后或发布前,用于统一测试模型的能力。
  • 怎么用:在公开的基准测试平台(如MMBench、MMMU) 或实验室环境中。
  • 作用:为了量化比较不同模型在特定领域(如OCR、视频理解、数学推理)的表现差异。
  • 分类(根据能力维度分组)
    • General VQA: 通用视觉问答(看图回答开放问题)
      • 例:给一张猫戴帽子的照片,问「图中猫戴的是什么颜色的帽子?」模型答「红色」。
    • STEM:科学、技术、工程、数学综合任务(如AI2D解科学图)
      • 例:输入一张电路图,问「R2 电阻的阻值是多少欧姆?」模型答「220 Ω」。
    • OCR & Chart: 文字识别与图表分析(如OCRBench测文字提取精度)
      • 例:给一张柱状图,问「2023 年销售额最高的月份是哪月?」模型答「12 月」。
    • Long Document: 长文档理解
      • 例:上传一份 80 页 PDF 报告,问「第三章第二节提到的核心结论是什么?」模型给出摘要。
    • Visual Grounding: 视觉定位
      • 例:在街景图中指出「请用红框标出所有交通信号灯」。
    • GUI Agents: 图形界面智能体(如OS World模拟手机、电脑操作)
      • 例:指令「帮我在 Android 手机上把闹钟设为明早 7:00」,模型自动点击完成设置。
    • Coding:代码生成与理解
      • 例:给一张网页设计稿,要求「生成对应的 HTML+CSS 代码」,模型输出可运行源码。
    • Video Understanding: 视频理解
      • 例:播放一段 30 秒篮球视频,问「谁在最后一秒投进了三分球?」模型答「23 号球员」。
Benchmark
  • 定义: Benchmark是「标准化的测试数据集或指标」,用于量化Task的表现。
  • 何时创建:多数在2023-2024年发布
  • 怎么用:在论文、排行榜或产品报告中作为权威参考(如Hugging Face的模型卡)
  • 作用:解决“如何公平比较模型”的问题,避免厂商自话自说。
  • 运作(数据集)
    • MMBench-V1.1-EN: 英文视觉问答基准测试-版本1.1,包含3,000多对图文对。
    • MMBench-V1.1-CN: 中文视觉问答基准测试-版本1.1。
    • MMSTAR: 多模态标准测试
    • BLINK: 眨眼测试
    • MUIRBENCH: 多模态理解基准测试
    • MMMU: 多模态数学理解
    • MMMU-Pro: 多模态数学理解专业版
    • Video MMMU: 视频多模态数学理解
    • AI2D:人工智能文档
    • MathVista: 数学视野
    • WeMath: 视觉数学推理
    • ChartQAPro: 图表问答专业版
    • ChartMuseum: 图表博物馆
    • OCRBench: 光学字符识别基准测试
    • MMLongBench-Doc: 多模态长文档基准测试
    • RefCOCO+avg(val): 参考COCO+平均值(验证集)
    • OSWorld: 操作系统数据集
    • AndroidWorld: 安卓数据集
    • WebVoyageSom: 网页航行Som
    • Webquest-SingleQA: 网页任务-单一问题问答
    • Webquest-MultiQA: 网页任务-多问题问答
    • Design2Code: 设计转代码
    • Flame-VLM-Code: 火焰-视觉语言模型-代码
    • VideoMME(w/o): 视频多模态理解(画面)
    • VideoMME(w): 视频多模态理解(画面+音频)
    • MMVU: 多模态视频理解
    • LVBench: 长视频基准测试
    • MotionBench: 运动基准测试

总结

  • Task是“考什么”, Benchmark是“用什么考”
  • Task定义模型能力方向,Benchmark提供量化标尺。

网站公告

今日签到

点亮在社区的每一天
去签到