【学习记录】开源多模态检索/问答数据集

发布于:2024-10-12 ⋅ 阅读:(5) ⋅ 点赞:(0)


写在前面

仅作个人学习记录用。本文主要记录部分开源多模态/问答数据集的信息(持续更新)

通用多模态检索/问答数据集

1. ALLaVA-4V

数据链接:

https://huggingface.co/datasets/FreedomIntelligence/ALLaVA-4V

代码链接:

https://github.com/FreedomIntelligence/ALLaVA

数据样例:
在这里插入图片描述

2. LLaVA-v1.5-mix665k

数据链接:

https://huggingface.co/datasets/liuhaotian/LLaVA-Instruct-150K/blob/main/llava_v1_5_mix665k.json

代码链接:

https://github.com/haotian-liu/LLaVA

数据样例:

66.5w视觉对话微调数据集构成:

在这里插入图片描述
GQA数据集:
在这里插入图片描述

OCR-VQA数据集:
在这里插入图片描述

OK-VQA(需要外部知识视觉问答数据集):
在这里插入图片描述

A-OKVQA(需要外部知识视觉问答数据集):
在这里插入图片描述

VQAv2数据集(成对类似图片,每个问题对应两个不同的答案):
在这里插入图片描述

Textcaps数据集(用于图像字幕生成中的阅读理解任务):
在这里插入图片描述

VG数据集(为每张图像提供了多个区域的描述和QA对,以及整张图像的场景图):
在这里插入图片描述

3. ShareGPT4V 训练数据集

数据链接
https://github.com/InternLM/InternLM-XComposer/blob/main/projects/ShareGPT4V/docs/Data.md

4. MiniGPT-4 微调数据集

数据链接
(第一阶段)https://github.com/Vision-CAIR/MiniGPT-4/blob/main/dataset/README_1_STAGE.md
(第二阶段)https://github.com/Vision-CAIR/MiniGPT-4/blob/main/dataset/README_2_STAGE.md

5. ShareGPT4V 训练数据集

数据链接
https://huggingface.co/datasets/Lin-Chen/ShareGPT4V

6. OmniCorpus

数据链接:

https://huggingface.co/datasets/OpenGVLab/OmniCorpus-CC-210M

代码链接:

https://github.com/OpenGVLab/OmniCorpus

数据样例:
在这里插入图片描述

7. MINT-1T

数据链接:

https://huggingface.co/datasets/mlfoundations/MINT-1T-HTML

代码链接:

https://github.com/mlfoundations/MINT-1T

数据样例:
在这里插入图片描述

其他(领域)多模态检索/问答数据集

1. GeoGPT4V(用于解决几何问题)

数据链接:
https://huggingface.co/datasets/caishihao/GeoGPT4V-1.0

2. IconQA(抽象图表理解)

数据链接:
https://huggingface.co/datasets/lmms-lab/ICON-QA

3. 甲骨文多模态数据集

数据链接:
https://www.jgwlbq.org.cn/dt/oracleFragment