🧑 博主简介:曾任某智慧城市类企业
算法总监
,目前在美国市场的物流公司从事高级算法工程师
一职,深耕人工智能领域,精通python数据挖掘、可视化、机器学习等,发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者,提供AI相关的技术咨询、项目开发和个性化解决方案等服务,如有需要请站内私信或者联系任意文章底部的的VX名片(ID:xf982831907
)
💬 博主粉丝群介绍:① 群内初中生、高中生、本科生、研究生、博士生遍布,可互相学习,交流困惑。② 热榜top10的常客也在群里,也有数不清的万粉大佬,可以交流写作技巧,上榜经验,涨粉秘籍。③ 群内也有职场精英,大厂大佬,可交流技术、面试、找工作的经验。④ 进群免费赠送写作秘籍一份,助你由写作小白晋升为创作大佬。⑤ 进群赠送CSDN评论防封脚本,送真活跃粉丝,助你提升文章热度。有兴趣的加文末联系方式,备注自己的CSDN昵称,拉你进群,互相学习共同进步。
【PaddleOCR】OCR常见关键信息抽取数据集,包含FUNSD、XFUND、WildReceipt等整理,持续更新中......
在关键信息抽取领域,数据集作为模型训练和评估的核心资源,发挥着至关重要的作用。为了便于大家更好地了解和使用这些数据集,我整理了以下几种常见的关键信息抽取数据集。欢迎大家在评论区补充更多数据集信息,共同完善这份资源清单。
一、FUNSD数据集
数据简介:
FUNSD数据集是一个用于表单理解任务的高质量数据集,主要包含199张真实的、完全标注的扫描版图片。这些图片涵盖了多种类型,如市场报告、广告、学术报告等。数据集分为149张训练集图片和50张测试集图片,适用于多种文档视觉问答(DocVQA)任务,例如字段级实体分类和字段级实体连接等。
在标注方面,FUNSD数据集提供了详细的标注框信息,用于区分不同类型的信息区域。具体来说:
- 橙色区域表示
header
,通常包含表单的标题或头部信息。 - 淡蓝色区域表示
question
,用于标识表单中的问题或需要填写的字段。 - 绿色区域表示
answer
,对应问题的答案或填写的内容。 - 粉红色区域表示
other
,涵盖其他辅助信息或不符合前述类别的内容。
这些标注信息不仅丰富了数据集的语义内容,还为模型训练提供了明确的监督信号,有助于提升模型在复杂表单理解任务中的表现。
二、XFUND数据集
数据简介:
XFUND是一个多语种表单理解基准数据集,包含7种语言(中文、日语、西班牙语、法语、意大利语、德语、葡萄牙语)的表单数据,且所有数据均经过人工标注,以键-值对的形式呈现。每个语种的数据集包含199张表单图片,分为149张训练集图片和50张测试集图片。
XFUND数据集的多语种特性使其成为跨语言文档理解研究的理想选择。通过涵盖多种语言的表单,研究人员可以更好地探索和开发适用于不同语言环境的关键信息抽取模型。此外,键-值对的标注方式为模型提供了清晰的语义结构,有助于提升模型在多语言场景下的信息抽取能力。
三、WildReceipt数据集
数据简介:
WildReceipt数据集是一个专注于英文发票的关键信息抽取数据集,包含26个类别(包括Ignore
类别)。数据集共标注了约50000个文本框,其中训练集包含1267张图片,测试集包含472张图片。
WildReceipt数据集的挑战性在于其图像来源于真实场景,很多图片是非正面拍摄的,并且可能存在折叠、扭曲等情况。这些特性使得数据集更加贴近实际应用场景,能够有效评估模型在复杂真实环境下的表现。此外,数据集提供了详细的标注信息,帮助模型学习不同类型文本框的特征和语义关系。
在标注中,Ignore
或Others
类别的文本未进行可视化展示,主要聚焦于关键信息类别的抽取任务。
总结
以上三个数据集各具特色,覆盖了从单语种到多语种、从简单表单到复杂真实场景的多种关键信息抽取场景。它们为研究人员提供了丰富的实验素材和评估基准,推动了文档智能分析技术的发展。
如果你对某个特定数据集感兴趣,或者在使用过程中遇到了问题,欢迎在评论区交流讨论。如果你还知道其他相关数据集,也请不吝分享,让我们共同完善这份资源清单!