Ai大模型 - ocr图像识别形成结构化数据(pp-ocr+nlp结合) 以及训练微调实现方案(初稿)

发布于：2025-06-29 ⋅ 阅读:(112) ⋅ 点赞:(0)

全局目录,一步到位

功能流程
第一阶段基于现有条件进行 `调研,测试与评估`
第二阶段模型训练微调
第三阶段: 结果
注意事项
至此, 医疗领域-此方向的专属ocr大模型就完成了

功能流程

第一阶段基于现有条件进行 `调研,测试与评估`

全部先使用预训练完成的模型(本地进行测试,评估后进行二阶段训练微调)

在这里插入图片描述

1.1 ocr深度学习模型 pp-ocr

了解百度开源模型 pp-ocr
先在windows上使用预训练模型可先选cpu版本查看执行效果
下载nlp自然语言模型进行json格式化输出
模型评估: 上述结果不能满足业务需求, 进行第二阶段

1.2 nlp结构化模型

先选: DD-Parse(尽量先使用百度pp全家桶)

1.3 硬件要求:

先基于现有电脑进行测试, 不满足在升级

第二阶段模型训练微调

官方明确说明 windows仅支持推理,不支持训练
解决方案: linux部署或者 WSL2或Docker方案解决

2.1 更换ocr-GPU模型, 下载相关环境

2.2 nlp模型语义训练

2.3 最低硬件要求:

cpu i7 /i5 等都可以(满足: x64/ Intel 64/ AMD64 即可) 核心数要多 
内存 32g(最低) 不然训练时候会频繁报错
显存: 8g - 12g 太小训练效率低
硬盘: 512g/1T(推荐)

2.4 样本数据: (重点)

3000-5000, 需要进行数据标注,进行监督学习

2.5 进一步增强模型能力

可通过用户反馈进行学习训练
对模型的性能准确率进行评估

2.5 python语言类库 (深度学习框架)

python --version: 3.8/3.9/3.10/3.11/3.12/3.13
pip 版本为 20.2.2 或更高版本
Python 和 pip 是 64bit，并且处理器架构是 x86_64（或称作 x64、Intel 64、AMD64）架构

paddleocr 3.0
shapely
pyclipper
lmdb
tqdm
sklearn
requirements.txt (将版本写清楚,工程初始化用)

第三阶段: 结果

微调后的PP-OCR检测/识别模型（.pdparams）
API接口封装文档（FastAPI部署方案）
训练的python项目代码

注意事项

需要对错误数据进行记录(用户反馈等)
持续的进行训练直到达到模型评估的标注,满足业务要求
模型安装的安全性以及用户隐私数据的保护

至此, 医疗领域-此方向的专属ocr大模型就完成了

如果后续需要拓展升级, 再出相关方案 windows版本官方文档上不支持

Ai大模型 - ocr图像识别形成结构化数据(pp-ocr+nlp结合) 以及训练微调实现方案(初稿)

全局目录,一步到位

功能流程

第一阶段基于现有条件进行 `调研,测试与评估`

1.1 ocr深度学习模型 pp-ocr

1.2 nlp结构化模型

1.3 硬件要求:

第二阶段模型训练微调

2.1 更换ocr-GPU模型, 下载相关环境

2.2 nlp模型语义训练

2.3 最低硬件要求:

2.4 样本数据: (重点)

2.5 进一步增强模型能力

2.5 python语言类库 (深度学习框架)

第三阶段: 结果

注意事项

至此, 医疗领域-此方向的专属ocr大模型就完成了

网站公告

今日签到

热门文章

最新发布

Ai大模型 - ocr图像识别形成结构化数据(pp-ocr+nlp结合) 以及训练微调实现方案(初稿)

全局目录,一步到位

功能流程

第一阶段 基于现有条件进行 调研,测试与评估

1.1 ocr深度学习模型 pp-ocr

1.2 nlp结构化模型

1.3 硬件要求:

第二阶段 模型训练微调

2.1 更换ocr-GPU模型, 下载相关环境

2.2 nlp模型 语义训练

2.3 最低硬件要求:

2.4 样本数据: (重点)

2.5 进一步增强模型能力

2.5 python语言类库 (深度学习框架)

第三阶段: 结果

注意事项

至此, 医疗领域-此方向的专属ocr大模型就完成了

网站公告

今日签到

热门文章

最新发布

第一阶段基于现有条件进行 `调研,测试与评估`

第二阶段模型训练微调

2.2 nlp模型语义训练