近期,一款名为 dots.ocr 的模型凭借其独特的轻量化设计与精准的文本提取能力,在 OCR 技术领域掀起了波澜。 dots.ocr 是由小红书 hi lab 于 2025 年 8 月发布的多语言文档布局解析模型。该模型基于 17 亿参数的视觉语言模型(VLM),能统一进行布局检测和内容识别,无论是模糊的扫描件、倾斜的手机快拍,还是低分辨率的屏幕截图,dots.ocr 均能通过自适应降噪算法与动态分割技术,精准捕捉碎片化文本信息。此外,模型不足 2B 的微型架构,让工业设备、移动终端甚至嵌入式系统都能实现毫秒级实时文字识别,彻底摆脱云端依赖。
更值得关注的是,dots.ocr 突破了传统 OCR 对结构化文档的依赖。通过融合多尺度特征融合机制与上下文语义纠错,模型在识别手写潦草字迹、密集表格数据或混合排版文本时,仍保持接近人类阅读的连贯性与准确性。此外,在多语言文档处理方面支持包括中文、英文在内的 100 种语言,能够准确识别并处理多语言文档中的文本内容和布局元素。无论是面对多语言混合文档,还是复杂的语言环境,dots.ocr 都能提供稳定且准确的解析结果。在 OmniDocBench 等基准测试中,dots.ocr 公式识别效果能与 Doubao-1.5 和 gemini2.5-pro 等更大规模模型相媲美,在小语种解析方面优势显著,真正达到了「小而精」。
目前,「dots.ocr:多语言文档解析模型」已上线至 HyperAI 超神经官网的「教程」板块,点击下方链接即可一键部署。
教程链接:https://go.hyper.ai/49mZU
Demo 运行
1. 进入 hyper.ai 首页后,选择「教程」页面,并选择「dots.ocr:多语言文档解析模型」,点击「在线运行此教程」。
2. 页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。
3. 选择「NVIDIA GeForce RTX 4090」以及「PyTorch」镜像,按照需求选择「按量付费」或「包日/周/月」,点击「继续执行」。新用户使用下方邀请链接注册,可获得 4 小时 RTX 4090 + 5 小时 CPU 的免费时长!
HyperAI 超神经专属邀请链接(直接复制到浏览器打开):
https://openbayes.com/console/signup?r=Ada0322_NR0n
4. 等待分配资源,首次克隆需等待 3 分钟左右的时间。当状态变为「运行中」后,点击「API 地址」旁边的跳转箭头,即可跳转至 Demo 页面。请注意,用户需在实名认证后才能使用 API 地址访问功能。
效果演示
笔者以「Parse」功能为例,上传了一个英文文档,效果如下所示:
无论是表格还是公式,模型都能出色地完成识别:
以上就是 HyperAI 超神经本期推荐的教程,欢迎大家前来体验!
教程链接:https://go.hyper.ai/49mZU
一键获取 2023—2024 年 AI4S 领域高质量论文及深度解读文章 ⬇️