你是否也有这样的困境,面对一篇学术论文,即使英语水平不错,仍需反复查词典,尤其是遇到专业术语和复杂长句,翻译软件又常常不能很好地处理学术PDF的排版,导致翻译结果混乱不堪。
现在,解决你烦恼的工具来了 —— BabelDOC,一个专为学术PDF文档设计的翻译和双语对比工具。
BabelDOC是一个开源项目,专注于解决科学论文PDF的翻译问题。与普通翻译工具不同,它能够理解PDF的结构,保持原文排版,并提供原文与译文的双语对照,极大提升了学术阅读体验。
核心特点
- 专业翻译 :针对学术内容优化,能更好地理解和翻译专业术语
- 双语对照 :支持原文与译文并排显示,方便对比理解
- 保持排版 :尊重原PDF的排版结构,使翻译后的内容易于理解
- 多种使用方式 :提供在线服务、自部署选项、命令行界面和Python API
使用方式
1、网页端
官方提供网页端,可以直接使用,当前功能还在实验阶段,仅支持翻译到中文,不支持扫描文件(包括OCR版)。免费用户每月限量 1000 页,Pro 会员限量 10000 页。
体验地址:https://app.immersivetranslate.com/babel-doc/
2、本地部署
# 克隆项目
git clone https://github.com/funstory-ai/BabelDOC
# 切换到项目目录
cd BabelDOC
# 安装依赖
uv run babeldoc --help
# 单个文件
uv run babeldoc --files example.pdf --openai --openai-model "gpt-4o-mini" --openai-base-url "https://api.openai.com/v1" --openai-api-key "your-api-key-here"
# 多文件
uv run babeldoc --files example.pdf --files example2.pdf --openai --openai-model "gpt-4o-mini" --openai-base-url "https://api.openai.com/v1" --openai-api-key "your-api-key-here"
3、简单命令行
# 从PyPI安装
uv tool install --python 3.12 BabelDOC
# 基本使用
babeldoc --files example.pdf
# 使用OpenAI进行翻译
babeldoc --bing --files example1.pdf --files example2.pdf
4、Python API
# Generate an offline assets package
from pathlib import Path
import babeldoc.assets.assets
# Generate package to a specific directory
# path is optional, default is ~/.cache/babeldoc/assets/offline_assets_{hash}.zip
babeldoc.assets.assets.generate_offline_assets_package(Path("/path/to/output/dir"))
# Restore from a package file
# path is optional, default is ~/.cache/babeldoc/assets/offline_assets_{hash}.zip
babeldoc.assets.assets.restore_offline_assets_package(Path("/path/to/offline_assets_package.zip"))
# You can also restore from a directory containing the offline assets package
# The tool will automatically find the correct package file based on the hash
babeldoc.assets.assets.restore_offline_assets_package(Path("/path/to/directory"))
高级选项
- 语言选项 :–lang-in(默认en)指定源语言代码,–lang-out(默认zh)指定目标语言代码。
- PDF处理选项 :有–files指定输入文件、–pages指定翻译页面等众多选项,还给出了一些使用提示,如–enhance-compatibility可解决兼容性问题。
- 翻译服务选项 翻译服务选项:–qps限制每秒查询数(默认4),目前仅支持OpenAI兼容的大语言模型。
- OpenAI特定选项 :可指定模型、基础URL和API密钥。
- 输出控制 :–output指定输出目录,–debug开启调试日志。
- 离线资产管理 :可生成和恢复离线资产包,用于无网络环境或多机器安装。
- 配置文件 :使用TOML格式的配置文件,可设置各种参数。
最后
对于经常阅读英文学术论文的研究人员、学生和专业人士,BabelDOC无疑是一个值得关注的工具。它不仅能提高阅读效率,还能帮助理解复杂的学术内容。
GitHub仓库:https://github.com/funstory-ai/BabelDOC