今天给大家推荐四款非常好用的 PDF转文档工具,而且最重要的是都开源免费,这谁受得了,我会将开源项目地址放在文章后面,有需要的小伙伴自取。
Doc2x
访问地址
功能
文件解析:支持 OCR、数学公式识别、输出多种格式
文件翻译:支持多语种的文件翻译
文件解析
首页简洁,文件上传支持选择 PDF、JPEG、PNG 格式,对于科研、教育工作者来说,一键转换实在太香了。
他并且支持导出为多种格式的文件
对照翻译
目前提供了大量的语种可供选择,并提供了三种翻译模型:glm4、deepseek、gpt-4o-mini。
同样支持多种格式的导出。
每天有500 页的免费额度,对于一般用户来说,已经足够了。
Marker(开源)
项目地址:https://github.com/VikParuchuri/marker
内容完整性:内容完整,页眉页脚默认带上了
格式保留度:比较乱
MinerU(开源)
项目地址:https://github.com/opendatalab/MinerU
内容完整性:丢了一些文字, 比如 “报批稿”。页眉页脚自动去除了
格式保留度:基本正常
gptPDF(开源)
项目地址:https://github.com/CosmosShadow/gptpdf
内容完整性:部分内容丢失、存在文字误差,页脚带上了,但是页眉没有带上。
格式保留度:基本正常。