type
status
date
slug
summary
tags
category
icon
password
Property
Jul 5, 2025 10:09 AM
URL
本文部分内容由 ChatGPT 协助生成,已由作者校对
Notion AI 总结:
MinerU是一个将PDF转换成Markdown的OCR工具,专门优化了对化学专利中分子图片的识别,避免错误切割问题。该工具提供三种后端解析引擎,其中vlm系列(vlm-transformers和vlm-sglang)效果最好但对硬件要求高,需要Turing架构及以后的显卡,至少8GB显存,并且运行时较为耗时,适合在腾讯云等提供T4显卡的平台上使用。
MinerU 是一个将 PDF 转成 Markdown 的一个 ocr 工具,市面上已经有很多这方面的工具了,包括付费的和开源的,由于我的目的是解析化学专利,化学专利里面他有一个比较大的一个难点,就是在于判断某些图片它是不是分子很多模型它会错误的切割,导致我们最后得到的不是一个完整的化学图片,这样的话后续交给大模型去处理,这个是一个不好的一个操作我的测试的话了,MinerU 这个模型我感觉总体而言还是不错的。
GitHub 地址:https://github.com/opendatalab/mineru
MinerU
opendatalab • Updated Jul 5, 2025
首先看一下官方的说明
解析后端 | pipeline | vlm-transformers | vlm-sglang |
操作系统 | windows/linux/mac | windows/linux | windows(wsl2)/linux |
CPU推理支持 | ✅ | ❌ | ❌ |
GPU要求 | Turing 及以后架构,6G显存以上或 Apple Silicon | Turing及以后架构,8G显存以上 | Turing及以后架构,8G显存以上 |
Cuda 要求 | \ | \ | 12.6 以后的版本 |
内存要求 | 最低16G以上,推荐32G以上 | 最低16G以上,推荐32G以上 | 最低16G以上,推荐32G以上 |
磁盘空间要求 | 20G以上,推荐使用SSD | 20G以上,推荐使用SSD | 20G以上,推荐使用SSD |
python版本 | 3.10-3.13 | 20G以上,推荐使用SSD | 20G以上,推荐使用SSD |
我实际测试下来感觉 pipeline 后端的效果在识别含有化学分子的图片的时候,会将部分化学分子识别成文字,例如下面识别

所以必须得用 vlm 系列的,与此同时 vlm-transformers 速度非常慢,

可以看到 54 页的识别需要 9 分钟
所以我们得采用 vlm-sglang 才能保证又快又好,使用 vlm-sglang 必须得是 Turing 框架后的显卡,但是使用 vlm-sglang 目前遇到一些问题,总解决不了,目前的一个选择就是使用 vlm-transformers ,虽然慢但是可以用。
还有一点就是
关于 Turing 以后框架的显卡如下
架构 | 发布时间 | 主要显卡系列 |
Turing | 2018 年 | GeForce GTX 16 系列、GeForce RTX 20 系列、Quadro RTX、Tesla T4 |
Ampere | 2020 年 | GeForce RTX 30 系列、RTX A 系列(专业卡)、A100 数据中心加速卡 |
Ada Lovelace | 2022 年 | GeForce RTX 40 系列、RTX 40 SUPER 系列、RTX 4000/4500/5000 Ada(专业卡) |
Blackwell | 2025 年 | GeForce RTX 50 系列、RTX 5000 Blackwell(专业卡)、B100/B200(AI/数据中心) |
如果你不是这些显卡是没有办法利用 vlm 识别的。
我们都太穷了,还是好在腾讯云有白嫖的特斯拉 T4 显卡我们可以白嫖,在这里:https://ide.cloud.tencent.com/

1. 准备工作
1.下载 conda 环境
如果使用的是上面腾讯白嫖服务器,那么就不需要手动安装 conda 了
- 安装 tmux
安装 tmux 的目的是为了让避免安装过程中突然断开 ssh 等其他的各种乱七八糟的因素
创建一个 Mineru 的 tmux 环境
后续我们所有步骤在 tmux 这个里面去操作就行了
2. Mineru 安装
2.1 创建 mineru 环境
安装过程如下,速度较慢请耐心等待

2.2 安装完整版本 Mineru
首先激活 Mineru 的 conda 环境
安装完整版本 Mineru,只有完整版本的 Mineru 才支持 SGLang 的
这个过程也是相当的漫长
2.3 模型的下载

3. Mineru 的使用
- name.pdf 是 pdf 的名字
- ./ 代表把上面的 pdf ocr 后的结构保存到当前目录下
- -b vlm-transformers 表示使用 vlm-transformers 后端引擎
运行上面的代码后会在当前的 pdf 的文件夹下创建一个 pdf 同名的的文件夹,下面会有一个 vlm 文件夹,vlm 文件夹下就是我们的结果

还有些其他的选项可以看看
选项 | 参数 | 描述 |
-v, --version | ㅤ | 显示版本并退出 |
-p, --path | PATH | 输入文件路径或目录(必填) |
-o, --output | PATH | 输出目录(必填) |
-m, --method | [auto|txt|ocr] | 解析方法:auto(默认)、txt、ocr(仅用于 pipeline 后端) |
-b, --backend | [pipeline|vlm-transformers|vlm-sglang-engine|vlm-sglang-client] | 解析后端(默认为 pipeline) |
-l, --lang | [ch|ch_server|ch_lite|en|korean|japan|chinese_cht|ta|te|ka|latin|arabic|east_slavic|cyrillic|devanagari] | 指定文档语言(可提升 OCR 准确率,仅用于 pipeline 后端) |
-u, --url | TEXT | 当使用 sglang-client 时,需指定服务地址 |
-s, --start | INTEGER | 开始解析的页码(从 0 开始) |
-e, --end | INTEGER | 结束解析的页码(从 0 开始) |
-f, --formula | BOOLEAN | 是否启用公式解析(默认开启) |
-t, --table | BOOLEAN | 是否启用表格解析(默认开启) |
-d, --device | TEXT | 推理设备(如 cpu/cuda/cuda:0/npu/mps,仅 pipeline 后端) |
--vram | INTEGER | 单进程最大 GPU 显存占用(GB)(仅 pipeline 后端) |
--source | [huggingface|modelscope|local] | 模型来源,默认 huggingface |
--help | ㅤ | 显示帮助信息 |
比较有用的我认为就是这几个
比如我们要将 test1.pdf 的第 10 页到第 15 页输出为当前目录下
4. 注意事项
我们使用 vlm-transformers 的时候,显存为 8G 是不行的,会直接爆显存

我猜可能是 vlm 的版本刚刚推出来,感觉没有优化好
- 作者:我心永恒
- 链接:https://wxyhgk.com/article/tx-cs-mineru
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。