Ubuntu 下 MinerU 安装和使用 | 我心永恒的小站

type

status

date

slug

summary

category

icon

password

Property

Jul 27, 2025 03:07 PM

URL

~~此文为落后内容，后续更新，下面的不用看~~

💡

本文部分内容由 ChatGPT 协助生成，已由作者校对

Notion AI 总结：

MinerU是一个将PDF转换成Markdown的OCR工具，专门优化了对化学专利中分子图片的识别，避免错误切割问题。该工具提供三种后端解析引擎，其中vlm系列(vlm-transformers和vlm-sglang)效果最好但对硬件要求高，需要Turing架构及以后的显卡，至少8GB显存，并且运行时较为耗时，适合在腾讯云等提供T4显卡的平台上使用。

MinerU 是一个将 PDF 转成 Markdown 的一个 ocr 工具,市面上已经有很多这方面的工具了，包括付费的和开源的，由于我的目的是解析化学专利，化学专利里面他有一个比较大的一个难点，就是在于判断某些图片它是不是分子很多模型它会错误的切割，导致我们最后得到的不是一个完整的化学图片，这样的话后续交给大模型去处理，MinerU 这个模型我感觉总体而言还是不错的。

GitHub 地址：https://github.com/opendatalab/mineru

MinerU

opendatalab • Updated Nov 18, 2025

首先看一下官方的说明

解析后端	pipeline	vlm-transformers	vlm-sglang
操作系统	windows/linux/mac	windows/linux	windows(wsl2)/linux
CPU推理支持	✅	❌	❌
GPU要求	Turing 及以后架构，6G显存以上或 Apple Silicon	Turing及以后架构，8G显存以上	Turing及以后架构，8G显存以上
Cuda 要求	\	\	12.6 以后的版本
内存要求	最低16G以上，推荐32G以上	最低16G以上，推荐32G以上	最低16G以上，推荐32G以上
磁盘空间要求	20G以上，推荐使用SSD	20G以上，推荐使用SSD	20G以上，推荐使用SSD
python版本	3.10-3.13	3.10-3.13	3.10-3.13

我实际测试下来感觉 pipeline 后端的效果在识别含有化学分子的图片的时候，会将部分化学分子识别成文字，例如下面识别

所以必须得用 vlm 系列的，而 vlm 系列的需要 Turing 及以后架构的显卡

关于 Turing 以后框架的显卡如下

架构	发布时间	主要显卡系列
Turing	2018 年	GeForce GTX 16 系列、 GeForce RTX 20 系列、 Quadro RTX、Tesla T4
Ampere	2020 年	GeForce RTX 30 系列、 RTX A 系列（专业卡）、 A100 数据中心加速卡
Ada Lovelace	2022 年	GeForce RTX 40 系列、 RTX 40 SUPER 系列、 RTX 4000/4500/5000 Ada（专业卡）
Blackwell	2025 年	GeForce RTX 50 系列、 RTX 5000 Blackwell（专业卡）、 B100/B200（AI/数据中心）

如果你不是这些显卡是没有办法利用 vlm 识别的，我本来想买一个 v100 的，但是考虑到 v100 框架太老了，就没有买了

我们都太穷了，还是好在腾讯云有白嫖的特斯拉 T4 显卡我们可以白嫖，在这里：https://ide.cloud.tencent.com/

我发现 vlm-transformers 速度非常慢，

可以看到 54 页的识别需要 9 分钟

所以我们得采用 vlm-sglang 才能保证又快又好，但是使用 vlm-sglang 目前遇到一些问题，总解决不了，所以最后还是得回到慢的模型 vlm-transformers ，虽然慢但是可以用。

1. 准备工作

1.下载 conda 环境

如果使用的是上面腾讯白嫖服务器，那么就不需要手动安装 conda 了

安装 tmux

安装 tmux 的目的是为了让避免安装过程中突然断开 ssh 等其他的各种乱七八糟的因素

创建一个 Mineru 的 tmux 环境

后续我们所有步骤在 tmux 这个里面去操作就行了

2. Mineru 安装

2.1 创建 mineru 环境

安装过程如下，速度较慢请耐心等待

2.2 安装完整版本 Mineru

首先激活 Mineru 的 conda 环境

安装完整版本 Mineru，只有完整版本的 Mineru 才支持 SGLang 的

这个过程也是相当的漫长

2.3 模型的下载

3. Mineru 的使用

name.pdf 是 pdf 的名字

./ 代表把上面的 pdf ocr 后的结构保存到当前目录下

-b vlm-transformers 表示使用 vlm-transformers 后端引擎

运行上面的代码后会在当前的 pdf 的文件夹下创建一个 pdf 同名的的文件夹，下面会有一个 vlm 文件夹，vlm 文件夹下就是我们的结果

还有些其他的选项可以看看

选项	参数	描述
-v, --version	ㅤ	显示版本并退出
-p, --path	PATH	输入文件路径或目录（必填）
-o, --output	PATH	输出目录（必填）
-m, --method	[auto\|txt\|ocr]	解析方法：auto（默认）、txt、ocr（仅用于 pipeline 后端）
-b, --backend	pipeline vlm-transformers vlm-sglang-engine vlm-sglang-client	解析后端（默认为 pipeline）
-l, --lang	[ch\|ch_server\|ch_lite\|en\|korean\|japan\|chinese_cht\|ta\|te\|ka\|latin\|arabic\|east_slavic\|cyrillic\|devanagari]	指定文档语言（可提升 OCR 准确率，仅用于 pipeline 后端）
-u, --url	TEXT	当使用 sglang-client 时，需指定服务地址
-s, --start	INTEGER	开始解析的页码（从 0 开始）
-e, --end	INTEGER	结束解析的页码（从 0 开始）
-f, --formula	BOOLEAN	是否启用公式解析（默认开启）
-t, --table	BOOLEAN	是否启用表格解析（默认开启）
-d, --device	TEXT	推理设备（如 cpu/cuda/cuda:0/npu/mps，仅 pipeline 后端）
--vram	INTEGER	单进程最大 GPU 显存占用(GB)（仅 pipeline 后端）
--source	[huggingface\|modelscope\|local]	模型来源，默认 huggingface
--help	ㅤ	显示帮助信息