发布于: 2025-7-5最后更新: 2025-7-5字数 1250阅读时长 4 分钟

type
status
date
slug
summary
tags
category
icon
password
Property
Jul 5, 2025 10:09 AM
URL
💡
本文部分内容由 ChatGPT 协助生成,已由作者校对
page icon
Notion AI 总结:
MinerU是一个将PDF转换成Markdown的OCR工具,专门优化了对化学专利中分子图片的识别,避免错误切割问题。该工具提供三种后端解析引擎,其中vlm系列(vlm-transformers和vlm-sglang)效果最好但对硬件要求高,需要Turing架构及以后的显卡,至少8GB显存,并且运行时较为耗时,适合在腾讯云等提供T4显卡的平台上使用。
MinerU 是一个将 PDF 转成 Markdown 的一个 ocr 工具,市面上已经有很多这方面的工具了,包括付费的和开源的,由于我的目的是解析化学专利,化学专利里面他有一个比较大的一个难点,就是在于判断某些图片它是不是分子很多模型它会错误的切割,导致我们最后得到的不是一个完整的化学图片,这样的话后续交给大模型去处理,这个是一个不好的一个操作我的测试的话了,MinerU 这个模型我感觉总体而言还是不错的。
 
MinerU
opendatalabUpdated Jul 5, 2025
 
首先看一下官方的说明
解析后端
pipeline
vlm-transformers
vlm-sglang
操作系统
windows/linux/mac
windows/linux
windows(wsl2)/linux
CPU推理支持
GPU要求
Turing 及以后架构,6G显存以上或 Apple Silicon
Turing及以后架构,8G显存以上
Turing及以后架构,8G显存以上
Cuda 要求
\
\
12.6 以后的版本
内存要求
最低16G以上,推荐32G以上
最低16G以上,推荐32G以上
最低16G以上,推荐32G以上
磁盘空间要求
20G以上,推荐使用SSD
20G以上,推荐使用SSD
20G以上,推荐使用SSD
python版本
3.10-3.13
20G以上,推荐使用SSD
20G以上,推荐使用SSD
 
我实际测试下来感觉 pipeline 后端的效果在识别含有化学分子的图片的时候,会将部分化学分子识别成文字,例如下面识别
notion image
 
所以必须得用 vlm 系列的,与此同时 vlm-transformers 速度非常慢,
notion image
可以看到 54 页的识别需要 9 分钟
 
所以我们得采用 vlm-sglang 才能保证又快又好,使用 vlm-sglang 必须得是 Turing 框架后的显卡,但是使用 vlm-sglang 目前遇到一些问题,总解决不了,目前的一个选择就是使用 vlm-transformers ,虽然慢但是可以用。
 
还有一点就是
关于 Turing 以后框架的显卡如下
架构
发布时间
主要显卡系列
Turing
2018 年
GeForce GTX 16 系列、GeForce RTX 20 系列、Quadro RTX、Tesla T4
Ampere
2020 年
GeForce RTX 30 系列、RTX A 系列(专业卡)、A100 数据中心加速卡
Ada Lovelace
2022 年
GeForce RTX 40 系列、RTX 40 SUPER 系列、RTX 4000/4500/5000 Ada(专业卡)
Blackwell
2025 年
GeForce RTX 50 系列、RTX 5000 Blackwell(专业卡)、B100/B200(AI/数据中心)
如果你不是这些显卡是没有办法利用 vlm 识别的。
我们都太穷了,还是好在腾讯云有白嫖的特斯拉 T4 显卡我们可以白嫖,在这里:https://ide.cloud.tencent.com/
 
notion image

1. 准备工作

1.下载 conda 环境
如果使用的是上面腾讯白嫖服务器,那么就不需要手动安装 conda 了
  1. 安装 tmux
安装 tmux 的目的是为了让避免安装过程中突然断开 ssh 等其他的各种乱七八糟的因素
 
创建一个 Mineru 的 tmux 环境
后续我们所有步骤在 tmux 这个里面去操作就行了

2. Mineru 安装

2.1 创建 mineru 环境

安装过程如下,速度较慢请耐心等待
notion image

2.2 安装完整版本 Mineru

首先激活 Mineru 的 conda 环境
 
安装完整版本 Mineru,只有完整版本的 Mineru 才支持 SGLang 的
这个过程也是相当的漫长
 

2.3 模型的下载

notion image

3. Mineru 的使用

  • name.pdf 是 pdf 的名字
  • ./ 代表把上面的 pdf ocr 后的结构保存到当前目录下
  • -b vlm-transformers 表示使用 vlm-transformers 后端引擎
运行上面的代码后会在当前的 pdf 的文件夹下创建一个 pdf 同名的的文件夹,下面会有一个 vlm 文件夹,vlm 文件夹下就是我们的结果
notion image
还有些其他的选项可以看看
选项
参数
描述
-v, --version
显示版本并退出
-p, --path
PATH
输入文件路径或目录(必填)
-o, --output
PATH
输出目录(必填)
-m, --method
[auto|txt|ocr]
解析方法:auto(默认)、txt、ocr(仅用于 pipeline 后端)
-b, --backend
[pipeline|vlm-transformers|vlm-sglang-engine|vlm-sglang-client]
解析后端(默认为 pipeline)
-l, --lang
[ch|ch_server|ch_lite|en|korean|japan|chinese_cht|ta|te|ka|latin|arabic|east_slavic|cyrillic|devanagari]
指定文档语言(可提升 OCR 准确率,仅用于 pipeline 后端)
-u, --url
TEXT
当使用 sglang-client 时,需指定服务地址
-s, --start
INTEGER
开始解析的页码(从 0 开始)
-e, --end
INTEGER
结束解析的页码(从 0 开始)
-f, --formula
BOOLEAN
是否启用公式解析(默认开启)
-t, --table
BOOLEAN
是否启用表格解析(默认开启)
-d, --device
TEXT
推理设备(如 cpu/cuda/cuda:0/npu/mps,仅 pipeline 后端)
--vram
INTEGER
单进程最大 GPU 显存占用(GB)(仅 pipeline 后端)
--source
[huggingface|modelscope|local]
模型来源,默认 huggingface
--help
显示帮助信息
比较有用的我认为就是这几个
 
比如我们要将 test1.pdf 的第 10 页到第 15 页输出为当前目录下
 

4. 注意事项

我们使用 vlm-transformers 的时候,显存为 8G 是不行的,会直接爆显存
notion image
我猜可能是 vlm 的版本刚刚推出来,感觉没有优化好
 

Loading...
示例文章

示例文章

这是示例的文章摘要,摘要内容可被用做搜索,预览。文章列表默认展示概要;若要在列表直接展示文章内容,可在blog.config.js中配置。


公告
公告
博客重大更新,更换为matery主题,阅读体验更加好了。
和博主联系
notion image