一个本地跑的PDF解析神器：LiteParse，轻量、快速、还能OCR

你是不是也经常被PDF折磨？想提取文字，格式乱成一锅粥；想搞表格，结果全变成一堆坐标；想跑个OCR，还得搭一圈云服务。最烦的是，一个PDF解析工具动不动就让你联网、传数据，隐私和速度都没保障。

今天分享一个完全本地运行的开源工具——LiteParse。它主打轻量和快速，没有那些花里胡哨的LLM依赖，也不需要联网。你的PDF文件永远待在你自己的电脑上。

LiteParse 是干啥的？

一句话：把PDF里的文字和位置信息干净地挖出来。

底层用 PDFium 做空间文本解析，速度很快
自带 边界框（bounding box），每个字在哪个位置都给你标清楚
内置 Tesseract OCR，开箱即用，也可以换成 EasyOCR、PaddleOCR 或者你自己搭的OCR服务器
能生成 高清页面截图，给LLM代理看布局特别有用
输出格式支持 JSON 和纯文本
语言绑定很全：Rust、Node.js、Python、浏览器（WASM）都能用
跨平台：Linux、macOS（Intel/ARM）、Windows 都行

image.png

如果你遇到特别复杂的文档——比如那种表格套表格、多栏乱飞、手写文字、扫描版老书，LiteParse 本地的解析能力可能就有点吃力了。这时候可以试试它们家的 LlamaParse，一个云端文档解析器，专门处理这种脏活累活，输出干净的 Markdown 和结构化数据。

免费注册 LlamaParse：
https://cloud.llamaindex.ai （官网自己搜一下，这里不贴长链接了）

安装

按你熟悉的包管理器来就行。不同语言版本都提供相同的 CLI 命令（叫 lit），除了 WASM 那个。

语言安装命令文档 Node.js / TypeScript npm i @llamaindex/liteparse Node.js README Python pip install liteparse Python README Rust cargo install liteparse（CLI）
cargo add liteparse（库） Rust crates.io 浏览器（WASM） npm i @llamaindex/liteparse-wasm WASM README

装完之后，命令行里敲 lit --help 就能看到可用命令。

当做一个 Agent 技能用

如果你在用 skills 这个 CLI 工具，可以直接把 LiteParse 当成一个代理技能下载：

npx skills add run-llama/llamaparse-agent-skills --skill liteparse

或者手动把 SKILL.md 复制到你的技能配置里，随便你。

CLI 用法

所有安装方式（npm、pip、cargo）得到的 CLI 都是一样的。

解析单个 PDF

# 基本用法
lit parse document.pdf

# 输出 JSON 格式
lit parse document.pdf --format json -o output.json

# 只解析部分页面（比如第1-5页，第10页，第15-20页）
lit parse document.pdf --target-pages "1-5,10,15-20"

# 关掉 OCR（只取原生文字）
lit parse document.pdf --no-ocr

# 解析一个远程 PDF（通过管道）
curl -sL https://example.com/report.pdf | lit parse -

批量解析整个目录

lit batch-parse ./input-directory ./output-directory

这个命令会遍历输入目录里所有 PDF，然后把解析结果写到输出目录。

生成截图

截图对 LLM 代理特别重要——很多视觉信息（图表、布局、颜色标记）纯文本根本抓不到。

# 截全部页面
lit screenshot document.pdf -o ./screenshots

# 只截指定页面
lit screenshot document.pdf --target-pages "1,3,5" -o ./screenshots

# 自定义 DPI（分辨率）
lit screenshot document.pdf --dpi 300 -o ./screenshots

CLI 参考（解析命令）

lit parse [OPTIONS] 

Options:
  -o, --output           输出文件路径
      --format         输出格式: json|text (默认 text)
      --no-ocr                 禁用 OCR
      --ocr-language     OCR 语言 (Tesseract 格式，默认 eng)
      --ocr-server-url    HTTP OCR 服务器地址（不填则用内置 Tesseract）
      --tessdata-path    tessdata 目录路径
      --max-pages           最大解析页数 (默认 1000)
      --target-pages    指定页面范围，如 "1-5,10,15-20"
      --dpi               渲染 DPI (默认 150)
      --preserve-small-text    保留非常小的文字
      --password     加密文档的密码
      --num-workers         并发 OCR 工作线程数 (默认 CPU 核心数-1)
  -q, --quiet                  不显示进度输出
  -h, --help                   打印帮助

批量解析命令

lit batch-parse [OPTIONS]  

Options:
      --format         输出格式: json|text
      --no-ocr                 禁用 OCR
      --ocr-language     OCR 语言
      --ocr-server-url    HTTP OCR 服务器地址
      --tessdata-path    tessdata 目录路径
      --max-pages           每个文件最大解析页数
      --dpi               渲染 DPI
      --recursive              递归搜索子目录
      --extension         只处理特定扩展名的文件，如 ".pdf"
      --password     加密文档密码
      --num-workers         并发 OCR 工作线程数
  -q, --quiet                  不显示进度

截图命令

lit screenshot [OPTIONS] 

Options:
  -o, --output-dir        输出目录 (默认 ./screenshots)
      --target-pages    截图页面，如 "1,3,5" 或 "1-5"
      --dpi               渲染 DPI (默认 150)
      --password     加密文档密码
  -q, --quiet                  不显示进度

OCR 设置

默认方案：Tesseract

Tesseract 已经打包在库里了，开箱即用：

lit parse document.pdf                     # 默认开启 OCR
lit parse document.pdf --ocr-language fra  # 指定法语
lit parse document.pdf --no-ocr            # 关掉 OCR

如果你在离线环境或者内网（没有外网），可以设置 TESSDATA_PREFIX 环境变量指向一个存放了预下载 .traineddata 文件的目录：

export TESSDATA_PREFIX=/path/to/tessdata
lit parse document.pdf --ocr-language eng

或者直接在命令行传路径：

lit parse document.pdf --tessdata-path /path/to/tessdata

进阶方案：HTTP OCR 服务器

如果你觉得 Tesseract 准确率不够，或者想追求更好的性能，可以接一个 HTTP OCR 服务器。官方提供了 EasyOCR 和 PaddleOCR 的即用型封装示例，你也可以按照 OCR_API_SPEC.md 的规范自己实现。

API 要求很简单：

POST /ocr 端点
接受 file 和 language 参数
返回 JSON 格式：{ results: [{ text, bbox: [x1,y1,x2,y2], confidence }] }

不止 PDF：多格式输入支持

LiteParse 在解析前会自动把很多常见文档格式转成 PDF，前提是你装了对应的转换工具。

办公文档（依赖 LibreOffice）：Word（.doc/.docx/.odt等）、PPT（.ppt/.pptx/.odp等）、Excel（.xls/.xlsx/.csv等），甚至 Pages、Keynote 也支持。

安装 LibreOffice：

# macOS
brew install --cask libreoffice

# Ubuntu/Debian
apt-get install libreoffice

# Windows (choco)
choco install libreoffice-fresh

Windows 用户可能需要把 C:\Program Files\LibreOffice\program 加到 PATH 里。

图片（依赖 ImageMagick）：.jpg、.png、.gif、.bmp、.tiff、.webp、.svg 都能转。

安装 ImageMagick：

# macOS
brew install imagemagick

# Ubuntu/Debian
apt-get install imagemagick

# Windows
choco install imagemagick.app

环境变量

目前只有一个比较重要的：

变量说明 TESSDATA_PREFIX 存放 Tesseract .traineddata 文件的目录，用于离线/内网环境

给开发者的一点信息

LiteParse 是一个 Rust 工作区（workspace），包含核心库和各语言绑定的 crate：

crates/
├── liteparse/          # 核心库 + CLI 二进制
├── liteparse-napi/     # Node.js 绑定 (napi-rs)
├── liteparse-python/   # Python 绑定 (PyO3)
├── liteparse-wasm/     # WASM 绑定 (wasm-bindgen)
├── pdfium/             # PDFium Rust 包装
└── pdfium-sys/         # PDFium FFI 绑定
packages/
├── node/               # npm 包 (TS 包装 + 原生二进制)
├── python/             # PyPI 包 (Python 包装 + 原生二进制)
└── wasm/               # WASM npm 包

编译相关命令：

# 编译 CLI
cargo build --release -p liteparse

# 编译 Node.js 绑定
cd packages/node && npm run build

# 编译 Python 绑定
cd packages/python && maturin develop --release

# 编译 WASM
cd packages/wasm && npm run build

项目里还有个 AGENTS.md / CLAUDE.md，对开发者和编码代理比较友好，有兴趣可以翻翻。

最后

LiteParse 不大，但很实在。如果你需要一个不联网、速度快、能 OCR、还能出坐标的 PDF 解析工具，直接装上试试。遇到复杂文档搞不定的，再切到 LlamaParse 云端方案也不迟。

项目地址：github搜索liteparse

顺手点个 Star 鼓励一下作者吧。

展开阅读全文

更新时间：2026-06-05

标签：科技神器快速绑定命令格式文档目录截图语言页面文件文字

1 2 3 4 5