返回 MCP 目录
public公开dns本地运行

pdf2md

基于MCP的高性能PDF转Markdown服务,支持本地文件和URL批量处理,保留文档结构并智能优化输出。

article

README

🚀 MCP-PDF2MD 服务

这是一个基于MCP的高性能PDF转Markdown转换服务,由MinerU API提供支持。它可以实现本地文件和URL链接的批量处理,并输出结构化结果,能高效满足大量PDF文件的转换需求。

🚀 快速开始

  1. 克隆仓库并进入目录:
git clone https://github.com/FutureUnreal/mcp-pdf2md.git
cd mcp-pdf2md
  1. 创建虚拟环境并安装依赖: Linux/macOS
uv venv
source .venv/bin/activate
uv pip install -e .

Windows

uv venv
.venv\Scripts\activate
uv pip install -e .
  1. 配置环境变量: 在项目根目录下创建一个.env文件,并设置以下环境变量:
MINERU_API_BASE=https://mineru.net/api/v4/extract/task
MINERU_BATCH_API=https://

✨ 主要特性

  • 格式转换:将PDF文件转换为带有结构的Markdown格式。
  • 多源支持:支持同时处理本地PDF文件和网络URL链接。
  • 智能处理:自动选择最佳处理方式。
  • 批处理支持:可批量处理多个文件,高效应对大量PDF文件的处理需求。
  • MCP集成:与Claude Desktop等大语言模型客户端无缝对接。
  • 结构保留:保持原文档结构,包括标题、段落、列表等内容。
  • 智能排版:输出符合人类阅读习惯的文字顺序,支持单列、多列及复杂版式。
  • 公式转换:自动识别并转换文档中的公式为LaTeX格式。
  • 表格提取:自动识别并转换文档中的表格为结构化格式。
  • 清理优化:删除页眉、页脚、注释、页码等,确保语义连贯。
  • 高质量提取:高质量提取PDF文档中的文字、图片和排版信息。

📦 安装指南

系统要求

  • 软件:Python 3.10+
help

运行方式说明

cloud

托管运行

托管运行通常表示这个 MCP Server 由服务方环境承载,用户一般按页面提供的连接方式或授权流程接入,不需要在本地长期启动一个 MCP 进程

  1. 打开服务方连接页
  2. 完成授权或复制端点
  3. 在 MCP 客户端中连接
terminal

本地运行 / 其它方式

本地运行通常需要用户在自己的电脑或服务器上安装依赖,把 server_config 复制到 MCP 客户端,并按 env_schema 补齐环境变量、密钥或其它配置

  1. 复制 server_config
  2. 安装所需依赖
  3. 补齐环境变量后重启客户端