返回 MCP 目录
public公开dns本地运行

sitemcp

sitemcp是一个能够抓取整个网站内容并将其作为MCP服务器使用的工具,支持自定义匹配页面、内容选择器等功能,适用于文档和博客类网站的快速检索。

article

README

🚀 sitemcp

sitemcp 是一款强大的工具,可用于抓取网站内容,并将其转换为 MCP 服务器。它源自 sitefetch,继承了其优秀特性并加以拓展。

🚀 快速开始

sitemcp 使用便捷,能快速帮助您抓取网站内容并转换为 MCP 服务器。下面为您详细介绍它的安装和使用方法。

📦 安装指南

一次性使用(选择其中一个命令)

bunx sitemcp
npx sitemcp
pnpx sitemcp

全局安装(选择其中一个命令)

bun i -g sitemcp
npm i -g sitemcp
pnpm i -g sitemcp

💻 使用示例

基础用法

sitemcp https://daisyui.com

# 或者使用更好的并发数
sitemcp https://daisyui.com --concurrency 10

工具名称策略

通过 -t, --tool-name-strategy 标志指定工具名称策略,该策略将用于 MCP 服务器名称(默认为 domain)。

sitemcp https://vite.dev -t domain # 按 Vite / 获取 Vite 文档
sitemcp https://react-tweet.vercel.app/ -t subdomain # 按 ReactTweet / 获取 ReactTweet 文档
sitemcp https://ryoppippi.github.io/vite-plugin-favicons/ -t pathname # 按 VitePluginFavicons / 获取 VitePluginFavicons 文档

最大内容长度

通过 -l, --max-length 标志指定内容的最大长度,默认为 2000 个字符。

sitemcp https://vite.dev -l 10000

匹配特定页面

使用 -m, --match 标志指定要抓取的页面:

sitemcp https://vite.dev -m "/blog/**" -m "/guide/**"

匹配模式由 micromatch 提供支持。

内容选择器

我们使用 mozilla/readability 从网页中提取可读内容,但在某些页面可能会返回不相关的内容。此时可以通过指定 CSS 选择器来指示工具获取所需内容:

sitemcp https://vite.dev --content-selector ".content"

📚 详细文档

配置 MCP 客户端的方法

您可以在 MCP 客户端(例如 Claude Desktop)中执行服务器。以下是一个针对 Claude Desktop 的示例配置:

{
  "mcpServers": {
    "daisy-ui": {
      "command": "npx",
      "args": [
        "-y",
        "sitemcp",
        "https://daisyui.com",
        "-m",
        "/components/**"
      ]
    }
  }
}

小贴士

⚠️ 重要提示

对于拥有大量页面的网站,建议在将 sitemcp 注册到 MCP 客户端之前运行。默认情况下,sitemcp 在 ~/.cache/sitemcp 目录下缓存页面。您可以通过 --no-cache 标志禁用此功能。

📄 许可证

本项目采用 MIT 许可证。

help

运行方式说明

cloud

托管运行

托管运行通常表示这个 MCP Server 由服务方环境承载,用户一般按页面提供的连接方式或授权流程接入,不需要在本地长期启动一个 MCP 进程

  1. 打开服务方连接页
  2. 完成授权或复制端点
  3. 在 MCP 客户端中连接
terminal

本地运行 / 其它方式

本地运行通常需要用户在自己的电脑或服务器上安装依赖,把 server_config 复制到 MCP 客户端,并按 env_schema 补齐环境变量、密钥或其它配置

  1. 复制 server_config
  2. 安装所需依赖
  3. 补齐环境变量后重启客户端