返回 MCP 目录
public公开dns本地运行

mcp-smart-crawler

MCP Smart Crawler 是一个基于Playwright的网页内容爬取工具,专门用于提取小红书帖子的元数据和下载媒体资源。

article

README

🚀 MCP 智能爬虫

MCP 智能爬虫是一款模型上下文协议(MCP)服务器,它借助 Playwright 实现网页内容的抓取、元数据的提取,还能下载视频和图片等资源。

✨ 主要特性

  • 可从小红书(Xiaohongshu)帖子里提取标题、描述、图片等元数据。
  • 支持从小红书分享链接下载视频和图片。
  • 利用 Playwright 实现浏览器自动化操作。

🚀 快速开始

💻 使用示例

基础用法

要在您的 MCP 客户端中使用此服务器,请将以下配置添加到客户端的 MCP 服务器设置中。您需要根据服务器脚本的运行方式调整 commandargs 的值。

{
  "mcpServers": {
    "mcp-smart-crawler": {
      "command": "npx",
      "args": [
        "-y",
        "mcp-smart-crawler",
        "--download-folder", // 可选参数
        "c:\\downloads" // 可选参数值
      ]
    }
  }
}

示例对话

帮我查看这条小红书的内容和图片,并告诉我图片里面是什么。
59 XXX发布了一篇小红书笔记,快来看吧! 😆 OfTOBst2PsxctaX 😆 http://xhslink.com/a/xxaabbcczz,复制本条信息,打开【小红书】App查看精彩内容!

⚠️ 重要提示

需根据服务器脚本的运行方式调整配置中的 commandargs 的值。

help

运行方式说明

cloud

托管运行

托管运行通常表示这个 MCP Server 由服务方环境承载,用户一般按页面提供的连接方式或授权流程接入,不需要在本地长期启动一个 MCP 进程

  1. 打开服务方连接页
  2. 完成授权或复制端点
  3. 在 MCP 客户端中连接
terminal

本地运行 / 其它方式

本地运行通常需要用户在自己的电脑或服务器上安装依赖,把 server_config 复制到 MCP 客户端,并按 env_schema 补齐环境变量、密钥或其它配置

  1. 复制 server_config
  2. 安装所需依赖
  3. 补齐环境变量后重启客户端