返回 Skill 列表
extension
分类: 数据与分析无需 API Key

Novel Scraper

智能小说抓取工具,自动翻页、分页补全、章节号解析。使用 curl+BeautifulSoup 抓取笔趣阁等网站,输出格式化 TXT;每 10 章合并为一份文档,自动跳过作者感言、抽奖等非正文内容。适用于批量抓取网络小说章节。

person作者: yuzhihui886hubclawhub

Novel Scraper - 小说抓取工具

版本说明:novel-scraper 提供两个版本,根据需求选择使用。


📦 版本对比

| 特性 | v1.4.0(生产版) | V5(智能版) | |------|------------------|--------------| | 章节号解析 | URL ID 推算 | 标题提取 ✅ | | 分页检测 | ❌ 无 | ✅ 自动 ✅ | | 分页补全 | ❌ 无 | ✅ 自动(最多 5 页)✅ | | 非小说跳过 | ❌ 无 | ✅ 智能判断 ✅ | | 质量验证 | ❌ 无 | ✅ 基础验证 ✅ | | 连续性检查 | ❌ 无 | ✅ 自动检查 ✅ | | 代码量 | 34KB | 18KB | | 速度 | ⚡ 最快 | ⚡ 快 | | 推荐场景 | 日常批量抓取 | 高质量/分页章节 |


🚀 快速开始

v1.5.0(推荐)- 按章节号抓取

cd ~/.openclaw/workspace/skills/novel-scraper
python3 scripts/scraper_v5.py \
  --chapters 301-400 \
  --book "没钱修什么仙" \
  --merge-interval 10

特点

  • 按章节号精确筛选(修复索引切片 bug)
  • ✅ 自动提示缺失章节
  • ✅ 分页自动补全
  • ✅ 适合按章节范围抓取的场景

v1.4.0(生产版)- 日常使用

cd ~/.openclaw/workspace/skills/novel-scraper
python3 scripts/scraper.py \
  --urls "https://www.bqquge.com/4/1962,https://www.bqquge.com/4/1963,..." \
  --book "没钱修什么仙" \
  --merge-interval 10

特点

  • ✅ 稳定可靠
  • ✅ 速度最快
  • ✅ 适合已知章节 URL 连续的场景

V5(智能版)- 高质量抓取

python3 scripts/scraper_v5.py \
  --chapters 301-400 \
  --book "没钱修什么仙" \
  --merge-interval 10

特点

  • ✅ 章节号自动解析
  • ✅ 分页自动补全
  • ✅ 非小说内容智能跳过
  • ✅ 适合分页章节较多的场景

📋 命令行参数

v1.5.0 参数(推荐)

| 参数 | 说明 | 默认值 | |------|------|--------| | --chapters | 章节号范围(格式:起始 - 结束) | - | | --url | 单章 URL | - | | --urls | 多章 URL(逗号分隔) | - | | --book | 书名 | 自动提取 | | --merge-interval | 每 N 章合并 | 10 | | --memory-limit | 内存限制 MB | 2500 | | --auto-close | 每 N 章释放内存 | 3 | | --retry | 重试次数 | 3 |

⚠️ v1.5.0 重要修复

  • 修复索引切片 bug(之前 data[300:400] 错误对应章节号 300-419)
  • 新增 --chapters 参数,按章节号精确筛选
  • 自动提示缺失章节(网站目录中没有的章节)

V5 参数

| 参数 | 说明 | 默认值 | |------|------|--------| | --chapters | 章节号范围(格式:起始 - 结束) | - | | --url | 单章 URL | - | | --urls | 多章 URL(逗号分隔) | - | | --book | 书名 | 自动提取 | | --merge-interval | 每 N 章合并 | 10 | | --strict | 严格质量验证 | 关闭 | | -v | 详细日志 | 关闭 |


📁 输出位置

~/.openclaw/workspace/novels/

文件名格式

  • 多章合并:书名_第 X-Y 章.txt
  • 单章:书名_第 X 章.txt

🧪 测试验证

| 测试场景 | 版本 | 结果 | |----------|------|------| | 第 1-10 章 | V5 | ✅ 119KB,完整 | | 第 11-20 章 | V5 | ✅ 100KB,完整 | | 第 111-210 章 | v1.4.0 | ✅ 10 个文件,~700KB | | 分页补全 | V5 | ✅ 28 段→112 段 | | 非小说跳过 | V5 | ✅ 自动跳过 |


🔧 故障排除

抓取内容为空

  1. 检查 URL 格式
  2. 清除缓存:rm -rf /tmp/novel_scraper_cache/*
  3. 检查网站是否可访问

章节号不正确

  • 使用 V5 自动从标题解析章节号

文件保存位置

ls -lt ~/.openclaw/workspace/novels/ | head -5

版本: 1.4.0
更新: 2026-04-02
详见: CHANGELOG.md