返回 Skill 列表
extension
分类: 其它无需 API Key

妈妈网爬虫

妈妈网育儿知识爬虫(PC端),爬取mama.cn育儿文章,输出Markdown至~/.yuzhi/crawls/mama_cn/。默认PC端UA,按分类/关键词爬取。触发:帝说「爬取妈妈网」「/爬虫」或需采集育儿知识。

person作者: zton100hubclawhub

妈妈网育儿知识爬虫(PC端)

命令

python3 scripts/mama_crawler.py --category <分类> --max-pages <页数> --max-articles <数量>

按分类爬取妈妈网文章(PC端)。

分类选项:

  • baby — 亲子
  • yingyang — 营养
  • disease — 疾病
  • lady — 女性
  • yongpin — 用品
  • life — 生活

python3 scripts/mama_crawler.py --search <关键词> --max-articles <数量>

通过PC端搜索爬取相关文章。

python3 scripts/mama_crawler.py --all --max-pages 3 --max-articles 30

爬取所有分类(慎用,会花较长时间)。

输出

文章保存到 ~/.yuzhi/crawls/mama_cn/<分类名>/ 目录下,每个文章一个 .md 文件,包含标题、来源、日期和正文。

反爬机制

  • 每次请求间隔 2-5 秒随机延迟
  • 使用桌面浏览器 User-Agent
  • 不验证 SSL 证书

技术说明

  • 默认 PC 端(www.mama.cn),结构稳定
  • 文章 URL 格式:https://www.mama.cn/z/art/<id>/
  • PC 端分类页面文章较少,建议使用 --search 关键词搜索模式获取更多内容