Scrapling 技能

使用 Scrapling 框架进行安全的网页数据抓取和内容提取。

安全说明

仅用于合法用途，严格遵守以下限制：

✅ 仅抓取公开网站：遵守 robots.txt 和网站服务条款
✅ 路径输出受限：结果文件只能保存到用户主目录
✅ 无危险函数：不使用 eval/exec 等危险函数
✅ 严格的超时控制：防止无限等待
✅ 频率限制：自动添加请求延迟，避免对目标造成压力
❌ 禁止抓取私有内容：仅抓取公开可访问页面
❌ 禁止大规模爬取：默认并发限制为 1

核心功能

🕷️ 多种抓取模式：HTTP/隐身/浏览器自动化
🎯 智能元素定位：自适应选择器，网站改版后仍有效
📄 数据提取：CSS/XPath/文本/正则搜索
💾 结果保存：保存到 JSON/TXT/MD 文件（路径受限）
🔍 内容解析：类似 Scrapy 的 API，易于使用

使用场景

抓取公开新闻和资讯
提取商品信息（电商网站）
收集公开数据（天气、股票等）
网站内容监控

触发词

"scrapling 抓取..."
"scrapling 提取..."
"scrapling 爬取..."
"scrapling 获取..."

快速开始

基本抓取

# HTTP 请求抓取
scrapling get 'https://example.com' --output ~/result.json

# 隐身模式抓取
scrapling stealthy 'https://example.com' --output ~/result.json

# 浏览器自动化（动态内容）
scrapling dynamic 'https://example.com' --output ~/result.json

指定选择器

# 使用 CSS 选择器
scrapling get 'https://quotes.toscrape.com' --css-selector '.quote' --output ~/quotes.json

# 提取特定字段
scrapling get 'https://quotes.toscrape.com' --css-selector '.quote .text' --output ~/text.txt

高级用法

# 隐身模式 + 解决 Cloudflare
scrapling stealthy 'https://nopecha.com/demo/cloudflare' --solve-cloudflare --output ~/result.json

# 并发抓取（限制为 1）
scrapling spider 'https://example.com' --concurrent 1 --output ~/crawl.json

安装要求

Python 3.10+
需要安装 Scrapling: pip install scrapling[fetchers]
需要浏览器依赖：scrapling install

注意事项

需要本地安装 Scrapling 和相关依赖
默认请求延迟 1 秒，避免对目标造成压力
仅抓取公开可访问的页面
遵守 robots.txt 和网站服务条款
输出文件路径必须在用户主目录

版本历史

1.0.0 - 初始版本

Scrapling Safe

Scrapling 技能

安全说明

核心功能

使用场景

触发词

快速开始

基本抓取

指定选择器

高级用法

安装要求

注意事项

版本历史