DataProcess Debug — 数据处理全流程工具
处理得了·修得好·洗得净·跑得稳
核心定位
数据处理的"急诊室+健身房"——出了问题来急诊(DebugRunner),日常训练来健身(IterateOptimizer),全程配营养师(DataCleaner)。
5大核心模块
1. ProcessEngine — 数据处理配置生成 + 结果解析
scripts/process-engine.py config --url URL --fields 字段1 字段2 --mode static|dynamic|api
scripts/process-engine.py extract --html "HTML内容" --fields 字段1 字段2
- 站点类型自动识别(电商/B2B/社媒/内容/政府/开发者)
- 3种模式工具推荐 + CSS/XPath选择器建议
- HTML结构化提取(文本/链接/图片/表格/列表)
2. CodeGenerator — 数据处理代码自动生成
scripts/code-generator.py --name 项目名 --url URL --fields 字段1 字段2 --mode requests_bs4|playwright|api_client
- 3种模板自动选择:静态页面/动态渲染/API接口
- 生成完整可运行代码 + 依赖安装 + 使用步骤
3. DebugRunner — 代码调试与修复
scripts/debug-runner.py --error "错误信息"
- 8类错误模式库:connection/http_error/timeout/selector_error/encoding/json_parse/selenium_playwright/rate_limit
- HTTP子类型精准诊断(403限流/429限流/503服务不可用等各有方案)
- 代码片段扫描(缺异常处理/超时/延迟/UA自动检测)
4. DataCleaner — 数据清洗格式化
scripts/data-cleaner.py clean --input 数据 --remove-html --remove-duplicates
scripts/data-cleaner.py normalize --input 数据 --schema 类型定义
scripts/data-cleaner.py format --input 数据 --format json|csv|jsonl --fields 字段列表
5. IterateOptimizer — 自我迭代优化
scripts/iterate-optimizer.py analyze --input 运行历史.json
scripts/iterate-optimizer.py improve --config 当前配置 --analysis 分析结果
- 成功率趋势 / 错误聚类 / 字段覆盖率 / 优化建议
- 自动调整延迟/超时/重试/模式切换
合规声明
核心原则
- 遵守 robots.txt:先检查目标站点的 robots.txt 协议
- 控制请求频率:合理设置请求间隔,避免对服务器造成压力
- 使用官方 API:优先使用官方提供的 API 接口获取数据
- 合法授权:仅处理有合法授权的数据
常见问题处理建议
| 问题 | 建议方案 | |------|----------| | 连接失败 | 检查URL有效性,添加重试机制 | | 超时错误 | 增加超时时间,等待后重试 | | 选择器失效 | 检查页面结构,更新选择器 | | 编码问题 | 指定正确编码,使用容错解析 |
动态页面处理
当目标站点使用 JavaScript 渲染内容时:
- 使用 Playwright 等工具进行页面渲染
- 等待页面完全加载后再提取数据
- 添加适当的页面等待时间
注意事项
- 本技能旨在帮助开发者调试和处理已获取的公开数据
- 不鼓励也不支持任何形式的未授权数据访问
- 使用前请确保您的数据获取行为符合目标站点的服务条款
使用流程
- 配置:
process-engine.py config→ 了解目标站点+推荐方案 - 生成代码:
code-generator.py→ 获得起始代码模板 - 调试: 遇错 →
debug-runner.py→ 秒级诊断 - 清洗:
data-cleaner.py→ 去重+标准化+格式化 - 迭代:
iterate-optimizer.py→ 基于运行数据持续改进
微信扫一扫