DataProcess Debug — 数据处理全流程工具

处理得了·修得好·洗得净·跑得稳

核心定位

数据处理的"急诊室+健身房"——出了问题来急诊（DebugRunner），日常训练来健身（IterateOptimizer），全程配营养师（DataCleaner）。

5大核心模块

1. ProcessEngine — 数据处理配置生成 + 结果解析

scripts/process-engine.py config --url URL --fields 字段1 字段2 --mode static|dynamic|api
scripts/process-engine.py extract --html "HTML内容" --fields 字段1 字段2

站点类型自动识别（电商/B2B/社媒/内容/政府/开发者）
3种模式工具推荐 + CSS/XPath选择器建议
HTML结构化提取（文本/链接/图片/表格/列表）

2. CodeGenerator — 数据处理代码自动生成

scripts/code-generator.py --name 项目名 --url URL --fields 字段1 字段2 --mode requests_bs4|playwright|api_client

3种模板自动选择：静态页面/动态渲染/API接口
生成完整可运行代码 + 依赖安装 + 使用步骤

3. DebugRunner — 代码调试与修复

scripts/debug-runner.py --error "错误信息"

8类错误模式库：connection/http_error/timeout/selector_error/encoding/json_parse/selenium_playwright/rate_limit
HTTP子类型精准诊断（403限流/429限流/503服务不可用等各有方案）
代码片段扫描（缺异常处理/超时/延迟/UA自动检测）

4. DataCleaner — 数据清洗格式化

scripts/data-cleaner.py clean --input 数据 --remove-html --remove-duplicates
scripts/data-cleaner.py normalize --input 数据 --schema 类型定义
scripts/data-cleaner.py format --input 数据 --format json|csv|jsonl --fields 字段列表

5. IterateOptimizer — 自我迭代优化

scripts/iterate-optimizer.py analyze --input 运行历史.json
scripts/iterate-optimizer.py improve --config 当前配置 --analysis 分析结果

成功率趋势 / 错误聚类 / 字段覆盖率 / 优化建议
自动调整延迟/超时/重试/模式切换

合规声明

核心原则

遵守 robots.txt：先检查目标站点的 robots.txt 协议
控制请求频率：合理设置请求间隔，避免对服务器造成压力
使用官方 API：优先使用官方提供的 API 接口获取数据
合法授权：仅处理有合法授权的数据

常见问题处理建议

| 问题 | 建议方案 | |------|----------| | 连接失败 | 检查URL有效性，添加重试机制 | | 超时错误 | 增加超时时间，等待后重试 | | 选择器失效 | 检查页面结构，更新选择器 | | 编码问题 | 指定正确编码，使用容错解析 |

动态页面处理

当目标站点使用 JavaScript 渲染内容时：

使用 Playwright 等工具进行页面渲染
等待页面完全加载后再提取数据
添加适当的页面等待时间

注意事项

本技能旨在帮助开发者调试和处理已获取的公开数据
不鼓励也不支持任何形式的未授权数据访问
使用前请确保您的数据获取行为符合目标站点的服务条款

使用流程

配置: process-engine.py config → 了解目标站点+推荐方案
生成代码: code-generator.py → 获得起始代码模板
调试: 遇错 → debug-runner.py → 秒级诊断
清洗: data-cleaner.py → 去重+标准化+格式化
迭代: iterate-optimizer.py → 基于运行数据持续改进