返回 Skill 列表
extension
分类: 数据与分析无需 API Key

数据清洗神器

数据清洗与格式转换神器。处理脏数据、格式标准化、编码转换、批量文件格式转换(CSV/JSON/XML/YAML/Excel互转)、正则提取替换、列映射重命名、数据校验、地址/电话/身份证/邮箱标准化。当用户需要清洗脏数据、格式转换、数据标准化、编码问题修复、批量文件格式互转、正则处理数据时触发。

person作者: user_176cb31chubcommunity

Data Clean & Transform

数据清洗与格式转换全能工具,让脏数据变干净、杂格式变统一。

核心能力

  1. 格式互转 - CSV/JSON/XML/YAML/Excel/TSV 自由转换
  2. 数据清洗 - 去重、空值处理、异常值修复、格式标准化
  3. 编码修复 - 乱码检测与修复、编码转换(UTF-8/GBK/GB2312/Latin1)
  4. 正则处理 - 正则提取、替换、拆分列
  5. 列操作 - 重命名、映射、拆分、合并、类型转换
  6. 数据校验 - 邮箱/手机号/身份证/地址格式验证
  7. 批量处理 - 目录级批量文件转换和清洗

快速开始

格式转换

python3 scripts/data_ops.py convert data.csv --to json -o data.json
python3 scripts/data_ops.py convert data.xlsx --to csv -o data.csv
python3 scripts/data_ops.py convert data.json --to yaml -o data.yaml

编码检测与修复

python3 scripts/data_ops.py fix-encoding data.csv --target-encoding utf-8 -o fixed.csv

数据清洗

python3 scripts/data_ops.py clean data.csv --dedup --trim --fill-na "N/A" --normalize-space -o cleaned.csv

正则提取

python3 scripts/data_ops.py regex data.csv --column "备注" --pattern "手机号: (\d{11})" --extract -o phones.csv

列操作

python3 scripts/data_ops.py rename-cols data.csv --mapping '{"姓名": "name", "年龄": "age"}' -o renamed.csv

数据校验

python3 scripts/data_ops.py validate data.csv --column "邮箱" --type email --report validation.json

批量转换

python3 scripts/data_ops.py batch-convert ./data_dir/ --from csv --to json --output-dir ./json_output/

依赖安装

pip install pandas openpyxl pyyaml chardet

命令参考

详见 references/cli-reference.md