返回 Skill 列表
extension
分类: 其它无需 API Key

parse

将 HTML 页面内容解析为半结构化的 JSON 数据。支持提取表格、列表、表单和纯文本。

person作者: user_223dc0b0hubcommunity

DomParseSkill

本技能利用大模型的理解能力和解析工具,将复杂的 HTML DOM 结构转换为易于处理的 JSON 格式。

工作流程

  1. 接收输入:获取待解析的 HTML 字符串或本地 HTML 文件路径。
  2. 结构识别
    • 表格提取:识别 <table> 标签,提取表头和行数据。
    • 列表提取:识别重复的容器结构(如 div.item, li),提取其中的关键字段。
    • 表单提取:识别输入框、下拉框及其当前值。
  3. 语义映射:根据页面上下文,将提取的原始文本映射到有意义的键值对(如将 "订单号:123" 转为 {"order_id": "123"})。
  4. 生成 JSON:构建统一的半结构化 JSON 对象。
  5. 验证与清洗:去除冗余的 HTML 标签和空白字符,确保数据整洁。

关键指令

  • "解析该页面的订单表格并转为 JSON"
  • "从 HTML 中提取商家的基本信息和配置参数"

注意事项

  • 对于结构极其复杂的页面,可以先使用 BeautifulSoup 进行初步清洗,再交给大模型进行语义提取。
  • 确保生成的 JSON 格式符合后续存储或分析的要求。