返回 Skill 列表
extension
分类: 其它无需 API Key

OCR 文字识别

截图/图片文字识别(OCR)- 提取图片中的文字,支持中英文、批量处理、表格还原

person作者: user_328225dfhubcommunity

OCR 文字识别技能

功能概述

识别截图或图片中的文字内容,支持:

  • 中英文混合识别
  • 批量处理多张图片
  • 保留原文段落结构和换行
  • 表格还原为 Markdown / CSV 格式

触发条件

当用户说出以下任何表达时,自动激活此技能:

  • "帮我识别这张截图"
  • "OCR"
  • "提取图片里的文字"
  • "截图里写的什么"
  • "把这张图转成文字"
  • "识别图片"
  • "图片里的文字提取出来"
  • 任何涉及从图片/截图中提取文字的请求

使用方式

用户提供图片文件路径(可多个),识别并返回其中的文字内容。

单张图片识别

用户提供一张图片路径,直接提取文字并返回。

批量识别

用户提供多张图片路径,依次处理每张图片并汇总结果。

表格识别

如果图片中包含表格,自动识别并转换为 Markdown 表格或 CSV 格式输出。

处理规则

  1. 使用 Read 工具读取图片文件(支持 .png, .jpg, .jpeg, .bmp, .webp 等常见格式)
  2. 识别后尽量保留原文的段落结构和换行位置
  3. 中英文混合内容正常识别,不遗漏任何字符
  4. 如果图片中有表格,判断最佳输出格式:
    • 简单表格 → Markdown 表格
    • 复杂/大数据表格 → CSV 格式
  5. 批量处理时按顺序输出,每张图片的结果用分隔线隔开,标明来源文件名
  6. 如果图片不清晰或无法识别,告知用户并建议提供更清晰的图片