AI 文本审核 — 文档 AI 率检测
对输入文档进行系统化的 AI 生成痕迹检测,输出结构化审核报告。
输入格式
支持以下文档格式:
.docx— Word 文档(使用 python-docx 或 docx skill 提取文本).pdf— PDF 文档(使用 pdfkit-py 或 PyPDF2 提取文本).txt/.md— 纯文本,直接读取
若用户直接粘贴文本内容,同样接受。
处理流程
- 文本提取 — 根据文档格式读取纯文本内容
- 分段扫描 — 将文本按段落拆分,逐段检测 AI 模式
- 模式匹配 — 遍历
references/ai-patterns.md中定义的全部 32 类 AI 写作特征 - 命中统计 — 记录每类模式的命中次数、命中段落及具体文本证据
- 综合评分 — 按加权公式计算总体 AI 率
- 报告输出 — 生成结构化审核报告并写入
outputs/ai-audit-[文件名]-[日期].md
评分体系
总体 AI 率
总 AI 率 = Σ(各维度得分 × 权重) / Σ(权重) × 100%
自我暴露声明附加规则(优先于公式计算): 若维度 20(自我暴露声明)得分 ≥ 7,则 AI 率取 max(公式结果, 70%)。此规则确保任何包含 AI 自我暴露的文档自动进入"高度疑似"区间。
最终结果为一个 0-100% 的百分比:
- 0-20% — 基本排除 AI 生成。文本自然,无明显 AI 模式。
- 20-40% — 低概率。存在少量 AI 特征。
- 40-60% — 可疑。多项 AI 模式出现,建议人工复核。
- 60-80% — 高度疑似。AI 生成概率较大,多维度集中命中,或存在自我暴露声明。
- 80-100% — 几乎确定 AI 生成。密集命中 + 自我暴露声明。
维度权重
| 维度类别 | 维度 | 权重 | |---------|------|------| | 内容模式 | 1. 夸大象征意义 | 8 | | 内容模式 | 2. 过度强调知名度 | 2 | | 内容模式 | 3. -ing 结尾肤浅分析 | 3 | | 内容模式 | 4. 宣传广告式语言 | 8 | | 内容模式 | 5. 模糊归因 | 3 | | 内容模式 | 6. 挑战与展望模板 | 8 | | 语言模式 | 7. AI 高频词汇 | 8 | | 语言模式 | 8. 系动词回避 | 2 | | 语言模式 | 9. 否定式排比 | 2 | | 语言模式 | 10. 三段式法则 | 8 | | 语言模式 | 11. 同义词循环 | 2 | | 语言模式 | 12. 虚假范围 | 2 | | 风格模式 | 13. 破折号过度使用 | 1 | | 风格模式 | 14. 粗体过度使用 | 1 | | 风格模式 | 15. 内联标题列表 | 2 | | 风格模式 | 16. 标题大写 | 1 | | 风格模式 | 17. 表情符号滥用 | 1 | | 风格模式 | 18. 弯引号 | 1 | | 交流模式 | 19. 协作交流痕迹 | 4 | | 交流模式 | 20. 自我暴露声明 | 14 | | 交流模式 | 21. 谄媚语气 | 4 | | 填充模式 | 22. 填充短语 | 2 | | 填充模式 | 23. 过度限定 | 2 | | 填充模式 | 24. 通用积极结论 | 8 | | 结构模式 | 25. 标题同构 | 8 | | 结构模式 | 26. 段落长度机械均匀 | 3 | | 结构模式 | 27. 案例空洞 | 8 | | 结构模式 | 28. 末端总结癖 | 8 | | 结构模式 | 29. 论证单向度 | 5 | | 结构模式 | 30. 过度解释 | 4 | | 结构模式 | 31. 逻辑链条缺失 | 8 | | 结构模式 | 32. 底层句法指纹单一性 | 8 |
总权重 = 151,满分 = 1510。v4.2 新增维度 32"底层句法指纹单一性",检测"的"字密度、段落内部模板固化、句长分布、引导词重复率——这些是即便经过多轮人类纠错也不会被逐句修正的底层特征。P27(案例空洞)+ P31(逻辑链)+ P32(指纹单一)三对偶:低P27+低P31+高P32 = AI初稿+人类纠错。
单维度评分规则
每维度评分为 0-10 分(AI 痕迹越多分越高):
- 0-2 分 — 未发现此模式
- 3-4 分 — 1-2 处疑似命中,为孤例
- 5-6 分 — 多处命中,呈现一定规律性
- 7-8 分 — 密集命中,此模式高度显著
- 9-10 分 — 全文弥漫此模式
报告模板
审核报告写入 outputs/ai-audit-[文档简称]-[日期].md,模板如下:
# AI 文本审核报告
**文档名称:** [文件名]
**审核日期:** [日期]
**文档总字数:** [字数]
**审核结论:** [判定等级]
---
## 总体 AI 率:XX%
| 类别 | 得分 | 命中数 |
|------|------|--------|
| 内容模式 | X/80 | X 处 |
| 语言模式 | X/80 | X 处 |
| 风格模式 | X/30 | X 处 |
| 交流模式 | X/40 | X 处 |
| 填充模式 | X/40 | X 处 |
| 结构模式 | X/80 | X 处 |
---
## 维度详细分析
### 一、内容模式
#### 1. 夸大象征意义 [权重3] 得分:X/10
- **命中 X 处**
- **证据:** `具体文本摘录(注明段落位置)`
- **说明:** 文本使用"标志着""彰显""深刻的"等夸大词汇
#### 2. 过度强调知名度 [权重2] 得分:X/10
- **命中 X 处**
- **证据:** ...
(其余维度同理)
---
## 高亮可疑段落
> [全文中最可疑的 3-5 个段落,标注 AI 模式类型]
---
## 综合判断
[一段 2-3 句的自然语言判断,说明主要发现和最突出的 AI 模式]
注意事项
- 交叉验证:单一模式命中可能是巧合,需结合多个维度综合判断
- 文本类型适配:学术论文、新闻稿、政府文件等不同类型文本的 AI 基准线不同,审核时需注明
- 避免过度检测:如果文本本身就是规范化的技术文档(如合同、说明书),部分 AI 模式可能为文体特征而非 AI 痕迹
- 提供证据:每个命中必须附带具体文本摘录,不允许空泛断言
审核纪律(必读)
以下规则用于防止审核者给出系统性偏低的 AI 率。完成审核后必须对照自检:
- 领域术语不是"去AI"信号。 现代 LLM 只要 prompt 中给了行业术语,就能忠实使用。不要把专业术语密度当作人类写作的证据。
- 精确数字不是"去AI"信号。 "每日 13:00""2 日响应""覆盖率≥20%"等精确约束,大概率来自 prompt 输入,不是 AI 的原创智慧。
- 自我暴露声明是强阳性证据。 文档中任何形式的"本文由 AI 生成""部分内容可能由 AI 生成""本文为通用性参考文档"等标注,直接视为强阳性。不要美化为"负责任的标注"。
- 变更日志/改版说明不能排除 AI。 LLM 完全可以生成"层级逻辑:……流程逻辑:……指标逻辑:……"这类元文本。
- 区分格式用语和 AI 修辞。 "为深入贯彻……特制定本方案"是文体要求;"谱写新时代新篇章"是 AI 痕迹。怀疑时优先判定为 AI 痕迹。
- 不要被结构完整性迷惑。 附件引用、层级目录、编号体系——这些 AI 都能生成。
- 预设偏向 AI 生成。 以"这段文本是 AI 写的"为假定前提去审视证据,而非以"这可能是人写的"为起点。只有找到无法反驳的人类特征时,才下调评级。
已知局限性
本技能在以下场景中存在系统性盲区:
专业细节幻觉: 现代 LLM 凭训练数据即可产出高仿真的技术细节(CLI 命令、端口号、标准编号),不需要用户喂素材。当维度 27(案例空洞)得分低但维度 31(逻辑链条缺失)得分高时,大概率是 AI 从训练数据中提取的知识碎片重组——细节丰富但缺乏因果推导。仅凭细节密度不能判定为人类写作。
应对方法: 维度 27 和 31 必须联合使用。细节丰富 + 逻辑链完整 → 人类;细节丰富 + 逻辑链缺失 → AI。
多轮纠错型 AI 生成: 人类可以通过多轮对话纠错将"人类信号"(逻辑链、具体细节、问题披露)注入 AI 初稿。此时 P27 和 P31 的表面得分会偏低,但底层句法指纹(P32)通常不会被逐句修正。当 P27 低 + P31 低 + P32 高时,极大概率是"AI 初稿 + 人类多轮纠错"。
微信扫一扫