AI 文本审核 — 文档 AI 率检测

对输入文档进行系统化的 AI 生成痕迹检测，输出结构化审核报告。

输入格式

支持以下文档格式：

.docx — Word 文档（使用 python-docx 或 docx skill 提取文本）
.pdf — PDF 文档（使用 pdfkit-py 或 PyPDF2 提取文本）
.txt / .md — 纯文本，直接读取

若用户直接粘贴文本内容，同样接受。

处理流程

文本提取 — 根据文档格式读取纯文本内容
分段扫描 — 将文本按段落拆分，逐段检测 AI 模式
模式匹配 — 遍历 references/ai-patterns.md 中定义的全部 32 类 AI 写作特征
命中统计 — 记录每类模式的命中次数、命中段落及具体文本证据
综合评分 — 按加权公式计算总体 AI 率
报告输出 — 生成结构化审核报告并写入 outputs/ai-audit-[文件名]-[日期].md

评分体系

总体 AI 率

总 AI 率 = Σ(各维度得分 × 权重) / Σ(权重) × 100%

自我暴露声明附加规则（优先于公式计算）： 若维度 20（自我暴露声明）得分 ≥ 7，则 AI 率取 max(公式结果, 70%)。此规则确保任何包含 AI 自我暴露的文档自动进入"高度疑似"区间。

最终结果为一个 0-100% 的百分比：

0-20% — 基本排除 AI 生成。文本自然，无明显 AI 模式。
20-40% — 低概率。存在少量 AI 特征。
40-60% — 可疑。多项 AI 模式出现，建议人工复核。
60-80% — 高度疑似。AI 生成概率较大，多维度集中命中，或存在自我暴露声明。
80-100% — 几乎确定 AI 生成。密集命中 + 自我暴露声明。

维度权重

| 维度类别 | 维度 | 权重 | |---------|------|------| | 内容模式 | 1. 夸大象征意义 | 8 | | 内容模式 | 2. 过度强调知名度 | 2 | | 内容模式 | 3. -ing 结尾肤浅分析 | 3 | | 内容模式 | 4. 宣传广告式语言 | 8 | | 内容模式 | 5. 模糊归因 | 3 | | 内容模式 | 6. 挑战与展望模板 | 8 | | 语言模式 | 7. AI 高频词汇 | 8 | | 语言模式 | 8. 系动词回避 | 2 | | 语言模式 | 9. 否定式排比 | 2 | | 语言模式 | 10. 三段式法则 | 8 | | 语言模式 | 11. 同义词循环 | 2 | | 语言模式 | 12. 虚假范围 | 2 | | 风格模式 | 13. 破折号过度使用 | 1 | | 风格模式 | 14. 粗体过度使用 | 1 | | 风格模式 | 15. 内联标题列表 | 2 | | 风格模式 | 16. 标题大写 | 1 | | 风格模式 | 17. 表情符号滥用 | 1 | | 风格模式 | 18. 弯引号 | 1 | | 交流模式 | 19. 协作交流痕迹 | 4 | | 交流模式 | 20. 自我暴露声明 | 14 | | 交流模式 | 21. 谄媚语气 | 4 | | 填充模式 | 22. 填充短语 | 2 | | 填充模式 | 23. 过度限定 | 2 | | 填充模式 | 24. 通用积极结论 | 8 | | 结构模式 | 25. 标题同构 | 8 | | 结构模式 | 26. 段落长度机械均匀 | 3 | | 结构模式 | 27. 案例空洞 | 8 | | 结构模式 | 28. 末端总结癖 | 8 | | 结构模式 | 29. 论证单向度 | 5 | | 结构模式 | 30. 过度解释 | 4 | | 结构模式 | 31. 逻辑链条缺失 | 8 | | 结构模式 | 32. 底层句法指纹单一性 | 8 |

总权重 = 151，满分 = 1510。v4.2 新增维度 32"底层句法指纹单一性"，检测"的"字密度、段落内部模板固化、句长分布、引导词重复率——这些是即便经过多轮人类纠错也不会被逐句修正的底层特征。P27（案例空洞）+ P31（逻辑链）+ P32（指纹单一）三对偶：低P27+低P31+高P32 = AI初稿+人类纠错。

单维度评分规则

每维度评分为 0-10 分（AI 痕迹越多分越高）：

0-2 分 — 未发现此模式
3-4 分 — 1-2 处疑似命中，为孤例
5-6 分 — 多处命中，呈现一定规律性
7-8 分 — 密集命中，此模式高度显著
9-10 分 — 全文弥漫此模式

报告模板

审核报告写入 outputs/ai-audit-[文档简称]-[日期].md，模板如下：

# AI 文本审核报告

**文档名称：** [文件名]
**审核日期：** [日期]
**文档总字数：** [字数]
**审核结论：** [判定等级]

---

## 总体 AI 率：XX%

| 类别 | 得分 | 命中数 |
|------|------|--------|
| 内容模式 | X/80 | X 处 |
| 语言模式 | X/80 | X 处 |
| 风格模式 | X/30 | X 处 |
| 交流模式 | X/40 | X 处 |
| 填充模式 | X/40 | X 处 |
| 结构模式 | X/80 | X 处 |

---

## 维度详细分析

### 一、内容模式

#### 1. 夸大象征意义 [权重3] 得分：X/10
- **命中 X 处**
- **证据：** `具体文本摘录（注明段落位置）`
- **说明：** 文本使用"标志着""彰显""深刻的"等夸大词汇

#### 2. 过度强调知名度 [权重2] 得分：X/10
- **命中 X 处**
- **证据：** ...

（其余维度同理）

---

## 高亮可疑段落

> [全文中最可疑的 3-5 个段落，标注 AI 模式类型]

---

## 综合判断

[一段 2-3 句的自然语言判断，说明主要发现和最突出的 AI 模式]

注意事项

交叉验证：单一模式命中可能是巧合，需结合多个维度综合判断
文本类型适配：学术论文、新闻稿、政府文件等不同类型文本的 AI 基准线不同，审核时需注明
避免过度检测：如果文本本身就是规范化的技术文档（如合同、说明书），部分 AI 模式可能为文体特征而非 AI 痕迹
提供证据：每个命中必须附带具体文本摘录，不允许空泛断言

审核纪律（必读）

以下规则用于防止审核者给出系统性偏低的 AI 率。完成审核后必须对照自检：

领域术语不是"去AI"信号。 现代 LLM 只要 prompt 中给了行业术语，就能忠实使用。不要把专业术语密度当作人类写作的证据。
精确数字不是"去AI"信号。 "每日 13:00""2 日响应""覆盖率≥20%"等精确约束，大概率来自 prompt 输入，不是 AI 的原创智慧。
自我暴露声明是强阳性证据。 文档中任何形式的"本文由 AI 生成""部分内容可能由 AI 生成""本文为通用性参考文档"等标注，直接视为强阳性。不要美化为"负责任的标注"。
变更日志/改版说明不能排除 AI。 LLM 完全可以生成"层级逻辑：……流程逻辑：……指标逻辑：……"这类元文本。
区分格式用语和 AI 修辞。 "为深入贯彻……特制定本方案"是文体要求；"谱写新时代新篇章"是 AI 痕迹。怀疑时优先判定为 AI 痕迹。
不要被结构完整性迷惑。 附件引用、层级目录、编号体系——这些 AI 都能生成。
预设偏向 AI 生成。 以"这段文本是 AI 写的"为假定前提去审视证据，而非以"这可能是人写的"为起点。只有找到无法反驳的人类特征时，才下调评级。

已知局限性

本技能在以下场景中存在系统性盲区：

专业细节幻觉： 现代 LLM 凭训练数据即可产出高仿真的技术细节（CLI 命令、端口号、标准编号），不需要用户喂素材。当维度 27（案例空洞）得分低但维度 31（逻辑链条缺失）得分高时，大概率是 AI 从训练数据中提取的知识碎片重组——细节丰富但缺乏因果推导。仅凭细节密度不能判定为人类写作。

应对方法： 维度 27 和 31 必须联合使用。细节丰富 + 逻辑链完整 → 人类；细节丰富 + 逻辑链缺失 → AI。

多轮纠错型 AI 生成： 人类可以通过多轮对话纠错将"人类信号"（逻辑链、具体细节、问题披露）注入 AI 初稿。此时 P27 和 P31 的表面得分会偏低，但底层句法指纹（P32）通常不会被逐句修正。当 P27 低 + P31 低 + P32 高时，极大概率是"AI 初稿 + 人类多轮纠错"。