论文CT·七维漏洞扫描系统

核心理念：CT三步法 —— 穿透→诊断→处方

像医院CT扫描仪一样，对学术论文做穿透式七维深度扫描，不只找问题，更给出精准修复处方。一句话交给AI，全自动完成全部检测，你只看报告和改稿。

隐私声明 ⚠️

本Skill 不收集、不上传、不存储任何用户论文内容——所有检测在本地完成
无需联网、无需注册、无需发送文件到任何外部服务器
仅使用 Python 标准库 + 3个轻量依赖（python-docx/pdfplumber/chardet），无遥测、无追踪

🎯 CT三步法（核心方法论）

第一步：穿透扫描（7个维度并行）
   ↓ 提取全文 → 数据索引 → 特征分析 → 交叉验证
第二步：综合诊断（加权评分+等级判定）
   ↓ 七维独立评分 → 加权总分 → 风险等级 → 智能排序
第三步：精准处方（优先修复清单+具体建议）
   ↓ 按严重程度排列 → 逐项给修改方向 → 预防复发建议

这不是一个"检查工具"，而是一套完整的「论文健康管理系统」。

AI 全自动工作流（用户零操作）

当用户说以下任意一句话时，触发本Skill并自动执行全部流程：

"帮我检测这篇论文" / "论文有问题吗" / "投稿前检查一下" / "用论文CT扫一下"

自动执行流程（AI负责全部，用户不用敲任何命令）

1. 接收输入（文件路径 / 文件夹 / 粘贴文本 / IMA附件）
       ↓
2. 调用主控引擎：
   python scripts/paper_ct_scan.py --input <路径> --output output/
       ↓
3. 引擎自动执行7个检测模块，生成3份输出文件
       ↓
4. AI读取 report_summary.md，整理成用户友好的摘要呈现
       ↓
5. 附带「优先修复清单」和「预防建议」

输出文件说明

| 文件 | 用途 | 谁看 | |------|------|------| | output/report_summary.md | 完整检测报告（人类可读） | 用户 | | output/report_detail.json | 结构化详细数据（程序可读） | 开发/二次处理 | | output/scores.json | 七维评分+总分+等级 | 快速概览 |

七维检测矩阵

| # | 维度 | 权重 | 核心问题 | 不通过后果 | |---|------|------|---------|-----------| | 1 | 📐 排版规范 | 10% | 字体/标题/行距/图表编号/参考文献GB/T 7714 | 第一印象差，初审易被退 | | 2 | 🔎 内容真实 | 25% | 数据出处/引用存在性/前后一致性 | 最致命——直接拒稿 | | 3 | ⚙️ 可行性 | 15% | 方法合理性/样本量/时间线/资源匹配 | 审稿人质疑研究设计 | | 4 | 🧠 内容真伪 | 15% | 事实交叉验证/统计合理/逻辑谬误 | 学术信誉受损 | | 5 | 🤖 AI痕迹 | 15% | 段落均匀度/空洞语言/公式化过渡/虚构引用 | 越来越被编辑部重视 | | 6 | 📋 学术规范 | 10% | 抄袭迹象/伦理合规/文献完整/基金披露 | 基本底线，不达标必退 | | 7 | 🎯 期刊适配 | 10% | 方向匹配/字数合规/级别对等/结构完整 | 投稿命中率低 |

检测报告样例

╔══════════════════════════════════════════╗
║     📋 论文CT检测报告                     ║
╠══════════════════════════════════════════╣
║  论文：《气排球大单元教学实践研究》        ║
║  总评分：78.5/100  ✅ 良好               ║
║  🔴 严重：2项  🟡 注意：5项  🟢 通过：—  ║
╠══════════════════════════════════════════╣
║  📐 排版规范：82/100  🟢                 ║
║  🔎 内容真实：65/100  🟡 ← 重点修复      ║
║  ⚙️ 可行性：    88/100  🟢               ║
║  🧠 内容真伪：75/100  🟡                 ║
║  🤖 AI痕迹：   91/100  🟢               ║
║  📋 学术规范：70/100  🟡                 ║
║  🎯 期刊适配：85/100  🟢                 ║
╠══════════════════════════════════════════╣
║  ⚡ TOP3 优先修复：                      ║
║  1. 🔴 [内容真实] 样本量前后不一致        ║
║  2. 🔴 [内容真实] 引用文献疑似虚构        ║
║  3. 🟡 [学术规范] 正文缺少引用标记        ║
╚══════════════════════════════════════════╝

能力边界（本Skill不做的事）

| 不能做的事 | 原因 | 建议替代方案 | |-----------|------|-------------| | 查重检测（对比已有文献库） | 需要海量数据库支持 | 知网查重 / 维普查重 | | 语法/错别字校正 | 不是本系统定位 | WPS审阅模式 / 秘塔写作 | | 英文论文润色 | 当前专注中文学术论文 | Grammarly / DeepL | | 替你改写论文 | 只诊断不开药方是原则 | 根据报告自行修改 | | 保证发表论文 | 检测≠录用，质量是基础 | 结合报告修改后投稿 | | 检测非学术文本（小说/公文/合同） | 检测规则专为学术论文设计 | 不适用 |

环境要求

操作系统：Windows 10/11、HarmonyOS NEXT（鸿蒙）、Linux、macOS（全平台支持）
Python：3.8+（使用了 f-string 和 statistics 模块）
鸿蒙特别说明：鸿蒙系统终端默认UTF-8编码，无需任何特殊设置，装好Python和依赖即可直接运行
依赖安装：pip install python-docx pdfplumber chardet
权限：普通用户权限即可，无需管理员
文件编码：UTF-8（自动兼容 GBK/GB18030）

异常处理承诺

本Skill的硬性原则：异常绝不静默跳过。

所有检测模块遵循统一的异常全景报告机制：

文件读取失败 → 明确告知哪个文件、什么原因（权限/格式/编码）、建议怎么解决
依赖缺失 → 精确告知缺哪个包、给出安装命令（不笼统说"请安装依赖"）
模块执行出错 → 记录错误信息到报告，该维度标记为"⚠️ 检测中断"，不影响其他维度
数据不足（如正文<50字） → 明确提示"内容过短无法检测"，不产生假结果
超时保护 → 单个模块最长60秒，避免卡死

每份报告末尾附带 操作日志，记录实际执行的步骤和跳过的原因。

FAQ（常见问题）

🟢 基础问题

Q1: 这个Skill安全吗？会泄露我的论文吗？ A: 绝对安全。所有检测在本地完成，论文内容不会上传到任何服务器。不联网、不注册、不留痕。隐私声明见上方。

Q2: 需要安装什么软件？ A: 只需要 Python 3.8+ 和三个轻量包。一行命令搞定：pip install python-docx pdfplumber chardet。没有其他依赖。

Q3: 支持哪些文件格式？ A: .docx（Word文档）、.pdf（PDF文档）、.txt（纯文本）、.md（Markdown）。推荐用 .docx 格式，信息保留最完整。

Q4: 检测一篇论文大概要多久？ A: 通常 5-15 秒（取决于论文字数和文件格式）。PDF 稍慢因为需要解析，纯文本最快。

Q5: 检测失败了怎么办？ A: 报告会明确告诉你哪一步失败、为什么失败。常见原因：（1）依赖没装 → 运行 pip 安装；（2）文件编码特殊 → 尝试另存为 UTF-8；（3）文件损坏 → 用原软件打开重新保存。

Q6: 和知网查重有什么区别？ A: 完全不同。知网查重是对比已有文献库看是否重复；论文CT是从论文自身内部逻辑检测问题（数据矛盾、AI痕迹、格式规范等）。两者互补，建议都做。

🟡 进阶问题

Q7: 为什么检测结果和我预期不一样？ A: 论文CT基于规则引擎+统计分析，不是人工审稿。它擅长发现客观性问题（格式错误、数据矛盾、AI特征），但对主观性问题（创新性、论证深度）只能给出参考意见。分数低不代表一定不能发表，分数高也不代表一定能发。

Q8: 能检测英文论文吗？ A: 当前版本主要针对中文学术论文设计（如 GB/T 7714 参考文献格式、中文AI填充词库等）。英文论文可以尝试使用，但部分检测维度（如中文术语一致性、中文AI填充词）会降级或跳过。

Q9: 如何只检测某一个维度？ A: 可以单独调用对应模块，例如只检测AI痕迹：python scripts/ai_detect.py --input 论文路径 --output output/。但通常建议全量检测，因为各维度之间有关联（如数据矛盾同时影响真实性和真伪两个维度）。

Q10: 分数多少算合格？ A: 参考标准：90+优秀（可直接投稿）、75-89良好（小修即可）、60-74合格（需针对性修改）、40-59需改进（有退稿风险）、<40不合格（建议大改或重写）。注意：内容真实性（25%权重）如果低于60分，无论总分多高都要重点关注。

❌ 反模式（错误用法警告）

❌ 不要把论文CT当成"改写工具"
- 原因：它只诊断问题，不给修改后的文本。指望它帮你改好论文是不现实的。
- ✅ 正确做法：根据报告中的「优先修复清单」逐项手动修改，修改后可重新检测验证效果。
❌ 不要在论文还没写完时就跑检测
- 原因：半成品论文必然大量报错（缺摘要、缺引用、缺结论），产生的噪音会掩盖真正的问题。
- ✅ 正确做法：初稿完成后、投稿前运行检测，作为最后一道质量把关。
❌ 不要忽略「注意」级别的问题
- 原因：「注意」级问题虽然不致命，但多个叠加会给审稿人留下"不够严谨"的印象。
- ✅ 正确做法：先修「严重」→ 再改「注意」→ 最后看「提示」，按优先级依次处理。
❌ 不要期望它能发现所有问题
- 原因：规则引擎无法判断论证是否深刻、创新点是否有价值这类主观问题。
- ✅ 正确做法：把它当作"第一道筛网"，筛完后再请同行专家审阅主观层面。
❌ 不要用论文CT检测非学术论文
- 原因：所有检测规则围绕学术论文设计（参考文献格式、学术用语、统计方法等），用于公文/小说/合同会产生大量误报。
- ✅ 正确做法：仅用于学术论文、课题申报书、学位论文等学术文本。

评分体系详解

百分制与等级

| 等级 | 分数区间 | 含义 | 建议 | |------|---------|------|------| | 🏆 优秀 | 90-100 | 质量高，可直接投稿 | 检查「提示」级问题即可 | | ✅ 良好 | 75-89 | 整体不错，有小瑕疵 | 修复「注意」「严重」级问题 | | 🟡 合格 | 60-74 | 达基本线但有明显短板 | 重点修复「严重」级问题 | | ⚠️ 需改进 | 40-59 | 存在较多问题 | 建议大幅修改后复检 | | ❌ 不合格 | 0-39 | 质量未达发表标准 | 建议重写或寻求专业帮助 |

风险等级定义

🔴 严重（扣15-30分）：可能导致退稿/拒稿的硬伤
🟡 注意（扣5-14分）：影响评审印象但不致命
🟢 提示/合格（不扣分）：通过检测或仅作提醒

七维权重设计理由

| 维度 | 权重 | 设计理由 | |------|------|---------| | 内容真实 | 25% | 最核心——数据和引用造假是学术红线，一票否决 | | 可行性 | 15% | 研究设计站不住脚，再好的数据也没意义 | | 内容真伪 | 15% | 事实错误直接损害学术可信度 | | AI痕迹 | 15% | 编辑部越来越重视，趋势性指标 | | 排版规范 | 10 | 影响第一印象，但相对容易修正 | | 学术规范 | 10 | 基本底线要求 | | 期刊适配 | 10 | 决定投稿命中率 |

AI检测特征库（内置）

结构层面（权重25%）

段落长度变异系数(CV) < 0.20 → 🔴 极度均匀（人工通常0.4-0.8）
所有标题使用完全相同格式 → 模板化嫌疑
「首先→其次→最后」连续枚举 → AI典型列举模式

语言层面（权重25%）

高频AI填充词（≥8次）→ 🔴 如"值得注意的是""毋庸置疑""综上所述"
形容词密度 > 1.5/100字符 → 华丽但空泛
公式化过渡句（≥5处）→ 模板化衔接

内容层面（权重30%）

具体细节密度 < 0.5/200字 → 🔴 缺乏人名/地名/日期/机构等真实信息
公式化结尾套话（≥3个）→ "具有重要意义""值得进一步研究"
高精度虚假百分比（多个 x.xx%）→ AI常编造精确数据

术语层面（权重20%）

同一概念前后用词不一致（如"气排球"/"轻排球"混用）→ 术语混乱

版本历史

| 版本 | 日期 | 变更 | |------|------|------| | v2.0 | 2026-06-02 | TRACE全面升级：CT三步法方法论+FAQ(10个)+反模式(5个)+隐私声明+能力边界+异常全景报告+输出样例+操作日志+环境要求声明 | | v1.0 | 2026-06-01 | 首版发布：七维检测引擎完整实现 |