论文CT·七维漏洞扫描系统
核心理念:CT三步法 —— 穿透→诊断→处方
像医院CT扫描仪一样,对学术论文做穿透式七维深度扫描,不只找问题,更给出精准修复处方。 一句话交给AI,全自动完成全部检测,你只看报告和改稿。
隐私声明 ⚠️
- 本Skill 不收集、不上传、不存储任何用户论文内容——所有检测在本地完成
- 无需联网、无需注册、无需发送文件到任何外部服务器
- 仅使用 Python 标准库 + 3个轻量依赖(python-docx/pdfplumber/chardet),无遥测、无追踪
🎯 CT三步法(核心方法论)
第一步:穿透扫描(7个维度并行)
↓ 提取全文 → 数据索引 → 特征分析 → 交叉验证
第二步:综合诊断(加权评分+等级判定)
↓ 七维独立评分 → 加权总分 → 风险等级 → 智能排序
第三步:精准处方(优先修复清单+具体建议)
↓ 按严重程度排列 → 逐项给修改方向 → 预防复发建议
这不是一个"检查工具",而是一套完整的「论文健康管理系统」。
AI 全自动工作流(用户零操作)
当用户说以下任意一句话时,触发本Skill并自动执行全部流程:
"帮我检测这篇论文" / "论文有问题吗" / "投稿前检查一下" / "用论文CT扫一下"
自动执行流程(AI负责全部,用户不用敲任何命令)
1. 接收输入(文件路径 / 文件夹 / 粘贴文本 / IMA附件)
↓
2. 调用主控引擎:
python scripts/paper_ct_scan.py --input <路径> --output output/
↓
3. 引擎自动执行7个检测模块,生成3份输出文件
↓
4. AI读取 report_summary.md,整理成用户友好的摘要呈现
↓
5. 附带「优先修复清单」和「预防建议」
输出文件说明
| 文件 | 用途 | 谁看 |
|------|------|------|
| output/report_summary.md | 完整检测报告(人类可读) | 用户 |
| output/report_detail.json | 结构化详细数据(程序可读) | 开发/二次处理 |
| output/scores.json | 七维评分+总分+等级 | 快速概览 |
七维检测矩阵
| # | 维度 | 权重 | 核心问题 | 不通过后果 | |---|------|------|---------|-----------| | 1 | 📐 排版规范 | 10% | 字体/标题/行距/图表编号/参考文献GB/T 7714 | 第一印象差,初审易被退 | | 2 | 🔎 内容真实 | 25% | 数据出处/引用存在性/前后一致性 | 最致命——直接拒稿 | | 3 | ⚙️ 可行性 | 15% | 方法合理性/样本量/时间线/资源匹配 | 审稿人质疑研究设计 | | 4 | 🧠 内容真伪 | 15% | 事实交叉验证/统计合理/逻辑谬误 | 学术信誉受损 | | 5 | 🤖 AI痕迹 | 15% | 段落均匀度/空洞语言/公式化过渡/虚构引用 | 越来越被编辑部重视 | | 6 | 📋 学术规范 | 10% | 抄袭迹象/伦理合规/文献完整/基金披露 | 基本底线,不达标必退 | | 7 | 🎯 期刊适配 | 10% | 方向匹配/字数合规/级别对等/结构完整 | 投稿命中率低 |
检测报告样例
╔══════════════════════════════════════════╗
║ 📋 论文CT检测报告 ║
╠══════════════════════════════════════════╣
║ 论文:《气排球大单元教学实践研究》 ║
║ 总评分:78.5/100 ✅ 良好 ║
║ 🔴 严重:2项 🟡 注意:5项 🟢 通过:— ║
╠══════════════════════════════════════════╣
║ 📐 排版规范:82/100 🟢 ║
║ 🔎 内容真实:65/100 🟡 ← 重点修复 ║
║ ⚙️ 可行性: 88/100 🟢 ║
║ 🧠 内容真伪:75/100 🟡 ║
║ 🤖 AI痕迹: 91/100 🟢 ║
║ 📋 学术规范:70/100 🟡 ║
║ 🎯 期刊适配:85/100 🟢 ║
╠══════════════════════════════════════════╣
║ ⚡ TOP3 优先修复: ║
║ 1. 🔴 [内容真实] 样本量前后不一致 ║
║ 2. 🔴 [内容真实] 引用文献疑似虚构 ║
║ 3. 🟡 [学术规范] 正文缺少引用标记 ║
╚══════════════════════════════════════════╝
能力边界(本Skill不做的事)
| 不能做的事 | 原因 | 建议替代方案 | |-----------|------|-------------| | 查重检测(对比已有文献库) | 需要海量数据库支持 | 知网查重 / 维普查重 | | 语法/错别字校正 | 不是本系统定位 | WPS审阅模式 / 秘塔写作 | | 英文论文润色 | 当前专注中文学术论文 | Grammarly / DeepL | | 替你改写论文 | 只诊断不开药方是原则 | 根据报告自行修改 | | 保证发表论文 | 检测≠录用,质量是基础 | 结合报告修改后投稿 | | 检测非学术文本(小说/公文/合同) | 检测规则专为学术论文设计 | 不适用 |
环境要求
- 操作系统:Windows 10/11、HarmonyOS NEXT(鸿蒙)、Linux、macOS(全平台支持)
- Python:3.8+(使用了 f-string 和 statistics 模块)
- 鸿蒙特别说明:鸿蒙系统终端默认UTF-8编码,无需任何特殊设置,装好Python和依赖即可直接运行
- 依赖安装:
pip install python-docx pdfplumber chardet - 权限:普通用户权限即可,无需管理员
- 文件编码:UTF-8(自动兼容 GBK/GB18030)
异常处理承诺
本Skill的硬性原则:异常绝不静默跳过。
所有检测模块遵循统一的异常全景报告机制:
- 文件读取失败 → 明确告知哪个文件、什么原因(权限/格式/编码)、建议怎么解决
- 依赖缺失 → 精确告知缺哪个包、给出安装命令(不笼统说"请安装依赖")
- 模块执行出错 → 记录错误信息到报告,该维度标记为"⚠️ 检测中断",不影响其他维度
- 数据不足(如正文<50字) → 明确提示"内容过短无法检测",不产生假结果
- 超时保护 → 单个模块最长60秒,避免卡死
每份报告末尾附带 操作日志,记录实际执行的步骤和跳过的原因。
FAQ(常见问题)
🟢 基础问题
Q1: 这个Skill安全吗?会泄露我的论文吗? A: 绝对安全。所有检测在本地完成,论文内容不会上传到任何服务器。不联网、不注册、不留痕。隐私声明见上方。
Q2: 需要安装什么软件?
A: 只需要 Python 3.8+ 和三个轻量包。一行命令搞定:pip install python-docx pdfplumber chardet。没有其他依赖。
Q3: 支持哪些文件格式?
A: .docx(Word文档)、.pdf(PDF文档)、.txt(纯文本)、.md(Markdown)。推荐用 .docx 格式,信息保留最完整。
Q4: 检测一篇论文大概要多久? A: 通常 5-15 秒(取决于论文字数和文件格式)。PDF 稍慢因为需要解析,纯文本最快。
Q5: 检测失败了怎么办? A: 报告会明确告诉你哪一步失败、为什么失败。常见原因:(1)依赖没装 → 运行 pip 安装;(2)文件编码特殊 → 尝试另存为 UTF-8;(3)文件损坏 → 用原软件打开重新保存。
Q6: 和知网查重有什么区别? A: 完全不同。知网查重是对比已有文献库看是否重复;论文CT是从论文自身内部逻辑检测问题(数据矛盾、AI痕迹、格式规范等)。两者互补,建议都做。
🟡 进阶问题
Q7: 为什么检测结果和我预期不一样? A: 论文CT基于规则引擎+统计分析,不是人工审稿。它擅长发现客观性问题(格式错误、数据矛盾、AI特征),但对主观性问题(创新性、论证深度)只能给出参考意见。分数低不代表一定不能发表,分数高也不代表一定能发。
Q8: 能检测英文论文吗? A: 当前版本主要针对中文学术论文设计(如 GB/T 7714 参考文献格式、中文AI填充词库等)。英文论文可以尝试使用,但部分检测维度(如中文术语一致性、中文AI填充词)会降级或跳过。
Q9: 如何只检测某一个维度?
A: 可以单独调用对应模块,例如只检测AI痕迹:python scripts/ai_detect.py --input 论文路径 --output output/。但通常建议全量检测,因为各维度之间有关联(如数据矛盾同时影响真实性和真伪两个维度)。
Q10: 分数多少算合格? A: 参考标准:90+优秀(可直接投稿)、75-89良好(小修即可)、60-74合格(需针对性修改)、40-59需改进(有退稿风险)、<40不合格(建议大改或重写)。注意:内容真实性(25%权重)如果低于60分,无论总分多高都要重点关注。
❌ 反模式(错误用法警告)
-
❌ 不要把论文CT当成"改写工具"
- 原因:它只诊断问题,不给修改后的文本。指望它帮你改好论文是不现实的。
- ✅ 正确做法:根据报告中的「优先修复清单」逐项手动修改,修改后可重新检测验证效果。
-
❌ 不要在论文还没写完时就跑检测
- 原因:半成品论文必然大量报错(缺摘要、缺引用、缺结论),产生的噪音会掩盖真正的问题。
- ✅ 正确做法:初稿完成后、投稿前运行检测,作为最后一道质量把关。
-
❌ 不要忽略「注意」级别的问题
- 原因:「注意」级问题虽然不致命,但多个叠加会给审稿人留下"不够严谨"的印象。
- ✅ 正确做法:先修「严重」→ 再改「注意」→ 最后看「提示」,按优先级依次处理。
-
❌ 不要期望它能发现所有问题
- 原因:规则引擎无法判断论证是否深刻、创新点是否有价值这类主观问题。
- ✅ 正确做法:把它当作"第一道筛网",筛完后再请同行专家审阅主观层面。
-
❌ 不要用论文CT检测非学术论文
- 原因:所有检测规则围绕学术论文设计(参考文献格式、学术用语、统计方法等),用于公文/小说/合同会产生大量误报。
- ✅ 正确做法:仅用于学术论文、课题申报书、学位论文等学术文本。
评分体系详解
百分制与等级
| 等级 | 分数区间 | 含义 | 建议 | |------|---------|------|------| | 🏆 优秀 | 90-100 | 质量高,可直接投稿 | 检查「提示」级问题即可 | | ✅ 良好 | 75-89 | 整体不错,有小瑕疵 | 修复「注意」「严重」级问题 | | 🟡 合格 | 60-74 | 达基本线但有明显短板 | 重点修复「严重」级问题 | | ⚠️ 需改进 | 40-59 | 存在较多问题 | 建议大幅修改后复检 | | ❌ 不合格 | 0-39 | 质量未达发表标准 | 建议重写或寻求专业帮助 |
风险等级定义
- 🔴 严重(扣15-30分):可能导致退稿/拒稿的硬伤
- 🟡 注意(扣5-14分):影响评审印象但不致命
- 🟢 提示/合格(不扣分):通过检测或仅作提醒
七维权重设计理由
| 维度 | 权重 | 设计理由 | |------|------|---------| | 内容真实 | 25% | 最核心——数据和引用造假是学术红线,一票否决 | | 可行性 | 15% | 研究设计站不住脚,再好的数据也没意义 | | 内容真伪 | 15% | 事实错误直接损害学术可信度 | | AI痕迹 | 15% | 编辑部越来越重视,趋势性指标 | | 排版规范 | 10 | 影响第一印象,但相对容易修正 | | 学术规范 | 10 | 基本底线要求 | | 期刊适配 | 10 | 决定投稿命中率 |
AI检测特征库(内置)
结构层面(权重25%)
- 段落长度变异系数(CV) < 0.20 → 🔴 极度均匀(人工通常0.4-0.8)
- 所有标题使用完全相同格式 → 模板化嫌疑
- 「首先→其次→最后」连续枚举 → AI典型列举模式
语言层面(权重25%)
- 高频AI填充词(≥8次)→ 🔴 如"值得注意的是""毋庸置疑""综上所述"
- 形容词密度 > 1.5/100字符 → 华丽但空泛
- 公式化过渡句(≥5处)→ 模板化衔接
内容层面(权重30%)
- 具体细节密度 < 0.5/200字 → 🔴 缺乏人名/地名/日期/机构等真实信息
- 公式化结尾套话(≥3个)→ "具有重要意义""值得进一步研究"
- 高精度虚假百分比(多个 x.xx%)→ AI常编造精确数据
术语层面(权重20%)
- 同一概念前后用词不一致(如"气排球"/"轻排球"混用)→ 术语混乱
版本历史
| 版本 | 日期 | 变更 | |------|------|------| | v2.0 | 2026-06-02 | TRACE全面升级:CT三步法方法论+FAQ(10个)+反模式(5个)+隐私声明+能力边界+异常全景报告+输出样例+操作日志+环境要求声明 | | v1.0 | 2026-06-01 | 首版发布:七维检测引擎完整实现 |
微信扫一扫