6.4k Stars！用Claude Code写论文的全套流水线，有人打包开源了

< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400"> 6.4k Stars！用Claude Code写论文的全套流水线，有人打包开源了衡宇 2026-05-17 11:37:07 来源：量子位费用参考也很透明听雨发自凹非寺量子位 | 公众号 QbitAI 用Claude Code写论文的一整套流水线，有人打包开源出来了。完全戳中了学生党的痛点，github星标直达 6.4k 。项目名叫 academic-research-skills （以下简称ARS），是一套Claude Code技能包。里面涵盖4个skill，分别对应论文的研究、写作、审稿、定稿。只需两行命令安装，直接一条龙串起整套学术研究流水线。只能说，我读研的时候怎么没碰到这种好东西呢… 4个skill，跑通整套科研流程 ARS的核心架构由4个skill组成，它们各司其职，拼在一起就是一条从选题到交稿的完整链路。我这里还做了图，大家可以看得比较直观： △AI生成 Deep Research 是一支13个Agent的研究团队。它负责文献调研、研究问题构建、方法论设计，还能写系统性的PRISMA综述。团队里有专门做文献溯源的Agent，会调用Semantic Scholar API验证每一篇引用的真实性。有苏格拉底导师Agent，通过对话引导研究者理清思路。还有魔鬼代言人Agent，专门挑刺，防止研究者在早期就陷入思维定式。 △AI生成 Academic Paper 是一支12个Agent的写作团队。从大纲设计、论证构建、草稿撰写，到双语摘要生成、图表可视化、引用格式转换，全流程覆盖。特别值得一提的是风格校准功能，AI会学习你过往作品的写作风格，让输出更像你自己写的，而不是千篇一律的AI味。输出格式支持Markdown、DOCX、LaTeX，最终可以编译成APA 7.0或IEEE格式的PDF。 △AI生成 Academic Paper Reviewer 是一支7个Agent的审稿团队。模拟真实学术期刊的评审流程，由主编EIC带领三位领域审稿人，再加上一个魔鬼代言人，从方法论、学科视角、跨学科价值等多个维度打分。评分采用0到100的量化标准，80分以上接受，65到79小修，50到64大修，50以下拒稿。审稿团队还会输出详细的修改路线图，告诉作者下一步该做什么。 △AI生成 Academic Pipeline 是流程编排器，把前面三个团队串联成一条10阶段的流水线。从研究、写作、完整性检查、同行评审、修订、最终检查，到发表准备和流程总结，每个阶段都有明确的产物和检查点。你可以在任意阶段插入，比如已经有了初稿，就从Stage 2.5的完整性检查开始；收到了审稿意见，直接从Stage 4的修订切入。费用参考也很透明，一篇 1.5万字的论文，全程跑下来大约 4到6美元。 △AI生成比较有意思的设计用Claude Code做学术研究的开源项目已经很多了，但是深扒之后，我发现ARS在底层设计上还是有些过人之处。可以简单总结为一句话：系统性防止AI搞砸学术研究。第一，引用核验。 AI写论文最忌讳的，就是幻觉引用。不只是编造不存在的文章，还包括标题相似但作者年份全错、DOI真实但内容对不上等更隐蔽的情况。 ARS在Deep Research阶段就埋了一个引用核验机制，每一篇文献都要过Semantic Scholar API的存在性确认。不是简单查一下标题对不对，而是用Levenshtein相似度算法做模糊匹配，阈值设在0.70以上才算通过。 △AI生成第二，完整性闸门。在流水线的Stage 2.5和Stage 4.5，有两道不可跳过的完整性闸门，会运行一份 7项AI失败模式检查清单。这份清单直接来自2026年Nature上发表的一项全自主AI科研研究，其中总结了7种翻车模式，覆盖引用幻觉、数据捏造、方法论造假等情形。任何在2.5被标记为SUSPECTED的问题，必须在4.5变成CLEAR，或者由人工手动覆盖并留下记录。设计逻辑是：把「我相信AI不会出错」变成「我要求AI证明它没出错」。实测中，这套机制在一篇真实论文里抓到了15个伪造引用和3个统计错误。第三，反谄媚协议，让AI敢于说不。大多数AI工具都有一个隐形毛病，讨好用户。你让它改，它就改，哪怕改得更差。所以ARS在审稿环节专门设计了反谄媚机制。审稿团队里有一个 Devil’s Advocate ，也就是魔鬼代言人，职责是挑刺。但挑完刺之后，还有一个让步阈值协议。 DA的反驳会被评分1到5，如果低于4分，写作团队不允许承认。 △AI生成换句话说，AI不能为了显得好合作就轻易让步。同时，攻击强度在修订过程中必须保持。如果第一轮审稿把方法论批得体无完肤，作者修订后不能让审稿人突然变得温柔。评分轨迹也会被追踪，任何维度的分数下降都会被标记为回归。这和软件工程里的不引入新Bug原则一样，改一个地方不能搞砸另一个地方。第四，三层数据隔离，不让AI偷看答案。 ARS把数据流严格分成三层： Layer 1是原始输入，默认不可信，可能幻觉、过时、带偏见。 Layer 2是通过完整性验证后的产物。 Layer 3是评分标准、参考答案和金标数据，这层材料永远不能出现在写作AI的上下文中。具体实现上，写作团队和审稿团队分两次独立调用，中间有阶段边界隔离。写作AI只能收到审稿AI的自然语言反馈，比如「第二章论证跳跃，建议补充对比实验」。但它看不到原始的评分标准，也不知道每个维度占多少分。这个设计的灵感来自于Anthropic今年的w2s-researcher研究，其中也用了同样的三层隔离模型。结论是当AI能读取标签数据时，结果可能不是真的泛化，而是在优化表面特征。解决方案不是更好的提示词，而是结构上的隔离。 △AI生成最后一点，诚实文档化，「我不保证能复现」。学术界经常遇到「这个结果我复现不了」的问题。ARS给每个产物生成一个 repro_lock文件，记录运行时的完整配置。但文件里有一段强制声明，LLM输出不是字节级可复现的，模型提供商会更新权重而不改模型ID，外部API每天返回不同的数据。这个文件只是配置文档，不是重放保证。 △AI生成在更新日志上，可以看到ARS已经经历了很多轮迭代。从2月上线到现在，提交的commit数达到了三百多次。从每次版本更迭中，也能看出作者对AI学术研究系统风险有着深刻理解。这也是我觉得目前学术研究AI工具的关键所在—— 让AI帮你写论文并不难，重点是如何防止它出错、讨好，让整个流程变得更系统更可靠。 ARS的设计哲学，可以总结为README里那句话：「AI是你的副驾驶，不是飞行员。」如何安装安装方式很简单，如果你已经在用Claude Code，只需要两行命令： /plugin marketplace add Imbad0202/academic-res