首页/Auto Claude Code Research In Sleep

Research Agents

Auto Claude Code Research In Sleep

Name: Auto Claude Code Research In Sleep
Rating: 7100 (651 reviews)
Author: wanshuiyin

面向ClaudeCode、CodexCLI、Cursor等环境的自主科研工作流技能集，可串联文献调研、实验执行、论文写作与审稿回复。

查看 GitHub 查看同类项目

仓库wanshuiyin/Auto-claude-code-research-in-sleep

来源github

创建时间2026/4/18

最近同步2026/4/20

一句话总结

面向ClaudeCode、CodexCLI、Cursor等环境的自主科研工作流技能集，可串联文献调研、实验执行、论文写作与审稿回复。

项目描述

ARIS用一组可组合的Markdown技能与CLI工作流，把研究选题、实验部署、自动评审循环、论文撰写到rebuttal起草连成完整流程，并强调由不同模型分别执行与评审。它更适合使用ClaudeCode、CodexCLI、Cursor、Trae等代理式开发环境的机器学习研究者与学术写作者。

Auto-claude-code-research-in-sleep (ARIS ⚔️🌙)

💡 将 ARIS 作为技能化工作流在 Claude Code / Cursor / Trae 中使用，或通过独立 CLI 获得完整体验——随你喜欢！

🤖 AI 智能体： 请阅读 AGENT_GUIDE.md ——内容专为 LLM 理解优化，非为人类浏览设计。

🔥 ARIS-Code CLI — 独立安装版 · English | ⬇️ Download

📰 ARIS-Code v0.4.3 (2026-04-17) —— 第三方 Anthropic 兼容代理支持 (Bedrock 等) | 跳过代理会拒绝的测试版标志 | 为 anthropic 提供商传播自定义基础 URL | 鸣谢 @screw-44

历史版本

v0.4.2 (2026-04-17) —— 自动压缩损坏修复 | 压缩摘要保留在 OpenAI 兼容执行器上 | Shell 提供的 API 密钥在启动时不再被清除

v0.4.1 (2026-04-15) —— 计划模式 (/plan) | 协作式 Ctrl+C 中断 | 自动重试 (429/5xx/网络错误) | 研究维基 📚 (持久化知识库) | 自我进化 🧬 (/meta-optimize) | 本地模型 (LM Studio/Ollama) | 62 项技能同步

v0.3.11 (2026-04-13) —— 评审器 Anthropic 兼容模式 (通过代理使用 Claude)

v0.3.9 (2026-04-11) —— 代理/自定义基础 URL (CCSwitch) | 本地模型 (LM Studio/Ollama) | Windows (实验性)

v0.3.5 (2026-04-08) —— 研究维基 (持久的论文/想法/实验/主张 + 关系图) | 元优化 自我进化 (分析日志 → 提出 SKILL.md 补丁)

v0.3.0 (2026-04-03) —— 多文件记忆索引 | 丰富的任务系统 (TodoWrite) | /plan | 安全加固

v0.2.2 (2026-04-03) —— /plan 分步规划 | /tasks 持久化追踪

v0.2.1 (2026-04-03) —— 持久化记忆 | Kimi K2.5 多轮对话修复 | CJK 光标修复

v0.2.0 (2026-04-02) —— 开源 | Kimi + MiniMax + GLM 支持 | 智能 LlmReview 路由 | CI/CD

v0.1.0 (2026-04-02) —— 初始版本 | 多执行器与评审器 | 42 项捆绑技能

ARIS Logo

Hero

中文版 README | 中文

Score Progression

🌙 让 Claude Code 在你睡眠时进行研究。 醒来时你会发现论文已评分、弱点已识别、实验已运行、叙述已重写——全自动完成。

🪶 极致轻量——零依赖、零锁定。 整个系统都是纯 Markdown 文件。无需学习框架，无需维护数据库，无需配置 Docker，无需守护进程。每项技能都是单个 SKILL.md，任何 LLM 都可读取——将 Claude Code 替换为 Codex CLI、OpenClaw、Cursor、Trae、Antigravity、Windsurf 或你自己的智能体，工作流依然有效。分叉它、重写它、适配到你的技术栈。

💡 ARIS 是一种方法论，而非平台。重要的是研究工作流——带着它去任何地方。🌱

· · · · 💬 Join Community ·

用于自主机器学习研究工作流的自定义 Claude Code 技能。这些技能编排跨模型协作——Claude Code 驱动研究，而外部 LLM (通过 Codex MCP) 充当批判性评审者。🔀 同时支持 alternative model combinations (Kimi、LongCat、DeepSeek 等)——无需 Claude 或 OpenAI API。 例如，MiniMax-M2.7 + GLM-5 or GLM-5 + MiniMax-M2.7。🤖 Codex CLI native ——完整技能集也适用于 OpenAI Codex。🖱️ Cursor ——在 Cursor 中同样工作。🖥️ Trae ——字节跳动 AI IDE。🚀 Antigravity ——谷歌的智能体优先 IDE。🆓 Free tier via ModelScope ——零成本、零锁定。> 💭 为何不采用单一模型进行自我对弈？ 使用 Claude Code 子代理或代理团队同时执行和审查在技术上是可行的，但容易陷入局部最优——同一模型审查自身模式会产生盲点。

可以类比对抗性与随机性多臂老虎机问题：单一模型自我审查属于随机性情况（可预测的奖励噪声），而跨模型审查则是对抗性的（审查者会主动探查执行者未预料到的弱点）——对抗性老虎机本质上更难被操控。

💭 为何用两个模型，而非更多？ 两个模型是打破自我对弈盲点的最低要求，且双人博弈比多人博弈更高效地收敛至纳什均衡。增加更多审查者会提升 API 成本与协调开销，但收益递减——最大增益来自从 1→2 的跨越，而非 2→4。

Claude Code 的优势在于快速流畅的执行力；Codex（GPT-5.4 xhigh）速度较慢，但在批判性审查时更审慎严谨。这种速度 × 严谨度的互补特性，能产生比任一模型自我对话更优的结果。

🧿 需要最强审查者？ 在任何技能中添加 — reviewer: oracle-pro 即可通过 Oracle MCP 将审查路由至 GPT-5.4 Pro。专业级推理适用于证明验证、实验审计和最终压力测试。支持 API 密钥或免费浏览器模式。Setup →

🎯 不止于提示词

这些都是完整流程——您也可以独立使用每个工作流。已有想法？跳转至工作流 1.5。已有结果？跳转至工作流 3。已有评审意见？跳转至工作流 4。需要持久化记忆？启用 Research Wiki。查看 Quick Start 获取所有命令说明，Workflows 查看完整解析。

基础模式——向 ARIS 提供研究方向，它将处理一切：

/research-pipeline "factorized gap in discrete diffusion LMs"

🔥 针对性优化模式 — 有想要改进的论文吗？将论文和代码交给 ARIS：

/research-pipeline "improve method X" — ref paper: https://arxiv.org/abs/2406.04329, base repo: https://github.com/org/project

ARIS 阅读论文 → 找出其弱点 → 克隆代码库 → 针对这些弱点、基于该代码生成改进方案 → 运行实验 → 撰写你的论文。就像对研究助理说：“读这篇论文，用这个仓库，找出不足并改进它。”

灵活组合：仅使用ref paper = “哪些地方可以改进？”，仅使用base repo = “我能用这个代码构建什么？”，两者都用 = “基于此代码改进此论文。”

🔥 审稿回复模式 — 评审意见刚出炉？别慌。ARIS 会逐条分析所有意见，制定应对策略，并起草一份立足事实、结构清晰、符合字数限制的回复：

/rebuttal "paper/ + reviews" — venue: ICML, character limit: 5000

参数	默认值	功能说明
`venue`	`ICML`	目标会议（ICML/NeurIPS/ICLR/CVPR/ACL/AAAI/ACM）
`character limit`	—	必填。反驳文本的硬字符限制
`quick mode`	`false`	在解析 + 策略阶段后停止（阶段 0-3）。在起草前查看审稿人需求
`auto experiment`	`false`	当审稿人要求新证据时，通过 `/experiment-bridge` 自动运行补充实验
`max stress test rounds`	`1`	GPT-5.4 xhigh 对草稿进行压力测试的次数
`max followup rounds`	`3`	每位审稿人的跟进轮次限制

三道安全关卡 — 若任意一项未通过，反驳将不会定稿：

🔒 禁止捏造 — 每项声明均对应论文/评审/用户确认的结果
🔒 禁止过度承诺 — 每项承诺均需用户批准
🔒 全面覆盖 — 每位审稿人的关切均被追踪记录

两项输出：PASTE_READY.txt（精确字符数，可粘贴至会议系统）+ REBUTTAL_DRAFT_rich.md（扩展版本供手动编辑）。

录用后 — 论文已通过，现在开始准备展示材料：

/paper-slides "paper/"     # → Beamer PDF + PPTX + speaker notes + Q&A prep
/paper-poster "paper/"     # → A0/A1 poster PDF + editable PPTX + SVG

💡 从灵感到论文再到领奖台——一站式工具链。🌱

🏆 基于 ARIS 构建的论文

论文	评分	会议/期刊	作者	技术栈
CS 论文	8/10 "明确接受"	CS 会议	@DefanXue & @Monglitay	Claude Code + GPT-5.4
AAAI 论文	7/10 "优秀论文，接受"	AAAI 2026 主技术轨道	@xinbo820-web	纯 Codex CLI
UAV-CC	审稿中	IEEE TGRS	@wxx827	Claude Opus 4.6 + Codex 5.4 xhigh + Cursor

🎉 由 ARIS 构建——从灵感到投稿。Full details + PDFs →

📢 最新动态- 2026-04-19 — 🔗 `/overleaf-sync` — 通过官方 Overleaf Git 桥接（Premium 版）实现本地 ARIS 论文目录与 Overleaf 项目的双向同步。允许协作者继续在 Overleaf 网页界面编辑，而 ARIS 的审核/编辑流水线（`/paper-claim-audit`、`/citation-audit`、`/auto-paper-improvement-loop`）在本地持续运行。子命令包括：`setup`（一次性，用户驱动，因此代理程序永远不会接触到令牌）/ `pull`（附带差异协议——标记出半句话、拼写错误、应重新触发审核的主张/引用变更）/ `push`（在写入共享的 Overleaf 状态前设有确认门）/ `status`（三方分歧检查）。令牌从不接触代理程序或任何文件——通过用户的终端一次性存入 macOS 钥匙串，之后所有代理操作均无需认证。

2026-04-19 — 📚 /citation-audit — 证据与主张保障栈的第四层也是最后一层（experiment-audit → result-to-claim → paper-claim-audit → citation-audit）。由跨家族的新评审员（通过 Codex MCP 的 gpt-5.4）结合网络/DBLP/arXiv 查询，沿三个独立轴验证每个 \cite{...}：存在性（论文能通过声称的 arXiv ID/DOI/会议链接解析）、元数据正确性（作者/年份/会议/标题与权威来源匹配）、上下文适当性（被引用的论文确实支持了其所引用的主张——最具诊断性的检查）。每项条目的裁决：保留 / 修复 / 替换 / 移除。自动集成到 工作流 3 阶段 5.8 作为提交前的参考文献门控。经验动机：在我们 2026 年 4 月的 ARIS 技术报告运行中，有两篇真实论文（madaan2023selfrefine、liu2023reviewergpt）被引用于它们实际并不支持的上下文，还有一个条目存在 author = "Anonymous"——这些均未被仅检查元数据的流程捕获。
2026-04-17 — 🔀 /experiment-queue 集成到工作流 1.5 + 研究流水线 — experiment-bridge 阶段 4 部署现在根据里程碑任务数量自动路由：≤5 个任务 → /run-experiment，≥10 个任务或存在阶段依赖 → /experiment-queue（附带 OOM 重试、陈旧屏幕清理、波次转换门控、崩溃安全状态）。新增 --- batch: queue 覆盖选项用于全局强制队列模式。来自 EXPERIMENT_PLAN.md 的大型多种子扫描（例如，36 单元的 N × seed × n_train 网格）现在无需手动调用队列即可获得适当的编排。
2026-04-17 — 🔗 Project-local symlink install（解决 #118）— 新的推荐默认安装方式。bash tools/install_aris.sh 自动检测平台（Claude Code / Codex CLI），创建 .claude/skills/aris 或 .agents/skills/aris 符号链接指向 ARIS 仓库，向 CLAUDE.md / AGENTS.md 添加一个托管的 [[[BESTOF_TOKEN_0]]] 区块，指示代理程序仅使用项目本地技能，并在 .aris/skill-source.txt 中记录安装元数据。解决了当 ARIS 与 Superpowers / OpenHands / 其他社区包混合在同一全局技能目录时的技能冲突问题。PowerShell 版本（install_aris.ps1）附带对 Windows 的联接点支持。为 .agents/skills/aris（Codex）项目副本安装新增 smart_update.sh --target-subdir 标志；符号链接安装现在会正确拒绝 smart_update 并引导用户使用 git pull。全局安装对高级用户仍受支持。
2026-04-16 — 🎨 /figure-spec — 作为一等公民技能打包的确定性 JSON→SVG 渲染器。论文中架构/工作流/流水线/审核级联图的首选默认工具。支持形状感知的边缘裁剪（矩形/圆形/椭圆形/菱形）、自循环、曲线边、带 CJK 宽度估算的多行标签。可编辑的矢量输出，可重现（相同规格 → 相同 SVG），无需外部 API。工作流 3 的阶段 2b 已恢复：illustration: figurespec（新默认）/ gemini / mermaid / false — 具有互补优势的四向插图选择器。
2026-04-16 — ⚙️ /experiment-queue — 用于多种子/多配置 ML 实验的 SSH 作业队列。基于真实的 36 单元 NeurIPS 扫描痛点设计：具备退避机制的 OOM 感知重试、陈旧屏幕清理、波次转换竞争预防、教师→学生阶段依赖、可从 JSON 状态恢复的崩溃安全调度器。声明式网格规范自动扩展（例如 N × seed × n_train → 36 jobs）。可配置的 conda_hook + gpu_free_threshold_mib 用于非标准环境。适用于 ≥10 个作业；/run-experiment 仍用于临时任务。
2026-04-15 — 🛡️ 论文撰写流水线加固 — 来自一次真实 NeurIPS 运行的 10 个经验驱动的补丁。REVIEWER_BIAS_GUARD=true：每轮评审使用新线程（codex-reply 从 3/10 膨胀到 8/10）。评审员独立性协议：不向评审员提供修复摘要。步骤 4.5 重述回归测试：捕获多轮修复过程中的定理漂移。步骤 5.5 论点摧毁练习：理论论文的最终轮对抗性攻击/防御。位置感知的过度填充阻止。/paper-write 中的理论论文一致性检查。强制执行参考文献卫生（DBLP/CrossRef 验证）。阶段 5.5 强制性的最终主张审核作为提交门控。评审追踪协议：完整的提示/响应对保存到 .aris/traces/ 用于评审员独立性审计（review-tracing.md、save_trace.sh）。灵感来自社区贡献者 @李傲龍。
2026-04-15 — 🎨 FigureSpec Renderer v2 — 用于学术论文的确定性 JSON→SVG 图表生成。支持形状感知的边缘裁剪（矩形/圆形/椭圆形/菱形）、自循环、曲线边、带 CJK 宽度估算的多行标签、全面的验证（类型检查、结构、调色板）。经过 5 轮 Codex 评审（从 3/10 到 7/10）。ARIS 技术报告中的所有架构和工作流程图均由此流水线生成。为 /paper-illustration 技能新增 --- mode: vector。
2026-04-14 — 📋 /paper-claim-audit — 零上下文的论文到证据验证。无先前上下文的新评审员将论文中的每个数字与原始结果文件进行比对。捕获舍入膨胀、最佳种子挑选、配置不匹配、增量误差、范围过度声称。自动集成到工作流 3（阶段 4.7）。完成了三层审核链：/experiment-audit（代码）→ /result-to-claim（科学）→ /paper-claim-audit（报告）。👁️ 视觉 PDF 评审 也已添加到改进循环中——评审员现在能看到编译后的 PDF，而不仅仅是 LaTeX 源文件。灵感来自 Hermes Agent。
2026-04-13 — 🧿 GPT-5.4 Pro via Oracle — 在任何技能上执行 — reviewer: oracle-pro 以调用最强可用的评审员。支持 API 模式（快速）或浏览器模式（免费）。适用于：/research-review、/auto-review-loop、/experiment-audit、/proof-checker、/rebuttal、/idea-creator、/research-lit。默认仍为 Codex xhigh。未安装 = 零影响。Setup →。
2026-04-13 — 🔬 /proof-checker — 通过跨模型评审进行严格的数学证明验证。包含 20 类问题分类、双轴严重性评估、附带条件检查清单（DCT/MCT/Fubini/IFT/...）、反例红队、证明义务台账。自动集成到工作流 3：检测 \begin{theorem} 并在改进循环前运行。作为 /proof-writer 的补充。
2026-04-10 — ⚡ Effort Levels — — effort: lite | balanced | max | beast。控制所有技能的工作强度：发现的论文数量、产生的想法数量、评审轮次、写作深度。Codex 推理始终保持 xhigh。beast = 将所有旋钮调至最大以进行顶级会议冲刺。默认 balanced = 对现有用户零更改。Details →。
2026-04-10 — 🔎 DeepXiv integration — 通过 DeepXiv CLI 进行渐进式论文检索。可选：— sources: deepxiv 或 — sources: all, deepxiv。分阶段阅读：搜索 → 摘要 → 标题 → 章节。通过 pip install deepxiv-sdk 启用。社区贡献者 @DreamEnding。
2026-04-10 — 🛡️ /experiment-audit — 跨模型实验完整性验证。GPT-5.4 直接读取您的评估脚本和结果，检查是否存在伪造的真实标签、自归一化分数、虚假结果和范围膨胀（#131、#57）。咨询性质——大声警告，从不阻止。/result-to-claim 会自动读取审核结果（如果存在）。新增 experiment-integrity.md 共享参考。执行者绝不能评判自身的完整性。
2026-04-10 — 🧠 tools/smart_update.sh — 智能技能更新器。比较本地与上游版本，检测个性化定制（服务器路径、API 密钥），仅更新安全的技能。bash tools/smart_update.sh --apply。
2026-04-10 — 🏆 社区论文：UAV-CC — 首篇附带完整 PDF 存档的社区论文。由 @wxx827 为 IEEE TGRS 撰写的无人机变化字幕基准测试。技术栈：Claude Opus 4.6 + Codex 5.4 xhigh + Cursor。论文现存档于 community_papers/。
2026-04-08 — 📚 /research-wiki — 受 Karpathy's LLM Wiki 启发的持久化研究知识库。在整个研究生命周期中积累论文、想法、实验和主张，并建立类型化关系。在 /research-lit（收录论文）、/idea-creator（读取维基 + 写回想法）和 /result-to-claim（更新主张状态 + 触发重新构思）中设有维基感知的钩子。失败的想法成为反重复记忆。ARIS 现在能从错误中学习。
2026-04-05 — 🧬 /meta-optimize — ARIS 的外层循环工具优化。通过 Claude Code hooks 被动记录技能调用、工具调用、失败和参数覆盖。运行 /meta-optimize 分析累积的使用数据并提出 SKILL.md 改进建议——经过评审员门控，用户批准。灵感来自 Meta-Harness（Lee 等人，2026）。ARIS 现在能自我优化。
2026-04-04 — 🔧 Codex 插件深度集成 — 当实验失败（工作流 1.5）或 LaTeX 无法编译（工作流 3）时，现在会自动调用 /codex:rescue。GPT 在 Claude 重试前独立诊断错误——两个 AI 调试器比一个好。可选：codex exec 为噩梦评审提供动力，/codex:rescue 为自动调试提供动力。Setup →。
2026-04-03 — ☁️ Modal serverless GPU — 没有 GPU？在 CLAUDE.md 中设置 gpu: modal，一条命令（modal run launcher.py），无需 SSH，无需 Docker，自动缩放到零。每月 $30 免费额度——足以在没有硬件的情况下尝试 ARIS 实验。pip install modal && modal setup 即可开始。社区贡献者 @zeyuzhangzyz。
2026-04-03 — 🎮 评审员难度等级 — medium（默认，未更改）、hard（评审员记忆 + 辩论协议）、nightmare（GPT 通过 codex exec 直接读取仓库——Claude 无法隐藏任何东西）。— difficulty: nightmare 用于提交前的最大压力测试。

更早的更新（2026-03-12 — 2026-03-30，22 条）

- **2026-03-30** — 🔥 **自动调试与穷尽尝试不放弃** — 实验桥接器自动诊断故障（内存不足、导入错误、CUDA问题、NaN值）并最多重试3次。灵感源自 [PUA](https://github.com/tanweai/pua) - **2026-03-30** — ☁️ **[Vast.ai GPU rental](skills/vast-gpu/SKILL.md)** — `gpu: vast` 自动租用最便宜的GPU。由 [@YIHONG-JIN](https://github.com/YIHONG-JIN) 贡献。🔧 MiniMax M2.7 升级由 [@octo-patch](https://github.com/octo-patch) 完成 - **2026-03-27** — 📄 **IEEE 会议支持**（9个系列）。🔎 **[Semantic Scholar](skills/semantic-scholar/SKILL.md)**。由 [@ypd666](https://github.com/ypd666) 贡献 - **2026-03-26** — 📄 **基于文档的输入** — `RESEARCH_BRIEF.md` 自动检测 - **2026-03-24** — 📝 **[Workflow 4: `/rebuttal`](skills/rebuttal/SKILL.md)** — 7阶段流水线，3个安全关卡 - **2026-03-23** — 🔧 `/training-check`、`/result-to-claim`、`/ablation-planner` 集成。📦 `compact` 模式。由 [@JingxuanKang](https://github.com/JingxuanKang) 和 [@couragec](https://github.com/couragec) 贡献

2026-03-22 — 📋 Templates — 为每个工作流提供输入模板。📄 7个会议模板 — 新增CVPR、ACL、AAAI、ACM MM。🛡️ 抗幻觉修复 — 工作流2强制执行 DBLP → CrossRef → [验证] 流程。🔗 base repo — 克隆GitHub仓库作为基础代码库（— base repo: https://github.com/org/project）
2026-03-22 — 🔍 Codex + Gemini review guide — Codex执行，Gemini通过本地 gemini-review MCP桥接器进行审查。CN
2026-03-20 — 🚀 Antigravity adaptation guide — 在 Google Antigravity（以智能体为先的IDE）中使用ARIS技能。社区贡献由 @PeppaPigw 提供
2026-03-20 — 🖥️ Trae adaptation guide — 在 Trae（字节跳动AI IDE）中使用ARIS技能。社区贡献由 @Prometheus-cotigo 提供。🔢 formula-derivation — 社区贡献由 @Falling-Flower 提供
2026-03-19 — 🖼️ paper-poster — 会议海报。社区贡献由 @dengzhe-hou 提供
2026-03-19 — 🔗 工作流1.5升级 — /experiment-bridge GPT-5.4 代码审查。📊 W&B修复
2026-03-18 — 🎤 paper-slides + 🔁 Codex+Claude桥接 + 🖱️ Cursor指南 + 🤖 Codex CLI技能 + 📝 grant-proposal + 🎨 paper-illustration（Gemini） + 📊 CitationClaw
2026-03-17 — 🔧 Git代码同步 + 🆓 ModelScope指南 + 参数透传
2026-03-16 — 🔬 research-refine + experiment-plan — 将模糊想法转化为以问题为导向的提案，并生成基于主张的实验路线图。现已集成到工作流1（/idea-discovery）。社区贡献由 @zjYao36 提供
2026-03-16 — 🇨🇳 Alibaba Coding Plan guide — 一个API密钥，4个模型（Kimi-K2.5 + Qwen3.5+ + GLM-5 + MiniMax-M2.7），双端点设置。社区贡献由 @tianhao909 提供
2026-03-15 — 🔀 自带模型！ Any OpenAI-compatible API 现在可通过 llm-chat MCP服务器作为审查者工作。GLM、MiniMax、Kimi、LongCat、DeepSeek均已测试 — 完全无需Claude或OpenAI API
2026-03-15 — 🐾 OpenClaw adaptation guide — 在 OpenClaw 中使用ARIS研究工作流，无需Claude Code斜杠技能
2026-03-15 — 📐 proof-writer — 用于严谨定理证明草稿的社区技能。📚 抗幻觉引用 — /paper-write 现在从 DBLP/CrossRef 获取真实的BibTeX条目，而非LLM生成的条目 — 默认开启，零安装
2026-03-14 — 📱 Feishu/Lark integration：三种模式（关闭/推送/交互式），为实验、审查和检查点提供移动端通知
2026-03-13 — 🛑 人在回路：可在所有工作流中配置 AUTO_PROCEED 检查点。支持全自动或逐步审批
2026-03-12 — 🔗 Zotero + Obsidian + 本地PDF + arXiv/Scholar：多源文献检索，支持跨模型新颖性验证
2026-03-12 — 🚀 三个端到端工作流完成：一次提示 → 顶级会议风格论文。/research-pipeline 链式流程实现想法发现 → 自动审查 → 论文撰写全自动化
2026-03-12 — 📝 /paper-writing 工作流：叙述性报告 → 结构化大纲 → 图表 → LaTeX → 编译PDF → 2轮自动改进（4/10 → 8.5/10）

🚀 快速开始

# 1. Install skills
git clone https://github.com/wanshuiyin/Auto-claude-code-research-in-sleep.git
mkdir -p ~/.claude/skills/    # create if it doesn't exist (new Claude Code versions)
cp -r Auto-claude-code-research-in-sleep/skills/* ~/.claude/skills/

# 1b. Update skills (when upstream has new versions)
cd Auto-claude-code-research-in-sleep && git pull
bash tools/smart_update.sh          # dry-run: shows what's new/changed/safe
bash tools/smart_update.sh --apply  # apply: adds new + updates safe ones

# 2. Set up Codex MCP (for review skills)
npm install -g @openai/codex
codex setup                    # set model to gpt-5.4 when prompted
claude mcp add codex -s user -- codex mcp-server

# 3. Use in Claude Code
claude
> /idea-discovery "your research direction"  # Workflow 1 — be specific! not "NLP" but "factorized gap in discrete diffusion LMs"
> /experiment-bridge                         # Workflow 1.5 — have a plan? implement + deploy + collect results
> /auto-review-loop "your paper topic or scope"  # Workflow 2: review → fix → re-review overnight
> /paper-writing "NARRATIVE_REPORT.md"       # Workflow 3: narrative → polished PDF
> /rebuttal "paper/ + reviews" — venue: ICML    # Workflow 4: parse reviews → draft rebuttal → follow-up
> /research-pipeline "your research direction"  # Full pipeline: Workflow 1 → 1.5 → 2 → 3 end-to-end
> /research-wiki init                           # 📚 Enable persistent research memory (one-time)
> /meta-optimize                                # Meta: analyze usage logs → propose skill improvements

📚 研究维基（可选）： 赋予ARIS跨会话的持久记忆。论文、想法、失败的实验——一切都不会被遗忘：

> # In Claude Code:
> > /research-wiki init                         # creates research-wiki/ in your project
> # That's it. From now on, /research-lit auto-ingests papers, /idea-creator reads
> # the wiki before brainstorming (and writes ideas back), /result-to-claim updates
> # claim status. Failed ideas become anti-repetition memory for future ideation.
> ```> 查看 [Research Wiki](#-research-wiki--persistent-research-memory) 获取完整指南。

> 🧬 **元优化（可选）：** 在**普通终端**（而非 Claude Code 内）运行以下命令，以启用被动使用日志记录：
```bash
> # One-time setup in your project directory
> mkdir -p .claude .aris/meta tools/meta_opt
> cp Auto-claude-code-research-in-sleep/templates/claude-hooks/meta_logging.json .claude/settings.json
> cp Auto-claude-code-research-in-sleep/tools/meta_opt/*.sh tools/meta_opt/
> chmod +x tools/meta_opt/*.sh
> # Then start Claude Code — hooks are active immediately
> claude
> ```> 事件会同时记录到项目级日志（`.aris/meta/events.jsonl`）和全局日志（`~/.aris/meta/events.jsonl`）。累计运行 5 次以上工作流后，可执行 `/meta-optimize` 查看基于数据的优化建议。通过 `/meta-optimize --global` 可分析所有项目的趋势变化。详见 [Workflow M](#workflow-m-meta-optimize--aris-optimizes-itself)。

> 📝 **提供现成模板！** 访问 [`templates/`](templates/) 获取各工作流即用型输入模板——包括 [research brief](templates/RESEARCH_BRIEF_TEMPLATE.md)（工作流 1）、[experiment plan](templates/EXPERIMENT_PLAN_TEMPLATE.md)（工作流 1.5）、[narrative report](templates/NARRATIVE_REPORT_TEMPLATE.md)（工作流 3）和 [paper plan](templates/PAPER_PLAN_TEMPLATE.md)（工作流 3）。
>
> 🔎 **可选功能：DeepXiv 渐进式检索**
```bash
> pip install deepxiv-sdk
> ```> 然后直接使用 [`/deepxiv`](skills/deepxiv/SKILL.md)，或通过 `— sources: deepxiv` 或 `— sources: all, deepxiv` 从 `/research-lit` 中选择启用。

> 🔎 **可选：Exa AI 驱动的网络搜索**
```bash
> pip install exa-py
> export EXA_API_KEY=your-key-here
> ```> 随后直接使用 [`/exa-search`](skills/exa-search/SKILL.md)，或通过 `— sources: exa` 或 `— sources: all, exa` 从 `/research-lit` 中选择启用。涵盖博客、文档、新闻和研究论文，并内置内容提取功能。
>
> 🗑️ **卸载：** 若需移除 ARIS 技能而不影响您个人的自定义技能：
```bash
> cd Auto-claude-code-research-in-sleep && ls skills/ | xargs -I{} rm -rf ~/.claude/skills/{}
> ```> **提示：** 所有流水线行为均可通过内联参数覆盖进行配置——在任何命令后追加 `— key: value` 即可：
>
> | 参数 | 默认值 | 功能说明 |
> |-----------|---------|-------------|
> | `AUTO_PROCEED` | `true` | 在方案选择环节自动继续。设为 `false` 可在投入 GPU 时间前手动选择要推进的方案 |
> | `human checkpoint` | `false` | 每轮评审后暂停，便于您查看评分、给出自定义修改指令、跳过特定修复或提前终止 |
> | `sources` | `all` | 文献检索来源：`zotero`、`obsidian`、`local`、`web`、`semantic-scholar`、`deepxiv`、`exa` 或 `all`。注意：`semantic-scholar`、`deepxiv` 和 `exa` 必须显式列出——不包含在 `all` 中 |
> | `arxiv download` | `false` | 文献调研时下载相关性最高的 arXiv PDF。设为 `false` 时仅获取元数据（标题、摘要、作者） |
> | `DBLP_BIBTEX` | `true` | 从 [DBLP](https://dblp.org)/[CrossRef](https://www.crossref.org) 获取真实 BibTeX 条目，而非 LLM 生成的引用。杜绝虚假引用。零安装 |
> | `code review` | `true` | 在 GPU 部署前使用 GPT-5.4 xhigh 评审实验代码。设为 `false` 可跳过此步骤 |
> | `wandb` | `false` | 自动为实验脚本添加 W&B 日志记录。设为 `true` 并在 CLAUDE.md 中配置 `wandb_project`。`/monitor-experiment` 可从 W&B 拉取训练曲线 |
> | `illustration` | `gemini` | 工作流 3 中的 AI 插图选项：`gemini`（默认，需 `GEMINI_API_KEY`）、`mermaid`（免费）或 `false`（跳过） |
> | `venue` | `ICLR` | 目标投稿会议/期刊：`ICLR`、`NeurIPS`、`ICML`、`CVPR`、`ACL`、`AAAI`、`ACM`。决定 LaTeX 样式文件与页数限制 |
> | `base repo` | `false` | 用作基础代码库的 GitHub 仓库 URL（例如 `— base repo: https://github.com/org/project`）。无代码？可在开源项目基础上构建 |
> | `gpu` | `local` | GPU 目标：`local`（默认）、`remote`（SSH 服务器）或 `vast`（从 [Vast.ai](https://vast.ai) 按需租用——自动部署，自动销毁） |
> | `compact` | `false` | 为短上下文模型和会话恢复生成紧凑摘要文件（`IDEA_CANDIDATES.md`、`findings.md`、`EXPERIMENT_LOG.md`） |
> | `ref paper` | `false` | 作为基础的参考论文（PDF 路径或 arXiv URL）。先进行摘要，再延伸/改进其思路。与 `base repo` 结合可实现论文+代码工作流 |
> | `effort` | `balanced` | 工作强度：`lite`（0.4 倍 token 量）、`balanced`（默认）、`max`（2.5 倍）、`beast`（5-8 倍）。控制广度/深度/迭代次数。Codex 推理始终为 `xhigh`。详见 [Effort Levels](#-effort-levels) |
> | `reviewer` | `codex` | 评审后端：`codex`（GPT-5.4 xhigh，默认）、`oracle-pro`（通过 [Oracle](https://github.com/steipete/oracle) 使用 GPT-5.4 Pro——最强推理）。详见 [Setup →](#-optional-gpt-54-pro-via-oracle) |
> | `difficulty` | `medium` | 评审对抗强度：`medium`（默认）、`hard`（+ 记忆 + 辩论）、`nightmare`（+ GPT 通过 `codex exec` 读取仓库） |

/research-pipeline "your topic" — AUTO_PROCEED: false # pause at idea selection gate /research-pipeline "your topic" — human checkpoint: true # pause after each review round to give feedback /research-pipeline "your topic" — sources: zotero, web # only search Zotero + web (skip local PDFs) /research-pipeline "your topic" — sources: all, deepxiv # default sources plus DeepXiv progressive retrieval /research-pipeline "your topic" — sources: all, exa # default sources plus Exa AI-powered web search /research-pipeline "your topic" — arxiv download: true # download top arXiv PDFs during literature survey /research-pipeline "your topic" — difficulty: nightmare # maximum adversarial review before submission /research-pipeline "your topic" — effort: beast # all knobs to maximum — top-venue sprint /research-pipeline "your topic" — effort: beast, reviewer: oracle-pro # beast + GPT-5.4 Pro reviewer — ultimate mode /research-pipeline "your topic" — effort: lite # quick exploration, save tokens /research-pipeline "your topic" — effort: max, review_rounds: 3 # max effort but cap review at 3 rounds /research-pipeline "your topic" — AUTO_PROCEED: false, human checkpoint: true # combine options /proof-checker "paper/" — reviewer: oracle-pro # Pro-level proof verification ```> 重要提示： Codex MCP 使用的是来自 ~/.codex/config.toml 的模型，而非技能文件中的模型。请确保它显示为 model = "gpt-5.4"（推荐）。其他选项：gpt-5.3-codex、gpt-5.2-codex、o3。运行 codex setup 或直接编辑文件。

希望 Codex 执行但由 Claude Code 审核？ 请参阅 docs/CODEX_CLAUDE_REVIEW_GUIDE.md。该路径会先安装基础 skills/skills-codex/*，然后叠加 skills/skills-codex-claude-review/*，并将审核密集型技能通过本地的 claude-review MCP 桥接进行路由。

希望 Codex 执行但由 Gemini 在本地审核？ 请参阅 docs/CODEX_GEMINI_REVIEW_GUIDE.md 和 CN。该路径会先安装基础 skills/skills-codex/*，然后叠加 skills/skills-codex-gemini-review/*，并将支持审核者的预定义技能通过本地的 gemini-review MCP 桥接进行路由，默认使用直接的 Gemini API。

详情请参阅 full setup guide，如果没有 Claude/OpenAI API，请参阅 alternative model combinations。

🧠 稍后更新技能？ 智能更新会分析哪些操作是安全的：

> cd Auto-claude-code-research-in-sleep
> git pull
> bash tools/smart_update.sh          # dry-run: shows what's new/changed/safe
> bash tools/smart_update.sh --apply  # apply: adds new + updates safe ones
> ```> 对比本地技能与上游版本，检测个人定制化内容（服务器路径、API密钥等），仅更新可安全替换的技能。包含个人信息的技能将被标记，需要人工审核。

## ✨ 功能特性

- 📊 **31个可组合技能** — 可混合搭配，或串联成完整流水线（`/idea-discovery`, `/auto-review-loop`, `/paper-writing`, `/research-pipeline`）
- 🔍 **文献与新颖性** — 多源论文搜索（**[Zotero](#-zotero-integration-optional)** + **[Obsidian](#-obsidian-integration-optional)** + **本地PDF** + arXiv/Scholar）+ 跨模型新颖性验证
- 💡 **创意发现** — 文献调研 → 头脑风暴生成8-12个想法 → 新颖性检查 → GPU试点实验 → 生成排序报告
- 🔄 **自动评审循环** — 4轮自主评审，一夜之间将评分从5/10提升至7.5/10，并运行20+次GPU实验
- 📝 **论文撰写** — 叙事构思 → 大纲 → 图表 → LaTeX → PDF → 自动评审（评分从4/10提升至8.5/10），一键完成。通过[DBLP](https://dblp.org)/[CrossRef](https://www.crossref.org)实现抗幻觉引用
- 🤖 **跨模型协作** — Claude Code执行，GPT-5.4 xhigh评审。采用对抗式而非自我博弈模式。可选升级：通过[Oracle](https://github.com/steipete/oracle)使用`— reviewer: oracle-pro`以获得**GPT-5.4 Pro**（最强推理能力）
- 📝 **同行评审** — 以会议评审员身份评审他人论文，提供结构化评分和元评审
- 🖥️ **评审驱动的实验** — 当GPT-5.4建议“运行消融实验”时，Claude Code会自动编写脚本，通过rsync同步到您的GPU服务器，在screen中启动，收集结果，并将结果整合回论文中。只需在`CLAUDE.md`（[setup guide](#%EF%B8%8F-gpu-server-setup-for-auto-experiments)）中配置您的服务器。**没有GPU？** 使用`gpu: vast`按需从[Vast.ai](https://vast.ai)租用
- 🔀 **灵活的模型选择** — 默认Claude × GPT-5.4，也支持[GLM, MiniMax, Kimi, LongCat, DeepSeek, etc.](#-alternative-model-combinations) — 无需Claude或OpenAI API
- 🛑 **人在回路** — 关键决策点可配置检查点。`AUTO_PROCEED=true`用于全自动模式，`false`用于逐步骤审批
- 📱 **[Feishu/Lark notifications](#-feishulark-integration-optional)** — 三种模式：**关闭（默认，强烈推荐大多数用户使用）**、仅推送（Webhook，移动端提醒）、交互式（通过飞书审批/拒绝）。未配置时零影响

  <details>
  <summary>预览：推送卡片（群组）与交互式聊天（私聊）</summary>

  **仅推送模式** — 群聊卡片（实验完成、检查点、错误、流水线完成）：

  <img src="assets/feishu_push.png" width="700" />

  **交互式模式** — 与Claude Code的私聊（审批/拒绝、自定义指令）：

  <img src="assets/feishu_interactive.jpg" width="700" />

  </details>

- 📚 **[Research Wiki](#-research-wiki--persistent-research-memory)** — 持久化知识库，在整个研究生命周期中积累论文、想法、实验和主张。失败的想法会成为防重复记忆。ARIS从错误中学习，每次运行都变得更智能。灵感来源于[Karpathy's LLM Wiki](https://gist.github.com/karpathy/442a6bf555914893e9891c11519de94f)
- 🧩 **可扩展性** — 欢迎添加领域特定技能！添加`SKILL.md`并提交PR。参见[community skills](#-all-skills)，例如[`dse-loop`](skills/dse-loop/SKILL.md)（架构/EDA）

---

## 📈 评分进展（真实运行记录）

一个机器学习研究项目的真实通宵4轮运行，从接近拒稿到达到可提交水平：

| 轮次 | 评分 | 发生的变化 |
|-------|-------|---------------|
| 初始 | 5.0/10 | 接近拒稿 |
| 第1轮 | 6.5/10 | 添加标准指标，发现指标解耦问题 |
| 第2轮 | 6.8/10 | 关键主张无法复现，调整叙事框架 |
| 第3轮 | 7.0/10 | 大规模种子研究否定了主要改进主张 |
| 第4轮 | **7.5/10** ✅ | 诊断证据得到巩固，**达到可提交水平** |

该循环自主运行了**20+次GPU实验**，重写了论文的叙事框架，并否定了无法成立的主张 — 整个过程无需人工干预。

## 🏆 社区展示 — 使用ARIS构建的论文

使用ARIS流水线端到端完成的真实项目。**如果您使用ARIS完成了一篇论文，我们很乐意在此展示 — 请提交issue或PR！**| 论文 | 评分 | 会议/期刊 | 构建者 | 备注 |
|-------|:------:|-------|----------|-------|
| CS 论文 | **8/10** — "前50%录用论文，明确接收" | CS 会议 | [@DefanXue](https://github.com/DefanXue) & [@Monglitay](https://github.com/Monglitay) | 完整ARIS流程：构思 → 实验 → 自动审稿 → 论文撰写。审稿人评价："实证结果鲜明、论证充分，揭示了根本性缺陷" |
| AAAI 2026 论文 | **7/10** — "优秀论文，接收" | AAAI 2026 主技术轨道 | [@xinbo820-web](https://github.com/xinbo820-web) | 纯 **Codex CLI**（ARIS-Codex技能）构建。已被AAAI 2026接收 |
| [UAV-CC](community_papers/UAV-CC.pdf) | 审稿中 | IEEE TGRS | [@wxx827](https://github.com/wxx827) | 无人机变化描述基准。采用Claude Opus 4.6（执行器）+ Codex GPT-5.4 xhigh（审稿人）+ Cursor Opus 4.6（辅助）。[PDF →](community_papers/UAV-CC.pdf) |

<details><summary>审稿人截图</summary>
<br>
<img src="assets/community_showcase_8_10.png" width="700" alt="8/10 — CS Paper" />
<img src="assets/community_showcase_7_10_codex.png" width="700" alt="7/10 — AAAI 2026, Codex CLI" />
</details>

> 🎉 *完全由ARIS构建的论文——从构思到录用。了解更多？欢迎告知我们！*

## 🧩 精彩社区技能与扩展

由社区贡献的领域特定技能与外部项目。欢迎提交PR——只需添加`skills/your-skill/SKILL.md`并开启PR即可！

> 💡 **使用说明：** 社区技能不会自动接入核心工作流。如需使用，请让您的执行器（Claude Code / OpenClaw / 等）读取该技能的`SKILL.md`，然后根据下方描述将其接入对应工作流阶段。

🎉 **社区技能（13项）：** [research-refine](skills/research-refine/SKILL.md) · [experiment-plan](skills/experiment-plan/SKILL.md) · [grant-proposal](skills/grant-proposal/SKILL.md) · [paper-poster](skills/paper-poster/SKILL.md) · [paper-slides](skills/paper-slides/SKILL.md) · [mermaid-diagram](skills/mermaid-diagram/SKILL.md) · [proof-writer](skills/proof-writer/SKILL.md) · [comm-lit-review](skills/comm-lit-review/SKILL.md) · [dse-loop](skills/dse-loop/SKILL.md) · [idea-discovery-robot](skills/idea-discovery-robot/SKILL.md) · [formula-derivation](skills/formula-derivation/SKILL.md) · [paper-illustration](skills/paper-illustration/SKILL.md) · [writing-systems-papers](skills/writing-systems-papers/SKILL.md)

🌐 **外部项目与文档（11项）：** [open-source-hardening-skills](https://github.com/zeyuzhangzyz/open-source-hardening-skills) · [CitationClaw](https://github.com/VisionXLab/CitationClaw) · [auto-hparam-tuning](https://github.com/zxh0916/auto-hparam-tuning) · [paper-to-course](https://github.com/KaguraTart/paper-to-course) · [Antigravity Adaptation Guide](docs/ANTIGRAVITY_ADAPTATION.md) · [OpenClaw Adaptation Guide](docs/OPENCLAW_ADAPTATION.md) · [Cursor Adaptation Guide](docs/CURSOR_ADAPTATION.md) · [Codex+Claude Review Bridge](docs/CODEX_CLAUDE_REVIEW_GUIDE.md) · [Trae Adaptation Guide](docs/TRAE_ARIS_RUNBOOK_EN.md) · [paper-illustration](skills/paper-illustration/SKILL.md) · [MiniMax-AI/cli](https://github.com/MiniMax-AI/cli)

> 🙌 感谢每一位贡献者！为保持README可读性，我们折叠了下方的表格——但这里的每项技能与项目都同等重要。随时欢迎提交PR！

<details>
<summary><b>🎉 社区技能（13项）</b> — 点击展开</summary>| 名称 | 领域 | 描述 | Codex MCP? |
|------|--------|-------------|-----------|
| 🔬 [`research-refine`](skills/research-refine/SKILL.md) | 通用 | 将模糊的想法转化为以问题为导向、面向实现的方法提案。建议插入在 `/idea-discovery` 和 `/auto-review-loop` 之间 | 是 |
| 🧪 [`experiment-plan`](skills/experiment-plan/SKILL.md) | 通用 | 将精炼的提案转化为以主张驱动的实验路线图，包含消融实验、预算和运行顺序 | 否 |
| 🧭 [`research-refine-pipeline`](skills/research-refine-pipeline/SKILL.md) | 通用 | 单次链式流程：`/research-refine` → `/experiment-plan`，用于方法精炼与实验规划 | 是 |
| 📝 [`grant-proposal`](skills/grant-proposal/SKILL.md) | 通用 | 资助提案起草（KAKENHI/NSF/NSFC/ERC/DFG/SNSF/ARC/NWO）。链式流程 `/research-lit` → `/novelty-check` → `/research-review` → `/paper-illustration` | 是 |
| 🎤 [`paper-slides`](skills/paper-slides/SKILL.md) | 通用 | 会议演讲幻灯片（beamer → PDF + PPTX），含演讲者备注、完整讲稿及问答准备。根据演讲类型自动计算幻灯片数量 | 是 |
| 🖼️ [`paper-poster`](skills/paper-poster/SKILL.md) | 通用 | 会议海报（article + tcbposter → A0/A1 PDF + 组件 PPTX + SVG）。支持特定会场配色、视觉审查循环、Codex MCP 审查 | 是 |
| 📐 [`proof-writer`](skills/proof-writer/SKILL.md) | 机器学习理论 | 严谨的定理/引理证明起草——可行性评估、依赖关系图、真实阻塞报告 | 否 |
| 📡 [`comm-lit-review`](skills/comm-lit-review/SKILL.md) | 通信/无线 | 领域特定文献综述——IEEE/ACM/ScienceDirect 优先级排序、会场分级、PHY/MAC/传输/NTN 分类法 | 否 |
| 🏗️ [`dse-loop`](skills/dse-loop/SKILL.md) | 架构/EDA | 自主设计空间探索——迭代运行、分析并调整参数（gem5, Yosys 等） | 否 |
| 🤖 [`idea-discovery-robot`](skills/idea-discovery-robot/SKILL.md) | 机器人/具身人工智能 | 工作流 1 适配——将想法发现基于具身性、基准测试、仿真到现实路径及真实机器人安全约束 | 是 |
| 📐 [`mermaid-diagram`](skills/mermaid-diagram/SKILL.md) | 通用 | Mermaid 图表（20+ 类型）——`paper-illustration` 的免费替代方案，无需 API 密钥 | 否 |
| 🔢 [`formula-derivation`](skills/formula-derivation/SKILL.md) | 通用 | 研究公式开发——推导、验证及 LaTeX 格式化 | 否 |
| 🖥️ [`writing-systems-papers`](skills/writing-systems-papers/SKILL.md) | 系统 | 10-12 页系统论文（OSDI/SOSP/ASPLOS/NSDI/EuroSys）段落级蓝图——页面分配、写作模式、自检 | 是 |

</details>

<details>
<summary><b>🌐 外部项目与文档（11）</b> —— 点击展开</summary>| 名称 | 领域 | 描述 |
|------|--------|-------------|
| 🛡️ [open-source-hardening-skills](https://github.com/zeyuzhangzyz/open-source-hardening-skills) | DevOps / 开源 | 10步技能流水线，将研究代码强化为生产就绪的开源项目 —— 审计、重构、测试、CI、文档、评审 |
| 📊 [CitationClaw](https://github.com/VisionXLab/CitationClaw) | 通用 | 引用影响力分析 —— 输入论文标题 → 引用爬取、学者识别、分层分析、HTML仪表盘 |
| 🚀 [Antigravity Adaptation Guide](docs/ANTIGRAVITY_ADAPTATION.md) | 通用 | 在 [Google Antigravity](https://antigravity.google/) 中使用 ARIS 技能 —— 原生 SKILL.md 支持、双模型（Claude Opus 4.6 / Gemini 3.1 Pro）、MCP 设置、英文 + [CN](docs/ANTIGRAVITY_ADAPTATION_CN.md) 指南 |
| 🐾 [OpenClaw Adaptation Guide](docs/OPENCLAW_ADAPTATION.md) | 通用 | 在 [OpenClaw](https://github.com/All-Hands-AI/OpenHands) 中使用 ARIS 工作流方法论 —— 技能到阶段映射、基于文件的编排、无需 Claude Code CLI |
| 🖱️ [Cursor Adaptation Guide](docs/CURSOR_ADAPTATION.md) | 通用 | 在 [Cursor](https://www.cursor.com/) 中使用 ARIS 技能 —— `@` 参考技能、MCP 设置、工作流映射、跨会话状态文件恢复 |
| 🖥️ [Trae Adaptation Guide](docs/TRAE_ARIS_RUNBOOK_EN.md) | 通用 | 在 [Trae](https://www.trae.ai/)（字节跳动 AI IDE）中使用 ARIS 技能 —— 英文 + 中文指南 |
| 🎨 [`paper-illustration`](skills/paper-illustration/SKILL.md) | 通用 | 通过 Gemini 生成 AI 架构图。基于 [PaperBanana](https://github.com/dwzhu-pku/PaperBanana)。已集成到工作流 3 |
| 🤖 [`skills-codex`](skills/skills-codex/) | 通用 | 主研究技能的 Codex CLI 同步包，现已包含 `training-check`、`result-to-claim`、`ablation-planner`、`rebuttal`，以及 `shared-references/` 支持目录 |
| 🎛️ [auto-hparam-tuning](https://github.com/zxh0916/auto-hparam-tuning) | 通用 | 自动超参数调优 —— AI 代理读取项目、规划策略、运行实验、分析 TensorBoard、从结果中学习。基于 Hydra |
| 🔁 [Codex+Claude Review Bridge](docs/CODEX_CLAUDE_REVIEW_GUIDE.md) | 通用 | Codex 执行 + Claude 评审，通过本地 `claude-review` MCP 桥接与异步轮询 |
| 📚 [paper-to-course](https://github.com/KaguraTart/paper-to-course) | 教育 | 将研究论文（PDF/LaTeX）转换为交互式六模块 HTML 课程，包含公式解析、文献时间线、测验和术语表提示 —— 单个捆绑文件，无需服务器 |
| 🤖 [MiniMax-AI/cli](https://github.com/MiniMax-AI/cli) | 通用 | 官方 MiniMax CLI —— 文本、图像、视频、语音和音乐生成 + 网络搜索。`skill/SKILL.md` 遵循 agentskills.io 标准。是 Alt B（MiniMax 评审器）设置的即插即用伴侣 |

</details>

## 🔄 工作流

这些技能组合成一个完整的研究生命周期。四个工作流可以独立使用或串联起来：

- **探索新领域（例如，撰写综述）？** 从工作流 1 开始 → `/idea-discovery`
- **有计划，需要实现和运行？** 工作流 1.5 → `/experiment-bridge`
- **已有结果，需要迭代改进？** 工作流 2 → `/auto-review-loop`
- **准备撰写论文？** 工作流 3 → `/paper-writing`（或分步进行：`/paper-plan` → `/paper-figure` → `/paper-write` → `/paper-compile` → `/auto-paper-improvement-loop`）
- **收到评审意见？需要回复？** 工作流 4 → `/rebuttal` —— 解析评审意见、起草安全回复、后续多轮
- **完整流水线？** 工作流 1 → 1.5 → 2 → 3 → 提交 → 4 → `/research-pipeline` + `/rebuttal` —— 从想法到录用
- **希望 ARIS 记住并学习？** 📚 `/research-wiki init` —— 跨会话的持久记忆。论文、想法、失败的实验随时间积累
- **希望 ARIS 自我改进？** 工作流 M → `/meta-optimize` —— 分析使用日志、提出技能改进建议、评审器把关

> ⚠️ **重要提示：** 这些工具加速研究，但不能替代你自己的批判性思维。务必用你的领域专业知识审查生成的想法，质疑假设，并自己做最终决定。最好的研究来自人类洞察 + AI 执行，而非完全自动驾驶。

### 完整流水线 🚀

/research-lit → /idea-creator → /novelty-check → /research-refine → /experiment-bridge → /auto-review-loop → /paper-writing → submit → /rebuttal → accept! 🎉 (survey) (brainstorm) (verify novel) (refine method) (implement+deploy) (review & fix) (write paper) (send) (reply to reviewers) ├────────────── Workflow 1: Idea Discovery ──────────────┤ ├ Workflow 1.5 ─┤ ├── Workflow 2 ──┤ ├── Workflow 3 ──┤ ├── Workflow 4 ──┤

                                 📚 research-wiki (persistent memory — papers, ideas, experiments, claims)
                                    ↕ reads before ideation, writes after every stage, failed ideas = anti-repetition memory

                                          /meta-optimize (Workflow M — runs independently, improves ARIS itself)
                                             ↑ reads .aris/meta/events.jsonl (accumulated from all runs above)

📝 **博客文章：** [梦中科研全流程开源](http://xhslink.com/o/2iV33fYoc7Q)

### 工作流 1：想法发现与方法优化 🔍

> **“当前的技术前沿是什么？存在哪些空白？我们如何解决？”**

还没有明确的想法？只需提供一个研究方向——`/idea-discovery` 会处理其余部分：

1. 📚 **调研** 领域现状（最新论文、开放问题、常见局限）
2. 🧠 **头脑风暴** 通过 GPT-5.4 xhigh 生成 8-12 个具体想法
3. 🔍 **筛选** 基于可行性、计算成本和快速新颖性检查
4. 🛡️ **验证** 对最佳想法进行深度新颖性检查 + 魔鬼式评审
5. 🧪 **试点** 在多个 GPU 上并行测试前 2-3 个想法（每个 30 分钟 - 2 小时）
6. 🏆 **排名** 根据实证信号——试点结果积极的想法脱颖而出
7. 🔬 **优化** 通过迭代式 GPT-5.4 评审，将最佳想法打磨成问题导向的提案
8. 🧪 **规划** 设计以主张驱动的实验，包括消融实验、预算和运行顺序

输出结果包括一个排名的 `IDEA_REPORT.md`，以及针对最佳想法的优化提案（`refine-logs/FINAL_PROPOSAL.md`）和实验计划（`refine-logs/EXPERIMENT_PLAN.md`）。无效的想法也会被记录，以便未来探索时参考。

┌─────────────────────────────────────────────────────────────────┐ │ Idea Discovery & Method Refinement │ │ │ │ /research-lit /idea-creator /novelty-check │ │ (find papers) (brainstorm) (verify novelty) │ │ │ │ │ │ │ ▼ ▼ ▼ │ │ ┌──────────┐ ┌──────────┐ ┌──────────┐ │ │ │ Scan │───▶│ Generate │────▶│ Check if │ │ │ │ local │ │ 8-12 │ │ idea is │ │ │ │ papers + │ │ ideas │ │ novel │ │ │ │ search │ │ + rank │ │ │ │ │ └──────────┘ └──────────┘ └──────────┘ │ │ │ │ │ │ ▼ ▼ │ │ ┌──────────┐ ┌──────────┐ │ │ │ Filter │────▶│ External │ │ │ │ by cost, │ │ LLM │ │ │ │ novelty │ │ evaluates│ │ │ └──────────┘ └──────────┘ │ │ │ │ │ /research-refine ▼ │ │ (refine method) ┌──────────┐ │ │ │ │ Freeze │ │ │ ▼ │ problem │ │ │ ┌──────────┐ │ anchor + │ │ │ │ Iterate │◀───▶│ refine │ │ │ │ until │ │ method │ │ │ │ score≥9 │ └──────────┘ │ │ └──────────┘ │ │ │ │ ▼ │ │ /experiment-plan ┌──────────┐ │ │ │ │ Claim- │ │ │ ▼ │ driven │ │ │ ┌──────────┐ │ experiment│ │ │ │ Plan │────▶│ roadmap │ │ │ │ runs │ └──────────┘ │ │ └──────────┘ │ │ │ │ Typical flow: │ │ 1. /research-lit "discrete diffusion models" │ │ 2. /idea-creator "DLLMs post training" │ │ 3. Review ranked ideas, pick top 2-3 │ │ 4. /novelty-check "top idea" (deep verification) │ │ 5. /research-review "top idea" (critical feedback) │ │ 6. /research-refine "top idea" (problem anchor + method) │ │ 7. /experiment-plan (claim-driven roadmap) │ │ 8. /run-experiment → /auto-review-loop │ └─────────────────────────────────────────────────────────────────┘

**涉及技能：** `research-lit` + `idea-creator` + `novelty-check` + `research-review` + `research-refine-pipeline`

> 💡 **一键快捷方式：** `/idea-discovery "your research direction"` 可自动运行整个工作流。

> 🔄 **人机协同：** 每个阶段都会展示结果并等待您的反馈。不满意？告诉它缺少什么——它会优化提示并重新生成。信任默认设置？它会自动采用排名最高的选项继续执行。由您决定参与程度。

> ⚙️ 试点实验预算（最大时长、超时时间、GPU预算）可配置——详见 [Customization](#%EF%B8%8F-customization)。

📝 **博客文章：** [Claude Code 两月 NeurIPS 指北](http://xhslink.com/o/7IvAJQ41IBA)

### 工作流 1.5：实验桥接 🔗

> **“我已制定计划。现在请实现它、部署它，并为我获取初步结果。”**

已有实验计划（来自工作流 1 或您自备）？`/experiment-bridge` 将其转化为可运行代码：

1. 📋 **解析** 实验计划（`refine-logs/EXPERIMENT_PLAN.md`）
2. 💻 **实现** 实验脚本（复用现有代码，添加适当的 argparse/日志记录/随机种子）
3. 🔍 **GPT-5.4 代码审查** —— 跨模型审查可在浪费 GPU 小时前捕获逻辑错误（默认启用 `code review: true`）
4. ✅ **完整性检查** —— 首先运行最小规模实验以捕获运行时错误
5. 🚀 **部署** 完整实验套件至 GPU（通过 `/run-experiment`）
6. 📊 **收集** 初步结果并更新实验跟踪器

┌─────────────────────────────────────────────────────────────────┐ │ Workflow 1.5: Experiment Bridge │ │ │ │ EXPERIMENT_PLAN.md │ │ │ │ │ ▼ │ │ ┌──────────┐ ┌──────────┐ ┌──────────┐ │ │ │ Claude │────▶│ GPT-5.4 │────▶│ Sanity │ │ │ │ Code │ │ xhigh │ │ Check │ │ │ │ writes │ │ reviews │ │ (1 GPU) │ │ │ │ code │ │ code │ │ │ │ │ └──────────┘ └──────────┘ └──────────┘ │ │ │ │ │ ▼ │ │ ┌──────────┐ ┌──────────┐ ┌──────────┐ │ │ │ Collect │◀────│ Monitor │◀────│ Deploy │ │ │ │ results │ │ progress │ │ to GPUs │ │ │ │ │ │ (+ W&B) │ │ │ │ │ └──────────┘ └──────────┘ └──────────┘ │ │ │ │ │ ▼ │ │ Ready for /auto-review-loop │ └─────────────────────────────────────────────────────────────────┘

**涉及技能：** `experiment-bridge` + `run-experiment` + `monitor-experiment`

> 💡 **一键快捷方式：** `/experiment-bridge` 会自动读取 `refine-logs/EXPERIMENT_PLAN.md`。或者将其指向任何计划：`/experiment-bridge "my_plan.md"`。

> ⚙️ `CODE_REVIEW`、`AUTO_DEPLOY`、`SANITY_FIRST`、`MAX_PARALLEL_RUNS` 均可配置——详见 [Customization](#%EF%B8%8F-customization)。

### 工作流 2：自动研究循环 🔁（休眠并醒来获取结果）

> **“审阅我的论文，修正问题，循环直至完善。”**
>
> GPT-5.4 审阅 → 识别薄弱环节 → 建议实验 → Claude Code 编写脚本、部署至 GPU、监控结果、重写论文——全程在您睡眠期间完成。只需将您的 [GPU server config](#%EF%B8%8F-gpu-server-setup-for-auto-experiments) 添加到 `CLAUDE.md`。

┌─────────────────────────────────────────────────────────────┐ │ Auto Review Loop │ │ │ │ /research-review /auto-review-loop │ │ (single deep review) (autonomous loop) │ │ │ │ │ │ ▼ ▼ │ │ ┌──────────┐ ┌──────────┐ ┌──────────┐ │ │ │ External │──▶│ Implement│──▶│ Monitor │──▶ repeat │ │ │ LLM │ │ fixes │ │ results │ until │ │ │ reviews │ │ & run │ │ │ score ≥ 6 │ │ └──────────┘ │ experiments│ └──────────┘ │ │ └──────────┘ │ │ │ │ When reviewer suggests a new method direction: │ │ /novelty-check — verify idea isn't already published │ │ │ │ Supporting skills: │ │ /run-experiment — deploy to local/remote/vast.ai GPU │ │ /analyze-results — interpret experiment outputs │ │ /monitor-experiment — check progress, collect results │ └─────────────────────────────────────────────────────────────┘

**涉及技能：** `auto-review-loop` + `research-review` + `novelty-check` + `run-experiment` + `analyze-results` + `monitor-experiment`

> 💡 **一键快捷指令：** `/auto-review-loop "your paper topic"` 可自动运行整个工作流。
>
> **需要传递什么参数？** 一个简短的主题或范围即可——该技能会自动读取您项目的叙述文档（`NARRATIVE_REPORT.md`）、记忆文件、实验结果以及先前的评审记录，从而为 GPT-5.4 构建完整的上下文。示例：
> - `/auto-review-loop "factorized gap in discrete diffusion LMs"` —— 宽泛主题，技能会查找所有相关内容
> - `/auto-review-loop "focus on Section 3-5, our CRF results are weak"` —— 带有提示的针对性范围
> - `/auto-review-loop` —— 同样有效：技能会读取项目文件并推断主题

**🎮 评审者难度** —— 控制评审者的对抗程度：

| 等级 | 变化内容 | 适用场景 |
|-------|-------------|----------|
| `medium`（默认） | 标准 MCP 评审 —— 与之前相同 | 常规工作流 |
| `hard` | + 评审者记忆（GPT 跨轮次追踪疑点）+ 辩论协议（Claude 反驳，GPT 裁决） | 需要更严格的反馈 |
| `nightmare` | + GPT 通过 `codex exec` 直接读取仓库（Claude 无法过滤其看到的内容）+ 对抗性验证 | 为顶级会议做准备，需要最大强度的压力测试 |
```bash
/auto-review-loop "topic" — difficulty: nightmare    # GPT reads your code and verifies claims itself

🛡️ 核心安全特性：

🔒 MAX_ROUNDS = 4 — 防止无限循环；若达到分数阈值则提前停止
⏱️ 跳过 > 4 GPU 小时的实验 — 不会启动大规模任务；会将其标记为需手动跟进
🧠 优先重构而非新实验 — 当两者都能解决一个弱点时，选择成本更低的路径
🪞 不隐藏弱点 — 明确规则："请勿隐藏弱点以获取积极分数"
🔧 修复后再审 — 必须实际实施修复后才能重新提交；不接受空头承诺
💾 紧凑恢复 — 每轮后持久化状态（REVIEW_STATE.json）。如果上下文窗口在循环中途填满并自动压缩，工作流会读取状态文件并从上次中断处恢复 — 无需人工干预

⚙️ MAX_ROUNDS、分数阈值和 GPU 限制均可配置 — 详见 Customization。

📝 博客文章： 开源 | 睡觉 Claude 自动跑实验改文

工作流 3：论文撰写流水线 📝

"将我的研究叙述转化为可提交的 PDF 稿件。" 需要本地 LaTeX 环境 — 详见 Prerequisites。

┌─────────────────────────────────────────────────────────────┐
│                   Paper Writing Pipeline                      │
│                                                               │
│   /paper-plan      /paper-figure     /paper-write             │
│   (outline)        (plots & tables)  (LaTeX draft)            │
│        │                │                 │                   │
│        ▼                ▼                 ▼                   │
│   ┌──────────┐    ┌──────────┐     ┌──────────┐              │
│   │ Claims-  │───▶│ Generate │────▶│ Section  │──┐           │
│   │ Evidence │    │ figures, │     │ by       │  │           │
│   │ Matrix + │    │ tables,  │     │ section  │  │           │
│   │ Section  │    │ LaTeX    │     │ LaTeX    │  │           │
│   │ Plan     │    │ includes │     │ draft    │  │           │
│   └──────────┘    └──────────┘     └──────────┘  │           │
│        │                                          │           │
│        │         /paper-compile                   │           │
│        │         (build PDF)                      │           │
│        │              │                           │           │
│        ▼              ▼                           ▼           │
│   ┌──────────────────────────────────────────────────┐       │
│   │ NARRATIVE_REPORT.md ──► PAPER_PLAN.md ──► paper/ │       │
│   │    (input)             (outline)      (LaTeX+PDF)│       │
│   └──────────────────────────────────────────────────┘       │
│                                                               │
│   Typical flow:                                               │
│   1. Write NARRATIVE_REPORT.md (from Workflow 2 results)      │
│   2. /paper-plan (claims-evidence matrix + section plan)      │
│   3. /paper-figure (comparison tables, training curves, etc.) │
│   4. /paper-write (section-by-section LaTeX generation)       │
│   5. /paper-compile (build PDF, fix errors, page check)       │
│   6. /auto-paper-improvement-loop (review ×2 + format check)  │
└─────────────────────────────────────────────────────────────┘

涉及技能： paper-plan + paper-figure + paper-write + paper-compile + auto-paper-improvement-loop + (录用后) paper-poster + paper-slides

一键快捷指令： /paper-writing "NARRATIVE_REPORT.md" 可自动运行整个工作流。

输入： 一份描述研究的 NARRATIVE_REPORT.md，包含：主张、实验、结果、图表。叙述越详细（尤其是图表描述和定量结果），输出质量越高。完整示例请见 templates/NARRATIVE_REPORT_TEMPLATE.md。

输出： 一个可直接提交的 paper/ 目录，包含 LaTeX 源码、干净的 .bib（仅保留被引用的条目）以及编译好的 PDF。

核心功能：

📐 主张-证据矩阵 — 每个主张都映射到证据，每个实验都支持一个主张
📊 自动图表生成 — 根据 JSON 数据自动生成折线图、柱状图、对比表格
🧹 干净参考文献 — 自动过滤移除未被引用的条目（测试中从 948 行减少到 215 行）。使用来自 DBLP/CrossRef 的真实 BibTeX 条目，而非 LLM 生成的条目
📄 灵活章节结构 — 根据论文类型提供 5-8 个章节（理论论文通常需要 7 个）
🔍 GPT-5.4 审阅 — 每个步骤均可选择由外部 LLM 进行审阅
✂️ 去 AI 化润色 — 移除 AI 写作模式（如 delve, pivotal, landscape...）
🎯 页面验证 — 基于 pdftotext 精确检查正文是否满足页数限制

⚠️ 图表生成范围： /paper-figure 自动生成数据驱动图表（训练曲线、柱状图、热力图）和来自 JSON/CSV 的对比表格。对于架构图和方法示意图：illustration: gemini（默认）使用 Claude→Gemini→Nano Banana Pro 生成出版质量的图表；illustration: mermaid 免费生成 Mermaid 图表；illustration: false 则完全跳过 AI 生成的图表。

Gemini API 设置（用于 illustration: gemini）：在 Google AI Studio 获取您的 API 密钥，然后将其设置为环境变量：export GEMINI_API_KEY="your-key"。或者添加到您的 shell 配置文件中（~/.zshrc / ~/.bashrc）。无需其他依赖项。

端到端测试： 从一个单独的 NARRATIVE_REPORT.md 文件生成了 9 页的 ICLR 2026 理论论文（7 个章节，29 篇参考文献，4 张图，2 个对比表格）—— 零编译错误，零未定义引用。

自动论文改进循环 ✨

在工作流 3 生成论文后，/auto-paper-improvement-loop 会运行 2 轮 GPT-5.4 xhigh 内容审阅 → 修复 → 重新编译，外加最终格式合规性检查，自动将论文从初稿打磨至可提交状态。

分数进展（真实测试 — ICLR 2026 理论论文）：

轮次	分数	关键改动
第 0 轮	4/10 (内容)	基线
第 1 轮	6/10 (内容)	修正假设、软化主张、重命名符号
第 2 轮	7/10 (内容)	添加合成验证、强化局限性说明
第 3 轮	5→8.5/10 (格式)	移除主图、附录、压缩结论、调整浮动体间距

最终结果： 正文 8 页（ICLR 限制：9 页），0 个过满 hbox，符合 ICLR 要求。3 轮共提升 4.5 分。

第 1 轮修复项 (6 项)

关键 — 假设与模型不匹配：一个有界性假设与模型的分布族相矛盾。替换为尾部兼容的假设，并添加了正式的截断桥接说明。
关键 — 理论与实践脱节：理论假设了理想化的编码器，而实验使用了学习的非线性编码器。将“验证”弱化为“展示实际相关性”，并添加了明确的免责声明。
主要 — 缺少定量指标：添加了参数数量表（潜在参数 vs 总参数），并对系统成本进行了如实说明。
主要 — 定理不自包含：添加了“解释”段落，明确列出所有依赖项。
主要 — 新颖性声明过度：将宽泛的“首个收敛性保证”限定为在其成立的确切条件下。
主要 — 符号混淆：重命名了一个与其他关键变量冲突的符号。添加了符号说明段落。

第二轮修订（4项）

重大 — 补充理论验证实验：新增了一个合成验证小节，在受控条件下直接测试两个主要理论预测。
重大 — 弱化过度断言：在所有文件中，将强烈的等价性表述替换为经过适当限定的语言。
重大 — 非正式理论论证：将一个非正式的论证理由形式化，转化为一个具有明确误差界限的正式命题。
次要 — 强化局限性说明：扩展内容，明确列出所有假设，并承认缺失的标准评估。

第三轮格式修订（8项）

移除了主图区块（节省约0.7页）
将结论部分从15行压缩至9行
将合成验证移至附录A
将对比表格移至附录B
使用 \resizebox 修复了过宽的文本框（85pt）
添加了紧凑浮动间距（\captionsetup, \textfloatsep）
将引言中的居中问题区块改为行内格式
收紧 itemize 环境设置

工作流 4：审稿意见回复 📝 （安全地回复审稿人）

"审稿意见回来了。帮我起草一份安全、有根据的回复。"

收到审稿意见了？/rebuttal 会解析它们，制定策略，并起草一份符合会议/期刊要求的回复：

📋 解析 — 规范化审稿意见，验证会议/期刊规则（字符限制、纯文本等）
🔍 拆分细化 — 将每条审稿意见拆分为问题卡片（类型、严重性、审稿人立场）
🗺️ 策略制定 — 全局主题、每位审稿人的优先事项、字符预算、需避免的声明
🧪 证据冲刺 — 如果 auto experiment: true，则通过 /experiment-bridge 自动运行补充实验
✍️ 起草 — 全局开场白 + 按审稿人编号的逐条回复 + 给元审稿人的结语
🛡️ 安全检查 — 6项检查：覆盖率、来源、承诺、语气、一致性、限制
🔬 GPT-5.4 压力测试 — 对回复草案进行内部怀疑性审阅
📄 定稿 — 两个输出：PASTE_READY.txt（精确字符数版本） + REBUTTAL_DRAFT_rich.md（用于手动编辑的扩展版本）
🔄 后续轮次 — 用于审稿人讨论的增量回复，技术性逐步深入

┌─────────────────────────────────────────────────────────────────┐
│                   Workflow 4: Rebuttal                            │
│                                                                  │
│   Reviews arrive                                                 │
│         │                                                        │
│         ▼                                                        │
│   ┌──────────┐     ┌──────────┐     ┌──────────┐               │
│   │ Parse &  │────▶│ Strategy │────▶│ Evidence  │               │
│   │ atomize  │     │ plan     │     │ sprint    │               │
│   │ reviews  │     │          │     │ (optional)│               │
│   └──────────┘     └──────────┘     └──────────┘               │
│                                          │                       │
│                                          ▼                       │
│   ┌──────────┐     ┌──────────┐     ┌──────────┐               │
│   │ Finalize │◀────│ GPT-5.4  │◀────│ Draft    │               │
│   │ 2 versions│    │ stress   │     │ rebuttal │               │
│   │          │     │ test     │     │          │               │
│   └──────────┘     └──────────┘     └──────────┘               │
│         │                                                        │
│         ▼                                                        │
│   PASTE_READY.txt (strict) + RICH.md (extended)                  │
│         │                                                        │
│         ▼                                                        │
│   Follow-up rounds (delta replies, per-reviewer threads)         │
└─────────────────────────────────────────────────────────────────┘

涉及技能： rebuttal

💡 快速模式： /rebuttal — quick mode: true 在完成解析 + 策略制定（阶段 0-3）后停止。在投入完整草稿前，先了解审稿人的需求。

⚙️ VENUE、AUTO_EXPERIMENT、QUICK_MODE、MAX_STRESS_TEST_ROUNDS 均可配置 —— 详见 Customization。

三道安全关卡 —— 若任何一项未通过，反驳将不会最终定稿：

🔒 来源可溯 —— 每个主张都映射到论文/评审/用户确认的结果。杜绝捏造。
🔒 承诺约束 —— 每个承诺都需经用户批准。杜绝过度承诺。
🔒 覆盖全面 —— 每个审稿人的关切点都被追踪。杜绝遗漏。

📚 研究维基 —— 持久化研究记忆

"停止重复推导，开始积累复利。" —— 灵感源自 Karpathy's LLM Wiki

没有维基，ARIS 是无状态的 —— 每次 /idea-discovery 都从零开始。有了维基，ARIS 就能在整个研究生命周期中积累知识：阅读的论文、测试的想法、运行的实验、已验证或已证伪的主张。

核心洞见： 失败的想法是最宝贵的记忆。一个知道什么方法行不通的研究者，比从零开始的研究者能产生更好的想法。

设置：

> /research-wiki init     # one-time, creates research-wiki/ in your project

就这样。 初始化完成后，wiki 便会自动运行：

何时	发生什么	Wiki 操作
`/research-lit` 发现论文	论文自动收录	创建 `papers/<slug>.md`，添加边，重建查询包
`/idea-creator` 运行	先读取 wiki	失败的想法 = 禁止列表，空白 = 搜索种子，论文 = 已知先前工作
`/idea-creator` 完成	所有想法写回	推荐的和被淘汰的想法 → `ideas/<id>.md`
`/result-to-claim` 判定	结果写回	创建实验页面，更新主张状态（支持/无效）
3+ 个想法失败	建议重新构思	"💡 考虑重新运行 /idea-creator — wiki 现在知道哪些方法行不通"

四种实体类型：

实体	存储内容	示例
📄 论文	结构化摘要：论点、方法、局限性、可复用要素	`paper:chen2025_factorized_gap`
💡 想法	假设、状态（提出/失败/成功）、失败说明、经验教训	`idea:001`
🧪 实验	指标、判定、硬件、时长	`exp:001`
📋 主张	可验证的陈述 + 证据状态（已报告/支持/无效）	`claim:C1`

类型化关系（存储在 graph/edges.jsonl 中）：

paper --extends--> paper              idea --inspired_by--> paper
paper --contradicts--> paper          idea --tested_by--> experiment
paper --addresses_gap--> gap          experiment --supports--> claim
paper --supersedes--> paper           experiment --invalidates--> claim

螺旋式学习实践：

Round 1: read 15 papers → wiki remembers → idea A → experiment → FAIL
         wiki records: "A fails because OOM at batch>32, loss diverges"

Round 2: /idea-creator reads wiki → sees A failed → generates idea D (avoids A's trap)
         → experiment → PARTIAL SUCCESS
         wiki records: "D works on small models, fails on large"

Round 3: /idea-creator reads wiki → knows A failed + D partial → generates idea F
         (combines D's success with new approach) → experiment → SUCCESS 🎉

子命令：

/research-wiki init                              # initialize wiki
/research-wiki ingest "paper title" — arxiv: xxx  # manually add a paper
/research-wiki query "topic"                      # rebuild query_pack.md
/research-wiki update idea:001 — outcome: negative # update entity
/research-wiki lint                               # health check (orphans, contradictions, stale claims)
/research-wiki stats                              # overview (paper/idea/experiment/claim counts)

🔒 安全设计： 所有工作流钩子均受 if research-wiki/ exists 保护。无 wiki = 无影响。零依赖（纯 Python 标准库）。启用时机由您决定。

工作流 M：元优化 🧬（ARIS 自我优化）

“分析我的使用模式，提升你自身的技能。”

与优化研究产物（论文、代码、实验）的工作流 1–4 不同，工作流 M 优化的是工具本身——即管理 ARIS 运作方式的 SKILL.md 指令、默认参数和收敛规则。灵感源自 Meta-Harness（Lee 等人，2026）。

设置（一次性，在普通终端中）：

mkdir -p .claude .aris/meta tools/meta_opt
cp Auto-claude-code-research-in-sleep/templates/claude-hooks/meta_logging.json .claude/settings.json
cp Auto-claude-code-research-in-sleep/tools/meta_opt/*.sh tools/meta_opt/
chmod +x tools/meta_opt/*.sh
claude   # hooks active immediately

使用（在完成 5 次以上工作流运行后）：

> /meta-optimize                        # analyze current project
> /meta-optimize "auto-review-loop"     # focus on one skill
> /meta-optimize --global               # analyze trends across ALL projects
> /meta-optimize apply 1                # apply recommended change #1

工作原理：

📊 被动记录 — Claude Code 钩子静默记录每次技能调用、工具调用、失败、参数覆盖和用户提示。事件同时写入项目级（.aris/meta/events.jsonl）和全局（~/.aris/meta/events.jsonl，带 "project" 标签）日志。用户零操作。
🔍 模式分析 — /meta-optimize 读取日志并识别：
- 用户最常覆盖的参数（默认值不佳）
- 特定技能中反复失败的工具（缺少错误处理）
- 评审分数停滞（收敛规则过松/过紧）
- 用户手动修正的内容（技能缺口）
🩹 补丁提案 — 生成针对 SKILL.md 文件的最小化差异补丁，并提供数据支持的论证
🔬 评审关卡 — GPT-5.4 xhigh 审核每个补丁：证据是否充分？是否可能影响其他用户？
✅ 用户批准 — 仅通过用户明确同意后应用。所有更改均被记录且可逆。

┌─────────────────────────────────────────────────────────────────┐
│                  Workflow M: Meta-Optimize                        │
│                                                                  │
│   Normal ARIS usage (W1-W4)                                      │
│         │ (hooks log events passively)                           │
│         ▼                                                        │
│   .aris/meta/events.jsonl                                        │
│         │                                                        │
│         ▼                                                        │
│   ┌──────────┐     ┌──────────┐     ┌──────────┐               │
│   │ Analyze  │────▶│ Propose  │────▶│ GPT-5.4  │               │
│   │ patterns │     │ SKILL.md │     │ reviews  │               │
│   │          │     │ patches  │     │ patch    │               │
│   └──────────┘     └──────────┘     └──────────┘               │
│                                          │                       │
│                                          ▼                       │
│                                    User approves?                 │
│                                     Yes → Apply                  │
│                                     No  → Skip                   │
└─────────────────────────────────────────────────────────────────┘

优化的内容（工具组件）：

组件	示例
技能提示	评审员指令、质量门控、步骤描述
默认参数	`difficulty`、`MAX_ROUNDS`、`threshold`
收敛规则	何时停止评审循环、重试次数
错误处理	自动调试模式、失败恢复步骤

不优化的内容： 研究产物（论文、代码、实验）——这些由 W1–W4 负责。

涉及的技能： meta-optimize

💡 这是一个维护工作流，不属于 W1→W1.5→W2→W3→W4 的研究流程。请定期运行，例如为你的研究工具进行 git gc。

⚡ 工作量等级

“ARIS 应该投入多少努力？” —— 每个技能都接受 — effort: lite | balanced | max | beast。

等级	代币数	最适合	变化内容
`lite`	~0.4x	快速探索、预算有限的用户	更少的论文、想法、轮次。最小可行深度
`balanced`	1x	常规工作流（默认）	当前 ARIS 行为。现有用户无变化
`max`	~2.5x	严肃的投稿准备	更多论文、更深入的评审、更多消融实验
`beast`	~5-8x	顶级会议的最后冲刺	所有参数调至最大。无预算限制

无论工作量如何，永不改变的内容：

Codex 推理：始终为 xhigh（评审员质量不容妥协）
DBLP/CrossRef 引用：始终开启
评审员独立性：始终开启
实验完整性：始终开启

# Every skill accepts effort independently
/research-lit "topic" — effort: beast              # 40-50 papers, 15+ queries
/idea-creator "direction" — effort: lite           # 4-6 ideas, quick filter
/auto-review-loop — effort: max                    # 6 rounds, 4-6 fixes/round

# Mix with specific overrides
/auto-review-loop — effort: beast, review_rounds: 3  # beast everything, but cap at 3 rounds

# Full pipeline
/research-pipeline "your topic" — effort: beast    # top-venue sprint mode

完整能力对比表 — 点击展开

技能	维度	lite	balanced	max	beast
research-lit	文献数量	6-8	10-15	18-25	40-50
idea-creator	创意数量	4-6	8-12	12-16	20-30
idea-creator	试点项目	1-2	2-3	3-4	5-6
novelty-check	查新范围	2-3	3-4	4-6	全部
research-refine	迭代轮次	3	5	7	10+
experiment-plan	实验数量	3	5	7	10+
experiment-plan	随机种子数	1	3	5	5
auto-review-loop	自动评审轮次	2	3-4	6	8+
paper-improvement	论文改进轮次	1	2	3	5
paper-illustration	插图迭代次数	2	3	5	7
rebuttal	压力测试次数	0-1	1	2	3
experiment-audit	审计深度	跳过	基础	完整	逐行

📖 完整规格说明：shared-references/effort-contract.md

🧿 可选：通过 Oracle 使用 GPT-5.4 Pro

专为追求最强评审能力的专家研究者设计。

Oracle 可解锁 GPT-5.4 Pro 作为 ARIS 评审员 —— 这是当前可用的最强推理模型。Pro 版本擅长深度数学证明验证、逐行代码审计以及复杂实验设计批判。

设置步骤：

# 1. Install Oracle
npm install -g @steipete/oracle

# 2. Add Oracle MCP to Claude Code
claude mcp add oracle -s user -- oracle-mcp

# 3. Restart Claude Code

# 4a. API mode (fast, recommended):
export OPENAI_API_KEY="your-key"

# 4b. Browser mode (free, no API key — log in to ChatGPT in Chrome):
# Just open Chrome → chatgpt.com → log in

用法 — 在任何技能中添加 — reviewer: oracle-pro：

/research-review "my draft" — reviewer: oracle-pro          # Pro-level paper critique
/proof-checker "paper/" — reviewer: oracle-pro              # deepest mathematical verification
/experiment-audit — reviewer: oracle-pro                    # Pro audits your eval code
/auto-review-loop "scope" — reviewer: oracle-pro            # Pro stress test each round
/idea-creator "direction" — reviewer: oracle-pro            # Pro evaluates your ideas
/rebuttal "paper/ + reviews" — reviewer: oracle-pro         # Pro stress tests your rebuttal

默认始终为 Codex xhigh。 未安装 Oracle = 零影响。— reviewer: oracle-pro 在未安装 Oracle 时 = 优雅降级至 Codex + 警告。

📖 完整规范：shared-references/reviewer-routing.md

🧰 所有技能

🚀 完整流水线

技能	描述	Codex MCP?
🏗️ `research-pipeline`	端到端：工作流 1 → 1.5 → 2 → 3，从研究方向到提交	是

🔍 工作流 1：想法发现与方法精炼

技能	描述	Codex MCP?
🔭 `idea-discovery`	流水线编排器 — 按顺序运行以下所有技能	是
├ 📚 `research-lit`	多源文献搜索（Zotero + Obsidian + 本地 PDF + arXiv API + 网页）	否
├ 💡 `idea-creator`	头脑风暴 8-12 个想法，按可行性筛选，在 GPU 上试点，按信号排序	是
├ 🔍 `novelty-check`	根据近期文献验证想法新颖性（多源 + GPT-5.4 交叉检查）	是
├ 🔬 `research-review`	来自外部 LLM 的单轮深度评审（xhigh 推理）	是
└ 🧭 `research-refine-pipeline`	在一个链中精炼方法 + 规划实验	是
├ 🔬 `research-refine`	问题锚定 → 迭代式方法精炼（最多 5 轮，得分 ≥ 9）	是
└ 🧪 `experiment-plan`	基于主张的实验路线图，包含消融实验、预算和运行顺序	否

🔗 工作流 1.5：实验桥接

技能	描述	Codex MCP?
🔗 `experiment-bridge`	读取实验计划 → 实现代码 → 完整性检查 → 部署到 GPU → 收集初步结果	否
├ 🚀 `run-experiment`	将实验部署到本地、远程或 Vast.ai GPU（`gpu: local/remote/vast`）	否
├ 👀 `monitor-experiment`	监控运行中的实验，检查进度，收集结果	否
└ ☁️ `vast-gpu`	从 Vast.ai 租用、管理和销毁按需 GPU 实例	否

🔁 工作流 2：自动研究循环

技能	描述	Codex MCP?
🔁 `auto-review-loop`	流水线编排器 — 自主评审→修复→再评审（最多 4 轮）	是
├ 🔬 `research-review`	来自外部 LLM 的深度评审（与工作流 1 共享）	是
├ 🔍 `novelty-check`	当评审者建议新方向时验证新颖性	是
├ 🚀 `run-experiment`	将实验部署到本地、远程或 Vast.ai GPU（`gpu: local/remote/vast`）	否
├ 📊 `analyze-results`	分析实验结果，计算统计量，生成见解	否
└ 👀 `monitor-experiment`	监控运行中的实验，检查进度，收集结果	否
🔁 `auto-review-loop-llm`	同上，但通过 `llm-chat` MCP 服务器使用任何 OpenAI 兼容 API	否

📝 工作流 3：论文撰写

技能	描述	Codex MCP?
📝 `paper-writing`	流水线编排器 — 按顺序运行以下所有技能	是
├ 📐 `paper-plan`	主张-证据矩阵、章节结构、图表计划、引用框架	是
├ 📊 `paper-figure`	出版质量的 matplotlib/seaborn 图表 + LaTeX 对比表格	可选
├ 🎨 `paper-illustration`	通过 Gemini 生成 AI 架构图和方法图（当 `illustration: true` 时）	否（需要 Gemini API）
├ ✍️ `paper-write`	逐章节 LaTeX 生成（ICLR/NeurIPS/ICML）。通过 DBLP/CrossRef 实现抗幻觉 BibTeX	是
├ 🔨 `paper-compile`	编译 LaTeX 到 PDF，自动修复错误，提交就绪检查	否
└ 🔄 `auto-paper-improvement-loop`	2 轮内容评审 + 格式检查（4/10 → 8.5/10）	是

📝 工作流 4：反驳

技能	描述	Codex MCP?
📝 `rebuttal`	解析评审 → 原子化 → 策略 → 草稿 → 安全检查 → 压力测试 → 定稿（2 个版本） → 跟进	是

🛠️ 独立 / 实用工具| 技能 | 描述 | Codex MCP? |

|-------|-------------|:---:| | 📄 arxiv | 搜索、下载并总结 arXiv 论文。可独立使用或作为 /research-lit 的补充 | 否 | | 🔎 semantic-scholar | 通过 Semantic Scholar API 搜索已发表的会议/期刊论文（IEEE, ACM, Springer）。提供引用次数、会议元数据、TLDR摘要 | 否 | | 📚 deepxiv | 通过 DeepXiv CLI 进行渐进式论文检索：搜索、简要信息、章节地图、章节阅读、趋势分析、网络搜索 | 是 (pip install deepxiv-sdk) | | 🔎 exa-search | 通过 Exa 进行 AI 驱动的广泛网络搜索：博客、文档、新闻、公司、研究论文，并提取内容（高亮、文本、摘要） | 是 (pip install exa-py) | | 📝 alphaxiv | 通过 AlphaXiv 快速单篇论文查找，提供 LLM 优化的摘要。三级回退机制：概述 → 完整 Markdown → LaTeX 源码 | 否 | | 🎨 pixel-art | 为 README、文档或幻灯片生成像素艺术 SVG 插图 | 否 | | 📱 feishu-notify | Feishu/Lark 推送（webhook）或交互式（双向）。默认关闭 | 否 |

⚙️ 设置

前提条件

已安装 Claude Code
（用于审查类技能）已安装 Codex CLI 并配置为 MCP 服务器：

   npm install -g @openai/codex
   claude mcp add codex -s user -- codex mcp-server

（适用于工作流3：论文撰写）LaTeX 环境，包含 latexmk 和 pdfinfo：

   # macOS
   brew install --cask mactex    # or: brew install basictex
   brew install poppler          # provides pdfinfo

   # Ubuntu/Debian
   sudo apt install texlive-full latexmk poppler-utils

   # Verify
   latexmk --version && pdfinfo -v

若您仅需工作流 1 和 2（创意发现 + 自动评审），则无需安装 LaTeX。

安装技能

💡 推荐：项目本地符号链接安装（自 v0.4.2 版本起）。项目隔离可防止 ARIS 工作流被其他社区技能包（如 Superpowers 等）中断。问题 #118。

# 1. Clone ARIS once to a stable location
git clone https://github.com/wanshuiyin/Auto-claude-code-research-in-sleep.git ~/aris_repo

# 2. For each project that uses ARIS, attach via symlink:
cd ~/your-paper-project
bash ~/aris_repo/tools/install_aris.sh
# → auto-detects platform (Claude Code / Codex CLI) from CLAUDE.md or AGENTS.md
# → creates .claude/skills/aris symlink (or .agents/skills/aris for Codex)
# → adds a managed block to CLAUDE.md / AGENTS.md telling the agent to use only project-local skills
# → records install metadata in .aris/skill-source.txt

# 3. To update ARIS for ALL attached projects, just pull the repo once:
cd ~/aris_repo && git pull

# Windows (PowerShell, requires admin or developer mode for junctions):
.\tools\install_aris.ps1 C:\path\to\your-paper-project

替代安装方式（高级）

项目本地副本（用于按项目自定义）：

# Copy skills into the project (instead of symlink)
mkdir -p ~/your-project/.claude/skills
bash ~/aris_repo/tools/smart_update.sh \
    --project ~/your-project \
    --target-subdir .claude/skills/aris \
    --apply
# Update with: smart_update.sh --project ~/your-project --target-subdir .claude/skills/aris --apply

全局安装（适用于希望在每个项目中都能使用ARIS的高级用户）：

cp -r ~/aris_repo/skills/* ~/.claude/skills/
# Update with: bash tools/smart_update.sh --apply

全局安装会增加技能名称与其他全局安装包冲突的风险。仅在理解权衡利弊且不将 ARIS 与 Superpowers / OpenHands 等工具混用时使用。

💡 新版 Claude Code 可能不会自动创建 ~/.claude/skills/。若使用全局安装，请先创建该目录：mkdir -p ~/.claude/skills/。符号链接安装程序会自动处理目录创建。

可选：代码审查用 Codex 插件

codex-plugin-cc 提供了 ARIS 安装时可自动检测的额外 Codex 功能：

# In Claude Code:
/plugin marketplace add openai/codex-plugin-cc
/plugin install codex@openai-codex
/reload-plugins
/codex:setup

ARIS 使用该插件的场景：

技能	命令	功能说明
`/codex:review`	工作流 1.5	在 GPU 部署前审查实验代码
`/codex:adversarial-review`	工作流 1.5	对抗性代码审查（寻找边界情况、漏洞）
`/codex:rescue`	工作流 1.5 + 3	自动调试救援 — 当实验或 LaTeX 编译在 2 次尝试后失败，Codex 会在下一次重试前独立诊断根本原因

所有插件功能均为可选 — 如果未安装，ARIS 将回退到 Claude 自身的诊断功能。该插件仅作为第二双眼睛提供额外审查。

注意：ARIS 核心的跨模型审查（论文评分、想法评估、反驳压力测试）仍使用 Codex MCP，它支持自定义提示。该插件无法替代此功能。

更新技能

cd Auto-claude-code-research-in-sleep
git pull

# 🧠 Smart update (recommended) — analyzes what's safe to update
bash tools/smart_update.sh          # dry-run: shows what would change
bash tools/smart_update.sh --apply  # apply: adds new + updates safe ones

# Manual options (if you prefer):
# cp -r skills/* ~/.claude/skills/       # Option A: overwrite all
# cp -rn skills/* ~/.claude/skills/      # Option B: only add new, keep yours
# cp -r skills/experiment-bridge ~/.claude/skills/  # Option C: specific skill

💡 智能更新 会对比您的本地技能与上游版本，检测个人自定义内容（服务器路径、API密钥等），并仅更新可安全替换的技能。包含您个人信息的技能将被标记以供手动审核。

使用方法

# Workflow 1: Idea Discovery
> /idea-discovery "your research direction"          # full pipeline
> /research-lit "topic"                              # just literature survey (all sources)
> /research-lit "topic" — sources: zotero, web        # mix and match sources
> /research-lit "topic" — sources: deepxiv            # DeepXiv-only progressive retrieval
> /research-lit "topic" — sources: exa                # Exa AI-powered web search with content extraction
> /research-lit "topic" — arxiv download: true         # also download top arXiv PDFs
> /arxiv "discrete diffusion" — download               # standalone arXiv search + download
> /idea-creator "topic"                              # just brainstorm

# Workflow 2: Auto Research Loop
> /auto-review-loop "your paper topic"               # review → fix → repeat
> /research-review "your paper"                      # single deep review

# Workflow 3: Paper Writing
> /paper-writing "NARRATIVE_REPORT.md"               # full pipeline
> /paper-plan "NARRATIVE_REPORT.md"                  # just outline
> /paper-compile "paper/"                            # just compile

# Full Pipeline
> /research-pipeline "your research direction"       # Workflow 1 → 2 → 3 end-to-end

# Supporting Skills
> /run-experiment train.py --lr 1e-4 --epochs 100
> /analyze-results figures/*.json
> /monitor-experiment server5

🌙 自动允许夜间运行（可选）

要在无需点击权限提示的情况下运行自动审核循环，请添加到 .claude/settings.local.json：

{
  "permissions": {
    "allow": [
      "mcp__codex__codex",
      "mcp__codex__codex-reply",
      "Write",
      "Edit",
      "Skill(auto-review-loop)"
    ]
  }
}

🖥️ GPU 服务器配置（用于自动实验）

当 GPT-5.4 提出“运行消融实验”或“添加基线对比”时，Claude Code 会自动编写实验脚本并将其部署到您的 GPU 服务器。为此，Claude Code 需要了解您的服务器环境。

我们支持三种 GPU 模式 —— 请选择一种并将其添加到您项目的 CLAUDE.md 中：

选项 A：远程 SSH 服务器（`gpu: remote`）

## Remote Server
- gpu: remote
- SSH: `ssh my-gpu-server` (key-based auth, no password)
- GPU: 4x A100
- Conda env: `research` (Python 3.10 + PyTorch)
- Activate: `eval "$(/opt/conda/bin/conda shell.bash hook)" && conda activate research`
- Code directory: `/home/user/experiments/`
- Use `screen` for background jobs: `screen -dmS exp0 bash -c '...'`

Claude Code 读取此内容后，知道如何通过 SSH 连接、激活环境并启动实验。GPT-5.4（评审者）仅决定运行哪些实验——Claude Code 会根据您的 CLAUDE.md 来规划具体执行方式。

选项 B：本地 GPU（`gpu: local`）

如果您已身处 GPU 服务器，可将以下内容添加至您的 CLAUDE.md：

## GPU Environment
- gpu: local
- This machine has direct GPU access (no SSH needed)
- GPU: 4x A100 80GB
- Experiment environment: `YOUR_CONDA_ENV` (Python 3.x + PyTorch)
- Activate before any Python command: `The command to activate your experiment environment` (uv, conda, etc.)
- Code directory: `/home/YOUR_USERNAME/YOUR_CODE_DIRECTORY/`

选项 C：Vast.ai 按需 GPU（`gpu: vast`）

没有 GPU？从 Vast.ai 按需租用。ARIS 分析您的训练任务（模型大小、数据集、预估时间），搜索最便宜且符合需求的 GPU，并提供包含预估总成本的选项——不仅仅是每小时单价。选定后，它会处理一切：租用 → 设置 → 运行 → 收集结果 → 销毁。

前提条件：

创建 Vast.ai 账户：访问 https://cloud.vast.ai/ 并添加支付方式（信用卡或加密货币）
安装 vastai CLI（需要 Python ≥ 3.10）：

   pip install vastai

如果你的 Python 版本较旧（请使用 python --version 检查），请使用 Python ≥ 3.10 的虚拟环境（例如 conda create、pyenv、uv venv 等）。

设置你的 API 密钥 — 从 https://cloud.vast.ai/cli/: 获取

   vastai set api-key YOUR_API_KEY

上传您的 SSH 公钥至 https://cloud.vast.ai/manage-keys/ — 在租用任何实例前必须完成此操作（密钥将在创建时嵌入）。如果您还没有 SSH 公钥：

   ssh-keygen -t ed25519 -C "your_email@example.com"
   cat ~/.ssh/id_ed25519.pub   # copy this to Vast.ai

验证设置 — 测试搜索功能是否正常：

   vastai search offers 'gpu_ram>=24 reliability>0.95' -o 'dph+' --limit 3

添加到 CLAUDE.md：

## Vast.ai
- gpu: vast                  # rent on-demand GPU from vast.ai
- auto_destroy: true         # auto-destroy after experiment completes (default)
- max_budget: 5.00           # optional: warn if estimated cost exceeds this

就这么简单——无需指定GPU型号或硬件配置。当你运行/run-experiment时，ARIS会读取你的实验脚本/计划，预估显存需求和训练时间，并提供如下选项：

| # | GPU       | VRAM  | $/hr  | Est. Hours | Est. Total | Offer ID |
|---|-----------|-------|-------|------------|------------|----------|
| 1 | RTX 4090  | 24 GB | $0.28 | ~4h        | ~$1.12     | 6995713  |  ← best value
| 2 | A100 SXM  | 80 GB | $0.95 | ~2h        | ~$1.90     | 7023456  |  ← fastest

选一个数字，剩下的交给它处理。直接使用 /vast-gpu 进行手动控制。

完全没有服务器？ 即使没有 GPU 访问权限，审阅和重写功能仍然有效。仅与实验相关的修复会被跳过（标记为需手动跟进）。

📚 Zotero 集成（可选）

如果你使用 Zotero 管理论文库，/research-lit 可以在搜索网络之前，先搜索你的收藏、读取你的批注/高亮内容，并导出 BibTeX。

推荐：zotero-mcp（1.8k⭐，语义搜索，PDF 批注，BibTeX 导出）

# Install
uv tool install zotero-mcp-server   # or: pip install zotero-mcp-server

# Add to Claude Code (Local API — requires Zotero desktop running)
claude mcp add zotero -s user -- zotero-mcp -e ZOTERO_LOCAL=true

# Or use Web API (works without Zotero running)
claude mcp add zotero -s user -- zotero-mcp \
  -e ZOTERO_API_KEY=your_key -e ZOTERO_USER_ID=your_id

在 https://www.zotero.org/settings/keys 获取您的 API 密钥

在 /research-lit 中启用的功能：

🔍 按主题搜索您的 Zotero 文库（包括语义/向量搜索）
📂 浏览收藏集和标签
📝 阅读您的 PDF 批注和重点标记（您个人认为重要的内容）
📄 导出 BibTeX，供论文写作直接使用

不使用 Zotero？ 没问题 — /research-lit 会自动跳过 Zotero，转而使用本地 PDF 文件 + 网络搜索。

📓 Obsidian 集成（可选）

如果您使用 Obsidian 进行研究笔记记录，/research-lit 可以搜索您的知识库，查找论文摘要、带标签的参考文献以及您自己的见解。

推荐：mcpvault（760⭐，无需 Obsidian 应用，14 种工具，BM25 搜索）

# Add to Claude Code (point to your vault path)
claude mcp add obsidian-vault -s user -- npx @bitbonsai/mcpvault@latest /path/to/your/vault

可选补充：obsidian-skills（13.6k⭐，由 Obsidian CEO 提供）—— 教会 Claude 理解 Obsidian 特有的 Markdown 语法（维基链接、标注框、属性）。复制到你的知识库：

git clone https://github.com/kepano/obsidian-skills.git
cp -r obsidian-skills/.claude /path/to/your/vault/

在 /research-lit 中实现的功能：

🔍 在您的知识库中搜索与研究主题相关的笔记
🏷️ 通过标签查找笔记（例如 #paper-review、#diffusion-models）
📝 阅读您已处理的摘要与见解（比原始论文更有价值）
🔗 通过维基链接追踪并发现相关笔记

未使用 Obsidian？ 没问题 — /research-lit 会自动跳过 Obsidian 环节，并保持原有工作流程。

💡 Zotero 与 Obsidian 协同使用：许多研究者使用 Zotero 存储论文，并用 Obsidian 管理笔记。两项集成可同时工作 — /research-lit 会依次检查 Zotero（原始论文与批注）、Obsidian（您已处理的笔记）、本地 PDF 文件，最后进行网络搜索。

arXiv 集成

/research-lit 自动通过 arXiv API 获取结构化元数据（标题、摘要、完整作者列表、分类）—— 比网络搜索片段更丰富。无需额外设置。

默认仅获取元数据（不下载文件）。如需同时下载最相关的 PDF：

/research-lit "topic" — arxiv download: true              # download top 5 PDFs
/research-lit "topic" — arxiv download: true, max download: 10  # download up to 10

如需独立访问arXiv，请使用专门的/arxiv技能：

/arxiv "attention mechanism"           # search
/arxiv "2301.07041" — download         # download specific paper

📱 飞书/ Lark 集成 (可选)

当实验完成、获得评审分数或检查点需要您输入时，无需守在终端前，即可在移动设备上接收通知。

仅推送 (群卡片)	交互式 (私聊)

三种模式 — 可按项目选择：

模式	功能说明	所需条件
关闭 (默认)	无。纯命令行界面，不使用飞书	无
仅推送	在关键事件发送 Webhook 通知。移动端推送，无需回复	飞书机器人 Webhook URL
交互式	完全双向交互。可通过飞书批准/拒绝想法、回复检查点	feishu-claude-code 运行中

仅推送模式设置 (5 分钟)

通过丰富的卡片发送群组通知 — 实验完成、评审打分、流水线结束。移动端推送，无需回复。

步骤 1：创建一个飞书群机器人

打开您的飞书群聊（或创建一个测试群）
群设置 → 机器人 → 添加机器人 → 自定义机器人
为其命名（例如，ARIS Notifications），复制 Webhook URL
安全设置：添加自定义关键词 ARIS（所有通知均包含此词），或留空不限制

步骤 2：创建配置文件

cat > ~/.claude/feishu.json << 'EOF'
{
  "mode": "push",
  "webhook_url": "https://open.feishu.cn/open-apis/bot/v2/hook/YOUR_WEBHOOK_ID"
}
EOF

第三步：测试

curl -s -X POST "YOUR_WEBHOOK_URL" \
  -H "Content-Type: application/json" \
  -d '{
    "msg_type": "interactive",
    "card": {
      "header": {"title": {"tag": "plain_text", "content": "🧪 ARIS Test"}, "template": "blue"},
      "elements": [{"tag": "markdown", "content": "Push mode working! 🎉"}]
    }
  }'

您将在群组中看到一张蓝色卡片。技能现在会在关键事件自动发送富文本卡片：

事件	卡片颜色	内容
评审得分 ≥ 6	🟢 绿色	分数、结论、主要弱点
评审得分 < 6	🟠 橙色	分数、结论、待办事项
实验完成	🟢 绿色	结果表格、与基线的差异
检查点等待中	🟡 黄色	问题、选项、上下文
错误	🔴 红色	错误信息、建议的修复方法
流水线完成	🟣 紫色	分数进展、交付物

交互式设置 (15 分钟)

具备推送模式的所有功能，外加通过飞书与 Claude Code 进行双向私密聊天。批准/拒绝想法、回复检查点、给出自定义指令——全部在手机上完成。

工作原理：推送卡片发送到群组（所有人可见状态）。交互式对话则在与机器人的私聊中进行（您回复，Claude Code 据此行动）。

步骤 1：首先完成上述推送设置（两者都将保留）

步骤 2：在 open.feishu.cn 上创建一个飞书应用

点击 创建企业自建应用 → 为其命名（例如，ARIS Claude Bot）→ 创建
左侧菜单 → 添加能力 → 勾选 机器人
左侧菜单 → 权限管理 → 搜索并启用以下 5 个权限：

权限	作用范围	原因
`im:message`	发送与接收消息	核心消息功能
`im:message:send_as_bot`	以机器人身份发送消息	机器人回复
`im:message.group_at_msg:readonly`	接收群聊中@机器人的消息	群组消息
`im:message.p2p_msg:readonly`	接收单聊消息	⚠️ 容易遗漏！没有此权限，机器人能连接但永远收不到您的消息
`im:resource`	获取附件	图片/文件

左侧菜单 → 事件与回调 → 选择 长连接 模式 → 添加事件：im.message.receive_v1 → 保存

⚠️ 重要："长连接"页面可能显示"未检测到应用连接信息"——这是正常的。您需要先启动桥接服务（步骤 3），然后再回来保存。

左侧菜单 → 版本管理与发布 → 创建版本 → 填写描述 → 提交审核

对于个人/测试用的飞书组织，审核通常是即时的。

步骤 3：部署桥接服务

git clone https://github.com/joewongjc/feishu-claude-code.git
cd feishu-claude-code
python3 -m venv .venv && source .venv/bin/activate
pip install -r requirements.txt

# Configure
cp .env.example .env

编辑 .env：

FEISHU_APP_ID=cli_your_app_id          # From app credentials page
FEISHU_APP_SECRET=your_app_secret      # From app credentials page
DEFAULT_MODEL=claude-opus-4-6          # ⚠️ Default is sonnet — change to opus for best results
DEFAULT_CWD=/path/to/your/project      # Working directory for Claude Code
PERMISSION_MODE=bypassPermissions      # Or "default" for safer mode

⚠️ 模型选择至关重要：默认的 claude-sonnet-4-6 虽然可用，但在处理复杂项目上下文时可能表现不佳。claude-opus-4-6 首次尝试即正确识别出 18 项 ARIS 技能，而 sonnet 模型未能做到。

开始构建桥梁：

python main.py
# Expected output:
# ✅ 连接飞书 WebSocket 长连接（自动重连）...
# [Lark] connected to wss://msg-frontier.feishu.cn/ws/v2?...

对于长期运行，请将其置于 screen 会话中：

screen -dmS feishu-bridge bash -c 'cd /path/to/feishu-claude-code && source .venv/bin/activate && python main.py'

步骤 4：保存事件配置 — 返回飞书开放平台 → 事件与回调 → 长连接现在应显示“已检测到连接” → 保存

如果在桥接服务运行前已发布应用版本，保存事件配置后可能需要创建新版本（例如 1.0.1）并重新发布。

步骤 5：测试私聊

在飞书中，于联系人中查找机器人（通过应用名称搜索）
向它发送消息：你好
它应通过 Claude Code 回复

如果机器人没有回复：发送 /new 以重置会话，然后重试。常见问题：

现象	原因	解决方法
机器人已连接但从未收到消息	缺少 `im:message.p2p_msg:readonly` 权限	添加权限 → 创建新版本 → 发布
机器人回复但不了解你的项目	`DEFAULT_CWD` 指向错误的目录	编辑 `.env` → 重启桥接服务
机器人回复但能力似乎较弱	使用了 `claude-sonnet-4-6`	在 `claude-opus-4-6` 中更改为 `.env` → 重启
旧会话包含过时的上下文	会话缓存来自配置更改之前	在聊天中发送 `/new` 以启动新会话
保存事件时显示“未检测到应用连接信息”	桥接服务尚未启动	先启动桥接服务，再保存事件配置

步骤 6：更新 ARIS 配置

cat > ~/.claude/feishu.json << 'EOF'
{
  "mode": "interactive",
  "webhook_url": "https://open.feishu.cn/open-apis/bot/v2/hook/YOUR_WEBHOOK_ID",
  "interactive": {
    "bridge_url": "http://localhost:5000",
    "timeout_seconds": 300
  }
}
EOF

现在技能将：

推送富文本卡片到群组（状态通知，全员可见）
私聊您进行决策（检查点、批准/拒绝、自定义指令）

哪些技能会发送通知？

技能	触发事件	推送内容	交互功能
`/auto-review-loop`	每轮评审完成、循环结束	分数 + 结论	+ 等待继续/停止
`/auto-paper-improvement-loop`	评审完成、所有轮次结束	分数进展	分数进展
`/run-experiment`	实验部署完成	GPU分配 + 预计时间	GPU分配 + 预计时间
`/vast-gpu`	实例租用/销毁	实例ID + 费用	实例ID + 费用
`/monitor-experiment`	结果收集完成	结果表格	结果表格
`/idea-discovery`	阶段转换、最终报告	各阶段摘要	+ 检查点批准/拒绝
`/research-pipeline`	阶段转换、流水线完成	阶段摘要	+ 批准/拒绝

不使用飞书？ 没问题 — 没有 ~/.claude/feishu.json 时，所有技能的行为与之前完全一致。零开销，零副作用。

💡 其他IM平台：仅推送的Webhook模式适用于任何接受传入Webhook的服务（Slack、Discord、钉钉、企业微信）。只需在 feishu-notify/SKILL.md 中更改 webhook_url 和卡片格式。如需双向支持，请参阅 cc-connect（多平台桥接）或 clawdbot-feishu。

🎛️ 自定义

技能是纯Markdown文件。可自由分叉和自定义：

💡 参数透传：参数会自动沿调用链向下传递。例如，/research-pipeline "topic" — sources: zotero, arxiv download: true 通过 idea-discovery 将 sources 和 arxiv download 一直传递到 research-lit。这也适用于可选来源，例如 deepxiv 和 exa：/research-pipeline "topic" — sources: all, deepxiv, exa。您可以在任何层级设置任何下游参数 — 只需在命令中添加 — key: value。

> research-pipeline  ──→  idea-discovery      ──→  research-lit
>                    ──→  experiment-bridge    ──→  run-experiment
>                    ──→  auto-review-loop
>                                             ──→  idea-creator
>                                             ──→  novelty-check
>                                             ──→  research-review
> ```### 完整研究流程 (`research-pipeline`)

| 常量 | 默认值 | 描述 | 传递至 |
|----------|---------|-------------|:---:|
| `AUTO_PROCEED` | true | 若用户未响应，则自动继续执行排名最高的选项 | → `idea-discovery` |
| `ARXIV_DOWNLOAD` | false | 文献检索后下载顶级的 arXiv PDF 文件 | → `idea-discovery` → `research-lit` |
| `HUMAN_CHECKPOINT` | false | 当 `true` 时，每轮评审后暂停等待批准 | → `auto-review-loop` |
| `WANDB` | false | 自动为实验添加 W&B 日志记录 | → `experiment-bridge` → `run-experiment` |
| `CODE_REVIEW` | true | GPT-5.4 在部署前评审实验代码 | → `experiment-bridge` |
| `BASE_REPO` | false | 用作实验基础代码库的 GitHub 仓库 URL（克隆） | → `experiment-bridge` |
| `GPU` | `local` | GPU 目标：`local`、`remote`（SSH）或 `vast`（[Vast.ai](https://vast.ai) 按需租赁） | → `experiment-bridge` → `run-experiment` |
| `COMPACT` | false | 为短上下文模型和会话恢复生成紧凑的摘要文件 | → 所有工作流 |
| `REF_PAPER` | false | 作为创意基础的参考论文（PDF 路径或 URL）。先进行摘要，然后用作上下文 | → `idea-discovery` |
| `ILLUSTRATION` | `gemini` | AI 插图：`gemini`（默认）、`mermaid`（免费）或 `false`（跳过） | → `paper-writing` |

行内覆盖：`/research-pipeline "topic" — auto proceed: false, illustration: mermaid`

### 自动评审循环 (`auto-review-loop`)

| 常量 | 默认值 | 描述 |
|----------|---------|-------------|
| `MAX_ROUNDS` | 4 | 评审→修复→重新评审的最大迭代次数 |
| `POSITIVE_THRESHOLD` | 6/10 | 循环停止的分数阈值（达到可提交状态） |
| `> 4 GPU-hour skip` | 4h | 超过此时长的实验将被标记，需手动跟进 |

### 创意探索 (`idea-discovery` / `idea-creator`)

| 常量 | 默认值 | 描述 | 传递至 |
|----------|---------|-------------|:---:|
| `PILOT_MAX_HOURS` | 2h | 跳过任何预估单 GPU 耗时超过此时长的试点实验 | — |
| `PILOT_TIMEOUT_HOURS` | 3h | 硬性超时——终止失控的试点实验，收集部分结果 | — |
| `MAX_PILOT_IDEAS` | 3 | 并行试点的最大创意数量 | — |
| `MAX_TOTAL_GPU_HOURS` | 8h | 所有试点实验的总 GPU 预算 | — |
| `AUTO_PROCEED` | true | 若用户未响应，则自动继续执行排名最高的选项 | — |
| `ARXIV_DOWNLOAD` | false | 文献检索后下载顶级的 arXiv PDF 文件 | → `research-lit` |

行内覆盖：`/idea-discovery "topic" — pilot budget: 4h per idea, sources: zotero, arxiv download: true`

### 实验桥接 (`experiment-bridge`)

| 常量 | 默认值 | 描述 |
|----------|---------|-------------|
| `CODE_REVIEW` | true | GPT-5.4 xhigh 在部署前评审代码。在浪费 GPU 小时前捕获逻辑错误 |
| `AUTO_DEPLOY` | true | 在实现和评审后自动部署实验。设置 `false` 以手动检查 |
| `SANITY_FIRST` | true | 首先运行最小的实验，以便在全面部署前捕获设置错误 |
| `MAX_PARALLEL_RUNS` | 4 | 并行部署的最大实验数量（受可用 GPU 限制） |
| `WANDB` | false | 自动添加 W&B 日志记录。需要在 CLAUDE.md 中设置 `wandb_project` |
| `BASE_REPO` | false | 用作实验基础代码库的 GitHub 仓库 URL（克隆） |

行内覆盖：`/experiment-bridge — base repo: https://github.com/org/project`

### 文献检索 (`research-lit`)| 常量 | 默认值 | 描述 |
|----------|---------|-------------|
| `PAPER_LIBRARY` | `papers/`, `literature/` | 在线搜索前，用于扫描PDF的本地目录 |
| `MAX_LOCAL_PAPERS` | 20 | 最大本地PDF扫描数量（每份PDF扫描前3页） |
| `SOURCES` | `all` | 要搜索的源：`zotero`, `obsidian`, `local`, `web`, `semantic-scholar`, `deepxiv`, `exa`, 或 `all`。`semantic-scholar`, `deepxiv`, 和 `exa` 必须明确列出 |
| `ARXIV_DOWNLOAD` | false | 当 `true` 时，在搜索后将最相关的arXiv PDF下载到 PAPER_LIBRARY |
| `ARXIV_MAX_DOWNLOAD` | 5 | 当 `ARXIV_DOWNLOAD = true` 时，要下载的PDF最大数量 |

内联覆盖：`/research-lit "topic" — sources: zotero, web`, `/research-lit "topic" — sources: all, deepxiv`, `/research-lit "topic" — sources: all, exa`, `/research-lit "topic" — arxiv download: true, max download: 10`

### 论文撰写 (`paper-write`)

| 常量 | 默认值 | 描述 |
|----------|---------|-------------|
| `DBLP_BIBTEX` | true | 从DBLP/CrossRef获取真实的BibTeX条目，而非LLM生成的条目 |
| `TARGET_VENUE` | `ICLR` | 目标会议/期刊：`ICLR`, `NeurIPS`, `ICML`, `CVPR`, `ACL`, `AAAI`, `ACM`, `IEEE_JOURNAL`, `IEEE_CONF` |
| `ANONYMOUS` | true | 为盲审使用匿名作者块。注意：大多数IEEE会议/期刊**不**是匿名的 — 对于IEEE，请设置 `false` |
| `MAX_PAGES` | 9 | 页数限制。ML会议：正文部分（不含参考文献）。IEEE：总页数（含参考文献） |
| `ILLUSTRATION` | `gemini` | AI插图模式：`gemini` (默认，需要 `GEMINI_API_KEY`), `mermaid` (免费), 或 `false` (跳过) |

内联覆盖：`/paper-write — target venue: NeurIPS, illustration: mermaid`

### 通用 (所有使用Codex MCP的技能)

| 常量 | 默认值 | 描述 |
|----------|---------|-------------|
| `REVIEWER_MODEL` | `gpt-5.4` | 通过Codex MCP使用的OpenAI模型。也可用：`gpt-5.3-codex`, `gpt-5.2-codex`, `o3`。完整列表请参见 [supported models](https://developers.openai.com/codex/models/)。 |

- **提示词模板** — 定制评审角色和评估标准
- **`allowed-tools`** — 限制或扩展每个技能的功能

## 🔀 替代模型组合

没有Claude / OpenAI API访问权限？你可以换用其他模型 — 相同的跨模型架构，不同的提供商。

> ⭐ **我们强烈推荐 Claude + GPT-5.4 (默认设置)。** 这是经过最多测试且最可靠的组合。替代方案也可用，但可能需要调整提示词。

| | 执行器 | 评审器 | 需要Claude API？ | 需要OpenAI API？ | 指南 |
|---|----------|----------|:---:|:---:|-------|
| **默认** ⭐ | Claude Opus/Sonnet | GPT-5.4 (Codex MCP) | 是 | 是 | [Quick Start](#-quick-start) |
| **替代方案 A** | GLM-5 (Z.ai) | GPT-5.4 (Codex MCP) | 否 | 是 | [Setup below](#alt-a-glm--gpt) |
| **替代方案 B** | GLM-5 (Z.ai) | MiniMax-M2.7 | 否 | 否 | [MINIMAX_MCP_GUIDE](docs/MINIMAX_MCP_GUIDE.md) |
| **替代方案 C** | 任何CC兼容模型 | 任何OpenAI兼容模型 | 否 | 否 | [LLM_API_MIX_MATCH_GUIDE](docs/LLM_API_MIX_MATCH_GUIDE.md) |
| **替代方案 D** | Kimi-K2.5 / Qwen3.5+ | GLM-5 / MiniMax-M2.7 | 否 | 否 | [ALI_CODING_PLAN_GUIDE](docs/ALI_CODING_PLAN_GUIDE.md) |
| **替代方案 E** 🆓 | DeepSeek-V3.1 / Qwen3-Coder | DeepSeek-R1 / Qwen3-235B | 否 | 否 | [MODELSCOPE_GUIDE](docs/MODELSCOPE_GUIDE.md) |
| **替代方案 F** | Codex CLI (GPT-5.4) | Codex `spawn_agent` (GPT-5.4) | 否 | 是 | [skills-codex/](skills/skills-codex/) |
| **替代方案 G** 🆕 | Codex CLI | Claude Code CLI (`claude-review` MCP) | 否* | 否* | [CODEX_CLAUDE_REVIEW_GUIDE](docs/CODEX_CLAUDE_REVIEW_GUIDE.md) |
| **替代方案 H** 🆕 | Antigravity (Claude Opus 4.6 / Gemini 3.1 Pro) | GPT-5.4 (Codex MCP) 或任何通过 llm-chat 的模型 | 否 | 可选 | [ANTIGRAVITY_ADAPTATION](docs/ANTIGRAVITY_ADAPTATION.md) |
| **替代方案 I** 🆕 | Codex CLI | Gemini 直接API (`gemini-review` MCP) | 否 | 否 | [CODEX_GEMINI_REVIEW_GUIDE](docs/CODEX_GEMINI_REVIEW_GUIDE.md) |**Alt C** 支持经过测试的供应商：GLM（智谱AI）、Kimi（月之暗面）、LongCat（美团）作为执行器；DeepSeek、MiniMax 作为评审器。任何 OpenAI 兼容的 API 也应能通过通用的 [`llm-chat`](mcp-servers/llm-chat/) MCP 服务器工作。**Alt D** 使用 [Alibaba Coding Plan](https://bailian.console.aliyun.com/) —— 一个 API 密钥同时用于执行器和评审器，包含 4 个模型（Kimi、Qwen、GLM、MiniMax）。**Alt E** 使用 [ModelScope](https://www.modelscope.cn/) —— **免费**（每天 2000 次调用），一个密钥，无自动化限制。**Alt G** 保持 Codex 作为执行器，但将评审器替换为通过本地 `claude-review` MCP 桥接的 Claude Code CLI，并对长篇论文/评审提示使用异步轮询。**Alt H** 使用 [Google Antigravity](https://antigravity.google/) 作为执行器，并原生支持 SKILL.md —— 可选择 Claude Opus 4.6（思考型）或 Gemini 3.1 Pro（高性能）作为执行模型。**Alt I** 保持 Codex 作为执行器，仅添加一个轻量的 `skills-codex-gemini-review` 覆盖层，并通过本地 `gemini-review` MCP 桥接将评审器感知的预定义技能路由到默认的直接 Gemini API。这是现有 Codex+Claude 评审路径最接近的 Gemini 替代方案，同时最大限度地减少了技能更改，并且现在也通过同一桥接覆盖了海报 PNG 评审。免费层可用性、速率限制和数据使用条款仍受 Google 当前政策约束。

\* Alt G 通常依赖于本地 Codex CLI 和 Claude Code CLI 登录。直接 API 密钥是可选的，非必需。

### Alt A: GLM + GPT

仅替换执行器（Claude → GLM），通过 Codex MCP 保持 GPT-5.4 作为评审器。
```bash
npm install -g @anthropic-ai/claude-code
npm install -g @openai/codex
codex setup   # set model to gpt-5.4

配置 ~/.claude/settings.json：

{
    "env": {
        "ANTHROPIC_AUTH_TOKEN": "your_zai_api_key",
        "ANTHROPIC_BASE_URL": "https://api.z.ai/api/anthropic",
        "API_TIMEOUT_MS": "3000000",
        "ANTHROPIC_DEFAULT_HAIKU_MODEL": "glm-4.5-air",
        "ANTHROPIC_DEFAULT_SONNET_MODEL": "glm-4.7",
        "ANTHROPIC_DEFAULT_OPUS_MODEL": "glm-5"
    },
    "mcpServers": {
        "codex": {
            "command": "/opt/homebrew/bin/codex",
            "args": ["mcp-server"]
        }
    }
}

Codex CLI 使用您现有的 OPENAI_API_KEY（来自 ~/.codex/config.toml 或环境变量）——审阅者端无需额外配置。

备选方案 B：GLM + MiniMax

无需 Claude 或 OpenAI API。使用自定义的 MiniMax MCP 服务器替代 Codex（因为 MiniMax 不支持 OpenAI 的 Responses API）。完整指南：docs/MINIMAX_MCP_GUIDE.md。

备选方案 C：任意执行器 + 任意审阅者

使用通用的 llm-chat MCP 服务器自由混搭组合。支持任何 OpenAI 兼容的 API 作为审阅者。完整指南：docs/LLM_API_MIX_MATCH_GUIDE.md。

示例组合：GLM + DeepSeek、Kimi + MiniMax、Claude + DeepSeek、LongCat + GLM 等。

设置完成后：安装技能并验证

git clone https://github.com/wanshuiyin/Auto-claude-code-research-in-sleep.git
cd Auto-claude-code-research-in-sleep
cp -r skills/* ~/.claude/skills/
claude

⚠️ 针对非 Claude 执行器（GLM、Kimi 等）： 请让模型完整阅读一遍项目，以确保技能被正确解析。这一点在您 rewritten skills 使用不同的评审员 MCP（例如，使用 mcp__llm-chat__chat 而非 mcp__codex__codex）时尤为重要——新的执行器需要理解变更后的工具调用模式：

> Read through this project and verify all skills are working:
> /idea-creator, /research-review, /auto-review-loop, /novelty-check,
> /idea-discovery, /research-pipeline, /research-lit, /run-experiment,
> /analyze-results, /monitor-experiment, /pixel-art
> ```> ⚠️ **注意：** 其他模型的行为可能与 Claude 和 GPT-5.4 不同。您可能需要调整提示模板以获得最佳效果。核心的跨模型架构保持不变。

## 📋 路线图

### 已完成

- [x] **人工介入检查点** — 在关键决策点暂停想法发现和研究流程，等待用户批准。可通过 `AUTO_PROCEED` 配置（默认：自动继续；设置 `false` 为始终等待）
- [x] **替代模型组合** — [GLM + GPT, GLM + MiniMax](#-alternative-model-combinations) 已完全记录，包含设置指南。无需 Claude 或 OpenAI API
- [x] **工作流 3：论文撰写流程** — 完整链条：`/paper-plan` → `/paper-figure` → `/paper-write` → `/paper-compile`。ICLR/NeurIPS/ICML 模板、论点-证据矩阵、出版级图表、latexmk 自动修复。灵感来源于 [claude-scholar](https://github.com/Galaxy-Dawn/claude-scholar), [Research-Paper-Writing-Skills](https://github.com/Master-cai/Research-Paper-Writing-Skills), [baoyu-skills](https://github.com/jimliu/baoyu-skills)

<details>
<summary>显示 6 个已完成项目</summary>

- [x] **可配置的 REVIEWER_MODEL** — 所有依赖 Codex 的技能均支持自定义评审模型（默认 `gpt-5.4`，也适用于 `gpt-5.3-codex`, `gpt-5.2-codex`, `o3` 等）
- [x] **本地论文库扫描** — `/research-lit` 在外部搜索前扫描本地 `papers/` 和 `literature/` 目录，利用您已阅读的论文
- [x] **想法发现流程** — `/idea-discovery` 通过一个命令编排研究文献 → 想法生成 → 新颖性检查 → 研究评审，并在 GPU 上进行试点实验
- [x] **完整研究流程** — `/research-pipeline` 将工作流 1（想法发现）→ 实现 → 工作流 2（自动评审循环）端到端串联
- [x] **同行评审技能** — `/peer-review` 用于以会议评审人身份评审他人论文，包含 GPT-5.4 元评审（计划中；目前使用 `/research-review` 处理论文 PDF）
- [x] **跨模型协作** — Claude Code（执行器） × Codex GPT-5.4 xhigh（评审器）架构，避免单模型自对弈的局部最优
- [x] **飞书/Lark 集成** — 三种模式（关闭/推送/交互式），可通过 `~/.claude/feishu.json` 配置。仅推送模式只需 webhook URL；交互式模式使用 [feishu-claude-code](https://github.com/joewongjc/feishu-claude-code)。默认关闭 — 对现有工作流零影响。参见 [setup guide](#-feishulark-integration-optional)
- [x] **Zotero MCP 集成** — `/research-lit` 搜索 Zotero 收藏、读取注释/高亮、导出 BibTeX。推荐：[zotero-mcp](https://github.com/54yyyu/zotero-mcp) (1.8k⭐)。参见 [setup guide](#-zotero-integration-optional)
- [x] **Obsidian 集成** — `/research-lit` 在 Obsidian 知识库中搜索研究笔记、带标签的参考文献、维基链接。推荐：[mcpvault](https://github.com/bitbonsai/mcpvault) (760⭐) + [obsidian-skills](https://github.com/kepano/obsidian-skills) (13.6k⭐)。参见 [setup guide](#-obsidian-integration-optional)
- [x] **更多执行器 × 评审器组合** — 任何 OpenAI 兼容 API 均可通过 [`llm-chat`](mcp-servers/llm-chat/) MCP 服务器工作。GLM、MiniMax、Kimi、LongCat、DeepSeek 均已测试 — 无需 Claude 或 OpenAI API
- [x] **基于 GitHub 的代码同步** — `/run-experiment` 支持 `code_sync: git` (`git push` → `ssh "git pull"`)
- [x] **W&B 集成** — 当 `wandb: true` 时自动 `wandb.init()` + `wandb.log()`。`/monitor-experiment` 拉取训练曲线
- [x] **ModelScope 集成** — [free](docs/MODELSCOPE_GUIDE.md)（2000 次调用/天），一个 API 密钥，双协议

</details>

### 计划中- [ ] **守护进程模式** — 通过 `launchd`/`systemd` 自动重启 Claude Code 会话，实现真正的无人值守操作。目前编排层需要活跃的 CLI 会话；状态文件（`REVIEW_STATE.json`, `AUTO_REVIEW.md`）支持跨会话恢复，但重新启动仍需手动操作（[#11](https://github.com/wanshuiyin/Auto-claude-code-research-in-sleep/issues/11)）
- [ ] **引用式图表生成** — 从参考 PDF 中读取图表 → 识别图表类型、配色方案、布局 → 使用自有数据生成同风格图表。剩余子目标：**数据图表**（提取颜色/字体样式 → matplotlib rcParams）。方法示意图 ✅ 已通过 `paper-illustration` 解决
- [ ] **工作流执行报告** — 每个工作流（1/1.5/2/3）完成后，自动生成结构化摘要：执行内容、关键决策、实验运行、获得结果、评分及耗时。输出为 `WORKFLOW_REPORT.md`，用于进度跟踪、团队汇报和主管更新
- [x] **基于文档的流水线输入** — `/idea-discovery` 和 `/research-pipeline` 自动检测项目根目录中的 `RESEARCH_BRIEF.md`。详细上下文替代单行提示。模板：`templates/RESEARCH_BRIEF_TEMPLATE.md`
- [ ] **自动超参数调优技能** — 将 [auto-hparam-tuning](https://github.com/zxh0916/auto-hparam-tuning) 重写为 ARIS SKILL.md。5步循环：理解项目 → 规划调优策略 → 运行实验 → 分析指标（TensorBoard/W&B）→ 学习迭代。可接入工作流 1.5（`/experiment-bridge`）或工作流 2（`/auto-review-loop`），当审阅者指示"调优超参数"时触发
- [ ] **插件格式** — 将 ARIS 打包为 Claude Code 插件，通过 `/plugin install aris` 实现一键安装。技能版本继续维护以确保跨平台兼容性（Codex CLI、Cursor、Trae 等）

## 💬 社区

**欢迎领域特定技能！** 核心技能涵盖通用研究流程，但每个领域都有专属工具和模式。我们欢迎为您的领域提交新增技能的 PR —— 无论是 EDA、生物信息学、机器人学、高性能计算还是其他任何领域。只需添加 `skills/your-skill/SKILL.md` 并开启 PR。示例可参考 [`dse-loop`](skills/dse-loop/SKILL.md)。

加入微信群讨论 Claude Code + AI 驱动的研究工作流：

<img src="docs/wechat_group.jpg" alt="WeChat Group QR Code" width="300">

## 📖 引用

如果您在研究中使用 ARIS，请引用：
```bibtex
@misc{yang2026aris,
    author       = {Yang, Ruofeng and Li, Yongcan and Li, Shuai},
    title        = {ARIS: Fully Autonomous Research via Adversarial Multi-Agent Collaboration},
    year         = {2026},
    url          = {https://github.com/wanshuiyin/Auto-claude-code-research-in-sleep},
}

⭐ 星标历史

🙏 致谢

ARIS 的灵感来源于：

🧪 AI Scientist (Sakana AI) — 自动化研究先驱
📖 AutoResearch (Andrej Karpathy) — 端到端研究自动化
🔭 FARS (Analemma) — 全自动研究系统
🎨 PaperBanana (PKU) — 多智能体学术插图框架

本项目构建于并集成了许多优秀的开源项目：

核心基础设施

Claude Code — Anthropic 的 Claude CLI，执行骨干
Codex CLI — OpenAI 的 CLI，用作跨模型评审的 MCP 服务器

Zotero 集成 (setup guide)

zotero-mcp — 带有语义搜索和 PDF 批注的 Zotero MCP 服务器
Zotero — 开源参考文献管理器

Obsidian 集成 (setup guide)

mcpvault — Obsidian 知识库 MCP 服务器（无需应用）
obsidian-skills — Steph Ango (Obsidian CEO) 为 Obsidian Markdown 开发的 Claude Code 技能

论文写作灵感

claude-scholar — 使用 Claude 撰写学术论文
Research-Paper-Writing-Skills — 论文写作技能模板
baoyu-skills — Claude Code 技能集合

飞书/Lark 集成 (setup guide)

feishu-claude-code — 双向飞书 ↔ Claude Code 桥接
clawdbot-feishu — 用于 Claude 的飞书机器人
cc-connect — 多平台消息桥接
lark-openapi-mcp — 官方 Lark MCP 服务器

社区

awesome-agent-skills — Claude Code 技能精选列表（已收录）

特别感谢 — 平台适配

没有以下贡献者，ARIS 无法在如此多的平台上运行：

🤖 @Falling-Flower — 使用 spawn_agent 为 Codex CLI 适配了所有 ARIS 技能
🔧 @No-518 — 持续维护 Codex 技能集，保持与最新更新的同步
🖱️ @YecanLee — 撰写了 Cursor adaptation guide 和本地 GPU 设置文档
🏆 @DefanXue 与 @Monglitay — 首个完全使用 ARIS 构建的社区论文，在 CS 会议上获得 8/10 分

特别感谢 — 架构与愿景

💡 @JingxuanKang — 除了代码贡献（训练检查、结果转结论、消融规划器、看门狗、模板、会话恢复），还通过关于架构设计、紧凑模式、工作流状态管理以及自主研究工作流应如何呈现的愿景讨论，深刻塑造了 ARIS。今天的许多核心功能——从结构化项目文件到上下文感知的会话恢复——都源于这些对话。

许可证

MIT