
项目摘要
将文档、代码仓库、PDF、视频等资料整理为可供AISkills、RAG流程和编码助手使用的结构化知识资产。
SkillSeekers是一个面向开发者和AI工程团队的CLI与MCP工具,可从文档站点、GitHub仓库、本地项目、PDF、视频等多种来源采集与分析内容。它支持把同一份知识资产导出到Claude、Gemini、OpenAI、LangChain、LlamaIndex以及Cursor、Windsurf、Cline等目标。
项目详细信息
技能寻求者
英语 | 简体中文 | 日本語 | 한국어 | Español | Français | Deutsch | Português | Türkçe | العربية | हिन्दी | Русский
🧠 AI 系统的数据层。 Skill Seekers 将文档网站、GitHub 存储库、PDF、视频、笔记本、wiki 和 10 多种源类型转换为结构化知识资产 - 准备在几分钟而不是几小时内为 AI 技能(Claude、Gemini、OpenAI)、RAG 管道(LangChain、LlamaIndex、Pinecone)和 AI 编码助手(Cursor、Windsurf、Cline)提供支持。
🌐 Visit SkillSeekersWeb.com - 浏览 24+ 预设配置、共享您的配置并访问完整文档!
📋 View Development Roadmap & Tasks - 10 个类别的 134 个任务,选择任何一个来贡献!
🌐 生态系统
Skill Seekers 是一个多仓库项目。 这是一切都存在的地方:
| 存储库 | 描述 | 友情链接 |
|---|---|---|
| Skill_Seekers | 核心 CLI 和 MCP 服务器(此存储库) | PyPI |
| skillseekersweb | 网站和文档 | Live |
| skill-seekers-configs | 社区配置存储库 | |
| skill-seekers-action | CI/CD 的 GitHub Action | |
| skill-seekers-plugin | 克劳德代码插件 | |
| homebrew-skill-seekers | 适用于 macOS 的 Homebrew Tap |
想要贡献吗? 网站和配置存储库对于新贡献者来说是很好的起点!
🧠 人工智能系统的数据层
Skill Seekers 是通用预处理层,位于原始文档和使用它的每个人工智能系统之间。 无论您是构建 Claude 技能、LangChain RAG 管道还是 Cursor .cursorrules 文件,数据准备都是相同的。 您只需执行一次,然后导出到所有目标。
# One command → structured knowledge asset
skill-seekers create https://docs.react.dev/
# or: skill-seekers create facebook/react
# or: skill-seekers create ./my-project
# Export to any AI system
skill-seekers package output/react --target claude # → Claude AI Skill (ZIP)
skill-seekers package output/react --target langchain # → LangChain Documents
skill-seekers package output/react --target llama-index # → LlamaIndex TextNodes
skill-seekers package output/react --target cursor # → .cursorrules
构建了什么
| 输出 | 目标 | 它的力量是什么 |
|---|---|---|
| 克劳德技能 (ZIP + YAML) | --target claude | 克劳德代码、克劳德 API |
| 双子座技能 (tar.gz) | --target gemini | 谷歌双子座 |
| OpenAI / 自定义 GPT (ZIP) | --target openai | GPT-4o,定制助理 |
| 浪链文档 | --target langchain | 质量保证链、代理商、猎犬 |
| LlamaIndex 文本节点 | --target llama-index | 查询引擎、聊天引擎 |
| 干草堆文档 | --target haystack | 企业 RAG 管道 |
| 松果就绪(Markdown) | --target markdown | 矢量更新插入 |
| ChromaDB / FAISS / Qdrant | --format chroma/faiss/qdrant | 本地矢量数据库 |
光标 .cursorrules | --target claude → 复制 | 光标IDE AI上下文 |
| 风帆冲浪/克莱恩/继续 | --target claude → 复制 | VS 代码、IntelliJ、Vim |
为什么这很重要
- ⚡ 速度加快 99% — 手动数据准备天数 → 15–45 分钟
- 🎯 AI 技能质量 — 500 多行 SKILL.md 文件,包含示例、模式和指南
- 📊 RAG-ready 块 — 智能分块保留代码块并维护上下文
- 🎬 视频 — 从 YouTube 和本地视频中提取代码、文本和结构化知识
- 🔄 多源 — 将 18 种源类型(文档、GitHub、PDF、视频、笔记本、wiki 等)合并为一项知识资产
- 🌐 一次准备,每个目标 — 将相同的资产导出到 20 个平台(12 个 LLM + 8 RAG/向量),无需重新抓取
- ✅ 久经考验 — 超过 3,194 项测试,超过 24 个框架预设,可投入生产
🚀 快速入门(3 个命令)
# 1. Install
pip install skill-seekers
# 2. Create skill from any source
skill-seekers create https://docs.django.com/
# 3. Package for your AI platform
skill-seekers package output/django --target claude
就是这样! 您现在可以使用 output/django-claude.zip。
# Use a different AI agent for enhancement (default: claude)
skill-seekers create https://docs.django.com/ --agent kimi
skill-seekers create https://docs.django.com/ --agent codex
skill-seekers create https://docs.django.com/ --agent-cmd "my-custom-agent run"
其他来源(支持 18 个)
# GitHub repository
skill-seekers create facebook/react
# Local project
skill-seekers create ./my-project
# PDF document
skill-seekers create manual.pdf
# Word document
skill-seekers create report.docx
# EPUB e-book
skill-seekers create book.epub
# Jupyter Notebook
skill-seekers create notebook.ipynb
# OpenAPI spec
skill-seekers create openapi.yaml
# PowerPoint presentation
skill-seekers create presentation.pptx
# AsciiDoc document
skill-seekers create guide.adoc
# Local HTML file
skill-seekers create page.html
# RSS/Atom feed
skill-seekers create feed.rss
# Man page
skill-seekers create curl.1
# Video (YouTube, Vimeo, or local file — requires skill-seekers[video])
skill-seekers video --url https://www.youtube.com/watch?v=... --name mytutorial
# First time? Auto-install GPU-aware visual deps:
skill-seekers video --setup
# Confluence wiki
skill-seekers confluence --space TEAM --name wiki
# Notion pages
skill-seekers notion --database-id ... --name docs
# Slack/Discord chat export
skill-seekers chat --export-dir ./slack-export --name team-chat
到处导出
# Package for multiple platforms
for platform in claude gemini openai langchain; do
skill-seekers package output/django --target $platform
done
什么是技能寻求者?
技能寻求者是人工智能系统的数据层。 它将 18 种源类型(文档网站、GitHub 存储库、PDF、视频、Jupyter Notebooks、Word/EPUB/AsciiDoc 文档、OpenAPI 规范、PowerPoint 演示文稿、RSS 源、手册页、Confluence wiki、Notion 页面、Slack/Discord 导出等)转换为每个 AI 目标的结构化知识资产:
| 使用案例 | 你得到什么 | 示例 |
|---|---|---|
| 人工智能技能 | 综合 SKILL.md + 参考文献 | 克劳德·代码,双子座,GPT |
| RAG 管道 | 具有丰富元数据的分块文档 | LangChain、LlamaIndex、Haystack |
| 矢量数据库 | 预格式化数据可供更新插入 | 松果、Chroma、Weaviate、FAISS |
| 人工智能编码助手 | IDE AI 自动读取的上下文文件 | 光标、风帆冲浪、克莱恩、Continue.dev |
📚 文档
| 我想... | 阅读本文 |
|---|---|
| 快速开始 | Quick Start - 第一个技能的 3 个命令 |
| 理解概念 | Core Concepts - 工作原理 |
| 抓取来源 | Scraping Guide - 所有源类型 |
| 增强技能 | Enhancement Guide - AI 增强 |
| 出口技巧 | Packaging Guide - 平台导出 |
| 查找命令 | CLI Reference - 所有 20 个命令 |
| 配置 | Config Format - JSON 规范 |
| 修复问题 | Troubleshooting - 常见问题 |
完整文档: docs/README.md
技能寻求者无需花费数天进行手动预处理,而是:
- 摄取 — 文档、GitHub 存储库、本地代码库、PDF、视频、笔记本、wiki 以及 10 多种源类型
- 分析 — 深度 AST 解析、模式检测、API 提取
- 结构 — 带有元数据的分类参考文件
- 增强 — AI 驱动的 SKILL.md 生成(Claude、Gemini 或本地)
- 导出 — 来自一项资产的 16 种特定于平台的格式
为什么要使用这个?
对于 AI 技能培养者(Claude、Gemini、OpenAI)
- 🎯 生产级技能 — 500 多行 SKILL.md 文件,包含代码示例、模式和指南
- 🔄 增强工作流程 — 应用
security-focus、architecture-comprehensive或自定义 YAML 预设 - 🎮 任何领域 — 游戏引擎(Godot、Unity)、框架(React、Django)、内部工具
- 🔧 团队 — 将内部文档 + 代码合并为单一事实来源
- 📚 质量 — 通过示例、快速参考和导航指导进行 AI 增强
对于 RAG 构建者和 AI 工程师
- 🤖 RAG 就绪数据 — 预分块的 LangChain
Documents、LlamaIndexTextNodes、HaystackDocuments - 🚀 速度加快 99% — 预处理天数 → 15–45 分钟
- 📊 智能元数据 — 类别、来源、类型 → 更好的检索准确性
- 🔄 多源 — 将文档 + GitHub + PDF + 视频合并到一个管道中
- 🌐 与平台无关 — 导出到任何矢量数据库或框架,无需重新抓取
对于AI编码助手用户
- 💻 光标 / Windsurf / Cline — 自动生成
.cursorrules/.windsurfrules/.clinerules - 🎯 持久上下文 — AI 无需重复提示即可“了解”您的框架
- 📚 始终最新 — 当文档更改时在几分钟内更新上下文
主要特点
🌐 文档抓取
- ✅ 智能 SPA 发现 - JavaScript SPA 站点的三层发现(sitemap.xml → llms.txt → 无头浏览器渲染)
- ✅ llms.txt 支持 - 自动检测并使用 LLM 就绪文档文件(速度提高 10 倍)
- ✅ 通用刮刀 - 适用于任何文档网站
- ✅ 智能分类 - 按主题自动组织内容
- ✅ 代码语言检测 - 识别Python、JavaScript、C++、GDScript 等。
- ✅ 24+ 即用型预设 - Godot、React、Vue、Django、FastAPI 等### 📄 PDF 支持
- ✅ 基本 PDF 提取 - 从 PDF 文件中提取文本、代码和图像
- ✅ 扫描 PDF 的 OCR - 从扫描文档中提取文本
- ✅ 受密码保护的 PDF - 处理加密的 PDF
- ✅ 表格提取 - 从 PDF 中提取复杂的表格
- ✅ 并行处理 - 大型 PDF 速度提高 3 倍
- ✅ 智能缓存 - 重新运行速度提高 50%
🎬 视频提取
- ✅ YouTube 和本地视频 - 从视频中提取文字记录、屏幕代码和结构化知识
- ✅ 视觉框架分析 - 从代码编辑器、终端、幻灯片和图表中进行 OCR 提取
- ✅ GPU 自动检测 - 自动安装正确的 PyTorch 版本(CUDA/ROCm/MPS/CPU)
- ✅ AI 增强 - 两遍:清理 OCR 伪影 + 生成完善的 SKILL.md
- ✅ 时间剪辑 - 使用
--start-time和--end-time提取特定部分 - ✅ 播放列表支持 - 批量处理 YouTube 播放列表中的所有视频
- ✅ Vision API Fallback - 使用 Claude Vision 处理低置信度 OCR 框架
🐙 GitHub 存储库分析
- ✅ 深度代码分析 - Python、JavaScript、TypeScript、Java、C++、Go 的 AST 解析
- ✅ API 提取 - 具有参数和类型的函数、类、方法
- ✅ 存储库元数据 - 自述文件、文件树、语言细分、星号/分叉
- ✅ GitHub Issues & PRs - 获取带有标签和里程碑的开放/已关闭问题
- ✅ 变更日志和发布 - 自动提取版本历史记录
- ✅ 冲突检测 - 比较记录的 API 与实际代码实现
- ✅ MCP 集成 - 自然语言:“抓取 GitHub 存储库 facebook/react”
🔄 统一多源抓取
- ✅ 组合多个来源 - 将文档 + GitHub + PDF 混合在一项技能中
- ✅ 冲突检测 - 自动查找文档和代码之间的差异
- ✅ 智能合并 - 基于规则或人工智能驱动的冲突解决
- ✅ 透明报告 - 与 ⚠️ 警告并排比较
- ✅ 文档差距分析 - 识别过时的文档和未记录的功能
- ✅ 单一事实来源 - 一项技能既显示意图(文档)又显示现实(代码)
- ✅ 向后兼容 - 旧版单源配置仍然有效
🤖 多LLM平台支持
- ✅ 12 个法学硕士平台 - Claude AI、Google Gemini、OpenAI ChatGPT、MiniMax AI、Generic Markdown、OpenCode、Kimi (Moonshot AI)、DeepSeek AI、Qwen (阿里巴巴)、OpenRouter、Together AI、Fireworks AI
- ✅ 通用抓取 - 相同的文档适用于所有平台
- ✅ 特定于平台的打包 - 针对每个 LLM 的优化格式
- ✅ 单命令导出 -
--target标志选择平台 - ✅ 可选依赖项 - 仅安装您需要的内容
- ✅ 100% 向后兼容 - 现有的 Claude 工作流程不变
| 平台 | 格式 | 上传 | 增强 | API 密钥 | 自定义端点 |
|---|---|---|---|---|---|
| 克劳德·艾 | 邮编 + YAML | ✅ 汽车 | ✅ 是的 | ANTHROPIC_API_KEY | ANTHROPIC_BASE_URL |
| 谷歌双子座 | .tar.gz | ✅ 汽车 | ✅ 是的 | GOOGLE_API_KEY | - |
| OpenAI ChatGPT | ZIP + 矢量商店 | ✅ 汽车 | ✅ 是的 | OPENAI_API_KEY | - |
| MiniMax AI | ZIP + 知识文件 | ✅ 汽车 | ✅ 是的 | MINIMAX_API_KEY | - |
| 通用 Markdown | 邮政编码 | ❌ 手册 | ❌ 否 | - | - |
# Claude (default - no changes needed!)
skill-seekers package output/react/
skill-seekers upload react.zip
# Google Gemini
pip install skill-seekers[gemini]
skill-seekers package output/react/ --target gemini
skill-seekers upload react-gemini.tar.gz --target gemini
# OpenAI ChatGPT
pip install skill-seekers[openai]
skill-seekers package output/react/ --target openai
skill-seekers upload react-openai.zip --target openai
# MiniMax AI
pip install skill-seekers[minimax]
skill-seekers package output/react/ --target minimax
skill-seekers upload react-minimax.zip --target minimax
# Generic Markdown (universal export)
skill-seekers package output/react/ --target markdown
# Use the markdown files directly in any LLM
🔧 Claude 兼容 API 的环境变量(例如 GLM-4.7)
Skill Seekers 支持任何与 Claude 兼容的 API 端点:
# Option 1: Official Anthropic API (default)
export ANTHROPIC_API_KEY=sk-ant-...
# Option 2: GLM-4.7 Claude-compatible API
export ANTHROPIC_API_KEY=your-glm-47-api-key
export ANTHROPIC_BASE_URL=https://glm-4-7-endpoint.com/v1
# All AI enhancement features will use the configured endpoint
skill-seekers enhance output/react/
skill-seekers analyze --directory . --enhance
注意:设置 ANTHROPIC_BASE_URL 允许您使用任何与 Claude 兼容的 API 端点,例如 GLM-4.7(智谱 AI)或其他兼容服务。
安装:
# Install with Gemini support
pip install skill-seekers[gemini]
# Install with OpenAI support
pip install skill-seekers[openai]
# Install with MiniMax support
pip install skill-seekers[minimax]
# Install with all LLM platforms
pip install skill-seekers[all-llms]
🔗 RAG 框架集成
-
✅ LangChain 文档 - 使用
page_content+ 元数据直接导出为Document格式 -
非常适合:QA 连锁店、猎犬、矢量商店、代理商
-
✅ LlamaIndex TextNodes - 导出为具有唯一 ID + 嵌入的
TextNode格式 -
完美适用于:查询引擎、聊天引擎、存储上下文
-
✅ Pinecone-Ready Format - 针对矢量数据库更新插入进行了优化
-
完美适用于:生产向量搜索、语义搜索、混合搜索
快速导出:
# LangChain Documents (JSON)
skill-seekers package output/django --target langchain
# → output/django-langchain.json
# LlamaIndex TextNodes (JSON)
skill-seekers package output/django --target llama-index
# → output/django-llama-index.json
# Markdown (Universal)
skill-seekers package output/django --target markdown
# → output/django-markdown/SKILL.md + references/
完整的 RAG 管道指南: RAG Pipelines Documentation
🧠 AI 编码助手集成
将任何框架文档转换为 4 个以上人工智能助手的专家编码上下文:
-
✅ Cursor IDE - 生成
.cursorrules以获取 AI 驱动的代码建议 -
完美适用于:特定于框架的代码生成、一致的模式
-
适用于:Cursor IDE(VS Code 分支)
-
✅ Windsurf - 使用
.windsurfrules自定义 Windsurf 的 AI 助手上下文 -
完美适用于:IDE 原生人工智能辅助、基于流程的编码
-
适用于:Codeium 的 Windsurf IDE
-
✅ Cline (VS Code) - 系统提示 + VS Code 代理的 MCP
-
完美适用于:在 VS Code 中生成代理代码
-
适用于:VS Code 的 Cline 扩展
-
✅ Continue.dev - 用于与 IDE 无关的 AI 的上下文服务器
-
完美适用于:多 IDE 环境(VS Code、JetBrains、Vim)、自定义 LLM 提供商
-
适用于:任何带有Continue.dev插件的IDE
快速导出AI编码工具:
# For any AI coding assistant (Cursor, Windsurf, Cline, Continue.dev)
skill-seekers scrape --config configs/django.json
skill-seekers package output/django --target claude # or --target markdown
# Copy to your project (example for Cursor)
cp output/django-claude/SKILL.md my-project/.cursorrules
# Or for Windsurf
cp output/django-claude/SKILL.md my-project/.windsurf/rules/django.md
# Or for Cline
cp output/django-claude/SKILL.md my-project/.clinerules
# Or for Continue.dev (HTTP server)
python examples/continue-dev-universal/context_server.py
# Configure in ~/.continue/config.json
集成中心: All AI System Integrations
🌊 三流 GitHub 架构
- ✅ 三重流分析 - 将 GitHub 存储库拆分为代码、文档和见解流
- ✅ 统一代码库分析器 - 适用于 GitHub URL 和本地路径
- ✅ C3.x 作为分析深度 - 选择“基本”(1-2 分钟)或“c3x”(20-60 分钟)分析
- ✅ 增强的路由器生成 - GitHub 元数据、README 快速入门、常见问题
- ✅ 问题集成 - GitHub 问题中的热门问题和解决方案
- ✅ 智能路由关键字 - GitHub 标签加权 2 倍以实现更好的主题检测
三个流解释:
- 流 1:代码 - 深度 C3.x 分析(模式、示例、指南、配置、架构)
- 流 2:文档 - 存储库文档(README、CONTRIBUTING、docs/*.md)
- 流 3:见解 - 社区知识(问题、标签、星星、分叉)
from skill_seekers.cli.unified_codebase_analyzer import UnifiedCodebaseAnalyzer
# Analyze GitHub repo with all three streams
analyzer = UnifiedCodebaseAnalyzer()
result = analyzer.analyze(
source="https://github.com/facebook/react",
depth="c3x", # or "basic" for fast analysis
fetch_github_metadata=True
)
# Access code stream (C3.x analysis)
print(f"Design patterns: {len(result.code_analysis['c3_1_patterns'])}")
print(f"Test examples: {result.code_analysis['c3_2_examples_count']}")
# Access docs stream (repository docs)
print(f"README: {result.github_docs['readme'][:100]}")
# Access insights stream (GitHub metadata)
print(f"Stars: {result.github_insights['metadata']['stars']}")
print(f"Common issues: {len(result.github_insights['common_problems'])}")
查看完整文档:Three-Stream Implementation Summary
🔐 智能速率限制管理和配置
- ✅ 多令牌配置系统 - 管理多个 GitHub 帐户(个人、工作、OSS)
~/.config/skill-seekers/config.json处的安全配置存储(600 个权限)- 每个配置文件的速率限制策略:
prompt、wait、switch、fail - 每个配置文件的可配置超时(默认值:30 分钟,防止无限期等待)
- 智能后备链:CLI arg → 环境变量 → 配置文件 → 提示符
- Claude、Gemini、OpenAI 的 API 密钥管理
- ✅ 交互式配置向导 - 漂亮的终端用户界面,易于设置
- 用于令牌创建的浏览器集成(自动打开 GitHub 等)
- 令牌验证和连接测试
- 带颜色编码的视觉状态显示
- ✅ 智能速率限制处理程序 - 不再无限期等待!
- 关于速率限制的预先警告(60/小时 vs 5000/小时)
- 实时检测 GitHub API 响应
- 带进度的实时倒计时器
- 速率受限时自动配置文件切换
- 四种策略:提示(询问)、等待(倒计时)、切换(再试一次)、失败(中止)
- ✅ 恢复能力 - 继续中断的工作
- 以可配置的时间间隔自动保存进度(默认:60 秒)
- 列出所有可恢复的作业以及进度详细信息
- 自动清理旧作业(默认:7 天)
- ✅ CI/CD 支持 - 非交互式自动化模式
--non-interactive标志在没有提示的情况下快速失败--profile标志来选择特定的 GitHub 帐户- 清除管道日志的错误消息
快速设置:
# One-time configuration (5 minutes)
skill-seekers config --github
# Use specific profile for private repos
skill-seekers github --repo mycompany/private-repo --profile work
# CI/CD mode (fail fast, no prompts)
skill-seekers github --repo owner/repo --non-interactive
# Resume interrupted job
skill-seekers resume --list
skill-seekers resume github_react_20260117_143022
速率限制策略解释:
- 提示(默认) - 询问速率受限时要做什么(等待、切换、设置令牌、取消)
- 等待 - 使用倒计时器自动等待(遵守超时)
- 切换 - 自动尝试下一个可用的配置文件(用于多帐户设置)
- 失败 - 立即失败并出现明显错误(非常适合 CI/CD)
🎯 Bootstrap 技能 - 自托管
生成技能寻求者作为在 AI 代理中使用的技能(Claude Code、Kimi、Codex 等):
# Generate the skill
./scripts/bootstrap_skill.sh
# Install to Claude Code
cp -r output/skill-seekers ~/.claude/skills/
你得到什么:
- ✅ 完整的技能文档 - 所有 CLI 命令和使用模式
- ✅ CLI 命令参考 - 每个工具及其选项都有记录
- ✅ 快速入门示例 - 常见工作流程和最佳实践
- ✅ 自动生成的 API 文档 - 代码分析、模式和示例
🔐 私有配置存储库
- ✅ 基于 Git 的配置源 - 从私人/团队 git 存储库获取配置
- ✅ 多源管理 - 注册无限的 GitHub、GitLab、Bitbucket 存储库
- ✅ 团队协作 - 在 3-5 人团队之间共享自定义配置
- ✅ 企业支持 - 通过基于优先级的解决方案扩展到 500 多名开发人员
- ✅ 安全身份验证 - 环境变量令牌(GITHUB_TOKEN、GITLAB_TOKEN)
- ✅ 智能缓存 - 克隆一次,自动提取更新
- ✅ 离线模式 - 离线时使用缓存的配置
🤖 代码库分析 (C3.x)
C3.4:通过 AI 增强进行配置模式提取
- ✅ 9 种配置格式 - JSON、YAML、TOML、ENV、INI、Python、JavaScript、Dockerfile、Docker Compose
- ✅ 7 种模式类型 - 数据库、API、日志记录、缓存、电子邮件、身份验证、服务器配置
- ✅ 人工智能增强 - 可选双模式人工智能分析(API + LOCAL)
- 解释每个配置的作用
- 建议最佳实践和改进
- 安全分析 - 查找硬编码的秘密、暴露的凭据
- ✅ 自动文档 - 生成所有配置的 JSON + Markdown 文档
- ✅ MCP 集成 -
extract_config_patterns工具,具有增强支持
C3.3:人工智能增强的操作指南
- ✅ 全面的人工智能增强 - 将基本指南转变为专业教程
- ✅ 5 个自动改进 - 步骤描述、故障排除、先决条件、后续步骤、用例
- ✅ 双模式支持 - API 模式 (Claude API) 或 LOCAL 模式 (Claude Code CLI)
- ✅ 本地模式无 API 成本 - 使用您的 Claude Code Max 计划免费增强
- ✅ 质量转型 - 75 行模板 → 500 多行综合指南
用途:
# Quick analysis (1-2 min, basic features only)
skill-seekers analyze --directory tests/ --quick
# Comprehensive analysis with AI (20-60 min, all features)
skill-seekers analyze --directory tests/ --comprehensive
# With AI enhancement
skill-seekers analyze --directory tests/ --enhance
完整文档: docs/HOW_TO_GUIDES.md
🔄 增强工作流程预设
可重复使用的 YAML 定义的增强管道,可控制 AI 如何将原始文档转换为完善的技能。
- ✅ 5 个捆绑预设 —
default、minimal、security-focus、architecture-comprehensive、api-documentation - ✅ 用户定义的预设 — 将自定义工作流程添加到
~/.config/skill-seekers/workflows/ - ✅ 多个工作流程 — 在一个命令中链接两个或多个工作流程
- ✅ 完全托管的 CLI — 列出、检查、复制、添加、删除和验证工作流程
# Apply a single workflow
skill-seekers create ./my-project --enhance-workflow security-focus
# Chain multiple workflows (applied in order)
skill-seekers create ./my-project \
--enhance-workflow security-focus \
--enhance-workflow minimal
# Manage presets
skill-seekers workflows list # List all (bundled + user)
skill-seekers workflows show security-focus # Print YAML content
skill-seekers workflows copy security-focus # Copy to user dir for editing
skill-seekers workflows add ./my-workflow.yaml # Install a custom preset
skill-seekers workflows remove my-workflow # Remove a user preset
skill-seekers workflows validate security-focus # Validate preset structure
# Copy multiple at once
skill-seekers workflows copy security-focus minimal api-documentation
# Add multiple files at once
skill-seekers workflows add ./wf-a.yaml ./wf-b.yaml
# Remove multiple at once
skill-seekers workflows remove my-wf-a my-wf-b
YAML预设格式:
name: security-focus
description: "Security-focused review: vulnerabilities, auth, data handling"
version: "1.0"
stages:
- name: vulnerabilities
type: custom
prompt: "Review for OWASP top 10 and common security vulnerabilities..."
- name: auth-review
type: custom
prompt: "Examine authentication and authorisation patterns..."
uses_history: true
⚡ 性能和规模
- ✅ 异步模式 - 使用异步/等待的抓取速度提高 2-3 倍(使用
--async标志) - ✅ 大量文档支持 - 通过智能拆分处理 10K-40K+ 页面文档
- ✅ 路由器/集线器技能 - 智能路由到专门的子技能
- ✅ 并行抓取 - 同时处理多种技能
- ✅ 检查点/恢复 - 永远不会因为长时间刮擦而丢失进度
- ✅ 缓存系统 - 抓取一次,立即重建
🤖 与代理无关的技能生成
- ✅ 多代理支持 - 通过
--agent标志为 Claude、Kimi、Codex、Copilot、OpenCode 或任何自定义代理生成技能 - ✅ 自定义代理命令 - 使用
--agent-cmd指定自定义代理 CLI 命令以进行增强 - ✅ 通用标志 -
--agent和--agent-cmd可用于所有命令(创建、抓取、github、pdf 等)
📦 市场管道
- ✅ 发布到市场 - 将技能发布到 Claude Code 插件市场存储库
- ✅ 端到端管道 - 从文档源到发布的市场条目
✅ 品质保证
- ✅ 经过全面测试 - 2,540 多项测试,覆盖范围全面
📦 安装
# Basic install (documentation scraping, GitHub analysis, PDF, packaging)
pip install skill-seekers
# With all LLM platform support
pip install skill-seekers[all-llms]
# With MCP server
pip install skill-seekers[mcp]
# Everything
pip install skill-seekers[all]
需要选择帮助吗? 运行设置向导:
skill-seekers-setup
安装选项
| 安装 | 特点 |
|---|---|
pip install skill-seekers | 抓取、GitHub 分析、PDF、所有平台 |
pip install skill-seekers[gemini] | + 谷歌双子座支持 |
pip install skill-seekers[openai] | + OpenAI ChatGPT 支持 |
pip install skill-seekers[all-llms] | + 所有LLM平台 |
pip install skill-seekers[mcp] | + 用于 Claude Code、Cursor 等的 MCP 服务器 |
pip install skill-seekers[video] | + YouTube/Vimeo 文字记录和元数据提取 |
pip install skill-seekers[video-full] | + 耳语转录和视觉帧提取 |
pip install skill-seekers[jupyter] | + Jupyter 笔记本支持 |
pip install skill-seekers[pptx] | + PowerPoint 支持 |
pip install skill-seekers[confluence] | + Confluence 维基支持 |
pip install skill-seekers[notion] | + 概念页面支持 |
pip install skill-seekers[rss] | + RSS/Atom 提要支持 |
pip install skill-seekers[chat] | + Slack/Discord 聊天导出支持 |
pip install skill-seekers[asciidoc] | + AsciiDoc 文档支持 |
pip install skill-seekers[all] | 一切都已启用 |
视频视觉部门(GPU 感知): 安装
skill-seekers[video-full]后,运行skill-seekers video --setup自动检测您的 GPU 并安装正确的 PyTorch 变体+easyocr。 这是安装视觉提取依赖项的推荐方法。
🚀 一键安装工作流程
从配置到上传技能的最快方法 - 完全自动化:
# Install React skill from official configs (auto-uploads to Claude)
skill-seekers install --config react
# Install from local config file
skill-seekers install --config configs/custom.json
# Install without uploading (package only)
skill-seekers install --config django --no-upload
# Preview workflow without executing
skill-seekers install --config react --dry-run
时间: 总共 20-45 分钟 | 质量: 生产就绪 (9/10) | 费用: 免费
执行阶段:
📥 PHASE 1: Fetch Config (if config name provided)
📖 PHASE 2: Scrape Documentation
✨ PHASE 3: AI Enhancement (MANDATORY - no skip option)
📦 PHASE 4: Package Skill
☁️ PHASE 5: Upload to Claude (optional, requires API key)
要求:
- ANTHROPIC_API_KEY 环境变量(用于自动上传)
- Claude Code Max计划(用于本地AI增强),或使用
--agent选择不同的AI代理
📊 特征矩阵
Skill Seekers 支持 12 个 LLM 平台、8 个 RAG/向量目标、18 个源类型,以及所有目标之间的完整功能对等。
平台: Claude AI、Google Gemini、OpenAI ChatGPT、MiniMax AI、Generic Markdown、OpenCode、Kimi (Moonshot AI)、DeepSeek AI、Qwen(阿里巴巴)、OpenRouter、Together AI、Fireworks AI 来源类型: 文档网站、GitHub 存储库、PDF、Word (.docx)、EPUB、视频、本地代码库、Jupyter Notebooks、本地 HTML、OpenAPI/Swagger、AsciiDoc、PowerPoint (.pptx)、RSS/Atom 提要、手册页、Confluence wiki、Notion 页面、Slack/Discord 聊天导出
请参阅 Complete Feature Matrix 了解详细的平台和功能支持。
快速平台比较
| 特色 | 克劳德 | 双子座 | 开放人工智能 | 最小最大 | 降价 |
|---|---|---|---|---|---|
| 格式 | 邮编 + YAML | .tar.gz | 邮政编码+矢量 | 邮编+知识 | 邮政编码 |
| 上传 | ✅ API | ✅ API | ✅ API | ✅ API | ❌ 手册 |
| 增强 | ✅ 十四行诗 4 | ✅ 2.0 闪存 | ✅ GPT-4o | ✅ M2.7 | ❌ 无 |
| 所有技能模式 | ✅ | ✅ | ✅ | ✅ | ✅ |
用法示例
文档抓取
# Scrape documentation website
skill-seekers scrape --config configs/react.json
# Quick scrape without config
skill-seekers scrape --url https://react.dev --name react
# With async mode (3x faster)
skill-seekers scrape --config configs/godot.json --async --workers 8
# Use a specific AI agent for enhancement
skill-seekers scrape --config configs/react.json --agent kimi
PDF 提取
# Basic PDF extraction
skill-seekers pdf --pdf docs/manual.pdf --name myskill
# Advanced features
skill-seekers pdf --pdf docs/manual.pdf --name myskill \
--extract-tables \ # Extract tables
--parallel \ # Fast parallel processing
--workers 8 # Use 8 CPU cores
# Scanned PDFs (requires: pip install pytesseract Pillow)
skill-seekers pdf --pdf docs/scanned.pdf --name myskill --ocr
视频提取
# Install video support
pip install skill-seekers[video] # Transcripts + metadata
pip install skill-seekers[video-full] # + Whisper + visual frame extraction
# Auto-detect GPU and install visual deps (PyTorch + easyocr)
skill-seekers video --setup
# Extract from YouTube video
skill-seekers video --url https://www.youtube.com/watch?v=dQw4w9WgXcQ --name mytutorial
# Extract from a YouTube playlist
skill-seekers video --playlist https://www.youtube.com/playlist?list=... --name myplaylist
# Extract from a local video file
skill-seekers video --video-file recording.mp4 --name myrecording
# Extract with visual frame analysis (requires video-full deps)
skill-seekers video --url https://www.youtube.com/watch?v=... --name mytutorial --visual
# With AI enhancement (cleans OCR + generates polished SKILL.md)
skill-seekers video --url https://www.youtube.com/watch?v=... --visual --enhance-level 2
# Clip a specific section of a video (supports seconds, MM:SS, HH:MM:SS)
skill-seekers video --url https://www.youtube.com/watch?v=... --start-time 1:30 --end-time 5:00
# Use Vision API for low-confidence OCR frames (requires ANTHROPIC_API_KEY)
skill-seekers video --url https://www.youtube.com/watch?v=... --visual --vision-ocr
# Re-build skill from previously extracted data (skip download)
skill-seekers video --from-json output/mytutorial/video_data/extracted_data.json --name mytutorial
完整指南: 请参阅 docs/VIDEO_GUIDE.md 获取完整的 CLI 参考, 可视化管道详细信息、AI 增强选项和故障排除。
GitHub 存储库分析
# Basic repository scraping
skill-seekers github --repo facebook/react
# With authentication (higher rate limits)
export GITHUB_TOKEN=ghp_your_token_here
skill-seekers github --repo facebook/react
# Customize what to include
skill-seekers github --repo django/django \
--include-issues \ # Extract GitHub Issues
--max-issues 100 \ # Limit issue count
--include-changelog # Extract CHANGELOG.md
统一多源抓取
将文档 + GitHub + PDF 合并为一项具有冲突检测功能的统一技能:
# Use existing unified configs
skill-seekers unified --config configs/react_unified.json
skill-seekers unified --config configs/django_unified.json
# Or create unified config
cat > configs/myframework_unified.json << 'EOF'
{
"name": "myframework",
"merge_mode": "rule-based",
"sources": [
{
"type": "documentation",
"base_url": "https://docs.myframework.com/",
"max_pages": 200
},
{
"type": "github",
"repo": "owner/myframework",
"code_analysis_depth": "surface"
}
]
}
EOF
skill-seekers unified --config configs/myframework_unified.json
冲突检测自动发现:
- 🔴 代码缺失(高):已记录但未实现
- 🟡 文档中缺失(中):已实现但未记录
- ⚠️ 签名不匹配:不同的参数/类型
- ℹ️ 描述不匹配:不同的解释
完整指南: 请参阅 docs/UNIFIED_SCRAPING.md 了解完整文档。
私有配置存储库
使用私有 git 存储库在团队之间共享自定义配置:
# Option 1: Using MCP tools (recommended)
# Register your team's private repo
add_config_source(
name="team",
git_url="https://github.com/mycompany/skill-configs.git",
token_env="GITHUB_TOKEN"
)
# Fetch config from team repo
fetch_config(source="team", config_name="internal-api")
支持的平台:
- GitHub (
GITHUB_TOKEN)、GitLab (GITLAB_TOKEN)、Gitea (GITEA_TOKEN)、Bitbucket (BITBUCKET_TOKEN)
完整指南: 请参阅 docs/GIT_CONFIG_SOURCES.md 了解完整文档。
它是如何工作的
graph LR
A[Documentation Website] --> B[Skill Seekers]
B --> C[Scraper]
B --> D[AI Enhancement]
B --> E[Packager]
C --> F[Organized References]
D --> F
F --> E
E --> G[AI Skill .zip]
G --> H[Upload to AI Platform]
- 检测 llms.txt - 首先检查 llms-full.txt、llms.txt、llms-small.txt(智能 SPA 发现的一部分)
- Scrape:从文档中提取所有页面
- 分类:将内容组织成主题(API、指南、教程等)
- 增强:AI 分析文档并创建带有示例的综合 SKILL.md(通过
--agent支持多个代理) - 打包:将所有内容捆绑到平台就绪的
.zip文件中
架构
该系统分为 8 个核心模块 和 5 个实用模块(总共约 200 个类):

| 模块 | 目的 | 重点课程 |
|---|---|---|
| CLICore | Git 风格的命令调度程序 | CLIDispatcher、SourceDetector、CreateCommand |
| 刮刀 | 18个源型提取器 | DocToSkillConverter、GitHubScraper、UnifiedScraper |
| 适配器 | 20 多种输出平台格式 | SkillAdaptor (ABC)、ClaudeAdaptor、LangChainAdaptor |
| 分析 | C3.x 代码库分析管道 | UnifiedCodebaseAnalyzer、PatternRecognizer、10 个 GoF 探测器 |
| 增强 | 通过 AgentClient 提高 AI 驱动的技能 | AgentClient、AIEnhancer、UnifiedEnhancer、WorkflowEngine |
| 包装 | 打包、上传、安装技巧 | PackageSkill, InstallAgent |
| MCP | FastMCP 服务器(40 个工具) | SkillSeekerMCPServer,10 个工具模块 |
| 同步 | 文档变更检测 | ChangeDetector、SyncMonitor、Notifier |
实用程序模块:解析器(28 个 CLI 解析器)、存储(S3/GCS/Azure)、嵌入(多提供商向量)、基准(性能)、实用程序(16 个共享助手)。
完整的 UML 图:docs/UML_ARCHITECTURE.md | StarUML 项目:docs/UML/skill_seekers.mdj | HTML API 参考:docs/UML/html/
📋 先决条件
开始之前,请确保您拥有:
- Python 3.10 或更高版本 - Download | 检查:
python3 --version - Git - Download | 检查:
git --version - 首次设置需要 15-30 分钟
首次用户? → Start Here: Bulletproof Quick Start Guide 🎯
📤 上传技能给克劳德
一旦你的技能被打包,你需要将其上传给Claude:
选项 1:自动上传(基于 API)
# Set your API key (one-time)
export ANTHROPIC_API_KEY=sk-ant-...
# Package and upload automatically
skill-seekers package output/react/ --upload
# OR upload existing .zip
skill-seekers upload output/react.zip
选项 2:手动上传(无 API 密钥)
# Package skill
skill-seekers package output/react/
# → Creates output/react.zip
# Then manually upload:
# - Go to https://claude.ai/skills
# - Click "Upload Skill"
# - Select output/react.zip
选项 3:MCP(克劳德码)
In Claude Code, just ask:
"Package and upload the React skill"
```---
## 🤖 安装到 AI Agent
技能寻求者可以自动为 18 个 AI 编码代理安装技能。
```bash
# Install to specific agent
skill-seekers install-agent output/react/ --agent cursor
# Install to all agents at once
skill-seekers install-agent output/react/ --agent all
# Preview without installing
skill-seekers install-agent output/react/ --agent cursor --dry-run
支持的代理
| 代理 | 路径 | 类型 |
|---|---|---|
| 克劳德·代码 | ~/.claude/skills/ | 全球 |
| 光标 | .cursor/skills/ | 项目 |
| VS Code / 副驾驶 | .github/skills/ | 项目 |
| 放大器 | ~/.amp/skills/ | 全球 |
| 鹅 | ~/.config/goose/skills/ | 全球 |
| 开放代码 | ~/.opencode/skills/ | 全球 |
| 风帆冲浪 | ~/.windsurf/skills/ | 全球 |
| Roo 代码 | .roo/skills/ | 项目 |
| 克莱因 | .cline/skills/ | 项目 |
| 助手 | ~/.aider/skills/ | 全球 |
| 螺栓 | .bolt/skills/ | 项目 |
| 公斤代码 | .kilo/skills/ | 项目 |
| 继续 | ~/.continue/skills/ | 全球 |
| 基米代码 | ~/.kimi/skills/ | 全球 |
🔌 MCP 集成(26 个工具)
Skill Seekers 提供了一个 MCP 服务器,可在 Claude Code、Cursor、Windsurf、VS Code + Cline 或 IntelliJ IDEA 中使用。
# stdio mode (Claude Code, VS Code + Cline)
python -m skill_seekers.mcp.server_fastmcp
# HTTP mode (Cursor, Windsurf, IntelliJ)
python -m skill_seekers.mcp.server_fastmcp --transport http --port 8765
# Auto-configure all agents at once
./setup_mcp.sh
所有 26 种工具均可用:
- 核心 (9):
list_configs、generate_config、validate_config、estimate_pages、scrape_docs、package_skill、upload_skill、enhance_skill、install_skill - 扩展(10):
scrape_github、scrape_pdf、unified_scrape、merge_sources、detect_conflicts、add_config_source、fetch_config、list_config_sources、remove_config_source、split_config - 矢量数据库 (4):
export_to_chroma,export_to_weaviate,export_to_faiss,export_to_qdrant - 云 (3):
cloud_upload,cloud_download,cloud_list
完整指南: docs/MCP_SETUP.md
⚙️ 配置
可用预设 (24+)
# List all presets
skill-seekers list-configs
| 类别 | 预设 |
|---|---|
| 网络框架 | react、vue、angular、svelte、nextjs |
| Python | django、flask、fastapi、sqlalchemy、pytest |
| 游戏开发 | godot、pygame、unity |
| 工具和开发运营 | docker、kubernetes、terraform、ansible |
| 统一(文档 + GitHub) | react-unified、vue-unified、nextjs-unified 等 |
创建您自己的配置
# Option 1: Interactive
skill-seekers scrape --interactive
# Option 2: Copy and edit a preset
cp configs/react.json configs/myframework.json
nano configs/myframework.json
skill-seekers scrape --config configs/myframework.json
配置文件结构
{
"name": "myframework",
"description": "When to use this skill",
"base_url": "https://docs.myframework.com/",
"selectors": {
"main_content": "article",
"title": "h1",
"code_blocks": "pre code"
},
"url_patterns": {
"include": ["/docs", "/guide"],
"exclude": ["/blog", "/about"]
},
"categories": {
"getting_started": ["intro", "quickstart"],
"api": ["api", "reference"]
},
"rate_limit": 0.5,
"max_pages": 500
}
存储配置的位置
该工具按以下顺序搜索:
- 提供的确切路径
./configs/(当前目录)~/.config/skill-seekers/configs/(用户配置目录)- SkillSeekersWeb.com API(预设配置)
📊 创建了什么
output/
├── godot_data/ # Scraped raw data
│ ├── pages/ # JSON files (one per page)
│ └── summary.json # Overview
│
└── godot/ # The skill
├── SKILL.md # Enhanced with real examples
├── references/ # Categorized docs
│ ├── index.md
│ ├── getting_started.md
│ ├── scripting.md
│ └── ...
├── scripts/ # Empty (add your own)
└── assets/ # Empty (add your own)
```---
## 🐛 故障排除
### 没有提取内容?
- 检查您的 `main_content` 选择器
- 尝试:`article`、`main`、`div[role="main"]`
### 数据存在但不会使用它?
```bash
# Force re-scrape
rm -rf output/myframework_data/
skill-seekers scrape --config configs/myframework.json
分类不好?
使用更好的关键字编辑配置 categories 部分。
想要更新文档吗?
# Delete old data and re-scrape
rm -rf output/godot_data/
skill-seekers scrape --config configs/godot.json
增强功能不起作用?
# Check if API key is set
echo $ANTHROPIC_API_KEY
# Try LOCAL mode instead (uses Claude Code Max, no API key needed)
skill-seekers enhance output/react/ --mode LOCAL
# Monitor background enhancement status
skill-seekers enhance-status output/react/ --watch
GitHub 速率限制问题?
# Set a GitHub token (5000 req/hour vs 60/hour anonymous)
export GITHUB_TOKEN=ghp_your_token_here
# Or configure multiple profiles
skill-seekers config --github
```---
## 📈 性能
| 任务| 时间 | 笔记|
|------|------|--------|
| 抓取(同步)| 15-45 分钟 | 仅限第一次,基于线程 |
| 抓取(异步)| 5-15 分钟 | 使用 `--async` 标志时速度提高 2-3 倍 |
| 建筑| 1-3 分钟 | 从缓存快速重建 |
| 重建| <1 分钟 | 与 `--skip-scrape` |
| 增强(本地)| 30-60 秒 | 使用 Claude Code Max |
| 增强(API)| 20-40 秒 | 需要 API 密钥 |
| 视频(文字记录)| 1-3 分钟 | YouTube/本地,仅文字记录 |
| 视频(视觉)| 5-15 分钟 | + OCR 帧提取 |
| 包装| 5-10 秒 | 最终 .zip 创建 |
---
## 📚 文档
### 入门
- **[BULLETPROOF_QUICKSTART.md](BULLETPROOF_QUICKSTART.md)** - 🎯 **从这里开始** 如果您是新手!
- **[QUICKSTART.md](QUICKSTART.md)** - 适合有经验的用户快速入门
- **[TROUBLESHOOTING.md](TROUBLESHOOTING.md)** - 常见问题和解决方案
- **[docs/QUICK_REFERENCE.md](docs/QUICK_REFERENCE.md)** - 一页备忘单
### 架构
- **[docs/UML_ARCHITECTURE.md](docs/UML_ARCHITECTURE.md)** - UML 架构概述,包含 14 个图表
- **[docs/UML/exports/](docs/UML/exports/)** - PNG 图导出(包概述 + 13 个类图)
- **[docs/UML/html/](docs/UML/html/index.html/index.html)** - 完整的 HTML API 参考(所有类、操作、属性)
- **[docs/UML/skill_seekers.mdj](docs/UML/skill_seekers.mdj)** - StarUML 项目文件(使用 [StarUML](https://staruml.io/) 打开)
### 指南
- **[docs/LARGE_DOCUMENTATION.md](docs/LARGE_DOCUMENTATION.md)** - 处理 10K-40K+ 页文档
- **[ASYNC_SUPPORT.md](ASYNC_SUPPORT.md)** - 异步模式指南(抓取速度加快 2-3 倍)
- **[docs/ENHANCEMENT_MODES.md](docs/ENHANCEMENT_MODES.md)** - AI增强模式指南
- **[docs/MCP_SETUP.md](docs/MCP_SETUP.md)** - MCP 集成设置
- **[docs/UNIFIED_SCRAPING.md](docs/UNIFIED_SCRAPING.md)** - 多源抓取
- **[docs/VIDEO_GUIDE.md](docs/VIDEO_GUIDE.md)** - 视频提取指南
### 集成指南
- **[docs/integrations/LANGCHAIN.md](docs/integrations/LANGCHAIN.md)** - LangChain RAG
- **[docs/integrations/CURSOR.md](docs/integrations/CURSOR.md)** - 光标 IDE
- **[docs/integrations/WINDSURF.md](docs/integrations/WINDSURF.md)** - 风帆冲浪IDE
- **[docs/integrations/CLINE.md](docs/integrations/CLINE.md)** - 克莱恩(VS 代码)
- **[docs/integrations/RAG_PIPELINES.md](docs/integrations/RAG_PIPELINES.md)** - 所有 RAG 管道
---
## 📝 许可证
MIT 许可证 - 请参阅 [LICENSE](LICENSE) 文件了解详细信息
---
快乐的技能培养! 🚀
---
## 🔒 安全
[](https://mseep.ai/app/yusufkaraaslan-skill-seekers)