Harry 的个人网站・文章

本文是基于 Howie 和小能熊作者 Howie 的直播整理的学习笔记。作者的原文令我深受启发，同时也感受到了强烈的紧迫感。会用 AI 和不会用 AI 的人之间的差距会比没有 AI 之前更大，而既会用 AI又有专业知识体系的人将会更加再次拉开一个维度的差距。归根结底唯一没变的是，建立自己的知识体系、专业技能，积累行业经验。在 AI 时代，这样的努力会让回报翻倍。

当你打开 ChatGPT 或 Claude，你面对的是一个”什么都会一点”的通用助手。它能写代码、写文案、做翻译，但它不懂你的工作流，不懂你在某个领域多年积累的判断标准，更不懂那些”只可意会”的专业直觉。

这正是通用 AI 的困境：它拥有海量知识，却缺少你的专业灵魂。

Agent Skills 的出现，让这个困境有了突破口。它不是要让 AI 变得更”聪明”,而是要让 AI 学会你的聪明——把你毕生所学的技能、工作中注入总结的 workflow、经过反复打磨的 SOP,变成顶级 AI 模型可以调用的技能砖块。让通用代理从此成为真正为你所用的专用代理。

什么是 Agent Skills:从文件夹到技能系统

本质:可组合的专业知识包

Agent Skills 的定义简洁而有力:由指令、脚本和资源组成的有序文件夹,代理可以动态发现并加载这些文件夹,从而更好地完成特定任务。

这个定义里藏着三个关键点:

首先,文件夹即技能。每个技能就是一个目录,里面包含 SKILL.md(技能说明)、参考资料(如 spec.md、reference.md)、代码或脚本(如 extract_fields.py)。这种物理组织方式让技能成为可版本化、可分享、可审计的实体。
其次,动态发现。Agent 不需要预先知道所有技能的细节,它通过元数据了解技能清单,按需加载。这是对传统”把所有东西都塞进 prompt”做法的根本性改进。
最后,组合性。技能可以互相配合。每个 Skill 专注于特定任务,但可以通过 Agent 的编排组合成复杂工作流。

Agent Skills 的工作原理

理解 Agent Skills 的工作原理,需要看清它的三层架构:Agent(大脑)+ Skills(技能)+ Virtual Machine(可控电脑)。这是一套”想+会做+可审计”的自动化体系。

左侧:Agent 的配置与编排

在系统的左侧,是 Agent 的配置界面:

顶部是核心系统提示词,给 Agent 定下总规则——它的角色、边界、行为准则。
中间是已装备的技能清单:bigquery、docx、nda-review、pdf、pptx、xlsx……可以理解为 Agent 的”插件清单”。这些技能处于待命状态,等待被调用。
下方是 MCP 服务器(Model Context Protocol):既有本地接入的服务,也有互联网上的远程服务,给 Agent 提供外部工具和数据源。比如需要查数据库、调 API、访问云端文档,都通过 MCP 完成。

右侧:Agent 的虚拟机环境

在系统的右侧,是 Agent 控制的虚拟机(VM)：

Agent 通过”use computer”功能直接控制一台干净的电脑环境。这台电脑里有 Bash、Python、Node.js 等运行时,可以执行代码、运行脚本、读写文件。
每个技能就是一个目录(例如 skills/pdf/),里面放着 SKILL.md、规范文档、代码脚本。绿色箭头强调了这一点:技能不是抽象的”能力”,而是具体的、可读可写、可版本化的文件。
这种设计的好处是可审计性。Agent 执行任务时产生的中间文件、日志、结果都留在 VM 的文件系统里,便于追溯和复现。你可以看到 Agent “做了什么”,而不只是”说了什么”。

渐进式加载:在灵活性与专业性之间找到平衡

Agent Skills 面临一个根本性挑战:如何让 Agent 既能灵活调用很多技能,又不把自己的工作记忆撑爆?

注：工作记忆是大语言模型上下文窗口的一种类比。上下文目前对于大语言模型来说还是有限的资源，一旦你的对话长度超过上下文长度，就会被 LLM“忘记”。目前最大上下文长度可以达到 40 万 token，相当于两本书的体量。

答案是渐进式加载(Progressive Disclosure)。这是一个三层递进的信息加载机制：

Level 1:元数据(Metadata)—— 用 100 token 说清”我能干什么”

第一层只加载技能的元数据,大约 100 token。这层信息的目标是”提供恰到好处的信息,让 Claude 知道何时应该使用每项技能”。关键是无需将所有信息加载到上下文中。

元数据包含在 SKILL.md 的 Frontmatter(YAML 格式)里:

name:技能名称(必需)
description:详细描述技能的用途和触发条件(必需)——这是触发技能的主要机制

100 个 token,足够让 Agent 浏览技能清单,判断”这个任务需要哪些技能”。

Level 2:SKILL.md 的实际内容—— 完整的技能说明(< 5k tokens)

如果 Claude 认为某项技能与当前任务相关,会读取完整的 SKILL.md 并加载到上下文中。

这一层的 token 限制在 5k 以内,足够包含:

技能的详细说明和边界
使用场景和触发条件
工作流程和步骤
输入输出规范
注意事项和最佳实践

5k tokens 是一个微妙的平衡点。它足够让 Agent 深入理解一个技能的细节,但又不至于占用太多上下文,影响其他技能的加载。

Level 3:额外的链接文件—— 无限扩展的专业知识库

第三层是按需加载的辅助文件,token 数量不受限制。使用场景有两个:

场景一:技能复杂性增加,内容过多无法放入单个 SKILL.md

比如一个复杂的数据处理技能,可能需要详细的数据格式说明、转换规则、边界案例处理等,这些内容如果都塞进 SKILL.md,会让核心流程淹没在细节里。

场景二:某些上下文信息仅在特定场景下才相关

比如 PDF 技能,核心功能是提取和分析 PDF,但当需要填写表单时,才需要加载 forms.md 里的表单填写说明。

实现方式是:在技能目录中捆绑其他文件,并在 SKILL.md 中按名称引用。Claude 会根据任务需要,选择性读取这些文件。

以 PDF 技能为例:SKILL.md 引用 reference.md 和 forms.md。将表单填写说明移至 forms.md,保持核心内容简洁。Claude 只会在填写表单时阅读 forms.md。

这种工作方式和人类很像，我们的大脑总是会选择更加节能的方式去处理问题，先从最简单的开始。另一方面，这种工作方式也是以结果为导向再不断扩充信息，它不是被动接受所有信息,而是主动选择需要的技能,深入加载相关细节,忽略无关内容。

Skill Creator:用技能创建技能

Agent Skills 的设计哲学里,有一个精妙的自指:用 Skill 来创建 Skill。

官方提供了一个 skill-creator 技能,专门用于创建新技能。这意味着你不需要从零开始编写 SKILL.md,而是告诉 Agent”我想要一个做 XXX 的技能”,Agent 调用 skill-creator,帮你生成完整的技能文件。

这种自指带来几个好处:

降低创建门槛。创建技能不需要掌握复杂的规范,只需要描述清楚”我想要什么”。Agent 会根据最佳实践,生成规范的 SKILL.md。
保持一致性。所有通过 skill-creator 生成的技能,都遵循统一的结构和规范,便于维护和复用。
快速迭代。当你发现技能需要调整时,可以让 Agent 重新生成或修改,而不是手动编辑。

更深层的意义在于:技能本身成为可编程的对象。就像代码可以生成代码(metaprogramming),技能可以生成技能。这打开了无限可能:技能可以自我优化、相互组合、动态适配。

链接： https://github.com/anthropics/skills/tree/main/skill-creator

从通用到专用:一场工作方式的革命

Agent Skills 不只是一个技术架构,它代表了人机协作的新范式。

传统的 AI 使用方式是”问答式”:你问,AI 答。AI 是被动的工具,你需要不断调整 prompt,试图让它理解你的需求。这种方式的问题是非常高的理解成本。

Agent Skills 反转了这个模式:理解成本从人转移到系统。你不需要每次都解释”我的工作流是什么”,而是把工作流打包成技能,让 AI 主动加载和调用。理解的责任从”用户如何说清楚”转移到”系统如何理解清楚”。

这场转变带来三个深远影响:

专业知识的可积累性。过去,你和 AI 的每次对话都是独立的,上次费力解释的流程,下次还得重复。有了 Agent Skills,专业知识可以沉淀为技能,不断积累、优化、复用。你的 AI 助手会越用越懂你。
工作流的可组合性。复杂任务可以拆解为多个技能的组合。比如”分析竞品并生成报告”,可以拆解为web-research(网络调研)+ data-analysis(数据分析)+ report-generation(报告生成)。每个技能专注做好一件事,组合起来完成复杂任务。
协作的可审计性。Agent 的工作过程不再是黑盒,而是留下完整的文件和日志。你可以检查中间结果、追溯决策依据、复现执行过程。这种透明性是专业场景不可或缺的。

结语:让 AI 学会你的聪明

Agent Skills 回答了一个根本问题:如何让 AI 真正为你所用?

答案不是让 AI 更聪明,而是让 AI 学会你的聪明——你的判断标准、工作流程、专业直觉。

当你把毕生所学打包成一个个技能砖块,通用代理就成为承载你专业灵魂的专用代理。它不是取代你,而是成为你的延伸,按你的方式思考,用你的标准执行,在你的监督下工作。

这才是 AI 赋能的真正意义:不是取代人的智慧,而是通过人与 AI 的协作来放大人的智慧。

从通用到专用：Agent Skills 如何让 AI 真正为你所用