
【生活】當 AI 學會測試自己的技能,我也在做一樣的事
讀完這篇你會學到:
Anthropic 前兩天發了一篇文章, 標題是《Improving Skill Creator: Test, Measure, and Refine Agent Skills》。
我讀完之後笑了。
不是因為覺得好笑, 而是因為我最近幾個月, 竟然在做一模一樣的事。
只是他們做的是平台級的工具升級, 我做的是個人級的「懶人工廠」進化。
先聊聊 Anthropic 說了什麼
這篇文章的核心訊息很簡單:
AI 技能(Skills)光是「看起來能用」不夠,你需要測試它、量化它、持續改進它。
他們把 Skill 分成兩類:
| 類型 | 說明 | 範例 |
|---|---|---|
| 能力提升型 | 讓 AI 做到原本做不好的事 | PDF 填表、文件生成 |
| 偏好編碼型 | 把你的工作流程「寫」進 AI 裡 | NDA 審查、週報彙整 |
然後他們推出了 eval 系統—— 簡單講就是幫你的 AI 技能寫「考試卷」。
定義輸入、描述期望輸出, 然後看 AI 有沒有通過。
聽起來很像軟體工程的單元測試對吧?
沒錯,他們也這麼說。
把軟體開發的嚴謹性(測試、基準、迭代改善)帶進技能寫作, 而且不需要寫程式。
巧了,我也在做一樣的事
過年期間我大整理了自己的工作流, 順便把跟 AI 協作的整套系統重新翻修。
目前我的 Claude Code 環境裡, 有 19 個自建 Skills、12 個專業 Agent, 還有一整套跨工具的知識同步架構。
聽起來很猛?
其實就是一個懶人不想重複做事的結果。
我的 Skill 也分兩類
回頭看 Anthropic 的分類, 我的 Skills 也完全對應這兩種:
能力提升型:
book-cover-automation:書籍封面自動下載去背translate-blog:中翻英文章自動翻譯seo-analysis:SEO 數據分析策略生成
偏好編碼型(把我的流程寫進 AI):
hugo-content-guide:我的寫作風格和格式規範commit:Git commit 訊息自動產生daily-review:每日復盤 → 自動寫入 Anytypesession-end:Session 結束時自動做狀態檢查和知識萃取
第二類才是我花最多心力的。
因為這些不是「讓 AI 變聰明」, 而是「讓 AI 變成我」。
測試,不是可選的
Anthropic 文章提到一個很現實的問題:
大多數技能作者是領域專家,不是工程師。 他們知道自己的工作流程,但缺乏工具確認技能是否還能正常運作。
我完全被說中。
我是保險業出身的 CEO,不是工程師。 但我現在管理著 19 個 AI Skills, 而且每一個都會影響我的內容產出管線。
如果 translate-blog 翻壞了,
我的英文版文章就會出問題。
如果 hugo-content-guide 的語調規則跑掉,
AI 寫出來的文章就不像我。
所以我也開始做類似 eval 的事—— 只是我的方式更土法煉鋼:
check-skills:一個專門檢查所有 Skills 健康狀態的 Skillsync-skills:確保 Claude Code、Copilot、Codex 三套工具的知識同步promote-lessons:審查知識建議,防止設定文件無限膨脹
不夠優雅,但有效。
模型進步了,你的 Skill 該退休嗎?
文章裡有一段讓我很有感:
如果基礎模型開始不需要你的 Skill 就能通過 eval, 那代表這個 Skill 的技巧已經被模型吸收了。 Skill 沒壞,只是不再需要了。
這跟我的實際經驗完全一致。
我已經淘汰了 3 個 Skills:
canva-cover-updatecode-simplifiercontent-writing
不是它們寫得不好, 而是模型本身進步了,不需要額外提示就能做到。
這其實是好事。
代表你的自動化系統是活的, 會隨著 AI 進化而自我精簡。
懶人工廠的全貌
既然都聊到這了, 讓我畫一個目前整套系統的樣子:
內容管線:
Notion 文章 → Hugo 部落格 → 英文翻譯 → SEO 優化
→ 社群貼文自動生成 → FB / IG 自動排程發文
知識管線:
閱讀筆記 → Zettelkasten 卡片 → Anytype
每日復盤 → 對話式日記 → Anytype
營運管線:
GA4 數據 → 成長策略 → CTR 優化
電子報 → ConvertKit 自動發送
Podcast → 自動整合與推廣
這些全部由 AI Skills + Python 腳本串起來, 三個 AI 工具(Claude Code、GitHub Copilot、Codex)共享同一份知識庫。
對,我就是那種會為了不想手動做事, 花一整個過年把系統建起來的人。
很懶,但我懶得很有系統。
未來:Skill 和 Spec 的界線會模糊
Anthropic 文章最後提到一個很有意思的觀點:
隨著模型進步,「Skill」和「Specification」的界線可能會模糊。 今天的 SKILL.md 是實作計畫——詳細地告訴 AI 怎麼做。 未來,一段自然語言描述「要做什麼」可能就夠了。
我覺得他們說得對。
現在我的每個 SKILL.md 都是好幾百行的詳細指令, 裡面有格式規範、禁用詞彙、句式規則、範例程式碼。
但也許有一天, 我只需要寫一句:
「用懶大的語氣寫一篇生活類文章。」
然後 AI 就知道該怎麼做。
到那時候,我的 Skill 不是消失了, 而是變成了 AI 的「記憶」。

常見問題 (FAQ)
延伸閱讀
懶得有結論
Anthropic 在做的事和我在做的事,本質上是一樣的:
把 AI 技能從「感覺能用」變成「確定能用」。
差別只是規模—— 他們在建平台工具,我在建個人懶人工廠。
但核心邏輯完全相同:
- 定義你的工作流(寫成 Skill)
- 測試它是否如預期運作(用 eval 或土法煉鋼)
- 隨著模型進步持續精簡(該退休就退休)
AI 不會取代你, 但會用 AI 的人會跑得比較快。
而會測試自己 AI 技能的人, 跑得又更穩一點。
🚀 已有 1,000+ 讀者加入理財成長之路


