本站透過少量的GoogleAdsense廣告以及聯盟行銷用於支持本站營運家扶基金會兒童教養公益用途!
【生活】當 AI 學會測試自己的技能,我也在做一樣的事

【生活】當 AI 學會測試自己的技能,我也在做一樣的事

Anthropic 前兩天發了一篇文章, 標題是《Improving Skill Creator: Test, Measure, and Refine Agent Skills》。

我讀完之後笑了。

不是因為覺得好笑, 而是因為我最近幾個月, 竟然在做一模一樣的事。

只是他們做的是平台級的工具升級, 我做的是個人級的「懶人工廠」進化。

先聊聊 Anthropic 說了什麼

這篇文章的核心訊息很簡單:

AI 技能(Skills)光是「看起來能用」不夠,你需要測試它、量化它、持續改進它。

他們把 Skill 分成兩類:

類型說明範例
能力提升型讓 AI 做到原本做不好的事PDF 填表、文件生成
偏好編碼型把你的工作流程「寫」進 AI 裡NDA 審查、週報彙整

然後他們推出了 eval 系統—— 簡單講就是幫你的 AI 技能寫「考試卷」。

定義輸入、描述期望輸出, 然後看 AI 有沒有通過。

聽起來很像軟體工程的單元測試對吧?

沒錯,他們也這麼說。

把軟體開發的嚴謹性(測試、基準、迭代改善)帶進技能寫作, 而且不需要寫程式。

巧了,我也在做一樣的事

過年期間我大整理了自己的工作流, 順便把跟 AI 協作的整套系統重新翻修。

目前我的 Claude Code 環境裡, 有 19 個自建 Skills12 個專業 Agent, 還有一整套跨工具的知識同步架構。

聽起來很猛?

其實就是一個懶人不想重複做事的結果。

我的 Skill 也分兩類

回頭看 Anthropic 的分類, 我的 Skills 也完全對應這兩種:

能力提升型:

  • book-cover-automation:書籍封面自動下載去背
  • translate-blog:中翻英文章自動翻譯
  • seo-analysis:SEO 數據分析策略生成

偏好編碼型(把我的流程寫進 AI):

  • hugo-content-guide:我的寫作風格和格式規範
  • commit:Git commit 訊息自動產生
  • daily-review:每日復盤 → 自動寫入 Anytype
  • session-end:Session 結束時自動做狀態檢查和知識萃取

第二類才是我花最多心力的。

因為這些不是「讓 AI 變聰明」, 而是「讓 AI 變成我」。

測試,不是可選的

Anthropic 文章提到一個很現實的問題:

大多數技能作者是領域專家,不是工程師。 他們知道自己的工作流程,但缺乏工具確認技能是否還能正常運作。

我完全被說中。

我是保險業出身的 CEO,不是工程師。 但我現在管理著 19 個 AI Skills, 而且每一個都會影響我的內容產出管線。

如果 translate-blog 翻壞了, 我的英文版文章就會出問題。

如果 hugo-content-guide 的語調規則跑掉, AI 寫出來的文章就不像我。

所以我也開始做類似 eval 的事—— 只是我的方式更土法煉鋼:

  1. check-skills:一個專門檢查所有 Skills 健康狀態的 Skill
  2. sync-skills:確保 Claude Code、Copilot、Codex 三套工具的知識同步
  3. promote-lessons:審查知識建議,防止設定文件無限膨脹

不夠優雅,但有效。

模型進步了,你的 Skill 該退休嗎?

文章裡有一段讓我很有感:

如果基礎模型開始不需要你的 Skill 就能通過 eval, 那代表這個 Skill 的技巧已經被模型吸收了。 Skill 沒壞,只是不再需要了。

這跟我的實際經驗完全一致。

我已經淘汰了 3 個 Skills:

  • canva-cover-update
  • code-simplifier
  • content-writing

不是它們寫得不好, 而是模型本身進步了,不需要額外提示就能做到。

這其實是好事。

代表你的自動化系統是活的, 會隨著 AI 進化而自我精簡。

懶人工廠的全貌

既然都聊到這了, 讓我畫一個目前整套系統的樣子:

內容管線:
  Notion 文章 → Hugo 部落格 → 英文翻譯 → SEO 優化
  → 社群貼文自動生成 → FB / IG 自動排程發文

知識管線:
  閱讀筆記 → Zettelkasten 卡片 → Anytype
  每日復盤 → 對話式日記 → Anytype

營運管線:
  GA4 數據 → 成長策略 → CTR 優化
  電子報 → ConvertKit 自動發送
  Podcast → 自動整合與推廣

這些全部由 AI Skills + Python 腳本串起來, 三個 AI 工具(Claude Code、GitHub Copilot、Codex)共享同一份知識庫。

對,我就是那種會為了不想手動做事, 花一整個過年把系統建起來的人。

很懶,但我懶得很有系統。

未來:Skill 和 Spec 的界線會模糊

Anthropic 文章最後提到一個很有意思的觀點:

隨著模型進步,「Skill」和「Specification」的界線可能會模糊。 今天的 SKILL.md 是實作計畫——詳細地告訴 AI 怎麼做。 未來,一段自然語言描述「要做什麼」可能就夠了。

我覺得他們說得對。

現在我的每個 SKILL.md 都是好幾百行的詳細指令, 裡面有格式規範、禁用詞彙、句式規則、範例程式碼。

但也許有一天, 我只需要寫一句:

「用懶大的語氣寫一篇生活類文章。」

然後 AI 就知道該怎麼做。

到那時候,我的 Skill 不是消失了, 而是變成了 AI 的「記憶」。


AI 工作流自動化示意圖


常見問題 (FAQ)


延伸閱讀


懶得有結論

懶得有結論

Anthropic 在做的事和我在做的事,本質上是一樣的:

把 AI 技能從「感覺能用」變成「確定能用」。

差別只是規模—— 他們在建平台工具,我在建個人懶人工廠。

但核心邏輯完全相同:

  1. 定義你的工作流(寫成 Skill)
  2. 測試它是否如預期運作(用 eval 或土法煉鋼)
  3. 隨著模型進步持續精簡(該退休就退休)

AI 不會取代你, 但會用 AI 的人會跑得比較快。

而會測試自己 AI 技能的人, 跑得又更穩一點。

📩
訂閱電子報,獲取更多理財觀點

🚀 已有 1,000+ 讀者加入理財成長之路

相關文章

💡 您可能也會喜歡這些精選文章

【生活】我找到了一個離開 Comet 回到 Chrome 的原因了…

【生活】我找到了一個離開 Comet 回到 Chrome 的原因了…

用了 Comet 幾個月,覺得 AI 搜尋回不去了——直到發現 Chrome 也能做到一樣的事。分享這個讓我回頭的設定,三步驟把 Google AI 模式變成預設搜尋引擎。

閱讀更多
【生活】過年復活 Anytype!極度懶的人如何用自動化打造高效筆記工作流

【生活】過年復活 Anytype!極度懶的人如何用自動化打造高效筆記工作流

冷落 Anytype 一年多,過年大整理工作流時意外復活它。分享我這個極度懶人的思維:討厭麻煩,所以愛自動化,並以此改造閱讀、筆記與生活。

閱讀更多
【生活】Elon Musk 的使命感讓我跪了一下!先不管人設爭議了

【生活】Elon Musk 的使命感讓我跪了一下!先不管人設爭議了

Elon Musk 不只是造車射火箭,他對未來的 5 個瘋狂預測徹底顛覆了我的想像。從太空 AI 數據中心到「全民高收入」,甚至我們可能活在外星人的 Netflix 影集裡?這些觀點不只科幻,更充滿了對人性的深刻洞察。這篇整理了 Musk 最讓我震撼的思維,特別是關於「生產力」的那一點,對我們這些追求效率的懶人來說,簡直是當頭棒喝。

閱讀更多

💰 加入懶得變有錢電子報

每週獲得最新理財心法與投資洞察

我們尊重您的隱私,隨時可以取消訂閱

🚀 已有 1,000+ 讀者加入理財成長之路