SRE on YennJ12 Engineering Blog

SRE on YennJ12 Engineering Bloghttp://yennj12.js.org/yennj12_blog_V4/categories/sre/Recent content in SRE on YennJ12 Engineering BlogHugo -- gohugo.ioen-usThu, 30 Apr 2026 11:00:00 +0800用 AI Bot 打造顧問團隊（三）：評估、維運與優化計畫http://yennj12.js.org/yennj12_blog_V4/posts/ai-agent-team-for-consultant-part3-devops-zh/Thu, 30 Apr 2026 11:00:00 +0800http://yennj12.js.org/yennj12_blog_V4/posts/ai-agent-team-for-consultant-part3-devops-zh/前言你已經建好了 AI 顧問 Agent 團隊（第一篇、第二篇），現在問題來了：「這系統真的有在正常工作嗎？品質夠好嗎？出了問題怎麼辦？」 AI Agent 系統不像傳統軟體，你不能只看 HTTP 200。你需要評估輸出品質、追蹤推理過程、並且在 LLM 開始說廢話之前就發現它。本篇從 DevOps/SRE 的角度，完整說明如何讓 AI 顧問團隊穩定、可觀測、持續進化。一、系統效能評估：怎麼知道 Agent 表現好不好？ 1.1 評估的四個維度品質（Quality） → 輸出內容是否正確、有用、符合顧問標準速度（Latency） → 每個 Agent 節點的回應時間成本（Cost） → 每次顧問對話的 Token 花費可靠性（Reliability）→ 成功完成整個流程的比率 1.2 建立評估資料集（Golden Dataset）這是最重要的第一步。準備 20-50 個有代表性的客戶案例： 1# evaluation/golden_dataset.py 2GOLDEN_CASES = [ 3 { 4 "id": "case-001", 5 "input": "我們是一家 50 人的電商公司，客服每天要處理 500 封郵件，想用 AI 減輕負擔。", 6 "expected_intake": { 7 "industry": "電商", 8 "size": "50人", 9 "pain_points": ["客服郵件量大"], 10 "ai_type": "自動化" 11 }, 12 "expected_strategy_keywords": ["聊天機器人", "郵件分類", "自動回覆"], 13 "quality_rubric": { 14 "relevance": "策略必須針對客服場景", 15 "feasibility": "建議的方案在 100 萬預算內可行", 16 "actionability": "至少有 3 個具體的下一步行動" 17 } 18 }, 19 # .