用 AI Bot 打造顧問團隊(三):評估、維運與優化計畫
前言 你已經建好了 AI 顧問 Agent 團隊(第一篇、第二篇),現在問題來了: 「這系統真的有在正常工作嗎?品質夠好嗎?出了問題怎麼辦?」 AI Agent 系統不像傳統軟體,你不能只看 HTTP 200。你需要評估輸出品質、追蹤推理過程、並且在 LLM 開始說廢話之前就發現它。 本篇從 DevOps/SRE 的角度,完整說明如何讓 AI 顧問團隊穩定、可觀測、持續進化。 一、系統效能評估:怎麼知道 Agent 表現好不好? 1.1 評估的四個維度 品質(Quality) → 輸出內容是否正確、有用、符合顧問標準 速度(Latency) → 每個 Agent 節點的回應時間 成本(Cost) → 每次顧問對話的 Token 花費 可靠性(Reliability)→ 成功完成整個流程的比率 1.2 建立評估資料集(Golden Dataset) 這是最重要的第一步。準備 20-50 個有代表性的客戶案例: 1# evaluation/golden_dataset.py 2GOLDEN_CASES = [ 3 { 4 "id": "case-001", 5 "input": "我們是一家 50 人的電商公司,客服每天要處理 500 封郵件,想用 AI 減輕負擔。", 6 "expected_intake": { 7 "industry": "電商", 8 "size": "50人", 9 "pain_points": ["客服郵件量大"], 10 "ai_type": "自動化" 11 }, 12 "expected_strategy_keywords": ["聊天機器人", "郵件分類", "自動回覆"], 13 "quality_rubric": { 14 "relevance": "策略必須針對客服場景", 15 "feasibility": "建議的方案在 100 萬預算內可行", 16 "actionability": "至少有 3 個具體的下一步行動" 17 } 18 }, 19 # .