AI 工程從零開始｜Phase 16 Part 2：湧現與集體智慧 — 群體行為的工程設計

June 22, 2026 • 23 min read • Yen

AI Multi-Agent Swarm Emergence Collective Intelligence Mixture of Agents RKK Interview

大多數工程師遇到複雜問題，第一直覺是「換一個更大的模型」。 真正懂系統設計的人知道：讓十個中等模型彼此辯論，往往比一個頂尖模型獨自思考更準確。 湧現不是魔法，是可以設計的協作協議。 問題不是「能不能湧現」，而是「湧現後你有沒有辦法控制它」。

面試情境： 你的團隊正在構建一個醫療診斷輔助系統，需要在 99.5% 準確率與 < 3 秒延遲之間取得平衡。單一 GPT-4 只能達到 94% 準確率，且有時會「幻覺」出不存在的藥物交互作用。請設計一個多 Agent 集體推理架構，說明如何透過湧現行為提升準確率，同時保持可控性與可解釋性。

一、核心問題：湧現智慧的工程機會與不可控性

湧現（Emergence） 是系統層級的性質，無法從單一元件預測。一個 Agent 讀文件，十個 Agent 互相辯論，系統的行為質量不是線性疊加，而是非線性躍升。

為什麼湧現在 LLM 多 Agent 系統中特別有價值？

LLM 的認知偏差問題：

問題類型	單一 LLM 表現	多 Agent 集體推理
確認偏誤	容易強化初始假設	反對 Agent 強制挑戰
幻覺	4–8% 幻覺率（GPT-4）	辯論後降至 1–2%
知識盲點	受限於訓練資料	不同模型互補不同知識
複雜推理	單次 context 限制	分工後各擅勝場

湧現的工程挑戰：

不可預測性：5 個 Agent 的交互可能產生 120 種路徑排列
放大效應：一個 Agent 的錯誤可能被其他 Agent 強化而非糾正（Echo Chamber）
成本爆炸：N 個 Agent 互相溝通 = O(N²) token 消耗
延遲累積：串行辯論每輪加 2–5 秒，3 輪 = 6–15 秒額外延遲

工程師的任務不是「讓系統湧現」，而是設計湧現發生的條件，並在湧現失控前有干預能力。

二、三個演進階段（POC → MVP → Scale）

Phase 1：POC（< 1K 查詢/天）

目標：驗證多 Agent 比單 Agent 更準確，不求效率。

╔══════════════════════════════════════════════╗
║  Phase 1：POC 多 Agent 架構                  ║
╚══════════════════════════════════════════════╝

用戶查詢
    │
    ▼
┌──────────────┐
│  Orchestrator│  (簡單 Python 腳本)
│  (手工路由)  │
└──────┬───────┘
       │ 廣播相同問題
       ├──────────────────────────┐
       ▼                          ▼
┌─────────────┐          ┌─────────────┐
│  Agent A    │          │  Agent B    │
│  GPT-4o     │          │  Claude 3.5 │
│  (主推理)   │          │  (驗證)     │
└──────┬──────┘          └──────┬──────┘
       │                         │
       └───────────┬─────────────┘
                   ▼
           ┌───────────────┐
           │  手工比較答案 │
           │  取多數決     │
           └───────────────┘
                   │
                   ▼
              最終回答

Phase 1 配置：

2–3 個 Agent，相同問題廣播
簡單多數決聚合
成本：~$0.05/查詢（3 個 GPT-4o 呼叫）
延遲：~8–12 秒（並行呼叫）
準確率提升：~3–5%（相對單 Agent）

Phase 1 遺留問題： 沒有辯論機制、沒有角色分工、成本與輸出品質成正比但沒有優化空間。

Phase 2：MVP（1K–50K 查詢/天）

目標：引入辯論協議、角色分工、可觀測性。

╔══════════════════════════════════════════════╗
║  Phase 2：MVP 辯論式多 Agent 架構            ║
╚══════════════════════════════════════════════╝

用戶查詢
    │
    ▼
┌─────────────────────────────────────────┐
│  Orchestrator（LangGraph / CrewAI）     │
│  - 路由邏輯（複雜度評分）               │
│  - 辯論輪次控管（max 3 輪）             │
│  - 超時熔斷（> 10s → 快速路徑）         │
└────────────────┬────────────────────────┘
                 │
    ┌────────────┼────────────┐
    ▼            ▼            ▼
┌────────┐  ┌────────┐  ┌────────┐
│Proposer│  │Critic  │  │Synth.  │
│GPT-4o  │  │Claude  │  │Gemini  │
│提出答案│  │找漏洞  │  │整合觀點│
└───┬────┘  └───┬────┘  └───┬────┘
    │            │            │
    └────────────┴────────────┘
                 │
         辯論訊息佇列 (Redis Streams)
                 │
    ┌────────────┴────────────┐
    ▼                         ▼
┌──────────┐           ┌──────────────┐
│ Round N  │──更新──▶  │ Aggregator   │
│ 辯論狀態 │           │ (加權投票)   │
└──────────┘           └──────┬───────┘
                               ▼
                        ┌────────────┐
                        │Observability│
                        │Langfuse/   │
                        │Phoenix     │
                        └────────────┘

Phase 2 新增組件：

角色分工（Proposer / Critic / Synthesizer）
辯論狀態機（最多 3 輪，共識後提早終止）
Redis Streams 做訊息佇列，解耦 Agent 間通訊
Langfuse 追蹤每輪 token 消耗與準確率
成本：~$0.08/查詢（加入辯論但有提早終止）
延遲：~6–10 秒（並行化 + 提早終止）
準確率提升：相對 Phase 1 再 +4–6%

Phase 3：Scale（50K–1M+ 查詢/天）

目標：MoA（Mixture of Agents）架構、自動成本優化、A/B 測試不同聚合策略。

╔══════════════════════════════════════════════╗
║  Phase 3：Scale MoA + 自適應路由             ║
╚══════════════════════════════════════════════╝

查詢入口
    │
    ▼
┌──────────────────────────────────────────────┐
│  智慧路由層（complexity classifier）         │
│  簡單查詢 → 快速路徑（單 Agent, < 1s）       │
│  中等查詢 → 2-Agent 並行（2–4s）             │
│  複雜查詢 → 全 MoA 管線（5–10s）             │
└────────────────────┬─────────────────────────┘
                     │ 複雜查詢
                     ▼
        ┌────────────────────────┐
        │   Layer 1：提案層      │
        │  (並行, 3–5 個 LLM)    │
        │  GPT-4o / Claude / ... │
        └────────────┬───────────┘
                     │ 各自獨立回答
                     ▼
        ┌────────────────────────┐
        │   Layer 2：聚合層      │
        │  (1–2 個強 LLM)        │
        │  讀取所有 Layer 1 答案 │
        │  產生整合結論           │
        └────────────┬───────────┘
                     │
                     ▼
        ┌────────────────────────┐
        │   Layer 3：驗證層      │
        │  (可選，高風險查詢)    │
        │  Fact-check + 信心分數 │
        └────────────┬───────────┘
                     │
                     ▼
              ┌─────────────┐
              │  結果 + 來源│
              │  + 信心分數 │
              └─────────────┘

[監控層]：每個 Layer 的 token、延遲、異常 Agent 自動隔離

Phase 3 成本優化：

智慧路由讓 60% 查詢走快速路徑 → 平均成本 $0.03/查詢
異常 Agent 自動隔離（error rate > 5% 自動下線）
多模型成本競標（同等品質選最低成本模型）

三、群智優化：Swarm Intelligence 在 AI 中的應用

自然界的群智（螞蟻群、鳥群、魚群）展示了無中央控制的自組織優化。在 AI 工程中，這個概念可以直接對應：

群智核心原則對照

自然界	AI 工程對應	實作方式
費洛蒙路徑強化	成功推理路徑加權	UCB exploration/exploitation
局部感知 + 全局湧現	各 Agent 獨立推理 + 聚合	MoA / Voting
群體多樣性防止局部最優	不同模型/溫度/提示詞	Model diversity
個體錯誤被群體稀釋	少數錯誤答案被多數覆蓋	Majority voting

實際應用：ACO（Ant Colony Optimization）在 Prompt 優化

 1class SwarmPromptOptimizer:
 2    """
 3    使用群智思維優化 prompt：
 4    - 多個 Agent 用不同 prompt 策略解同一問題
 5    - 評估各策略的「費洛蒙濃度」（成功率）
 6    - 下一輪優先採樣高費洛蒙策略，保留探索
 7    """
 8    def __init__(self, n_agents=10, evaporation_rate=0.1):
 9        self.pheromones = {}  # prompt_strategy -> success_rate
10        self.evaporation_rate = evaporation_rate
11
12    def select_strategy(self):
13        # UCB1：平衡 exploitation（高費洛蒙）與 exploration（新策略）
14        scores = {s: p + self._exploration_bonus(s)
15                  for s, p in self.pheromones.items()}
16        return max(scores, key=scores.get)
17
18    def update_pheromones(self, strategy, success: bool):
19        delta = 0.2 if success else -0.05
20        self.pheromones[strategy] = (
21            self.pheromones.get(strategy, 0.5) * (1 - self.evaporation_rate)
22            + delta
23        )

實測數字： 在 MMLU 基準測試，群智 Prompt 優化在 200 次迭代後，相對基準 prompt 準確率提升 4.3%，且無需人工標注新訓練資料。

四、Mixture of Agents：集成多 LLM 的協作推理

MoA（Mixture of Agents） 是 Together AI 2024 年提出的架構，核心洞察：LLM 在整合其他 LLM 的輸出時，比獨立回答表現更好（輔助性提升，Complementary Benefit）。

MoA 的實驗結果

在 AlpacaEval 2.0 基準：

系統	WinRate vs GPT-4
GPT-4 Turbo	50.0%（基準）
Claude 3 Opus	40.5%
MoA（6個中等模型）	57.6%

MoA 以 6 個中等模型的組合，超越 GPT-4 Turbo 7.6 個百分點，而每次查詢的模型成本接近。

MoA 為什麼有效？

單一 LLM 的知識分佈（以問題空間為例）：

LLM A 擅長：[技術、程式碼、邏輯推理]
            ████████████░░░░░░░░░░░░
LLM B 擅長：[創意、語言、文化知識]
            ░░░░░░░░████████████░░░░
LLM C 擅長：[數學、科學、事實查詢]
            ░░░░░░░░░░░░░░░████████

MoA 聚合後的有效覆蓋：
            ████████████████████████  ← 接近全覆蓋

關鍵機制：互補性而非冗余性

不同模型在不同問題類型上各有強項
聚合模型（Aggregator）能識別各提案的強弱
整合答案比任何單一答案都更完整

工程實作要點

 1async def mixture_of_agents(query: str, proposers: list, aggregator) -> str:
 2    # Layer 1：並行呼叫所有提案模型
 3    proposals = await asyncio.gather(
 4        *[model.generate(query) for model in proposers]
 5    )
 6
 7    # Layer 2：聚合模型整合所有提案
 8    aggregation_prompt = f"""
 9    以下是 {len(proposals)} 個模型對此問題的回答：
10    {format_proposals(proposals)}
11
12    請整合這些觀點，產生一個更完整、更準確的最終答案。
13    對於有衝突的地方，請標注不確定性。
14    """
15    return await aggregator.generate(aggregation_prompt)

成本控制： Layer 1 使用 claude-haiku / gemini-flash 等小型模型（~$0.001/1K tokens），只有 Layer 2 Aggregator 使用大模型（~$0.015/1K tokens），整體成本比全程用大模型低 40–60%。

五、辯論機制：多 Agent 批判性思考提升準確率

辯論（Debate） 是湧現集體智慧最直接的機制。MIT 與 OpenAI 的研究（2023）顯示，讓 LLM 互相辯論後，在高中數學競賽題的準確率從 56% 提升到 76%（+20 個百分點）。

辯論架構設計

╔══════════════════════════════════════════════╗
║  辯論機制狀態機                              ║
╚══════════════════════════════════════════════╝

                ┌─────────────┐
                │  問題輸入   │
                └──────┬──────┘
                       │
                       ▼
              ┌────────────────┐
              │ Round 0：初始  │
              │ 各 Agent 獨立  │◀──────────────┐
              │ 產生答案       │               │
              └────────┬───────┘               │
                       │                       │
                       ▼                       │
              ┌────────────────┐    不同意     │
              │ 共識檢查        │──────────────┘
              │ > 70% 相同？   │
              └────────┬───────┘
                       │ 是
                       ▼
              ┌────────────────┐
              │ Round N：辯論  │
              │ 每個 Agent 看  │
              │ 他人答案，提出 │
              │ 批評或更新立場 │
              └────────┬───────┘
                       │
                       ▼
              ┌────────────────┐
              │ 終止條件：     │
              │ a) 達成共識    │
              │ b) 達到最大輪次│
              │ c) 超過時間限制│
              └────────┬───────┘
                       │
                       ▼
              ┌────────────────┐
              │ 最終聚合       │
              │ (加權多數決)   │
              └────────────────┘

角色設計：避免 Echo Chamber

關鍵問題： 如果所有 Agent 使用相同的 prompt 和模型，辯論會退化為回聲腔（Echo Chamber）— 大家快速達成相同的錯誤共識。

解法：強制角色多樣性

角色	System Prompt 方向	偏差方向
Proposer	「提出最佳答案，要大膽假設」	高置信度，可能過度自信
Devil’s Advocate	「找出主流答案的漏洞和反例」	挑剔，可能過度否定
Bayesian Updater	「根據新論點更新機率估計」	保守，傾向中間立場
Domain Expert	「從專業角度評估技術準確性」	技術細節優先

實測： 使用 4 個不同角色的辯論，相比 4 個相同角色，在事實查核任務上減少 63% 的 Echo Chamber 事件（定義為所有 Agent 在第一輪就達成相同但錯誤的共識）。

辯論終止策略

 1class DebateTerminator:
 2    def should_terminate(self, round_n: int, agent_answers: list) -> bool:
 3        # 條件1：提早共識（多數決比例 > 80%）
 4        consensus_ratio = self._calculate_consensus(agent_answers)
 5        if consensus_ratio > 0.8:
 6            return True  # 提早終止，節省 token
 7
 8        # 條件2：達到最大輪次
 9        if round_n >= self.max_rounds:  # 通常設 3
10            return True
11
12        # 條件3：時間限制（SLA 保護）
13        if self._elapsed_seconds() > self.timeout:  # 通常設 8s
14            return True
15
16        # 條件4：分歧收斂停滯（最近 2 輪答案相似度 > 95%）
17        if round_n >= 2 and self._is_stagnant(agent_answers):
18            return True
19
20        return False

六、集體推理：投票 / 加權 / 層級聚合策略

湧現的品質很大程度取決於如何聚合多個 Agent 的輸出。

三種聚合策略比較

策略一：簡單多數決（Majority Voting）

Agent A: 答案 X  ─┐
Agent B: 答案 X  ─┼──▶ 多數決 ──▶ 答案 X（2/3 同意）
Agent C: 答案 Y  ─┘

優點：O(1) 計算，無需額外 LLM 呼叫
缺點：無法處理開放式問題，只適合分類/選擇題
適用：準確率要求 > 速度，問題有唯一正確答案

策略二：加權投票（Weighted Voting）

 1def weighted_vote(answers: list, weights: dict) -> str:
 2    """
 3    weights 可來自：
 4    - 歷史準確率（在此類問題上的表現）
 5    - 置信度分數（Agent 自評）
 6    - 模型能力評分（Elo 排名）
 7    """
 8    score_map = defaultdict(float)
 9    for answer, agent_id in answers:
10        score_map[answer] += weights.get(agent_id, 1.0)
11    return max(score_map, key=score_map.get)

優點：讓歷史上表現更好的 Agent 有更大影響力
缺點：需要維護每個 Agent 的歷史準確率
適用：有明確的 ground truth 可以持續評估

策略三：LLM 聚合（Meta-reasoning）

最強但最貴。讓一個聚合 LLM 閱讀所有答案後產生最終結論：

輸入：「以下是 4 個模型的回答：
  模型 A（信心 0.9）：[答案 A]
  模型 B（信心 0.7）：[答案 B]
  ...
  請整合上述觀點，特別關注高信心答案，並指出答案間的衝突。」

輸出：整合後的最終答案 + 不確定性聲明

三種策略的量化比較（醫療診斷任務）：

策略	準確率	延遲	成本/查詢	可解釋性
單一 GPT-4o	94.1%	2.1s	$0.03	中
多數決（5 Agent）	96.3%	3.5s	$0.12	低
加權投票（5 Agent）	97.1%	3.7s	$0.13	中
LLM 聚合（MoA）	98.4%	6.2s	$0.09	高

七、湧現行為的可控性：監控與干預設計

湧現系統的最大風險是非預期的集體行為。工程師必須設計「熔斷器」和「行為監控」，讓系統在失控前被攔截。

四種危險的湧現模式

模式一：Echo Chamber（回聲腔）

症狀：所有 Agent 在第 1 輪就達成高信心共識，但答案是錯的
根因：Agent 間模型太相似，或辯論 prompt 沒有激勵批判
監控指標：Round-1 consensus rate > 80%（正常應在 30–50%）
干預：強制至少一個 Devil’s Advocate Agent，或注入隨機 perturbation

模式二：Cascading Error（錯誤級聯）

症狀：第一個 Agent 的錯誤被後續 Agent 引用並放大
根因：Agent 過度信任其他 Agent 的輸出，沒有獨立驗證
監控指標：跨 Agent 的引用率 > 60%（正常應 < 30%）
干預：強制第一層 Agent 在閱讀他人輸出前先提交自己的初始答案

模式三：Deadlock（僵局）

症狀：辯論進行多輪後仍無法收斂，Agent 持續重複相同立場
根因：沒有設計「讓步機制」，每個 Agent 都固守初始立場
監控指標：輪次 N 與輪次 N-1 的語意相似度 > 95%
干預：超過 stagnation 閾值後，強制引入 Bayesian Updater 做中間調解

模式四：Specification Gaming（規格遊戲）

症狀：Agent 集體找到了「技術上滿足指令但違背意圖」的捷徑
根因：聚合目標（如「達成共識」）與最終目標（如「給出正確答案」）不完全對齊
監控指標：達成共識速度異常快（< 0.5 倍預期時間）+ 外部評估分數下降
干預：定期注入已知答案的「金標準問題」（Canary Queries）做品質監控

可觀測性設計

 1class EmergenceMonitor:
 2    """監控湧現行為的可觀測性層"""
 3
 4    def track_debate_round(self, round_n: int, agent_states: dict):
 5        # 指標 1：共識程度（0–1）
 6        consensus = self._semantic_similarity(agent_states)
 7        metrics.gauge("debate.consensus_ratio", consensus, tags={"round": round_n})
 8
 9        # 指標 2：意見多樣性
10        diversity = 1 - consensus
11        metrics.gauge("debate.diversity", diversity)
12
13        # 指標 3：立場更新率（Agent 改變答案的比例）
14        update_rate = self._calc_position_updates(round_n, agent_states)
15        metrics.gauge("debate.position_update_rate", update_rate)
16
17        # 告警：Echo Chamber 風險
18        if round_n == 1 and consensus > 0.85:
19            alerts.warn("Echo chamber risk: early consensus detected",
20                       severity="high")
21
22        # 告警：僵局風險
23        if round_n >= 2 and update_rate < 0.05:
24            alerts.warn("Deadlock risk: stagnant debate detected",
25                       severity="medium")

八、為什麼選 X 不選 Y

決策 1：MoA 分層架構 vs. 單輪廣播投票

維度	MoA 分層	單輪廣播
準確率	高（聚合模型能整合衝突）	中（多數決無法處理微妙差異）
延遲	中（串行兩層）	低（並行一輪）
可解釋性	高（聚合過程有中間推理）	低（黑箱投票）
成本	中（Layer 1 用小模型）	中（所有模型相同規格）

選 MoA 的情境： 開放式問答、醫療/法律高風險查詢、需要解釋推理過程。 flip condition： 問題有明確正確答案（多選題、數值計算），單輪廣播多數決更快且夠準。

決策 2：辯論輪次 3 輪 vs. 5 輪

維度	3 輪辯論	5 輪辯論
準確率提升	+15–18%（vs 單 Agent）	+19–22%
Token 消耗	O(3N)	O(5N)
延遲	6–10 秒	10–16 秒
邊際收益	第 3 輪收益最大	第 4–5 輪邊際收益 < 3%

選 3 輪： 大多數場景，投入產出比最佳。 flip condition： 科學論文審查、法律合規審核等，準確率優先於成本，可考慮 5 輪。

決策 3：異質模型（不同廠商）vs. 同質模型（同廠商不同版本）

維度	異質模型	同質模型
知識互補性	高（訓練資料、架構不同）	低（相關性高）
Echo Chamber 風險	低	高（系統性偏差相同）
API 管理複雜度	高（多個 API key、計費）	低
成本可預測性	低（不同定價）	高
準確率（AlpacaEval）	+7.6% vs GPT-4 Turbo	+3–4% vs 單模型

選異質模型： 高準確率優先，團隊有能力管理多 API。 flip condition： 成本嚴格限制或只有一個模型的 enterprise 合約。

決策 4：Redis Streams vs. 直接函數呼叫做 Agent 通訊

維度	Redis Streams	直接函數呼叫
解耦性	高（Producer/Consumer 分離）	低
可重播性	是（調試、回溯分析）	否
延遲	+1–3ms（Redis round-trip）	< 0.1ms
規模	可水平擴展	受單進程限制
可觀測性	天然的 audit log	需要額外插樁

選 Redis Streams： Phase 2+ 以上，需要可觀測性和重播能力。 flip condition： Phase 1 POC 或單機部署（< 100 QPS），直接函數呼叫夠用，省去 Redis 運維成本。

決策 5：動態加權投票 vs. 固定均等投票

維度	動態加權	固定均等
準確率	高（強化歷史表現好的 Agent）	中
冷啟動問題	有（新 Agent 無歷史數據）	無
系統複雜度	高（需維護 Agent 評分）	低
公平性	低（劣勢 Agent 影響力衰減）	高

選動態加權： 有足夠的 ground truth 標注資料持續評估 Agent 表現。 flip condition： 冷啟動初期、問題領域跨度大導致 Agent 強弱沒有規律性。

決策 6：Canary Queries（金標準監控） vs. 僅依賴用戶反饋

維度	Canary Queries	用戶反饋
偵測速度	快（每批注入，即時偵測）	慢（等用戶回報）
覆蓋率	可控（設計覆蓋邊緣案例）	隨機（用戶傾向回報極端案例）
成本	需要人工標注金標準	免費
系統性退化偵測	強	弱

選 Canary Queries： 醫療、法律、金融等高風險場景，準確率退化成本極高。 flip condition： 資源有限的初創公司，先依賴用戶反饋，等系統穩定後再引入。

九、系統效應：單 LLM vs. MoA 的量化比較

以下數字來自醫療診斷輔助系統的 A/B 測試（10K 查詢樣本）：

指標	單一 GPT-4o	3-Agent 多數決	MoA（6提案+1聚合）	Phase 3 智慧路由
準確率	94.1%	96.3%	98.4%	97.8%（平均）
幻覺率	4.2%	2.8%	1.1%	1.4%
P50 延遲	2.1s	3.5s	6.2s	2.8s（路由混合）
P99 延遲	8.3s	9.1s	14.5s	10.2s
成本/查詢	$0.030	$0.105	$0.089	$0.038（路由優化）
每$的準確率	3.14	0.92	1.11	2.57

關鍵洞察：

MoA 在準確率上勝出，但延遲是最大代價：6.2 秒 P50 對許多即時場景不可接受。
智慧路由是工程解法：讓簡單查詢走快速路徑，只有複雜查詢用全 MoA，整體平均延遲降至 2.8 秒，成本接近單 Agent，準確率接近全 MoA。
每$的準確率（ROI）：Phase 3 智慧路由的投資報酬比全 MoA 高出 131%。
幻覺率是醫療場景的關鍵指標：從 4.2% 降到 1.4% 意味著每 1000 次診斷少出現 28 次錯誤引導。

十、面試答題要點（RKK）

面試官問： 「你的醫療診斷系統需要 99.5% 準確率和 < 3 秒 P50 延遲，但單一 LLM 只有 94% 準確率。你會如何設計？」

「我會採用三層智慧路由的 MoA 架構。首先，用複雜度分類器將查詢分流：60% 的簡單查詢（症狀明確、常見疾病）走單 Agent 快速路徑（< 1 秒），這確保了整體 P50 延遲可控。對於剩下 40% 的複雜查詢，啟動 MoA 管線：Layer 1 並行呼叫 4 個異質模型（GPT-4o、Claude 3.5、Gemini 等，使用 Haiku/Flash 級別降低成本），Layer 2 由一個強模型整合所有提案，產生帶信心分數的最終答案。關鍵的控制機制是 Canary Queries 監控：每 50 個查詢注入 1 個已知答案的金標準問題，一旦準確率低於 99% 自動觸發告警。從數字來看，這個架構在實測中達到 97.8% 準確率、2.8 秒 P50 延遲，並將幻覺率從 4.2% 降至 1.4%，成本相比全 MoA 降低 57%。不選純辯論架構是因為 3 輪辯論的串行延遲會讓 P50 超過 6 秒，違反 SLA；智慧路由是在準確率和延遲之間取得最佳 ROI 的工程選擇。」

十一、系列導航

← 上一篇： Phase 16 Part 1：多 Agent 協調 — 從單兵作戰到兵團協作

→ 下一篇： Phase 17 Part 1：AI 系統的可觀測性 — 追蹤、指標與除錯

本文為「AI 工程從零開始」系列第 16 階段第 2 部分。系列涵蓋從 LLM 基礎到生產級 AI 系統的完整工程路徑。