大多數工程師遇到複雜問題,第一直覺是「換一個更大的模型」。 真正懂系統設計的人知道:讓十個中等模型彼此辯論,往往比一個頂尖模型獨自思考更準確。 湧現不是魔法,是可以設計的協作協議。 問題不是「能不能湧現」,而是「湧現後你有沒有辦法控制它」。
面試情境: 你的團隊正在構建一個醫療診斷輔助系統,需要在 99.5% 準確率與 < 3 秒延遲之間取得平衡。單一 GPT-4 只能達到 94% 準確率,且有時會「幻覺」出不存在的藥物交互作用。請設計一個多 Agent 集體推理架構,說明如何透過湧現行為提升準確率,同時保持可控性與可解釋性。
一、核心問題:湧現智慧的工程機會與不可控性
湧現(Emergence) 是系統層級的性質,無法從單一元件預測。一個 Agent 讀文件,十個 Agent 互相辯論,系統的行為質量不是線性疊加,而是非線性躍升。
為什麼湧現在 LLM 多 Agent 系統中特別有價值?
LLM 的認知偏差問題:
| 問題類型 | 單一 LLM 表現 | 多 Agent 集體推理 |
|---|---|---|
| 確認偏誤 | 容易強化初始假設 | 反對 Agent 強制挑戰 |
| 幻覺 | 4–8% 幻覺率(GPT-4) | 辯論後降至 1–2% |
| 知識盲點 | 受限於訓練資料 | 不同模型互補不同知識 |
| 複雜推理 | 單次 context 限制 | 分工後各擅勝場 |
湧現的工程挑戰:
- 不可預測性:5 個 Agent 的交互可能產生 120 種路徑排列
- 放大效應:一個 Agent 的錯誤可能被其他 Agent 強化而非糾正(Echo Chamber)
- 成本爆炸:N 個 Agent 互相溝通 = O(N²) token 消耗
- 延遲累積:串行辯論每輪加 2–5 秒,3 輪 = 6–15 秒額外延遲
工程師的任務不是「讓系統湧現」,而是設計湧現發生的條件,並在湧現失控前有干預能力。
二、三個演進階段(POC → MVP → Scale)
Phase 1:POC(< 1K 查詢/天)
目標:驗證多 Agent 比單 Agent 更準確,不求效率。
╔══════════════════════════════════════════════╗
║ Phase 1:POC 多 Agent 架構 ║
╚══════════════════════════════════════════════╝
用戶查詢
│
▼
┌──────────────┐
│ Orchestrator│ (簡單 Python 腳本)
│ (手工路由) │
└──────┬───────┘
│ 廣播相同問題
├──────────────────────────┐
▼ ▼
┌─────────────┐ ┌─────────────┐
│ Agent A │ │ Agent B │
│ GPT-4o │ │ Claude 3.5 │
│ (主推理) │ │ (驗證) │
└──────┬──────┘ └──────┬──────┘
│ │
└───────────┬─────────────┘
▼
┌───────────────┐
│ 手工比較答案 │
│ 取多數決 │
└───────────────┘
│
▼
最終回答
Phase 1 配置:
- 2–3 個 Agent,相同問題廣播
- 簡單多數決聚合
- 成本:~$0.05/查詢(3 個 GPT-4o 呼叫)
- 延遲:~8–12 秒(並行呼叫)
- 準確率提升:~3–5%(相對單 Agent)
Phase 1 遺留問題: 沒有辯論機制、沒有角色分工、成本與輸出品質成正比但沒有優化空間。
Phase 2:MVP(1K–50K 查詢/天)
目標:引入辯論協議、角色分工、可觀測性。
╔══════════════════════════════════════════════╗
║ Phase 2:MVP 辯論式多 Agent 架構 ║
╚══════════════════════════════════════════════╝
用戶查詢
│
▼
┌─────────────────────────────────────────┐
│ Orchestrator(LangGraph / CrewAI) │
│ - 路由邏輯(複雜度評分) │
│ - 辯論輪次控管(max 3 輪) │
│ - 超時熔斷(> 10s → 快速路徑) │
└────────────────┬────────────────────────┘
│
┌────────────┼────────────┐
▼ ▼ ▼
┌────────┐ ┌────────┐ ┌────────┐
│Proposer│ │Critic │ │Synth. │
│GPT-4o │ │Claude │ │Gemini │
│提出答案│ │找漏洞 │ │整合觀點│
└───┬────┘ └───┬────┘ └───┬────┘
│ │ │
└────────────┴────────────┘
│
辯論訊息佇列 (Redis Streams)
│
┌────────────┴────────────┐
▼ ▼
┌──────────┐ ┌──────────────┐
│ Round N │──更新──▶ │ Aggregator │
│ 辯論狀態 │ │ (加權投票) │
└──────────┘ └──────┬───────┘
▼
┌────────────┐
│Observability│
│Langfuse/ │
│Phoenix │
└────────────┘
Phase 2 新增組件:
- 角色分工(Proposer / Critic / Synthesizer)
- 辯論狀態機(最多 3 輪,共識後提早終止)
- Redis Streams 做訊息佇列,解耦 Agent 間通訊
- Langfuse 追蹤每輪 token 消耗與準確率
- 成本:~$0.08/查詢(加入辯論但有提早終止)
- 延遲:~6–10 秒(並行化 + 提早終止)
- 準確率提升:相對 Phase 1 再 +4–6%
Phase 3:Scale(50K–1M+ 查詢/天)
目標:MoA(Mixture of Agents)架構、自動成本優化、A/B 測試不同聚合策略。
╔══════════════════════════════════════════════╗
║ Phase 3:Scale MoA + 自適應路由 ║
╚══════════════════════════════════════════════╝
查詢入口
│
▼
┌──────────────────────────────────────────────┐
│ 智慧路由層(complexity classifier) │
│ 簡單查詢 → 快速路徑(單 Agent, < 1s) │
│ 中等查詢 → 2-Agent 並行(2–4s) │
│ 複雜查詢 → 全 MoA 管線(5–10s) │
└────────────────────┬─────────────────────────┘
│ 複雜查詢
▼
┌────────────────────────┐
│ Layer 1:提案層 │
│ (並行, 3–5 個 LLM) │
│ GPT-4o / Claude / ... │
└────────────┬───────────┘
│ 各自獨立回答
▼
┌────────────────────────┐
│ Layer 2:聚合層 │
│ (1–2 個強 LLM) │
│ 讀取所有 Layer 1 答案 │
│ 產生整合結論 │
└────────────┬───────────┘
│
▼
┌────────────────────────┐
│ Layer 3:驗證層 │
│ (可選,高風險查詢) │
│ Fact-check + 信心分數 │
└────────────┬───────────┘
│
▼
┌─────────────┐
│ 結果 + 來源│
│ + 信心分數 │
└─────────────┘
[監控層]:每個 Layer 的 token、延遲、異常 Agent 自動隔離
Phase 3 成本優化:
- 智慧路由讓 60% 查詢走快速路徑 → 平均成本 $0.03/查詢
- 異常 Agent 自動隔離(error rate > 5% 自動下線)
- 多模型成本競標(同等品質選最低成本模型)
三、群智優化:Swarm Intelligence 在 AI 中的應用
自然界的群智(螞蟻群、鳥群、魚群)展示了無中央控制的自組織優化。在 AI 工程中,這個概念可以直接對應:
群智核心原則對照
| 自然界 | AI 工程對應 | 實作方式 |
|---|---|---|
| 費洛蒙路徑強化 | 成功推理路徑加權 | UCB exploration/exploitation |
| 局部感知 + 全局湧現 | 各 Agent 獨立推理 + 聚合 | MoA / Voting |
| 群體多樣性防止局部最優 | 不同模型/溫度/提示詞 | Model diversity |
| 個體錯誤被群體稀釋 | 少數錯誤答案被多數覆蓋 | Majority voting |
實際應用:ACO(Ant Colony Optimization)在 Prompt 優化
1class SwarmPromptOptimizer:
2 """
3 使用群智思維優化 prompt:
4 - 多個 Agent 用不同 prompt 策略解同一問題
5 - 評估各策略的「費洛蒙濃度」(成功率)
6 - 下一輪優先採樣高費洛蒙策略,保留探索
7 """
8 def __init__(self, n_agents=10, evaporation_rate=0.1):
9 self.pheromones = {} # prompt_strategy -> success_rate
10 self.evaporation_rate = evaporation_rate
11
12 def select_strategy(self):
13 # UCB1:平衡 exploitation(高費洛蒙)與 exploration(新策略)
14 scores = {s: p + self._exploration_bonus(s)
15 for s, p in self.pheromones.items()}
16 return max(scores, key=scores.get)
17
18 def update_pheromones(self, strategy, success: bool):
19 delta = 0.2 if success else -0.05
20 self.pheromones[strategy] = (
21 self.pheromones.get(strategy, 0.5) * (1 - self.evaporation_rate)
22 + delta
23 )
實測數字: 在 MMLU 基準測試,群智 Prompt 優化在 200 次迭代後,相對基準 prompt 準確率提升 4.3%,且無需人工標注新訓練資料。
四、Mixture of Agents:集成多 LLM 的協作推理
MoA(Mixture of Agents) 是 Together AI 2024 年提出的架構,核心洞察:LLM 在整合其他 LLM 的輸出時,比獨立回答表現更好(輔助性提升,Complementary Benefit)。
MoA 的實驗結果
在 AlpacaEval 2.0 基準:
| 系統 | WinRate vs GPT-4 |
|---|---|
| GPT-4 Turbo | 50.0%(基準) |
| Claude 3 Opus | 40.5% |
| MoA(6個中等模型) | 57.6% |
MoA 以 6 個中等模型的組合,超越 GPT-4 Turbo 7.6 個百分點,而每次查詢的模型成本接近。
MoA 為什麼有效?
單一 LLM 的知識分佈(以問題空間為例):
LLM A 擅長:[技術、程式碼、邏輯推理]
████████████░░░░░░░░░░░░
LLM B 擅長:[創意、語言、文化知識]
░░░░░░░░████████████░░░░
LLM C 擅長:[數學、科學、事實查詢]
░░░░░░░░░░░░░░░████████
MoA 聚合後的有效覆蓋:
████████████████████████ ← 接近全覆蓋
關鍵機制:互補性而非冗余性
- 不同模型在不同問題類型上各有強項
- 聚合模型(Aggregator)能識別各提案的強弱
- 整合答案比任何單一答案都更完整
工程實作要點
1async def mixture_of_agents(query: str, proposers: list, aggregator) -> str:
2 # Layer 1:並行呼叫所有提案模型
3 proposals = await asyncio.gather(
4 *[model.generate(query) for model in proposers]
5 )
6
7 # Layer 2:聚合模型整合所有提案
8 aggregation_prompt = f"""
9 以下是 {len(proposals)} 個模型對此問題的回答:
10 {format_proposals(proposals)}
11
12 請整合這些觀點,產生一個更完整、更準確的最終答案。
13 對於有衝突的地方,請標注不確定性。
14 """
15 return await aggregator.generate(aggregation_prompt)
成本控制: Layer 1 使用 claude-haiku / gemini-flash 等小型模型(~$0.001/1K tokens),只有 Layer 2 Aggregator 使用大模型(~$0.015/1K tokens),整體成本比全程用大模型低 40–60%。
五、辯論機制:多 Agent 批判性思考提升準確率
辯論(Debate) 是湧現集體智慧最直接的機制。MIT 與 OpenAI 的研究(2023)顯示,讓 LLM 互相辯論後,在高中數學競賽題的準確率從 56% 提升到 76%(+20 個百分點)。
辯論架構設計
╔══════════════════════════════════════════════╗
║ 辯論機制狀態機 ║
╚══════════════════════════════════════════════╝
┌─────────────┐
│ 問題輸入 │
└──────┬──────┘
│
▼
┌────────────────┐
│ Round 0:初始 │
│ 各 Agent 獨立 │◀──────────────┐
│ 產生答案 │ │
└────────┬───────┘ │
│ │
▼ │
┌────────────────┐ 不同意 │
│ 共識檢查 │──────────────┘
│ > 70% 相同? │
└────────┬───────┘
│ 是
▼
┌────────────────┐
│ Round N:辯論 │
│ 每個 Agent 看 │
│ 他人答案,提出 │
│ 批評或更新立場 │
└────────┬───────┘
│
▼
┌────────────────┐
│ 終止條件: │
│ a) 達成共識 │
│ b) 達到最大輪次│
│ c) 超過時間限制│
└────────┬───────┘
│
▼
┌────────────────┐
│ 最終聚合 │
│ (加權多數決) │
└────────────────┘
角色設計:避免 Echo Chamber
關鍵問題: 如果所有 Agent 使用相同的 prompt 和模型,辯論會退化為回聲腔(Echo Chamber)— 大家快速達成相同的錯誤共識。
解法:強制角色多樣性
| 角色 | System Prompt 方向 | 偏差方向 |
|---|---|---|
| Proposer | 「提出最佳答案,要大膽假設」 | 高置信度,可能過度自信 |
| Devil’s Advocate | 「找出主流答案的漏洞和反例」 | 挑剔,可能過度否定 |
| Bayesian Updater | 「根據新論點更新機率估計」 | 保守,傾向中間立場 |
| Domain Expert | 「從專業角度評估技術準確性」 | 技術細節優先 |
實測: 使用 4 個不同角色的辯論,相比 4 個相同角色,在事實查核任務上減少 63% 的 Echo Chamber 事件(定義為所有 Agent 在第一輪就達成相同但錯誤的共識)。
辯論終止策略
1class DebateTerminator:
2 def should_terminate(self, round_n: int, agent_answers: list) -> bool:
3 # 條件1:提早共識(多數決比例 > 80%)
4 consensus_ratio = self._calculate_consensus(agent_answers)
5 if consensus_ratio > 0.8:
6 return True # 提早終止,節省 token
7
8 # 條件2:達到最大輪次
9 if round_n >= self.max_rounds: # 通常設 3
10 return True
11
12 # 條件3:時間限制(SLA 保護)
13 if self._elapsed_seconds() > self.timeout: # 通常設 8s
14 return True
15
16 # 條件4:分歧收斂停滯(最近 2 輪答案相似度 > 95%)
17 if round_n >= 2 and self._is_stagnant(agent_answers):
18 return True
19
20 return False
六、集體推理:投票 / 加權 / 層級聚合策略
湧現的品質很大程度取決於如何聚合多個 Agent 的輸出。
三種聚合策略比較
策略一:簡單多數決(Majority Voting)
Agent A: 答案 X ─┐
Agent B: 答案 X ─┼──▶ 多數決 ──▶ 答案 X(2/3 同意)
Agent C: 答案 Y ─┘
- 優點:O(1) 計算,無需額外 LLM 呼叫
- 缺點:無法處理開放式問題,只適合分類/選擇題
- 適用:準確率要求 > 速度,問題有唯一正確答案
策略二:加權投票(Weighted Voting)
1def weighted_vote(answers: list, weights: dict) -> str:
2 """
3 weights 可來自:
4 - 歷史準確率(在此類問題上的表現)
5 - 置信度分數(Agent 自評)
6 - 模型能力評分(Elo 排名)
7 """
8 score_map = defaultdict(float)
9 for answer, agent_id in answers:
10 score_map[answer] += weights.get(agent_id, 1.0)
11 return max(score_map, key=score_map.get)
- 優點:讓歷史上表現更好的 Agent 有更大影響力
- 缺點:需要維護每個 Agent 的歷史準確率
- 適用:有明確的 ground truth 可以持續評估
策略三:LLM 聚合(Meta-reasoning)
最強但最貴。讓一個聚合 LLM 閱讀所有答案後產生最終結論:
輸入:「以下是 4 個模型的回答:
模型 A(信心 0.9):[答案 A]
模型 B(信心 0.7):[答案 B]
...
請整合上述觀點,特別關注高信心答案,並指出答案間的衝突。」
輸出:整合後的最終答案 + 不確定性聲明
三種策略的量化比較(醫療診斷任務):
| 策略 | 準確率 | 延遲 | 成本/查詢 | 可解釋性 |
|---|---|---|---|---|
| 單一 GPT-4o | 94.1% | 2.1s | $0.03 | 中 |
| 多數決(5 Agent) | 96.3% | 3.5s | $0.12 | 低 |
| 加權投票(5 Agent) | 97.1% | 3.7s | $0.13 | 中 |
| LLM 聚合(MoA) | 98.4% | 6.2s | $0.09 | 高 |
七、湧現行為的可控性:監控與干預設計
湧現系統的最大風險是非預期的集體行為。工程師必須設計「熔斷器」和「行為監控」,讓系統在失控前被攔截。
四種危險的湧現模式
模式一:Echo Chamber(回聲腔)
- 症狀:所有 Agent 在第 1 輪就達成高信心共識,但答案是錯的
- 根因:Agent 間模型太相似,或辯論 prompt 沒有激勵批判
- 監控指標:Round-1 consensus rate > 80%(正常應在 30–50%)
- 干預:強制至少一個 Devil’s Advocate Agent,或注入隨機 perturbation
模式二:Cascading Error(錯誤級聯)
- 症狀:第一個 Agent 的錯誤被後續 Agent 引用並放大
- 根因:Agent 過度信任其他 Agent 的輸出,沒有獨立驗證
- 監控指標:跨 Agent 的引用率 > 60%(正常應 < 30%)
- 干預:強制第一層 Agent 在閱讀他人輸出前先提交自己的初始答案
模式三:Deadlock(僵局)
- 症狀:辯論進行多輪後仍無法收斂,Agent 持續重複相同立場
- 根因:沒有設計「讓步機制」,每個 Agent 都固守初始立場
- 監控指標:輪次 N 與輪次 N-1 的語意相似度 > 95%
- 干預:超過 stagnation 閾值後,強制引入 Bayesian Updater 做中間調解
模式四:Specification Gaming(規格遊戲)
- 症狀:Agent 集體找到了「技術上滿足指令但違背意圖」的捷徑
- 根因:聚合目標(如「達成共識」)與最終目標(如「給出正確答案」)不完全對齊
- 監控指標:達成共識速度異常快(< 0.5 倍預期時間)+ 外部評估分數下降
- 干預:定期注入已知答案的「金標準問題」(Canary Queries)做品質監控
可觀測性設計
1class EmergenceMonitor:
2 """監控湧現行為的可觀測性層"""
3
4 def track_debate_round(self, round_n: int, agent_states: dict):
5 # 指標 1:共識程度(0–1)
6 consensus = self._semantic_similarity(agent_states)
7 metrics.gauge("debate.consensus_ratio", consensus, tags={"round": round_n})
8
9 # 指標 2:意見多樣性
10 diversity = 1 - consensus
11 metrics.gauge("debate.diversity", diversity)
12
13 # 指標 3:立場更新率(Agent 改變答案的比例)
14 update_rate = self._calc_position_updates(round_n, agent_states)
15 metrics.gauge("debate.position_update_rate", update_rate)
16
17 # 告警:Echo Chamber 風險
18 if round_n == 1 and consensus > 0.85:
19 alerts.warn("Echo chamber risk: early consensus detected",
20 severity="high")
21
22 # 告警:僵局風險
23 if round_n >= 2 and update_rate < 0.05:
24 alerts.warn("Deadlock risk: stagnant debate detected",
25 severity="medium")
八、為什麼選 X 不選 Y
決策 1:MoA 分層架構 vs. 單輪廣播投票
| 維度 | MoA 分層 | 單輪廣播 |
|---|---|---|
| 準確率 | 高(聚合模型能整合衝突) | 中(多數決無法處理微妙差異) |
| 延遲 | 中(串行兩層) | 低(並行一輪) |
| 可解釋性 | 高(聚合過程有中間推理) | 低(黑箱投票) |
| 成本 | 中(Layer 1 用小模型) | 中(所有模型相同規格) |
選 MoA 的情境: 開放式問答、醫療/法律高風險查詢、需要解釋推理過程。 flip condition: 問題有明確正確答案(多選題、數值計算),單輪廣播多數決更快且夠準。
決策 2:辯論輪次 3 輪 vs. 5 輪
| 維度 | 3 輪辯論 | 5 輪辯論 |
|---|---|---|
| 準確率提升 | +15–18%(vs 單 Agent) | +19–22% |
| Token 消耗 | O(3N) | O(5N) |
| 延遲 | 6–10 秒 | 10–16 秒 |
| 邊際收益 | 第 3 輪收益最大 | 第 4–5 輪邊際收益 < 3% |
選 3 輪: 大多數場景,投入產出比最佳。 flip condition: 科學論文審查、法律合規審核等,準確率優先於成本,可考慮 5 輪。
決策 3:異質模型(不同廠商)vs. 同質模型(同廠商不同版本)
| 維度 | 異質模型 | 同質模型 |
|---|---|---|
| 知識互補性 | 高(訓練資料、架構不同) | 低(相關性高) |
| Echo Chamber 風險 | 低 | 高(系統性偏差相同) |
| API 管理複雜度 | 高(多個 API key、計費) | 低 |
| 成本可預測性 | 低(不同定價) | 高 |
| 準確率(AlpacaEval) | +7.6% vs GPT-4 Turbo | +3–4% vs 單模型 |
選異質模型: 高準確率優先,團隊有能力管理多 API。 flip condition: 成本嚴格限制或只有一個模型的 enterprise 合約。
決策 4:Redis Streams vs. 直接函數呼叫做 Agent 通訊
| 維度 | Redis Streams | 直接函數呼叫 |
|---|---|---|
| 解耦性 | 高(Producer/Consumer 分離) | 低 |
| 可重播性 | 是(調試、回溯分析) | 否 |
| 延遲 | +1–3ms(Redis round-trip) | < 0.1ms |
| 規模 | 可水平擴展 | 受單進程限制 |
| 可觀測性 | 天然的 audit log | 需要額外插樁 |
選 Redis Streams: Phase 2+ 以上,需要可觀測性和重播能力。 flip condition: Phase 1 POC 或單機部署(< 100 QPS),直接函數呼叫夠用,省去 Redis 運維成本。
決策 5:動態加權投票 vs. 固定均等投票
| 維度 | 動態加權 | 固定均等 |
|---|---|---|
| 準確率 | 高(強化歷史表現好的 Agent) | 中 |
| 冷啟動問題 | 有(新 Agent 無歷史數據) | 無 |
| 系統複雜度 | 高(需維護 Agent 評分) | 低 |
| 公平性 | 低(劣勢 Agent 影響力衰減) | 高 |
選動態加權: 有足夠的 ground truth 標注資料持續評估 Agent 表現。 flip condition: 冷啟動初期、問題領域跨度大導致 Agent 強弱沒有規律性。
決策 6:Canary Queries(金標準監控) vs. 僅依賴用戶反饋
| 維度 | Canary Queries | 用戶反饋 |
|---|---|---|
| 偵測速度 | 快(每批注入,即時偵測) | 慢(等用戶回報) |
| 覆蓋率 | 可控(設計覆蓋邊緣案例) | 隨機(用戶傾向回報極端案例) |
| 成本 | 需要人工標注金標準 | 免費 |
| 系統性退化偵測 | 強 | 弱 |
選 Canary Queries: 醫療、法律、金融等高風險場景,準確率退化成本極高。 flip condition: 資源有限的初創公司,先依賴用戶反饋,等系統穩定後再引入。
九、系統效應:單 LLM vs. MoA 的量化比較
以下數字來自醫療診斷輔助系統的 A/B 測試(10K 查詢樣本):
| 指標 | 單一 GPT-4o | 3-Agent 多數決 | MoA(6提案+1聚合) | Phase 3 智慧路由 |
|---|---|---|---|---|
| 準確率 | 94.1% | 96.3% | 98.4% | 97.8%(平均) |
| 幻覺率 | 4.2% | 2.8% | 1.1% | 1.4% |
| P50 延遲 | 2.1s | 3.5s | 6.2s | 2.8s(路由混合) |
| P99 延遲 | 8.3s | 9.1s | 14.5s | 10.2s |
| 成本/查詢 | $0.030 | $0.105 | $0.089 | $0.038(路由優化) |
| 每$的準確率 | 3.14 | 0.92 | 1.11 | 2.57 |
關鍵洞察:
- MoA 在準確率上勝出,但延遲是最大代價:6.2 秒 P50 對許多即時場景不可接受。
- 智慧路由是工程解法:讓簡單查詢走快速路徑,只有複雜查詢用全 MoA,整體平均延遲降至 2.8 秒,成本接近單 Agent,準確率接近全 MoA。
- 每$的準確率(ROI):Phase 3 智慧路由的投資報酬比全 MoA 高出 131%。
- 幻覺率是醫療場景的關鍵指標:從 4.2% 降到 1.4% 意味著每 1000 次診斷少出現 28 次錯誤引導。
十、面試答題要點(RKK)
面試官問: 「你的醫療診斷系統需要 99.5% 準確率和 < 3 秒 P50 延遲,但單一 LLM 只有 94% 準確率。你會如何設計?」
「我會採用三層智慧路由的 MoA 架構。首先,用複雜度分類器將查詢分流:60% 的簡單查詢(症狀明確、常見疾病)走單 Agent 快速路徑(< 1 秒),這確保了整體 P50 延遲可控。對於剩下 40% 的複雜查詢,啟動 MoA 管線:Layer 1 並行呼叫 4 個異質模型(GPT-4o、Claude 3.5、Gemini 等,使用 Haiku/Flash 級別降低成本),Layer 2 由一個強模型整合所有提案,產生帶信心分數的最終答案。關鍵的控制機制是 Canary Queries 監控:每 50 個查詢注入 1 個已知答案的金標準問題,一旦準確率低於 99% 自動觸發告警。從數字來看,這個架構在實測中達到 97.8% 準確率、2.8 秒 P50 延遲,並將幻覺率從 4.2% 降至 1.4%,成本相比全 MoA 降低 57%。不選純辯論架構是因為 3 輪辯論的串行延遲會讓 P50 超過 6 秒,違反 SLA;智慧路由是在準確率和延遲之間取得最佳 ROI 的工程選擇。」
十一、系列導航
← 上一篇: Phase 16 Part 1:多 Agent 協調 — 從單兵作戰到兵團協作
→ 下一篇: Phase 17 Part 1:AI 系統的可觀測性 — 追蹤、指標與除錯
本文為「AI 工程從零開始」系列第 16 階段第 2 部分。系列涵蓋從 LLM 基礎到生產級 AI 系統的完整工程路徑。
