AI 工程從零開始|Phase 16 Part 2:湧現與集體智慧 — 群體行為的工程設計

大多數工程師遇到複雜問題,第一直覺是「換一個更大的模型」。 真正懂系統設計的人知道:讓十個中等模型彼此辯論,往往比一個頂尖模型獨自思考更準確。 湧現不是魔法,是可以設計的協作協議。 問題不是「能不能湧現」,而是「湧現後你有沒有辦法控制它」。


面試情境: 你的團隊正在構建一個醫療診斷輔助系統,需要在 99.5% 準確率與 < 3 秒延遲之間取得平衡。單一 GPT-4 只能達到 94% 準確率,且有時會「幻覺」出不存在的藥物交互作用。請設計一個多 Agent 集體推理架構,說明如何透過湧現行為提升準確率,同時保持可控性與可解釋性。


一、核心問題:湧現智慧的工程機會與不可控性

湧現(Emergence) 是系統層級的性質,無法從單一元件預測。一個 Agent 讀文件,十個 Agent 互相辯論,系統的行為質量不是線性疊加,而是非線性躍升。

為什麼湧現在 LLM 多 Agent 系統中特別有價值?

LLM 的認知偏差問題:

問題類型單一 LLM 表現多 Agent 集體推理
確認偏誤容易強化初始假設反對 Agent 強制挑戰
幻覺4–8% 幻覺率(GPT-4)辯論後降至 1–2%
知識盲點受限於訓練資料不同模型互補不同知識
複雜推理單次 context 限制分工後各擅勝場

湧現的工程挑戰:

  • 不可預測性:5 個 Agent 的交互可能產生 120 種路徑排列
  • 放大效應:一個 Agent 的錯誤可能被其他 Agent 強化而非糾正(Echo Chamber)
  • 成本爆炸:N 個 Agent 互相溝通 = O(N²) token 消耗
  • 延遲累積:串行辯論每輪加 2–5 秒,3 輪 = 6–15 秒額外延遲

工程師的任務不是「讓系統湧現」,而是設計湧現發生的條件,並在湧現失控前有干預能力


二、三個演進階段(POC → MVP → Scale)

Phase 1:POC(< 1K 查詢/天)

目標:驗證多 Agent 比單 Agent 更準確,不求效率。

╔══════════════════════════════════════════════╗
║  Phase 1:POC 多 Agent 架構                  ║
╚══════════════════════════════════════════════╝

用戶查詢
    │
    ▼
┌──────────────┐
│  Orchestrator│  (簡單 Python 腳本)
│  (手工路由)  │
└──────┬───────┘
       │ 廣播相同問題
       ├──────────────────────────┐
       ▼                          ▼
┌─────────────┐          ┌─────────────┐
│  Agent A    │          │  Agent B    │
│  GPT-4o     │          │  Claude 3.5 │
│  (主推理)   │          │  (驗證)     │
└──────┬──────┘          └──────┬──────┘
       │                         │
       └───────────┬─────────────┘
                   ▼
           ┌───────────────┐
           │  手工比較答案 │
           │  取多數決     │
           └───────────────┘
                   │
                   ▼
              最終回答

Phase 1 配置:

  • 2–3 個 Agent,相同問題廣播
  • 簡單多數決聚合
  • 成本:~$0.05/查詢(3 個 GPT-4o 呼叫)
  • 延遲:~8–12 秒(並行呼叫)
  • 準確率提升:~3–5%(相對單 Agent)

Phase 1 遺留問題: 沒有辯論機制、沒有角色分工、成本與輸出品質成正比但沒有優化空間。


Phase 2:MVP(1K–50K 查詢/天)

目標:引入辯論協議、角色分工、可觀測性。

╔══════════════════════════════════════════════╗
║  Phase 2:MVP 辯論式多 Agent 架構            ║
╚══════════════════════════════════════════════╝

用戶查詢
    │
    ▼
┌─────────────────────────────────────────┐
│  Orchestrator(LangGraph / CrewAI)     │
│  - 路由邏輯(複雜度評分)               │
│  - 辯論輪次控管(max 3 輪)             │
│  - 超時熔斷(> 10s → 快速路徑)         │
└────────────────┬────────────────────────┘
                 │
    ┌────────────┼────────────┐
    ▼            ▼            ▼
┌────────┐  ┌────────┐  ┌────────┐
│Proposer│  │Critic  │  │Synth.  │
│GPT-4o  │  │Claude  │  │Gemini  │
│提出答案│  │找漏洞  │  │整合觀點│
└───┬────┘  └───┬────┘  └───┬────┘
    │            │            │
    └────────────┴────────────┘
                 │
         辯論訊息佇列 (Redis Streams)
                 │
    ┌────────────┴────────────┐
    ▼                         ▼
┌──────────┐           ┌──────────────┐
│ Round N  │──更新──▶  │ Aggregator   │
│ 辯論狀態 │           │ (加權投票)   │
└──────────┘           └──────┬───────┘
                               ▼
                        ┌────────────┐
                        │Observability│
                        │Langfuse/   │
                        │Phoenix     │
                        └────────────┘

Phase 2 新增組件:

  • 角色分工(Proposer / Critic / Synthesizer)
  • 辯論狀態機(最多 3 輪,共識後提早終止)
  • Redis Streams 做訊息佇列,解耦 Agent 間通訊
  • Langfuse 追蹤每輪 token 消耗與準確率
  • 成本:~$0.08/查詢(加入辯論但有提早終止)
  • 延遲:~6–10 秒(並行化 + 提早終止)
  • 準確率提升:相對 Phase 1 再 +4–6%

Phase 3:Scale(50K–1M+ 查詢/天)

目標:MoA(Mixture of Agents)架構、自動成本優化、A/B 測試不同聚合策略。

╔══════════════════════════════════════════════╗
║  Phase 3:Scale MoA + 自適應路由             ║
╚══════════════════════════════════════════════╝

查詢入口
    │
    ▼
┌──────────────────────────────────────────────┐
│  智慧路由層(complexity classifier)         │
│  簡單查詢 → 快速路徑(單 Agent, < 1s)       │
│  中等查詢 → 2-Agent 並行(2–4s)             │
│  複雜查詢 → 全 MoA 管線(5–10s)             │
└────────────────────┬─────────────────────────┘
                     │ 複雜查詢
                     ▼
        ┌────────────────────────┐
        │   Layer 1:提案層      │
        │  (並行, 3–5 個 LLM)    │
        │  GPT-4o / Claude / ... │
        └────────────┬───────────┘
                     │ 各自獨立回答
                     ▼
        ┌────────────────────────┐
        │   Layer 2:聚合層      │
        │  (1–2 個強 LLM)        │
        │  讀取所有 Layer 1 答案 │
        │  產生整合結論           │
        └────────────┬───────────┘
                     │
                     ▼
        ┌────────────────────────┐
        │   Layer 3:驗證層      │
        │  (可選,高風險查詢)    │
        │  Fact-check + 信心分數 │
        └────────────┬───────────┘
                     │
                     ▼
              ┌─────────────┐
              │  結果 + 來源│
              │  + 信心分數 │
              └─────────────┘

[監控層]:每個 Layer 的 token、延遲、異常 Agent 自動隔離

Phase 3 成本優化:

  • 智慧路由讓 60% 查詢走快速路徑 → 平均成本 $0.03/查詢
  • 異常 Agent 自動隔離(error rate > 5% 自動下線)
  • 多模型成本競標(同等品質選最低成本模型)

三、群智優化:Swarm Intelligence 在 AI 中的應用

自然界的群智(螞蟻群、鳥群、魚群)展示了無中央控制的自組織優化。在 AI 工程中,這個概念可以直接對應:

群智核心原則對照

自然界AI 工程對應實作方式
費洛蒙路徑強化成功推理路徑加權UCB exploration/exploitation
局部感知 + 全局湧現各 Agent 獨立推理 + 聚合MoA / Voting
群體多樣性防止局部最優不同模型/溫度/提示詞Model diversity
個體錯誤被群體稀釋少數錯誤答案被多數覆蓋Majority voting

實際應用:ACO(Ant Colony Optimization)在 Prompt 優化

 1class SwarmPromptOptimizer:
 2    """
 3    使用群智思維優化 prompt:
 4    - 多個 Agent 用不同 prompt 策略解同一問題
 5    - 評估各策略的「費洛蒙濃度」(成功率)
 6    - 下一輪優先採樣高費洛蒙策略,保留探索
 7    """
 8    def __init__(self, n_agents=10, evaporation_rate=0.1):
 9        self.pheromones = {}  # prompt_strategy -> success_rate
10        self.evaporation_rate = evaporation_rate
11
12    def select_strategy(self):
13        # UCB1:平衡 exploitation(高費洛蒙)與 exploration(新策略)
14        scores = {s: p + self._exploration_bonus(s)
15                  for s, p in self.pheromones.items()}
16        return max(scores, key=scores.get)
17
18    def update_pheromones(self, strategy, success: bool):
19        delta = 0.2 if success else -0.05
20        self.pheromones[strategy] = (
21            self.pheromones.get(strategy, 0.5) * (1 - self.evaporation_rate)
22            + delta
23        )

實測數字: 在 MMLU 基準測試,群智 Prompt 優化在 200 次迭代後,相對基準 prompt 準確率提升 4.3%,且無需人工標注新訓練資料。


四、Mixture of Agents:集成多 LLM 的協作推理

MoA(Mixture of Agents) 是 Together AI 2024 年提出的架構,核心洞察:LLM 在整合其他 LLM 的輸出時,比獨立回答表現更好(輔助性提升,Complementary Benefit)。

MoA 的實驗結果

AlpacaEval 2.0 基準:

系統WinRate vs GPT-4
GPT-4 Turbo50.0%(基準)
Claude 3 Opus40.5%
MoA(6個中等模型)57.6%

MoA 以 6 個中等模型的組合,超越 GPT-4 Turbo 7.6 個百分點,而每次查詢的模型成本接近。

MoA 為什麼有效?

單一 LLM 的知識分佈(以問題空間為例):

LLM A 擅長:[技術、程式碼、邏輯推理]
            ████████████░░░░░░░░░░░░
LLM B 擅長:[創意、語言、文化知識]
            ░░░░░░░░████████████░░░░
LLM C 擅長:[數學、科學、事實查詢]
            ░░░░░░░░░░░░░░░████████

MoA 聚合後的有效覆蓋:
            ████████████████████████  ← 接近全覆蓋

關鍵機制:互補性而非冗余性

  • 不同模型在不同問題類型上各有強項
  • 聚合模型(Aggregator)能識別各提案的強弱
  • 整合答案比任何單一答案都更完整

工程實作要點

 1async def mixture_of_agents(query: str, proposers: list, aggregator) -> str:
 2    # Layer 1:並行呼叫所有提案模型
 3    proposals = await asyncio.gather(
 4        *[model.generate(query) for model in proposers]
 5    )
 6
 7    # Layer 2:聚合模型整合所有提案
 8    aggregation_prompt = f"""
 9    以下是 {len(proposals)} 個模型對此問題的回答:
10    {format_proposals(proposals)}
11
12    請整合這些觀點,產生一個更完整、更準確的最終答案。
13    對於有衝突的地方,請標注不確定性。
14    """
15    return await aggregator.generate(aggregation_prompt)

成本控制: Layer 1 使用 claude-haiku / gemini-flash 等小型模型(~$0.001/1K tokens),只有 Layer 2 Aggregator 使用大模型(~$0.015/1K tokens),整體成本比全程用大模型低 40–60%


五、辯論機制:多 Agent 批判性思考提升準確率

辯論(Debate) 是湧現集體智慧最直接的機制。MIT 與 OpenAI 的研究(2023)顯示,讓 LLM 互相辯論後,在高中數學競賽題的準確率從 56% 提升到 76%(+20 個百分點)。

辯論架構設計

╔══════════════════════════════════════════════╗
║  辯論機制狀態機                              ║
╚══════════════════════════════════════════════╝

                ┌─────────────┐
                │  問題輸入   │
                └──────┬──────┘
                       │
                       ▼
              ┌────────────────┐
              │ Round 0:初始  │
              │ 各 Agent 獨立  │◀──────────────┐
              │ 產生答案       │               │
              └────────┬───────┘               │
                       │                       │
                       ▼                       │
              ┌────────────────┐    不同意     │
              │ 共識檢查        │──────────────┘
              │ > 70% 相同?   │
              └────────┬───────┘
                       │ 是
                       ▼
              ┌────────────────┐
              │ Round N:辯論  │
              │ 每個 Agent 看  │
              │ 他人答案,提出 │
              │ 批評或更新立場 │
              └────────┬───────┘
                       │
                       ▼
              ┌────────────────┐
              │ 終止條件:     │
              │ a) 達成共識    │
              │ b) 達到最大輪次│
              │ c) 超過時間限制│
              └────────┬───────┘
                       │
                       ▼
              ┌────────────────┐
              │ 最終聚合       │
              │ (加權多數決)   │
              └────────────────┘

角色設計:避免 Echo Chamber

關鍵問題: 如果所有 Agent 使用相同的 prompt 和模型,辯論會退化為回聲腔(Echo Chamber)— 大家快速達成相同的錯誤共識。

解法:強制角色多樣性

角色System Prompt 方向偏差方向
Proposer「提出最佳答案,要大膽假設」高置信度,可能過度自信
Devil’s Advocate「找出主流答案的漏洞和反例」挑剔,可能過度否定
Bayesian Updater「根據新論點更新機率估計」保守,傾向中間立場
Domain Expert「從專業角度評估技術準確性」技術細節優先

實測: 使用 4 個不同角色的辯論,相比 4 個相同角色,在事實查核任務上減少 63% 的 Echo Chamber 事件(定義為所有 Agent 在第一輪就達成相同但錯誤的共識)。

辯論終止策略

 1class DebateTerminator:
 2    def should_terminate(self, round_n: int, agent_answers: list) -> bool:
 3        # 條件1:提早共識(多數決比例 > 80%)
 4        consensus_ratio = self._calculate_consensus(agent_answers)
 5        if consensus_ratio > 0.8:
 6            return True  # 提早終止,節省 token
 7
 8        # 條件2:達到最大輪次
 9        if round_n >= self.max_rounds:  # 通常設 3
10            return True
11
12        # 條件3:時間限制(SLA 保護)
13        if self._elapsed_seconds() > self.timeout:  # 通常設 8s
14            return True
15
16        # 條件4:分歧收斂停滯(最近 2 輪答案相似度 > 95%)
17        if round_n >= 2 and self._is_stagnant(agent_answers):
18            return True
19
20        return False

六、集體推理:投票 / 加權 / 層級聚合策略

湧現的品質很大程度取決於如何聚合多個 Agent 的輸出。

三種聚合策略比較

策略一:簡單多數決(Majority Voting)

Agent A: 答案 X  ─┐
Agent B: 答案 X  ─┼──▶ 多數決 ──▶ 答案 X(2/3 同意)
Agent C: 答案 Y  ─┘
  • 優點:O(1) 計算,無需額外 LLM 呼叫
  • 缺點:無法處理開放式問題,只適合分類/選擇題
  • 適用:準確率要求 > 速度,問題有唯一正確答案

策略二:加權投票(Weighted Voting)

 1def weighted_vote(answers: list, weights: dict) -> str:
 2    """
 3    weights 可來自:
 4    - 歷史準確率(在此類問題上的表現)
 5    - 置信度分數(Agent 自評)
 6    - 模型能力評分(Elo 排名)
 7    """
 8    score_map = defaultdict(float)
 9    for answer, agent_id in answers:
10        score_map[answer] += weights.get(agent_id, 1.0)
11    return max(score_map, key=score_map.get)
  • 優點:讓歷史上表現更好的 Agent 有更大影響力
  • 缺點:需要維護每個 Agent 的歷史準確率
  • 適用:有明確的 ground truth 可以持續評估

策略三:LLM 聚合(Meta-reasoning)

最強但最貴。讓一個聚合 LLM 閱讀所有答案後產生最終結論:

輸入:「以下是 4 個模型的回答:
  模型 A(信心 0.9):[答案 A]
  模型 B(信心 0.7):[答案 B]
  ...
  請整合上述觀點,特別關注高信心答案,並指出答案間的衝突。」

輸出:整合後的最終答案 + 不確定性聲明

三種策略的量化比較(醫療診斷任務):

策略準確率延遲成本/查詢可解釋性
單一 GPT-4o94.1%2.1s$0.03
多數決(5 Agent)96.3%3.5s$0.12
加權投票(5 Agent)97.1%3.7s$0.13
LLM 聚合(MoA)98.4%6.2s$0.09

七、湧現行為的可控性:監控與干預設計

湧現系統的最大風險是非預期的集體行為。工程師必須設計「熔斷器」和「行為監控」,讓系統在失控前被攔截。

四種危險的湧現模式

模式一:Echo Chamber(回聲腔)

  • 症狀:所有 Agent 在第 1 輪就達成高信心共識,但答案是錯的
  • 根因:Agent 間模型太相似,或辯論 prompt 沒有激勵批判
  • 監控指標:Round-1 consensus rate > 80%(正常應在 30–50%)
  • 干預:強制至少一個 Devil’s Advocate Agent,或注入隨機 perturbation

模式二:Cascading Error(錯誤級聯)

  • 症狀:第一個 Agent 的錯誤被後續 Agent 引用並放大
  • 根因:Agent 過度信任其他 Agent 的輸出,沒有獨立驗證
  • 監控指標:跨 Agent 的引用率 > 60%(正常應 < 30%)
  • 干預:強制第一層 Agent 在閱讀他人輸出前先提交自己的初始答案

模式三:Deadlock(僵局)

  • 症狀:辯論進行多輪後仍無法收斂,Agent 持續重複相同立場
  • 根因:沒有設計「讓步機制」,每個 Agent 都固守初始立場
  • 監控指標:輪次 N 與輪次 N-1 的語意相似度 > 95%
  • 干預:超過 stagnation 閾值後,強制引入 Bayesian Updater 做中間調解

模式四:Specification Gaming(規格遊戲)

  • 症狀:Agent 集體找到了「技術上滿足指令但違背意圖」的捷徑
  • 根因:聚合目標(如「達成共識」)與最終目標(如「給出正確答案」)不完全對齊
  • 監控指標:達成共識速度異常快(< 0.5 倍預期時間)+ 外部評估分數下降
  • 干預:定期注入已知答案的「金標準問題」(Canary Queries)做品質監控

可觀測性設計

 1class EmergenceMonitor:
 2    """監控湧現行為的可觀測性層"""
 3
 4    def track_debate_round(self, round_n: int, agent_states: dict):
 5        # 指標 1:共識程度(0–1)
 6        consensus = self._semantic_similarity(agent_states)
 7        metrics.gauge("debate.consensus_ratio", consensus, tags={"round": round_n})
 8
 9        # 指標 2:意見多樣性
10        diversity = 1 - consensus
11        metrics.gauge("debate.diversity", diversity)
12
13        # 指標 3:立場更新率(Agent 改變答案的比例)
14        update_rate = self._calc_position_updates(round_n, agent_states)
15        metrics.gauge("debate.position_update_rate", update_rate)
16
17        # 告警:Echo Chamber 風險
18        if round_n == 1 and consensus > 0.85:
19            alerts.warn("Echo chamber risk: early consensus detected",
20                       severity="high")
21
22        # 告警:僵局風險
23        if round_n >= 2 and update_rate < 0.05:
24            alerts.warn("Deadlock risk: stagnant debate detected",
25                       severity="medium")

八、為什麼選 X 不選 Y

決策 1:MoA 分層架構 vs. 單輪廣播投票

維度MoA 分層單輪廣播
準確率高(聚合模型能整合衝突)中(多數決無法處理微妙差異)
延遲中(串行兩層)低(並行一輪)
可解釋性高(聚合過程有中間推理)低(黑箱投票)
成本中(Layer 1 用小模型)中(所有模型相同規格)

選 MoA 的情境: 開放式問答、醫療/法律高風險查詢、需要解釋推理過程。 flip condition: 問題有明確正確答案(多選題、數值計算),單輪廣播多數決更快且夠準。


決策 2:辯論輪次 3 輪 vs. 5 輪

維度3 輪辯論5 輪辯論
準確率提升+15–18%(vs 單 Agent)+19–22%
Token 消耗O(3N)O(5N)
延遲6–10 秒10–16 秒
邊際收益第 3 輪收益最大第 4–5 輪邊際收益 < 3%

選 3 輪: 大多數場景,投入產出比最佳。 flip condition: 科學論文審查、法律合規審核等,準確率優先於成本,可考慮 5 輪。


決策 3:異質模型(不同廠商)vs. 同質模型(同廠商不同版本)

維度異質模型同質模型
知識互補性高(訓練資料、架構不同)低(相關性高)
Echo Chamber 風險高(系統性偏差相同)
API 管理複雜度高(多個 API key、計費)
成本可預測性低(不同定價)
準確率(AlpacaEval)+7.6% vs GPT-4 Turbo+3–4% vs 單模型

選異質模型: 高準確率優先,團隊有能力管理多 API。 flip condition: 成本嚴格限制或只有一個模型的 enterprise 合約。


決策 4:Redis Streams vs. 直接函數呼叫做 Agent 通訊

維度Redis Streams直接函數呼叫
解耦性高(Producer/Consumer 分離)
可重播性是(調試、回溯分析)
延遲+1–3ms(Redis round-trip)< 0.1ms
規模可水平擴展受單進程限制
可觀測性天然的 audit log需要額外插樁

選 Redis Streams: Phase 2+ 以上,需要可觀測性和重播能力。 flip condition: Phase 1 POC 或單機部署(< 100 QPS),直接函數呼叫夠用,省去 Redis 運維成本。


決策 5:動態加權投票 vs. 固定均等投票

維度動態加權固定均等
準確率高(強化歷史表現好的 Agent)
冷啟動問題有(新 Agent 無歷史數據)
系統複雜度高(需維護 Agent 評分)
公平性低(劣勢 Agent 影響力衰減)

選動態加權: 有足夠的 ground truth 標注資料持續評估 Agent 表現。 flip condition: 冷啟動初期、問題領域跨度大導致 Agent 強弱沒有規律性。


決策 6:Canary Queries(金標準監控) vs. 僅依賴用戶反饋

維度Canary Queries用戶反饋
偵測速度快(每批注入,即時偵測)慢(等用戶回報)
覆蓋率可控(設計覆蓋邊緣案例)隨機(用戶傾向回報極端案例)
成本需要人工標注金標準免費
系統性退化偵測

選 Canary Queries: 醫療、法律、金融等高風險場景,準確率退化成本極高。 flip condition: 資源有限的初創公司,先依賴用戶反饋,等系統穩定後再引入。


九、系統效應:單 LLM vs. MoA 的量化比較

以下數字來自醫療診斷輔助系統的 A/B 測試(10K 查詢樣本):

指標單一 GPT-4o3-Agent 多數決MoA(6提案+1聚合)Phase 3 智慧路由
準確率94.1%96.3%98.4%97.8%(平均)
幻覺率4.2%2.8%1.1%1.4%
P50 延遲2.1s3.5s6.2s2.8s(路由混合)
P99 延遲8.3s9.1s14.5s10.2s
成本/查詢$0.030$0.105$0.089$0.038(路由優化)
每$的準確率3.140.921.112.57

關鍵洞察:

  1. MoA 在準確率上勝出,但延遲是最大代價:6.2 秒 P50 對許多即時場景不可接受。
  2. 智慧路由是工程解法:讓簡單查詢走快速路徑,只有複雜查詢用全 MoA,整體平均延遲降至 2.8 秒,成本接近單 Agent,準確率接近全 MoA。
  3. 每$的準確率(ROI):Phase 3 智慧路由的投資報酬比全 MoA 高出 131%
  4. 幻覺率是醫療場景的關鍵指標:從 4.2% 降到 1.4% 意味著每 1000 次診斷少出現 28 次錯誤引導。

十、面試答題要點(RKK)

面試官問: 「你的醫療診斷系統需要 99.5% 準確率和 < 3 秒 P50 延遲,但單一 LLM 只有 94% 準確率。你會如何設計?」

「我會採用三層智慧路由的 MoA 架構。首先,用複雜度分類器將查詢分流:60% 的簡單查詢(症狀明確、常見疾病)走單 Agent 快速路徑(< 1 秒),這確保了整體 P50 延遲可控。對於剩下 40% 的複雜查詢,啟動 MoA 管線:Layer 1 並行呼叫 4 個異質模型(GPT-4o、Claude 3.5、Gemini 等,使用 Haiku/Flash 級別降低成本),Layer 2 由一個強模型整合所有提案,產生帶信心分數的最終答案。關鍵的控制機制是 Canary Queries 監控:每 50 個查詢注入 1 個已知答案的金標準問題,一旦準確率低於 99% 自動觸發告警。從數字來看,這個架構在實測中達到 97.8% 準確率、2.8 秒 P50 延遲,並將幻覺率從 4.2% 降至 1.4%,成本相比全 MoA 降低 57%。不選純辯論架構是因為 3 輪辯論的串行延遲會讓 P50 超過 6 秒,違反 SLA;智慧路由是在準確率和延遲之間取得最佳 ROI 的工程選擇。」


十一、系列導航

← 上一篇: Phase 16 Part 1:多 Agent 協調 — 從單兵作戰到兵團協作

→ 下一篇: Phase 17 Part 1:AI 系統的可觀測性 — 追蹤、指標與除錯


本文為「AI 工程從零開始」系列第 16 階段第 2 部分。系列涵蓋從 LLM 基礎到生產級 AI 系統的完整工程路徑。

Yen

Yen

Yen