AI 工程從零開始｜Phase 9：強化學習基礎 — RLHF 與遊戲 AI 的根基

June 21, 2026 • 23 min read • Yen

AI Reinforcement Learning RLHF PPO Q-Learning Policy Gradient RKK Interview

大多數人以為強化學習只是遊戲 AI 的黑魔法； 實際上，RLHF 是讓 LLM 從「會說話」進化到「說對話」的核心技術。 大多數人以為 PPO 太複雜所以跳過； 實際上，理解 clip ratio ε=0.2 背後的直覺，才能真正設計對齊系統。

面試情境： 你是某家 AI 新創的首席工程師。產品已用 SFT 微調出一個能回答問題的 LLM，但用戶反映模型有時給出危險建議、有時過度冗長、有時迴避有用資訊。CTO 要求你在六週內讓模型「更符合人類期望」。你會設計怎樣的對齊訓練流程？請從框架選擇、資料收集、訓練穩定性、評估指標四個維度說明。

一、核心問題：為什麼 LLM 需要強化學習

1.1 Supervised Fine-Tuning 的天花板

SFT（Supervised Fine-Tuning）本質是「模仿學習」——模型學習複製人類示範的文字。這個方法有三個根本限制：

限制一：示範資料的稀缺性

高品質的完整對話示範成本極高（每條 $5–50 美元標注成本）
1M 條示範資料 ≈ $5M–50M，難以覆蓋所有場景

限制二：偏好無法直接最大化

人類知道「哪個回答更好」，但無法輕易寫出「最好的回答」
SFT 學的是「做什麼」，而非「為什麼這樣做最好」

限制三：分佈外泛化失敗

SFT 模型在訓練分佈外的 prompt 上容易退化
模型無法自主探索比示範更優的解答

強化學習解決的核心問題是：讓模型在與環境（或人類偏好模型）互動的過程中，學習最大化長期獎勵。

1.2 RL 在 AI 對齊中的角色

傳統訓練流程（純 SFT）：
  人類寫示範 ──▶ MLE 損失 ──▶ 模型複製行為
  問題：模型學的是「平均人類行為」，非「最優人類行為」

RLHF 訓練流程：
  人類比較偏好 ──▶ 獎勵模型 ──▶ PPO 最大化獎勵
  優勢：模型學的是「人類偏好的方向」，能超越示範品質

InstructGPT（ChatGPT 前身）論文的核心數字：

1.3B RLHF 模型 vs 175B SFT 模型：人類偏好 RLHF 模型勝出 ~85% 的時間
代表強化學習讓 100 倍小的模型贏過純監督訓練的大模型

二、三個演進階段（POC/MVP/Scale）

╔══ Phase 1：POC / < 1K 對話樣本 ══╗

目標： 驗證 RL 對齊信號是否有效

┌─────────────────────────────────────────────────────┐
│  Phase 1 架構：最小 RLHF                             │
│                                                     │
│  ┌──────────┐    SFT     ┌──────────────┐           │
│  │  Base LM  │──────────▶│  SFT Model   │           │
│  │ (7B Llama)│           │  (凍結參考)   │           │
│  └──────────┘           └──────┬───────┘           │
│                                │                   │
│  人工標注 500 對       ┌────────▼────────┐           │
│  偏好比較對            │  Reward Model  │           │
│  ──────────────────▶  │  (Bradley-Terry│           │
│                        │   1B params)  │           │
│                        └────────┬──────┘           │
│                                 │ 獎勵訊號           │
│                        ┌────────▼──────┐            │
│                        │  PPO 訓練     │            │
│                        │  (KL 約束)    │            │
│                        └───────────────┘            │
└─────────────────────────────────────────────────────┘

新增元件： 500–1K 偏好對、Bradley-Terry RM、基礎 PPO 迴圈
成本： 標注 ~$2,500–5,000；GPU 訓練 ~$500/run
能解決： 驗證 RM 相關性（Spearman ρ > 0.6 即合格）
未解決： RM 過擬合、PPO 不穩定、評估指標不清晰

╔══ Phase 2：MVP / 1K–50K 對話樣本 ══╗

目標： 建立可重複、可評估的對齊訓練流水線

┌──────────────────────────────────────────────────────────┐
│  Phase 2 架構：生產就緒 RLHF                              │
│                                                          │
│  ┌──────────┐   SFT微調   ┌────────────────┐             │
│  │ Base LM  │────────────▶│ SFT Policy π₀  │◀──┐        │
│  │ (13B)    │             │ (作為 ref 凍結) │   │KL 懲罰  │
│  └──────────┘             └────────────────┘   │        │
│                                                │        │
│  ┌──────────────────────┐  ┌──────────────────┐│        │
│  │  Preference Dataset  │  │  Reward Model    ││        │
│  │  (10K 人工 + 40K 合成)│─▶│  (6B DeBERTa)   ││        │
│  └──────────────────────┘  └────────┬─────────┘│        │
│                                     │ r(s,a)   │        │
│  ┌──────────────────────────────────▼──────────┐│        │
│  │  PPO Trainer                                ││        │
│  │  - clip ε = 0.2                             ││        │
│  │  - KL coeff β = 0.05                        ││        │
│  │  - value loss coeff = 0.1                   ││        │
│  └─────────────────────────────────────────────┘│        │
│                                                 └────────┘
│  評估：WinRate vs SFT baseline（目標 > 60%）              │
└──────────────────────────────────────────────────────────┘

新增元件： 合成偏好資料生成、多維 RM（helpfulness/harmless/honest）、自動評估流水線
成本： 標注 ~$50K；GPU 訓練 ~$5K/run；每週跑 2–3 次迭代
能解決： 基礎對齊、有害輸出減少 ~70%
未解決： RM 獎勵黑客攻擊、大規模分散式訓練

╔══ Phase 3：Scale / 50K+ 樣本，企業級 ══╗

目標： 持續對齊、多語言、抗獎勵黑客

┌──────────────────────────────────────────────────────────────┐
│  Phase 3 架構：企業級對齊系統                                  │
│                                                              │
│  資料飛輪                      訓練叢集                        │
│  ┌────────────────┐           ┌───────────────────────┐      │
│  │ 線上用戶反饋    │           │  分散式 PPO             │      │
│  │ (隱式信號)      │──────────▶│  - 4×8 A100 nodes     │      │
│  │ 點讚/重新生成   │           │  - Megatron 張量並行   │      │
│  └────────────────┘           │  - Gradient checkpoint│      │
│                               └──────────┬────────────┘      │
│  ┌────────────────┐                      │                   │
│  │ Constitutional │           ┌──────────▼────────────┐      │
│  │ AI 過濾         │──────────▶│  多頭 Reward Model    │      │
│  │ (自動有害檢測)  │           │  - Helpfulness head   │      │
│  └────────────────┘           │  - Harmless head      │      │
│                               │  - Honesty head       │      │
│  ┌────────────────┐           └──────────┬────────────┘      │
│  │ DPO / IPO      │                      │                   │
│  │ 替代方案         │◀─────────────────────┘                   │
│  │ (無 RM 訓練)    │           定期 A/B 評估                    │
│  └────────────────┘           WinRate 目標 > 75%              │
└──────────────────────────────────────────────────────────────┘

新增元件： 線上偏好資料飛輪、Constitutional AI 自動過濾、DPO 替代路徑、多節點分散式訓練
成本： 標注 ~$200K+；GPU 訓練 ~$50K–200K/run
能解決： 全場景對齊、獎勵黑客防禦、持續改進
未解決： 長期價值對齊、文化差異對齊

三、MDP 框架：狀態/動作/獎勵/策略

3.1 Markov Decision Process 核心定義

強化學習的數學基礎是 MDP，定義為五元組 (S, A, P, R, γ)：

元素	符號	LLM 對應
狀態空間	S	對話歷史 + 已生成 token 序列
動作空間	A	詞彙表中下一個 token（~50K 種選擇）
轉移函數	P(s’｜s,a)	確定性（生成 token 後狀態確定更新）
獎勵函數	R(s,a)	獎勵模型評分（只在序列結尾給出）
折扣因子	γ	通常設 0.99（RLHF 中常設 1.0）

LLM 生成的 MDP 視角：

時間步 t:
  s_t = [prompt, token_1, ..., token_{t-1}]
  a_t = token_t  ∈ 詞彙表（50,257 種）
  s_{t+1} = [prompt, token_1, ..., token_t]
  r_t = 0（中間步驟）
  r_T = RM(完整回答)（僅在序列結束時）

目標：最大化 E[Σ r_t] = E[RM(完整生成序列)]

3.2 策略（Policy）的定義

策略 π(a|s) 是在狀態 s 下採取動作 a 的條件概率：

確定性策略： π(s) = argmax_a Q(s,a)（貪婪選擇）
隨機策略： π(a|s) = softmax(logits)（LLM 的本質）
最優策略： π* = argmax_π E_π[Σ γ^t r_t]

3.3 值函數與優勢函數

V^π(s) = E_π[Σ_{t≥0} γ^t r_{t+k} | s_0 = s]
         → 從狀態 s 出發，遵循策略 π 的期望累積獎勵

Q^π(s,a) = E_π[Σ_{t≥0} γ^t r_t | s_0=s, a_0=a]
           → 在狀態 s 執行動作 a 後，遵循 π 的期望累積獎勵

A^π(s,a) = Q^π(s,a) - V^π(s)
           → 優勢函數：動作 a 比平均策略好多少
           → A > 0：增加這個動作的概率
           → A < 0：降低這個動作的概率

四、Value-based：Q-Learning 到 DQN

4.1 Q-Learning 核心更新規則

Bellman 最優方程：
Q*(s,a) = R(s,a) + γ · max_{a'} Q*(s', a')

Q-Learning 更新（off-policy TD）：
Q(s,a) ← Q(s,a) + α · [r + γ·max_{a'} Q(s',a') - Q(s,a)]
          ────────────────────────────────────────────────
                         TD error (δ)

超參數含義：

α（學習率）= 0.001：每次更新的步長
γ（折扣）= 0.99：未來獎勵的重要性（0=短視，1=遠見）
ε（探索）= 0.1：ε-greedy 中隨機探索的比例

4.2 DQN：神經網路近似 Q 函數

┌─────────────────────────────────────────────────────┐
│  DQN 訓練流程                                        │
│                                                     │
│  環境                                               │
│  ┌──────┐  s_t  ┌────────────┐  a_t  ┌──────────┐  │
│  │      │──────▶│  Q-Network │──────▶│          │  │
│  │ Atari│       │  (CNN+FC)  │       │  環境    │  │
│  │ Game │◀──────│            │◀──────│  Simulator│ │
│  └──────┘  r,s' └────────────┘       └──────────┘  │
│                      │  TD error                   │
│                      ▼                             │
│  ┌────────────────────────────────────┐            │
│  │  Experience Replay Buffer           │            │
│  │  (最近 1M transitions)              │            │
│  │  防止相關性 → 穩定訓練               │            │
│  └────────────────────────────────────┘            │
│                      │  隨機採樣 mini-batch          │
│                      ▼                             │
│  ┌────────────────────────────────────┐            │
│  │  Target Network（每 10K 步同步）    │            │
│  │  y_t = r_t + γ·max Q_target(s',a') │            │
│  │  Loss = MSE(Q(s,a), y_t)           │            │
│  └────────────────────────────────────┘            │
└─────────────────────────────────────────────────────┘

DQN 的兩個關鍵創新：

Experience Replay：打破時間相關性，重複利用歷史資料
Target Network：固定目標值，防止訓練目標劇烈抖動

DQN 的根本限制（為何 LLM 對齊不用它）：

動作空間離散且有限（Atari：18 個按鍵）
LLM 動作空間 = 詞彙表大小 ~50K，Q-table 無法擴展
→ 必須使用 Policy Gradient 方法

五、Policy-based：REINFORCE / Actor-Critic / PPO

5.1 REINFORCE：最原始的策略梯度

策略梯度定理：

∇_θ J(π_θ) = E_π [∇_θ log π_θ(a|s) · G_t]

其中 G_t = Σ_{k=0}^{T-t} γ^k · r_{t+k}（從 t 步起的累積回報）

直覺：
  - 如果一條軌跡的回報 G_t 高 → 增加沿途所有動作的概率
  - 如果 G_t 低 → 降低沿途所有動作的概率
  - ∇_θ log π_θ(a|s)：log-trick，避免計算狀態邊際分佈

REINFORCE 的問題：

方差極高（單條軌跡的 G_t 波動很大）
樣本效率極低（on-policy，每條資料只用一次）
收斂慢：Atari 通常需要 >10M 步

5.2 Actor-Critic：引入值函數降低方差

Actor  : π_θ(a|s)   → 選擇動作（策略網路）
Critic : V_φ(s)     → 估計狀態值（值函數網路）

優勢估計（Advantage）：
  Â_t = r_t + γ·V_φ(s_{t+1}) - V_φ(s_t)
      = TD error

Actor 更新：
  ∇_θ J = E[∇_θ log π_θ(a_t|s_t) · Â_t]

Critic 更新：
  L_V = E[(r_t + γ·V_φ(s_{t+1}) - V_φ(s_t))²]

優點：Â_t 的方差 << G_t 的方差（減去 baseline）

5.3 PPO：RLHF 的核心演算法

PPO（Proximal Policy Optimization）解決了 Actor-Critic 的訓練不穩定問題。

核心思想： 每次策略更新不能「走太遠」，用 clip 機制強制約束。

PPO 目標函數：

ratio_t = π_θ(a_t|s_t) / π_θ_old(a_t|s_t)
         （新策略 vs 舊策略的概率比）

L_CLIP = E_t [min(
    ratio_t · Â_t,
    clip(ratio_t, 1-ε, 1+ε) · Â_t
)]

其中 ε = 0.2（預設值，OpenAI 論文設定）

完整 PPO 損失：
L_total = -L_CLIP + c₁·L_VF - c₂·H[π_θ]
  L_VF：值函數損失（c₁=0.5）
  H[π_θ]：熵正則化，鼓勵探索（c₂=0.01）

clip 機制的直覺：

情況 1：Â_t > 0（這個動作是好的，應該增加概率）
  ratio_t > 1+ε → clip 截斷，防止過度增加
  ratio_t ≤ 1+ε → 正常梯度更新

情況 2：Â_t < 0（這個動作是壞的，應該降低概率）
  ratio_t < 1-ε → clip 截斷，防止過度懲罰
  ratio_t ≥ 1-ε → 正常梯度更新

效果：策略每步最多移動 ε=0.2 的範圍（20%概率比變化）

六、RLHF 完整流程：SFT → RM → PPO

6.1 三階段流水線

┌──────────────────────────────────────────────────────────────┐
│  RLHF 完整訓練流水線                                           │
│                                                              │
│  ┌─────────────────────────────────────────────────────────┐ │
│  │  Stage 1：Supervised Fine-Tuning (SFT)                  │ │
│  │                                                         │ │
│  │  高品質示範資料 (10K–100K 對話)                            │ │
│  │  ──────────────────────────────▶  π_SFT                 │ │
│  │  MLE：minimize -log P(y|x)                              │ │
│  │  結果：模型會遵循指令，但不保證最優                          │ │
│  └─────────────────────────────────────────────────────────┘ │
│                           │                                  │
│                           ▼                                  │
│  ┌─────────────────────────────────────────────────────────┐ │
│  │  Stage 2：Reward Model Training                         │ │
│  │                                                         │ │
│  │  同一 prompt 生成 2–4 個回答                               │ │
│  │  人工標注偏好：y_w ≻ y_l（w=winner, l=loser）              │ │
│  │                                                         │ │
│  │  Bradley-Terry 模型：                                    │ │
│  │  P(y_w ≻ y_l) = σ(r_θ(x,y_w) - r_θ(x,y_l))            │ │
│  │                                                         │ │
│  │  RM 損失：                                               │ │
│  │  L_RM = -E[log σ(r_θ(x,y_w) - r_θ(x,y_l))]            │ │
│  │                                                         │ │
│  │  評估：測試集上 Accuracy > 70% 才進入下一階段               │ │
│  └─────────────────────────────────────────────────────────┘ │
│                           │                                  │
│                           ▼                                  │
│  ┌─────────────────────────────────────────────────────────┐ │
│  │  Stage 3：PPO Fine-Tuning                               │ │
│  │                                                         │ │
│  │  ┌──────────┐  生成回答  ┌──────────┐  獎勵   ┌───────┐ │ │
│  │  │ Policy   │──────────▶│  RM      │────────▶│  PPO  │ │ │
│  │  │ π_θ      │           │ r_θ(x,y) │         │Trainer│ │ │
│  │  └──────────┘           └──────────┘         └───┬───┘ │ │
│  │       ▲                                          │     │ │
│  │       │              KL 懲罰項                    │     │ │
│  │  ┌────┴─────┐   r = r_RM - β·KL(π_θ ‖ π_SFT)   │     │ │
│  │  │ π_SFT    │◀──────────────────────────────────┘     │ │
│  │  │ (凍結)   │   β = 0.05（防止遠離 SFT 分佈）            │ │
│  │  └──────────┘                                         │ │
│  │                                                         │ │
│  │  總獎勵 = r_RM(x,y) - β·KL(π_θ(y|x) ‖ π_SFT(y|x))    │ │
│  └─────────────────────────────────────────────────────────┘ │
└──────────────────────────────────────────────────────────────┘

6.2 KL 懲罰的作用

KL 散度項 β·KL(π_θ ‖ π_SFT) 的三個功能：

防止獎勵黑客（Reward Hacking）： 模型若只最大化 RM 分數，會生成聽起來好但實際無意義的文字
保留語言能力： 不讓模型遺忘 SFT 學到的基本指令遵循能力
控制漂移速度： β 越大 = 更保守；β = 0 = 完全不受限

β 的調校經驗：

β < 0.01：RM 分數高但 KL 爆炸，模型退化
β = 0.05：InstructGPT 論文推薦值
β > 0.2：更新過慢，RLHF 效果微弱

七、DPO：無需獎勵模型的替代方案

7.1 DPO 的核心洞見

DPO（Direct Preference Optimization）發現：RLHF 中的最優策略有閉合解，可以直接繞過 RM 訓練。

RLHF 最優解：
  π*(y|x) ∝ π_SFT(y|x) · exp(r*(x,y) / β)

反推 r*(x,y)：
  r*(x,y) = β · log [π*(y|x) / π_SFT(y|x)] + β·log Z(x)

代入 Bradley-Terry 模型並化簡：

DPO 損失（直接對偏好資料訓練）：
L_DPO = -E_{(x,y_w,y_l)} [
    log σ(
        β · log [π_θ(y_w|x) / π_SFT(y_w|x)]
      - β · log [π_θ(y_l|x) / π_SFT(y_l|x)]
    )
]

7.2 DPO vs RLHF 工程對比

維度	RLHF (PPO)	DPO
訓練複雜度	高（4個模型同時運行）	低（只需 2 個模型）
GPU 記憶體	~4× Policy 大小	~2× Policy 大小
訓練穩定性	需仔細調校 β, ε	相對穩定
效果（7B 模型）	WinRate 基準	通常 -3%–+5% vs PPO
線上學習	支援（生成新資料）	不支援（離線資料）
偏好資料需求	可迭代收集	必須事先準備

DPO 的核心限制： 它是「離線」方法——無法在訓練中生成新的探索資料，在分佈外 prompt 上的泛化較弱。

八、為什麼選 X 不選 Y

決策 1：PPO vs REINFORCE

選擇          選 PPO 的理由                    不選 REINFORCE 的理由
──────────────────────────────────────────────────────────────────
訓練穩定性    clip ε=0.2 防止策略劇烈偏移         REINFORCE 方差極高，常發散
樣本效率      mini-epoch 重複利用同批資料          REINFORCE 每條資料只用一次
收斂速度      OpenAI Atari 實驗：PPO 快 3-10×     REINFORCE 需要 >10M 步
LLM 適配性    與 Actor-Critic 架構完整整合         純 REINFORCE 無值函數

Flip condition：如果序列極短（< 20 token）且獎勵稠密，
REINFORCE 實現簡單且效果差距不大。

決策 2：RLHF vs 純 SFT

選擇          選 RLHF 的理由                   不選純 SFT 的理由
──────────────────────────────────────────────────────────────────
對齊品質      WinRate +35%（InstructGPT 論文）  SFT 學「平均行為」非最優
資料效率      500 偏好對 > 10K 示範的對齊效果    示範資料昂貴（$5–50/條）
泛化能力      RL 可探索比示範更好的回答           SFT 被示範資料上界限制
可迭代性      線上持續收集偏好信號               SFT 資料收集一次性

Flip condition：對話輪次少、領域窄（如 SQL 生成）、
預算 < $10K 的場景，純 SFT 成本效益更高。

決策 3：DPO vs PPO

選擇          選 DPO 的理由                    選 PPO 的理由
──────────────────────────────────────────────────────────────────
工程複雜度    只需 2 個模型（省 50% GPU）         4 個模型但效果更穩
線上學習      不需要（離線訓練）                  支援主動探索
資料需求      現有偏好資料即可                   可持續收集新偏好
適用場景      快速迭代、資料已足夠                產品級、需持續改進

Flip condition：當偏好資料 > 50K 且可定期更新，
PPO 的長期效果通常超越 DPO。

決策 4：KL 懲罰 vs 無約束 RL

選擇          加 KL 懲罰的理由                 不加的問題
──────────────────────────────────────────────────────────────────
獎勵黑客防禦  防止模型生成「胡言亂語但 RM 高分」   RM 會被過度利用，輸出退化
語言能力保留  保持 SFT 學到的指令遵循能力          模型快速忘記基礎能力
訓練穩定性    KL 項作為正則，防止策略震盪           無約束 PPO 常在 1K 步後崩潰
人類評估      有 KL WinRate +35% vs SFT baseline  無 KL 常退化至低於 SFT

Flip condition：β > 0.3 時 KL 懲罰太強，RLHF 效果接近 SFT，
若需要更激進的風格改變，應降低 β 或用 Constitutional AI。

決策 5：單頭 RM vs 多頭 RM

選擇          多頭 RM 的理由                   單頭 RM 的理由
──────────────────────────────────────────────────────────────────
對齊維度      分別優化 helpful/harmless/honest   簡單，一個分數足夠
獎勵權衡      可動態調整各維度權重               不同維度可能衝突但無法分解
診斷能力      哪個維度差可清楚分析               黑箱，難以定向改進
工程成本      標注成本 3×，訓練複雜              快速驗證，Phase 1/2 適用

Flip condition：Phase 1 POC 階段、資源有限時，
單頭 RM 夠用；規模化後再升級多頭。

決策 6：Bradley-Terry RM vs 回歸式 RM

選擇          Bradley-Terry 的理由              回歸式 RM 的理由
──────────────────────────────────────────────────────────────────
標注成本      只需比較好壞（比較容易）             需要給出具體分數（難以校準）
理論基礎      有成熟的偏好學習理論支撐             無法保證跨 prompt 的分數可比性
業界採用率    InstructGPT/Llama2 均採用           少見於主流 RLHF 實作
擴展性        K 個候選只需 C(K,2) 次比較          K 個候選需 K 次獨立評分

Flip condition：若有大量絕對品質標注資料（如考試題目答案），
回歸式 RM 可直接利用；純對話對齊優先 Bradley-Terry。

九、系統效應：RLHF 前後對比

9.1 量化對齊改善

指標	SFT Baseline	RLHF 後	改善幅度
人類偏好 WinRate	50%（基準）	68–85%	+18–35%
有害輸出率	~15%	~4.5%	-70%
拒絕有益請求（over-refusal）	~3%	~1.2%	-60%
回應長度合適率	~65%	~82%	+26%
事實性（TruthfulQA）	~40%	~57%	+43%
指令遵循準確率	~72%	~89%	+24%

9.2 訓練成本 vs 效益

規模	RLHF 資料成本	訓練 GPU 成本	WinRate 提升
POC（500 偏好對）	~$2,500	~$500	+10–15%
MVP（10K 偏好對）	~$50,000	~$5,000	+20–30%
Scale（100K 偏好對）	~$500,000	~$50,000	+30–40%

邊際收益遞減： 偏好資料從 1K→10K 的改善最顯著；10K→100K 改善放緩；100K 以上需要配合模型擴大或架構改進。

9.3 失敗模式與數字

失敗類型	觸發條件	症狀	緩解措施
獎勵黑客	β < 0.01 或 RM 訓練資料不足	輸出重複詞、格式奇怪但 RM 高分	增大 β，擴充 RM 資料
模式崩潰	探索不足（熵係數 c₂ = 0）	所有回答變得相似	增加熵正則 c₂ = 0.01–0.05
KL 爆炸	β 過小 + 學習率過大	KL > 20 nats，訓練發散	降低 lr，增大 β
遺忘（Forgetting）	PPO 跑太多輪	基礎指令遵循能力下降	混入 SFT 資料，限制 PPO epoch

十、面試答題要點

面試官問： 你的 SFT 模型用戶反映有時給出危險建議、過度冗長、迴避有用資訊，你如何在六週內設計對齊訓練流程？

「我會採用三階段 RLHF 流程。第一週收集 500–1000 對偏好標注資料，涵蓋 helpful/harmless/honest 三個維度，訓練 Bradley-Terry 獎勵模型，測試集準確率達到 70% 以上才進入下一步。第二到三週用 PPO 進行策略優化，關鍵超參數設定 clip ε=0.2、KL 懲罰 β=0.05，後者防止模型為刷高 RM 分數而輸出無意義內容——業界稱為 Reward Hacking。第四到五週建立自動評估流水線，每次訓練後跑 WinRate 測試，目標是相較 SFT baseline 提升 20% 以上；若六週後預算有限或想快速驗證，可以改用 DPO 省去 RM 訓練步驟，用同樣的偏好資料直接訓練，GPU 需求降低 50%，但需接受無法線上持續改進的限制。最終評估用多維指標：WinRate、有害輸出率、TruthfulQA 準確率，而非只看 RM 分數。」

十一、系列導航

← 上一篇： Phase 8 Part 2：分散式訓練與混合精度

→ 下一篇： Phase 9 Part 2：PPO 實作與 RLHF 工程細節

本文為「AI 工程從零開始」系列第 Phase 9 第 1 篇，聚焦強化學習基礎理論與 RLHF 工程實踐。系列完整索引請見 Phase 1 總覽。