大多數人以為強化學習只是遊戲 AI 的黑魔法; 實際上,RLHF 是讓 LLM 從「會說話」進化到「說對話」的核心技術。 大多數人以為 PPO 太複雜所以跳過; 實際上,理解 clip ratio ε=0.2 背後的直覺,才能真正設計對齊系統。
面試情境: 你是某家 AI 新創的首席工程師。產品已用 SFT 微調出一個能回答問題的 LLM,但用戶反映模型有時給出危險建議、有時過度冗長、有時迴避有用資訊。CTO 要求你在六週內讓模型「更符合人類期望」。你會設計怎樣的對齊訓練流程?請從框架選擇、資料收集、訓練穩定性、評估指標四個維度說明。
一、核心問題:為什麼 LLM 需要強化學習
1.1 Supervised Fine-Tuning 的天花板
SFT(Supervised Fine-Tuning)本質是「模仿學習」——模型學習複製人類示範的文字。這個方法有三個根本限制:
限制一:示範資料的稀缺性
- 高品質的完整對話示範成本極高(每條 $5–50 美元標注成本)
- 1M 條示範資料 ≈ $5M–50M,難以覆蓋所有場景
限制二:偏好無法直接最大化
- 人類知道「哪個回答更好」,但無法輕易寫出「最好的回答」
- SFT 學的是「做什麼」,而非「為什麼這樣做最好」
限制三:分佈外泛化失敗
- SFT 模型在訓練分佈外的 prompt 上容易退化
- 模型無法自主探索比示範更優的解答
強化學習解決的核心問題是:讓模型在與環境(或人類偏好模型)互動的過程中,學習最大化長期獎勵。
1.2 RL 在 AI 對齊中的角色
傳統訓練流程(純 SFT):
人類寫示範 ──▶ MLE 損失 ──▶ 模型複製行為
問題:模型學的是「平均人類行為」,非「最優人類行為」
RLHF 訓練流程:
人類比較偏好 ──▶ 獎勵模型 ──▶ PPO 最大化獎勵
優勢:模型學的是「人類偏好的方向」,能超越示範品質
InstructGPT(ChatGPT 前身)論文的核心數字:
- 1.3B RLHF 模型 vs 175B SFT 模型:人類偏好 RLHF 模型勝出 ~85% 的時間
- 代表強化學習讓 100 倍小的模型贏過純監督訓練的大模型
二、三個演進階段(POC/MVP/Scale)
╔══ Phase 1:POC / < 1K 對話樣本 ══╗
目標: 驗證 RL 對齊信號是否有效
┌─────────────────────────────────────────────────────┐
│ Phase 1 架構:最小 RLHF │
│ │
│ ┌──────────┐ SFT ┌──────────────┐ │
│ │ Base LM │──────────▶│ SFT Model │ │
│ │ (7B Llama)│ │ (凍結參考) │ │
│ └──────────┘ └──────┬───────┘ │
│ │ │
│ 人工標注 500 對 ┌────────▼────────┐ │
│ 偏好比較對 │ Reward Model │ │
│ ──────────────────▶ │ (Bradley-Terry│ │
│ │ 1B params) │ │
│ └────────┬──────┘ │
│ │ 獎勵訊號 │
│ ┌────────▼──────┐ │
│ │ PPO 訓練 │ │
│ │ (KL 約束) │ │
│ └───────────────┘ │
└─────────────────────────────────────────────────────┘
- 新增元件: 500–1K 偏好對、Bradley-Terry RM、基礎 PPO 迴圈
- 成本: 標注 ~$2,500–5,000;GPU 訓練 ~$500/run
- 能解決: 驗證 RM 相關性(Spearman ρ > 0.6 即合格)
- 未解決: RM 過擬合、PPO 不穩定、評估指標不清晰
╔══ Phase 2:MVP / 1K–50K 對話樣本 ══╗
目標: 建立可重複、可評估的對齊訓練流水線
┌──────────────────────────────────────────────────────────┐
│ Phase 2 架構:生產就緒 RLHF │
│ │
│ ┌──────────┐ SFT微調 ┌────────────────┐ │
│ │ Base LM │────────────▶│ SFT Policy π₀ │◀──┐ │
│ │ (13B) │ │ (作為 ref 凍結) │ │KL 懲罰 │
│ └──────────┘ └────────────────┘ │ │
│ │ │
│ ┌──────────────────────┐ ┌──────────────────┐│ │
│ │ Preference Dataset │ │ Reward Model ││ │
│ │ (10K 人工 + 40K 合成)│─▶│ (6B DeBERTa) ││ │
│ └──────────────────────┘ └────────┬─────────┘│ │
│ │ r(s,a) │ │
│ ┌──────────────────────────────────▼──────────┐│ │
│ │ PPO Trainer ││ │
│ │ - clip ε = 0.2 ││ │
│ │ - KL coeff β = 0.05 ││ │
│ │ - value loss coeff = 0.1 ││ │
│ └─────────────────────────────────────────────┘│ │
│ └────────┘
│ 評估:WinRate vs SFT baseline(目標 > 60%) │
└──────────────────────────────────────────────────────────┘
- 新增元件: 合成偏好資料生成、多維 RM(helpfulness/harmless/honest)、自動評估流水線
- 成本: 標注 ~$50K;GPU 訓練 ~$5K/run;每週跑 2–3 次迭代
- 能解決: 基礎對齊、有害輸出減少 ~70%
- 未解決: RM 獎勵黑客攻擊、大規模分散式訓練
╔══ Phase 3:Scale / 50K+ 樣本,企業級 ══╗
目標: 持續對齊、多語言、抗獎勵黑客
┌──────────────────────────────────────────────────────────────┐
│ Phase 3 架構:企業級對齊系統 │
│ │
│ 資料飛輪 訓練叢集 │
│ ┌────────────────┐ ┌───────────────────────┐ │
│ │ 線上用戶反饋 │ │ 分散式 PPO │ │
│ │ (隱式信號) │──────────▶│ - 4×8 A100 nodes │ │
│ │ 點讚/重新生成 │ │ - Megatron 張量並行 │ │
│ └────────────────┘ │ - Gradient checkpoint│ │
│ └──────────┬────────────┘ │
│ ┌────────────────┐ │ │
│ │ Constitutional │ ┌──────────▼────────────┐ │
│ │ AI 過濾 │──────────▶│ 多頭 Reward Model │ │
│ │ (自動有害檢測) │ │ - Helpfulness head │ │
│ └────────────────┘ │ - Harmless head │ │
│ │ - Honesty head │ │
│ ┌────────────────┐ └──────────┬────────────┘ │
│ │ DPO / IPO │ │ │
│ │ 替代方案 │◀─────────────────────┘ │
│ │ (無 RM 訓練) │ 定期 A/B 評估 │
│ └────────────────┘ WinRate 目標 > 75% │
└──────────────────────────────────────────────────────────────┘
- 新增元件: 線上偏好資料飛輪、Constitutional AI 自動過濾、DPO 替代路徑、多節點分散式訓練
- 成本: 標注 ~$200K+;GPU 訓練 ~$50K–200K/run
- 能解決: 全場景對齊、獎勵黑客防禦、持續改進
- 未解決: 長期價值對齊、文化差異對齊
三、MDP 框架:狀態/動作/獎勵/策略
3.1 Markov Decision Process 核心定義
強化學習的數學基礎是 MDP,定義為五元組 (S, A, P, R, γ):
| 元素 | 符號 | LLM 對應 |
|---|---|---|
| 狀態空間 | S | 對話歷史 + 已生成 token 序列 |
| 動作空間 | A | 詞彙表中下一個 token(~50K 種選擇) |
| 轉移函數 | P(s’|s,a) | 確定性(生成 token 後狀態確定更新) |
| 獎勵函數 | R(s,a) | 獎勵模型評分(只在序列結尾給出) |
| 折扣因子 | γ | 通常設 0.99(RLHF 中常設 1.0) |
LLM 生成的 MDP 視角:
時間步 t:
s_t = [prompt, token_1, ..., token_{t-1}]
a_t = token_t ∈ 詞彙表(50,257 種)
s_{t+1} = [prompt, token_1, ..., token_t]
r_t = 0(中間步驟)
r_T = RM(完整回答)(僅在序列結束時)
目標:最大化 E[Σ r_t] = E[RM(完整生成序列)]
3.2 策略(Policy)的定義
策略 π(a|s) 是在狀態 s 下採取動作 a 的條件概率:
- 確定性策略: π(s) = argmax_a Q(s,a)(貪婪選擇)
- 隨機策略: π(a|s) = softmax(logits)(LLM 的本質)
- 最優策略: π* = argmax_π E_π[Σ γ^t r_t]
3.3 值函數與優勢函數
V^π(s) = E_π[Σ_{t≥0} γ^t r_{t+k} | s_0 = s]
→ 從狀態 s 出發,遵循策略 π 的期望累積獎勵
Q^π(s,a) = E_π[Σ_{t≥0} γ^t r_t | s_0=s, a_0=a]
→ 在狀態 s 執行動作 a 後,遵循 π 的期望累積獎勵
A^π(s,a) = Q^π(s,a) - V^π(s)
→ 優勢函數:動作 a 比平均策略好多少
→ A > 0:增加這個動作的概率
→ A < 0:降低這個動作的概率
四、Value-based:Q-Learning 到 DQN
4.1 Q-Learning 核心更新規則
Bellman 最優方程:
Q*(s,a) = R(s,a) + γ · max_{a'} Q*(s', a')
Q-Learning 更新(off-policy TD):
Q(s,a) ← Q(s,a) + α · [r + γ·max_{a'} Q(s',a') - Q(s,a)]
────────────────────────────────────────────────
TD error (δ)
超參數含義:
- α(學習率)= 0.001:每次更新的步長
- γ(折扣)= 0.99:未來獎勵的重要性(0=短視,1=遠見)
- ε(探索)= 0.1:ε-greedy 中隨機探索的比例
4.2 DQN:神經網路近似 Q 函數
┌─────────────────────────────────────────────────────┐
│ DQN 訓練流程 │
│ │
│ 環境 │
│ ┌──────┐ s_t ┌────────────┐ a_t ┌──────────┐ │
│ │ │──────▶│ Q-Network │──────▶│ │ │
│ │ Atari│ │ (CNN+FC) │ │ 環境 │ │
│ │ Game │◀──────│ │◀──────│ Simulator│ │
│ └──────┘ r,s' └────────────┘ └──────────┘ │
│ │ TD error │
│ ▼ │
│ ┌────────────────────────────────────┐ │
│ │ Experience Replay Buffer │ │
│ │ (最近 1M transitions) │ │
│ │ 防止相關性 → 穩定訓練 │ │
│ └────────────────────────────────────┘ │
│ │ 隨機採樣 mini-batch │
│ ▼ │
│ ┌────────────────────────────────────┐ │
│ │ Target Network(每 10K 步同步) │ │
│ │ y_t = r_t + γ·max Q_target(s',a') │ │
│ │ Loss = MSE(Q(s,a), y_t) │ │
│ └────────────────────────────────────┘ │
└─────────────────────────────────────────────────────┘
DQN 的兩個關鍵創新:
- Experience Replay:打破時間相關性,重複利用歷史資料
- Target Network:固定目標值,防止訓練目標劇烈抖動
DQN 的根本限制(為何 LLM 對齊不用它):
- 動作空間離散且有限(Atari:18 個按鍵)
- LLM 動作空間 = 詞彙表大小 ~50K,Q-table 無法擴展
- → 必須使用 Policy Gradient 方法
五、Policy-based:REINFORCE / Actor-Critic / PPO
5.1 REINFORCE:最原始的策略梯度
策略梯度定理:
∇_θ J(π_θ) = E_π [∇_θ log π_θ(a|s) · G_t]
其中 G_t = Σ_{k=0}^{T-t} γ^k · r_{t+k}(從 t 步起的累積回報)
直覺:
- 如果一條軌跡的回報 G_t 高 → 增加沿途所有動作的概率
- 如果 G_t 低 → 降低沿途所有動作的概率
- ∇_θ log π_θ(a|s):log-trick,避免計算狀態邊際分佈
REINFORCE 的問題:
- 方差極高(單條軌跡的 G_t 波動很大)
- 樣本效率極低(on-policy,每條資料只用一次)
- 收斂慢:Atari 通常需要 >10M 步
5.2 Actor-Critic:引入值函數降低方差
Actor : π_θ(a|s) → 選擇動作(策略網路)
Critic : V_φ(s) → 估計狀態值(值函數網路)
優勢估計(Advantage):
Â_t = r_t + γ·V_φ(s_{t+1}) - V_φ(s_t)
= TD error
Actor 更新:
∇_θ J = E[∇_θ log π_θ(a_t|s_t) · Â_t]
Critic 更新:
L_V = E[(r_t + γ·V_φ(s_{t+1}) - V_φ(s_t))²]
優點:Â_t 的方差 << G_t 的方差(減去 baseline)
5.3 PPO:RLHF 的核心演算法
PPO(Proximal Policy Optimization)解決了 Actor-Critic 的訓練不穩定問題。
核心思想: 每次策略更新不能「走太遠」,用 clip 機制強制約束。
PPO 目標函數:
ratio_t = π_θ(a_t|s_t) / π_θ_old(a_t|s_t)
(新策略 vs 舊策略的概率比)
L_CLIP = E_t [min(
ratio_t · Â_t,
clip(ratio_t, 1-ε, 1+ε) · Â_t
)]
其中 ε = 0.2(預設值,OpenAI 論文設定)
完整 PPO 損失:
L_total = -L_CLIP + c₁·L_VF - c₂·H[π_θ]
L_VF:值函數損失(c₁=0.5)
H[π_θ]:熵正則化,鼓勵探索(c₂=0.01)
clip 機制的直覺:
情況 1:Â_t > 0(這個動作是好的,應該增加概率)
ratio_t > 1+ε → clip 截斷,防止過度增加
ratio_t ≤ 1+ε → 正常梯度更新
情況 2:Â_t < 0(這個動作是壞的,應該降低概率)
ratio_t < 1-ε → clip 截斷,防止過度懲罰
ratio_t ≥ 1-ε → 正常梯度更新
效果:策略每步最多移動 ε=0.2 的範圍(20%概率比變化)
六、RLHF 完整流程:SFT → RM → PPO
6.1 三階段流水線
┌──────────────────────────────────────────────────────────────┐
│ RLHF 完整訓練流水線 │
│ │
│ ┌─────────────────────────────────────────────────────────┐ │
│ │ Stage 1:Supervised Fine-Tuning (SFT) │ │
│ │ │ │
│ │ 高品質示範資料 (10K–100K 對話) │ │
│ │ ──────────────────────────────▶ π_SFT │ │
│ │ MLE:minimize -log P(y|x) │ │
│ │ 結果:模型會遵循指令,但不保證最優 │ │
│ └─────────────────────────────────────────────────────────┘ │
│ │ │
│ ▼ │
│ ┌─────────────────────────────────────────────────────────┐ │
│ │ Stage 2:Reward Model Training │ │
│ │ │ │
│ │ 同一 prompt 生成 2–4 個回答 │ │
│ │ 人工標注偏好:y_w ≻ y_l(w=winner, l=loser) │ │
│ │ │ │
│ │ Bradley-Terry 模型: │ │
│ │ P(y_w ≻ y_l) = σ(r_θ(x,y_w) - r_θ(x,y_l)) │ │
│ │ │ │
│ │ RM 損失: │ │
│ │ L_RM = -E[log σ(r_θ(x,y_w) - r_θ(x,y_l))] │ │
│ │ │ │
│ │ 評估:測試集上 Accuracy > 70% 才進入下一階段 │ │
│ └─────────────────────────────────────────────────────────┘ │
│ │ │
│ ▼ │
│ ┌─────────────────────────────────────────────────────────┐ │
│ │ Stage 3:PPO Fine-Tuning │ │
│ │ │ │
│ │ ┌──────────┐ 生成回答 ┌──────────┐ 獎勵 ┌───────┐ │ │
│ │ │ Policy │──────────▶│ RM │────────▶│ PPO │ │ │
│ │ │ π_θ │ │ r_θ(x,y) │ │Trainer│ │ │
│ │ └──────────┘ └──────────┘ └───┬───┘ │ │
│ │ ▲ │ │ │
│ │ │ KL 懲罰項 │ │ │
│ │ ┌────┴─────┐ r = r_RM - β·KL(π_θ ‖ π_SFT) │ │ │
│ │ │ π_SFT │◀──────────────────────────────────┘ │ │
│ │ │ (凍結) │ β = 0.05(防止遠離 SFT 分佈) │ │
│ │ └──────────┘ │ │
│ │ │ │
│ │ 總獎勵 = r_RM(x,y) - β·KL(π_θ(y|x) ‖ π_SFT(y|x)) │ │
│ └─────────────────────────────────────────────────────────┘ │
└──────────────────────────────────────────────────────────────┘
6.2 KL 懲罰的作用
KL 散度項 β·KL(π_θ ‖ π_SFT) 的三個功能:
- 防止獎勵黑客(Reward Hacking): 模型若只最大化 RM 分數,會生成聽起來好但實際無意義的文字
- 保留語言能力: 不讓模型遺忘 SFT 學到的基本指令遵循能力
- 控制漂移速度: β 越大 = 更保守;β = 0 = 完全不受限
β 的調校經驗:
- β < 0.01:RM 分數高但 KL 爆炸,模型退化
- β = 0.05:InstructGPT 論文推薦值
- β > 0.2:更新過慢,RLHF 效果微弱
七、DPO:無需獎勵模型的替代方案
7.1 DPO 的核心洞見
DPO(Direct Preference Optimization)發現:RLHF 中的最優策略有閉合解,可以直接繞過 RM 訓練。
RLHF 最優解:
π*(y|x) ∝ π_SFT(y|x) · exp(r*(x,y) / β)
反推 r*(x,y):
r*(x,y) = β · log [π*(y|x) / π_SFT(y|x)] + β·log Z(x)
代入 Bradley-Terry 模型並化簡:
DPO 損失(直接對偏好資料訓練):
L_DPO = -E_{(x,y_w,y_l)} [
log σ(
β · log [π_θ(y_w|x) / π_SFT(y_w|x)]
- β · log [π_θ(y_l|x) / π_SFT(y_l|x)]
)
]
7.2 DPO vs RLHF 工程對比
| 維度 | RLHF (PPO) | DPO |
|---|---|---|
| 訓練複雜度 | 高(4個模型同時運行) | 低(只需 2 個模型) |
| GPU 記憶體 | ~4× Policy 大小 | ~2× Policy 大小 |
| 訓練穩定性 | 需仔細調校 β, ε | 相對穩定 |
| 效果(7B 模型) | WinRate 基準 | 通常 -3%–+5% vs PPO |
| 線上學習 | 支援(生成新資料) | 不支援(離線資料) |
| 偏好資料需求 | 可迭代收集 | 必須事先準備 |
DPO 的核心限制: 它是「離線」方法——無法在訓練中生成新的探索資料,在分佈外 prompt 上的泛化較弱。
八、為什麼選 X 不選 Y
決策 1:PPO vs REINFORCE
選擇 選 PPO 的理由 不選 REINFORCE 的理由
──────────────────────────────────────────────────────────────────
訓練穩定性 clip ε=0.2 防止策略劇烈偏移 REINFORCE 方差極高,常發散
樣本效率 mini-epoch 重複利用同批資料 REINFORCE 每條資料只用一次
收斂速度 OpenAI Atari 實驗:PPO 快 3-10× REINFORCE 需要 >10M 步
LLM 適配性 與 Actor-Critic 架構完整整合 純 REINFORCE 無值函數
Flip condition:如果序列極短(< 20 token)且獎勵稠密,
REINFORCE 實現簡單且效果差距不大。
決策 2:RLHF vs 純 SFT
選擇 選 RLHF 的理由 不選純 SFT 的理由
──────────────────────────────────────────────────────────────────
對齊品質 WinRate +35%(InstructGPT 論文) SFT 學「平均行為」非最優
資料效率 500 偏好對 > 10K 示範的對齊效果 示範資料昂貴($5–50/條)
泛化能力 RL 可探索比示範更好的回答 SFT 被示範資料上界限制
可迭代性 線上持續收集偏好信號 SFT 資料收集一次性
Flip condition:對話輪次少、領域窄(如 SQL 生成)、
預算 < $10K 的場景,純 SFT 成本效益更高。
決策 3:DPO vs PPO
選擇 選 DPO 的理由 選 PPO 的理由
──────────────────────────────────────────────────────────────────
工程複雜度 只需 2 個模型(省 50% GPU) 4 個模型但效果更穩
線上學習 不需要(離線訓練) 支援主動探索
資料需求 現有偏好資料即可 可持續收集新偏好
適用場景 快速迭代、資料已足夠 產品級、需持續改進
Flip condition:當偏好資料 > 50K 且可定期更新,
PPO 的長期效果通常超越 DPO。
決策 4:KL 懲罰 vs 無約束 RL
選擇 加 KL 懲罰的理由 不加的問題
──────────────────────────────────────────────────────────────────
獎勵黑客防禦 防止模型生成「胡言亂語但 RM 高分」 RM 會被過度利用,輸出退化
語言能力保留 保持 SFT 學到的指令遵循能力 模型快速忘記基礎能力
訓練穩定性 KL 項作為正則,防止策略震盪 無約束 PPO 常在 1K 步後崩潰
人類評估 有 KL WinRate +35% vs SFT baseline 無 KL 常退化至低於 SFT
Flip condition:β > 0.3 時 KL 懲罰太強,RLHF 效果接近 SFT,
若需要更激進的風格改變,應降低 β 或用 Constitutional AI。
決策 5:單頭 RM vs 多頭 RM
選擇 多頭 RM 的理由 單頭 RM 的理由
──────────────────────────────────────────────────────────────────
對齊維度 分別優化 helpful/harmless/honest 簡單,一個分數足夠
獎勵權衡 可動態調整各維度權重 不同維度可能衝突但無法分解
診斷能力 哪個維度差可清楚分析 黑箱,難以定向改進
工程成本 標注成本 3×,訓練複雜 快速驗證,Phase 1/2 適用
Flip condition:Phase 1 POC 階段、資源有限時,
單頭 RM 夠用;規模化後再升級多頭。
決策 6:Bradley-Terry RM vs 回歸式 RM
選擇 Bradley-Terry 的理由 回歸式 RM 的理由
──────────────────────────────────────────────────────────────────
標注成本 只需比較好壞(比較容易) 需要給出具體分數(難以校準)
理論基礎 有成熟的偏好學習理論支撐 無法保證跨 prompt 的分數可比性
業界採用率 InstructGPT/Llama2 均採用 少見於主流 RLHF 實作
擴展性 K 個候選只需 C(K,2) 次比較 K 個候選需 K 次獨立評分
Flip condition:若有大量絕對品質標注資料(如考試題目答案),
回歸式 RM 可直接利用;純對話對齊優先 Bradley-Terry。
九、系統效應:RLHF 前後對比
9.1 量化對齊改善
| 指標 | SFT Baseline | RLHF 後 | 改善幅度 |
|---|---|---|---|
| 人類偏好 WinRate | 50%(基準) | 68–85% | +18–35% |
| 有害輸出率 | ~15% | ~4.5% | -70% |
| 拒絕有益請求(over-refusal) | ~3% | ~1.2% | -60% |
| 回應長度合適率 | ~65% | ~82% | +26% |
| 事實性(TruthfulQA) | ~40% | ~57% | +43% |
| 指令遵循準確率 | ~72% | ~89% | +24% |
9.2 訓練成本 vs 效益
| 規模 | RLHF 資料成本 | 訓練 GPU 成本 | WinRate 提升 |
|---|---|---|---|
| POC(500 偏好對) | ~$2,500 | ~$500 | +10–15% |
| MVP(10K 偏好對) | ~$50,000 | ~$5,000 | +20–30% |
| Scale(100K 偏好對) | ~$500,000 | ~$50,000 | +30–40% |
邊際收益遞減: 偏好資料從 1K→10K 的改善最顯著;10K→100K 改善放緩;100K 以上需要配合模型擴大或架構改進。
9.3 失敗模式與數字
| 失敗類型 | 觸發條件 | 症狀 | 緩解措施 |
|---|---|---|---|
| 獎勵黑客 | β < 0.01 或 RM 訓練資料不足 | 輸出重複詞、格式奇怪但 RM 高分 | 增大 β,擴充 RM 資料 |
| 模式崩潰 | 探索不足(熵係數 c₂ = 0) | 所有回答變得相似 | 增加熵正則 c₂ = 0.01–0.05 |
| KL 爆炸 | β 過小 + 學習率過大 | KL > 20 nats,訓練發散 | 降低 lr,增大 β |
| 遺忘(Forgetting) | PPO 跑太多輪 | 基礎指令遵循能力下降 | 混入 SFT 資料,限制 PPO epoch |
十、面試答題要點
面試官問: 你的 SFT 模型用戶反映有時給出危險建議、過度冗長、迴避有用資訊,你如何在六週內設計對齊訓練流程?
「我會採用三階段 RLHF 流程。第一週收集 500–1000 對偏好標注資料,涵蓋 helpful/harmless/honest 三個維度,訓練 Bradley-Terry 獎勵模型,測試集準確率達到 70% 以上才進入下一步。第二到三週用 PPO 進行策略優化,關鍵超參數設定 clip ε=0.2、KL 懲罰 β=0.05,後者防止模型為刷高 RM 分數而輸出無意義內容——業界稱為 Reward Hacking。第四到五週建立自動評估流水線,每次訓練後跑 WinRate 測試,目標是相較 SFT baseline 提升 20% 以上;若六週後預算有限或想快速驗證,可以改用 DPO 省去 RM 訓練步驟,用同樣的偏好資料直接訓練,GPU 需求降低 50%,但需接受無法線上持續改進的限制。最終評估用多維指標:WinRate、有害輸出率、TruthfulQA 準確率,而非只看 RM 分數。」
十一、系列導航
← 上一篇: Phase 8 Part 2:分散式訓練與混合精度
→ 下一篇: Phase 9 Part 2:PPO 實作與 RLHF 工程細節
本文為「AI 工程從零開始」系列第 Phase 9 第 1 篇,聚焦強化學習基礎理論與 RLHF 工程實踐。系列完整索引請見 Phase 1 總覽。
