AI 工程從零開始|Phase 9:強化學習基礎 — RLHF 與遊戲 AI 的根基

大多數人以為強化學習只是遊戲 AI 的黑魔法; 實際上,RLHF 是讓 LLM 從「會說話」進化到「說對話」的核心技術。 大多數人以為 PPO 太複雜所以跳過; 實際上,理解 clip ratio ε=0.2 背後的直覺,才能真正設計對齊系統。


面試情境: 你是某家 AI 新創的首席工程師。產品已用 SFT 微調出一個能回答問題的 LLM,但用戶反映模型有時給出危險建議、有時過度冗長、有時迴避有用資訊。CTO 要求你在六週內讓模型「更符合人類期望」。你會設計怎樣的對齊訓練流程?請從框架選擇、資料收集、訓練穩定性、評估指標四個維度說明。


一、核心問題:為什麼 LLM 需要強化學習

1.1 Supervised Fine-Tuning 的天花板

SFT(Supervised Fine-Tuning)本質是「模仿學習」——模型學習複製人類示範的文字。這個方法有三個根本限制:

限制一:示範資料的稀缺性

  • 高品質的完整對話示範成本極高(每條 $5–50 美元標注成本)
  • 1M 條示範資料 ≈ $5M–50M,難以覆蓋所有場景

限制二:偏好無法直接最大化

  • 人類知道「哪個回答更好」,但無法輕易寫出「最好的回答」
  • SFT 學的是「做什麼」,而非「為什麼這樣做最好」

限制三:分佈外泛化失敗

  • SFT 模型在訓練分佈外的 prompt 上容易退化
  • 模型無法自主探索比示範更優的解答

強化學習解決的核心問題是:讓模型在與環境(或人類偏好模型)互動的過程中,學習最大化長期獎勵

1.2 RL 在 AI 對齊中的角色

傳統訓練流程(純 SFT):
  人類寫示範 ──▶ MLE 損失 ──▶ 模型複製行為
  問題:模型學的是「平均人類行為」,非「最優人類行為」

RLHF 訓練流程:
  人類比較偏好 ──▶ 獎勵模型 ──▶ PPO 最大化獎勵
  優勢:模型學的是「人類偏好的方向」,能超越示範品質

InstructGPT(ChatGPT 前身)論文的核心數字:

  • 1.3B RLHF 模型 vs 175B SFT 模型:人類偏好 RLHF 模型勝出 ~85% 的時間
  • 代表強化學習讓 100 倍小的模型贏過純監督訓練的大模型

二、三個演進階段(POC/MVP/Scale)

╔══ Phase 1:POC / < 1K 對話樣本 ══╗

目標: 驗證 RL 對齊信號是否有效

┌─────────────────────────────────────────────────────┐
│  Phase 1 架構:最小 RLHF                             │
│                                                     │
│  ┌──────────┐    SFT     ┌──────────────┐           │
│  │  Base LM  │──────────▶│  SFT Model   │           │
│  │ (7B Llama)│           │  (凍結參考)   │           │
│  └──────────┘           └──────┬───────┘           │
│                                │                   │
│  人工標注 500 對       ┌────────▼────────┐           │
│  偏好比較對            │  Reward Model  │           │
│  ──────────────────▶  │  (Bradley-Terry│           │
│                        │   1B params)  │           │
│                        └────────┬──────┘           │
│                                 │ 獎勵訊號           │
│                        ┌────────▼──────┐            │
│                        │  PPO 訓練     │            │
│                        │  (KL 約束)    │            │
│                        └───────────────┘            │
└─────────────────────────────────────────────────────┘
  • 新增元件: 500–1K 偏好對、Bradley-Terry RM、基礎 PPO 迴圈
  • 成本: 標注 ~$2,500–5,000;GPU 訓練 ~$500/run
  • 能解決: 驗證 RM 相關性(Spearman ρ > 0.6 即合格)
  • 未解決: RM 過擬合、PPO 不穩定、評估指標不清晰

╔══ Phase 2:MVP / 1K–50K 對話樣本 ══╗

目標: 建立可重複、可評估的對齊訓練流水線

┌──────────────────────────────────────────────────────────┐
│  Phase 2 架構:生產就緒 RLHF                              │
│                                                          │
│  ┌──────────┐   SFT微調   ┌────────────────┐             │
│  │ Base LM  │────────────▶│ SFT Policy π₀  │◀──┐        │
│  │ (13B)    │             │ (作為 ref 凍結) │   │KL 懲罰  │
│  └──────────┘             └────────────────┘   │        │
│                                                │        │
│  ┌──────────────────────┐  ┌──────────────────┐│        │
│  │  Preference Dataset  │  │  Reward Model    ││        │
│  │  (10K 人工 + 40K 合成)│─▶│  (6B DeBERTa)   ││        │
│  └──────────────────────┘  └────────┬─────────┘│        │
│                                     │ r(s,a)   │        │
│  ┌──────────────────────────────────▼──────────┐│        │
│  │  PPO Trainer                                ││        │
│  │  - clip ε = 0.2                             ││        │
│  │  - KL coeff β = 0.05                        ││        │
│  │  - value loss coeff = 0.1                   ││        │
│  └─────────────────────────────────────────────┘│        │
│                                                 └────────┘
│  評估:WinRate vs SFT baseline(目標 > 60%)              │
└──────────────────────────────────────────────────────────┘
  • 新增元件: 合成偏好資料生成、多維 RM(helpfulness/harmless/honest)、自動評估流水線
  • 成本: 標注 ~$50K;GPU 訓練 ~$5K/run;每週跑 2–3 次迭代
  • 能解決: 基礎對齊、有害輸出減少 ~70%
  • 未解決: RM 獎勵黑客攻擊、大規模分散式訓練

╔══ Phase 3:Scale / 50K+ 樣本,企業級 ══╗

目標: 持續對齊、多語言、抗獎勵黑客

┌──────────────────────────────────────────────────────────────┐
│  Phase 3 架構:企業級對齊系統                                  │
│                                                              │
│  資料飛輪                      訓練叢集                        │
│  ┌────────────────┐           ┌───────────────────────┐      │
│  │ 線上用戶反饋    │           │  分散式 PPO             │      │
│  │ (隱式信號)      │──────────▶│  - 4×8 A100 nodes     │      │
│  │ 點讚/重新生成   │           │  - Megatron 張量並行   │      │
│  └────────────────┘           │  - Gradient checkpoint│      │
│                               └──────────┬────────────┘      │
│  ┌────────────────┐                      │                   │
│  │ Constitutional │           ┌──────────▼────────────┐      │
│  │ AI 過濾         │──────────▶│  多頭 Reward Model    │      │
│  │ (自動有害檢測)  │           │  - Helpfulness head   │      │
│  └────────────────┘           │  - Harmless head      │      │
│                               │  - Honesty head       │      │
│  ┌────────────────┐           └──────────┬────────────┘      │
│  │ DPO / IPO      │                      │                   │
│  │ 替代方案         │◀─────────────────────┘                   │
│  │ (無 RM 訓練)    │           定期 A/B 評估                    │
│  └────────────────┘           WinRate 目標 > 75%              │
└──────────────────────────────────────────────────────────────┘
  • 新增元件: 線上偏好資料飛輪、Constitutional AI 自動過濾、DPO 替代路徑、多節點分散式訓練
  • 成本: 標注 ~$200K+;GPU 訓練 ~$50K–200K/run
  • 能解決: 全場景對齊、獎勵黑客防禦、持續改進
  • 未解決: 長期價值對齊、文化差異對齊

三、MDP 框架:狀態/動作/獎勵/策略

3.1 Markov Decision Process 核心定義

強化學習的數學基礎是 MDP,定義為五元組 (S, A, P, R, γ)

元素符號LLM 對應
狀態空間S對話歷史 + 已生成 token 序列
動作空間A詞彙表中下一個 token(~50K 種選擇)
轉移函數P(s’|s,a)確定性(生成 token 後狀態確定更新)
獎勵函數R(s,a)獎勵模型評分(只在序列結尾給出)
折扣因子γ通常設 0.99(RLHF 中常設 1.0)
LLM 生成的 MDP 視角:

時間步 t:
  s_t = [prompt, token_1, ..., token_{t-1}]
  a_t = token_t  ∈ 詞彙表(50,257 種)
  s_{t+1} = [prompt, token_1, ..., token_t]
  r_t = 0(中間步驟)
  r_T = RM(完整回答)(僅在序列結束時)

目標:最大化 E[Σ r_t] = E[RM(完整生成序列)]

3.2 策略(Policy)的定義

策略 π(a|s) 是在狀態 s 下採取動作 a 的條件概率:

  • 確定性策略: π(s) = argmax_a Q(s,a)(貪婪選擇)
  • 隨機策略: π(a|s) = softmax(logits)(LLM 的本質)
  • 最優策略: π* = argmax_π E_π[Σ γ^t r_t]

3.3 值函數與優勢函數

V^π(s) = E_π[Σ_{t≥0} γ^t r_{t+k} | s_0 = s]
         → 從狀態 s 出發,遵循策略 π 的期望累積獎勵

Q^π(s,a) = E_π[Σ_{t≥0} γ^t r_t | s_0=s, a_0=a]
           → 在狀態 s 執行動作 a 後,遵循 π 的期望累積獎勵

A^π(s,a) = Q^π(s,a) - V^π(s)
           → 優勢函數:動作 a 比平均策略好多少
           → A > 0:增加這個動作的概率
           → A < 0:降低這個動作的概率

四、Value-based:Q-Learning 到 DQN

4.1 Q-Learning 核心更新規則

Bellman 最優方程:
Q*(s,a) = R(s,a) + γ · max_{a'} Q*(s', a')

Q-Learning 更新(off-policy TD):
Q(s,a) ← Q(s,a) + α · [r + γ·max_{a'} Q(s',a') - Q(s,a)]
          ────────────────────────────────────────────────
                         TD error (δ)

超參數含義:

  • α(學習率)= 0.001:每次更新的步長
  • γ(折扣)= 0.99:未來獎勵的重要性(0=短視,1=遠見)
  • ε(探索)= 0.1:ε-greedy 中隨機探索的比例

4.2 DQN:神經網路近似 Q 函數

┌─────────────────────────────────────────────────────┐
│  DQN 訓練流程                                        │
│                                                     │
│  環境                                               │
│  ┌──────┐  s_t  ┌────────────┐  a_t  ┌──────────┐  │
│  │      │──────▶│  Q-Network │──────▶│          │  │
│  │ Atari│       │  (CNN+FC)  │       │  環境    │  │
│  │ Game │◀──────│            │◀──────│  Simulator│ │
│  └──────┘  r,s' └────────────┘       └──────────┘  │
│                      │  TD error                   │
│                      ▼                             │
│  ┌────────────────────────────────────┐            │
│  │  Experience Replay Buffer           │            │
│  │  (最近 1M transitions)              │            │
│  │  防止相關性 → 穩定訓練               │            │
│  └────────────────────────────────────┘            │
│                      │  隨機採樣 mini-batch          │
│                      ▼                             │
│  ┌────────────────────────────────────┐            │
│  │  Target Network(每 10K 步同步)    │            │
│  │  y_t = r_t + γ·max Q_target(s',a') │            │
│  │  Loss = MSE(Q(s,a), y_t)           │            │
│  └────────────────────────────────────┘            │
└─────────────────────────────────────────────────────┘

DQN 的兩個關鍵創新:

  1. Experience Replay:打破時間相關性,重複利用歷史資料
  2. Target Network:固定目標值,防止訓練目標劇烈抖動

DQN 的根本限制(為何 LLM 對齊不用它):

  • 動作空間離散且有限(Atari:18 個按鍵)
  • LLM 動作空間 = 詞彙表大小 ~50K,Q-table 無法擴展
  • → 必須使用 Policy Gradient 方法

五、Policy-based:REINFORCE / Actor-Critic / PPO

5.1 REINFORCE:最原始的策略梯度

策略梯度定理:

∇_θ J(π_θ) = E_π [∇_θ log π_θ(a|s) · G_t]

其中 G_t = Σ_{k=0}^{T-t} γ^k · r_{t+k}(從 t 步起的累積回報)

直覺:
  - 如果一條軌跡的回報 G_t 高 → 增加沿途所有動作的概率
  - 如果 G_t 低 → 降低沿途所有動作的概率
  - ∇_θ log π_θ(a|s):log-trick,避免計算狀態邊際分佈

REINFORCE 的問題:

  • 方差極高(單條軌跡的 G_t 波動很大)
  • 樣本效率極低(on-policy,每條資料只用一次)
  • 收斂慢:Atari 通常需要 >10M 步

5.2 Actor-Critic:引入值函數降低方差

Actor  : π_θ(a|s)   → 選擇動作(策略網路)
Critic : V_φ(s)     → 估計狀態值(值函數網路)

優勢估計(Advantage):
  Â_t = r_t + γ·V_φ(s_{t+1}) - V_φ(s_t)
      = TD error

Actor 更新:
  ∇_θ J = E[∇_θ log π_θ(a_t|s_t) · Â_t]

Critic 更新:
  L_V = E[(r_t + γ·V_φ(s_{t+1}) - V_φ(s_t))²]

優點:Â_t 的方差 << G_t 的方差(減去 baseline)

5.3 PPO:RLHF 的核心演算法

PPO(Proximal Policy Optimization)解決了 Actor-Critic 的訓練不穩定問題。

核心思想: 每次策略更新不能「走太遠」,用 clip 機制強制約束。

PPO 目標函數:

ratio_t = π_θ(a_t|s_t) / π_θ_old(a_t|s_t)
         (新策略 vs 舊策略的概率比)

L_CLIP = E_t [min(
    ratio_t · Â_t,
    clip(ratio_t, 1-ε, 1+ε) · Â_t
)]

其中 ε = 0.2(預設值,OpenAI 論文設定)

完整 PPO 損失:
L_total = -L_CLIP + c₁·L_VF - c₂·H[π_θ]
  L_VF:值函數損失(c₁=0.5)
  H[π_θ]:熵正則化,鼓勵探索(c₂=0.01)

clip 機制的直覺:

情況 1:Â_t > 0(這個動作是好的,應該增加概率)
  ratio_t > 1+ε → clip 截斷,防止過度增加
  ratio_t ≤ 1+ε → 正常梯度更新

情況 2:Â_t < 0(這個動作是壞的,應該降低概率)
  ratio_t < 1-ε → clip 截斷,防止過度懲罰
  ratio_t ≥ 1-ε → 正常梯度更新

效果:策略每步最多移動 ε=0.2 的範圍(20%概率比變化)

六、RLHF 完整流程:SFT → RM → PPO

6.1 三階段流水線

┌──────────────────────────────────────────────────────────────┐
│  RLHF 完整訓練流水線                                           │
│                                                              │
│  ┌─────────────────────────────────────────────────────────┐ │
│  │  Stage 1:Supervised Fine-Tuning (SFT)                  │ │
│  │                                                         │ │
│  │  高品質示範資料 (10K–100K 對話)                            │ │
│  │  ──────────────────────────────▶  π_SFT                 │ │
│  │  MLE:minimize -log P(y|x)                              │ │
│  │  結果:模型會遵循指令,但不保證最優                          │ │
│  └─────────────────────────────────────────────────────────┘ │
│                           │                                  │
│                           ▼                                  │
│  ┌─────────────────────────────────────────────────────────┐ │
│  │  Stage 2:Reward Model Training                         │ │
│  │                                                         │ │
│  │  同一 prompt 生成 2–4 個回答                               │ │
│  │  人工標注偏好:y_w ≻ y_l(w=winner, l=loser)              │ │
│  │                                                         │ │
│  │  Bradley-Terry 模型:                                    │ │
│  │  P(y_w ≻ y_l) = σ(r_θ(x,y_w) - r_θ(x,y_l))            │ │
│  │                                                         │ │
│  │  RM 損失:                                               │ │
│  │  L_RM = -E[log σ(r_θ(x,y_w) - r_θ(x,y_l))]            │ │
│  │                                                         │ │
│  │  評估:測試集上 Accuracy > 70% 才進入下一階段               │ │
│  └─────────────────────────────────────────────────────────┘ │
│                           │                                  │
│                           ▼                                  │
│  ┌─────────────────────────────────────────────────────────┐ │
│  │  Stage 3:PPO Fine-Tuning                               │ │
│  │                                                         │ │
│  │  ┌──────────┐  生成回答  ┌──────────┐  獎勵   ┌───────┐ │ │
│  │  │ Policy   │──────────▶│  RM      │────────▶│  PPO  │ │ │
│  │  │ π_θ      │           │ r_θ(x,y) │         │Trainer│ │ │
│  │  └──────────┘           └──────────┘         └───┬───┘ │ │
│  │       ▲                                          │     │ │
│  │       │              KL 懲罰項                    │     │ │
│  │  ┌────┴─────┐   r = r_RM - β·KL(π_θ ‖ π_SFT)   │     │ │
│  │  │ π_SFT    │◀──────────────────────────────────┘     │ │
│  │  │ (凍結)   │   β = 0.05(防止遠離 SFT 分佈)            │ │
│  │  └──────────┘                                         │ │
│  │                                                         │ │
│  │  總獎勵 = r_RM(x,y) - β·KL(π_θ(y|x) ‖ π_SFT(y|x))    │ │
│  └─────────────────────────────────────────────────────────┘ │
└──────────────────────────────────────────────────────────────┘

6.2 KL 懲罰的作用

KL 散度項 β·KL(π_θ ‖ π_SFT) 的三個功能:

  1. 防止獎勵黑客(Reward Hacking): 模型若只最大化 RM 分數,會生成聽起來好但實際無意義的文字
  2. 保留語言能力: 不讓模型遺忘 SFT 學到的基本指令遵循能力
  3. 控制漂移速度: β 越大 = 更保守;β = 0 = 完全不受限

β 的調校經驗:

  • β < 0.01:RM 分數高但 KL 爆炸,模型退化
  • β = 0.05:InstructGPT 論文推薦值
  • β > 0.2:更新過慢,RLHF 效果微弱

七、DPO:無需獎勵模型的替代方案

7.1 DPO 的核心洞見

DPO(Direct Preference Optimization)發現:RLHF 中的最優策略有閉合解,可以直接繞過 RM 訓練。

RLHF 最優解:
  π*(y|x) ∝ π_SFT(y|x) · exp(r*(x,y) / β)

反推 r*(x,y):
  r*(x,y) = β · log [π*(y|x) / π_SFT(y|x)] + β·log Z(x)

代入 Bradley-Terry 模型並化簡:

DPO 損失(直接對偏好資料訓練):
L_DPO = -E_{(x,y_w,y_l)} [
    log σ(
        β · log [π_θ(y_w|x) / π_SFT(y_w|x)]
      - β · log [π_θ(y_l|x) / π_SFT(y_l|x)]
    )
]

7.2 DPO vs RLHF 工程對比

維度RLHF (PPO)DPO
訓練複雜度高(4個模型同時運行)低(只需 2 個模型)
GPU 記憶體~4× Policy 大小~2× Policy 大小
訓練穩定性需仔細調校 β, ε相對穩定
效果(7B 模型)WinRate 基準通常 -3%–+5% vs PPO
線上學習支援(生成新資料)不支援(離線資料)
偏好資料需求可迭代收集必須事先準備

DPO 的核心限制: 它是「離線」方法——無法在訓練中生成新的探索資料,在分佈外 prompt 上的泛化較弱。


八、為什麼選 X 不選 Y

決策 1:PPO vs REINFORCE

選擇          選 PPO 的理由                    不選 REINFORCE 的理由
──────────────────────────────────────────────────────────────────
訓練穩定性    clip ε=0.2 防止策略劇烈偏移         REINFORCE 方差極高,常發散
樣本效率      mini-epoch 重複利用同批資料          REINFORCE 每條資料只用一次
收斂速度      OpenAI Atari 實驗:PPO 快 3-10×     REINFORCE 需要 >10M 步
LLM 適配性    與 Actor-Critic 架構完整整合         純 REINFORCE 無值函數

Flip condition:如果序列極短(< 20 token)且獎勵稠密,
REINFORCE 實現簡單且效果差距不大。

決策 2:RLHF vs 純 SFT

選擇          選 RLHF 的理由                   不選純 SFT 的理由
──────────────────────────────────────────────────────────────────
對齊品質      WinRate +35%(InstructGPT 論文)  SFT 學「平均行為」非最優
資料效率      500 偏好對 > 10K 示範的對齊效果    示範資料昂貴($5–50/條)
泛化能力      RL 可探索比示範更好的回答           SFT 被示範資料上界限制
可迭代性      線上持續收集偏好信號               SFT 資料收集一次性

Flip condition:對話輪次少、領域窄(如 SQL 生成)、
預算 < $10K 的場景,純 SFT 成本效益更高。

決策 3:DPO vs PPO

選擇          選 DPO 的理由                    選 PPO 的理由
──────────────────────────────────────────────────────────────────
工程複雜度    只需 2 個模型(省 50% GPU)         4 個模型但效果更穩
線上學習      不需要(離線訓練)                  支援主動探索
資料需求      現有偏好資料即可                   可持續收集新偏好
適用場景      快速迭代、資料已足夠                產品級、需持續改進

Flip condition:當偏好資料 > 50K 且可定期更新,
PPO 的長期效果通常超越 DPO。

決策 4:KL 懲罰 vs 無約束 RL

選擇          加 KL 懲罰的理由                 不加的問題
──────────────────────────────────────────────────────────────────
獎勵黑客防禦  防止模型生成「胡言亂語但 RM 高分」   RM 會被過度利用,輸出退化
語言能力保留  保持 SFT 學到的指令遵循能力          模型快速忘記基礎能力
訓練穩定性    KL 項作為正則,防止策略震盪           無約束 PPO 常在 1K 步後崩潰
人類評估      有 KL WinRate +35% vs SFT baseline  無 KL 常退化至低於 SFT

Flip condition:β > 0.3 時 KL 懲罰太強,RLHF 效果接近 SFT,
若需要更激進的風格改變,應降低 β 或用 Constitutional AI。

決策 5:單頭 RM vs 多頭 RM

選擇          多頭 RM 的理由                   單頭 RM 的理由
──────────────────────────────────────────────────────────────────
對齊維度      分別優化 helpful/harmless/honest   簡單,一個分數足夠
獎勵權衡      可動態調整各維度權重               不同維度可能衝突但無法分解
診斷能力      哪個維度差可清楚分析               黑箱,難以定向改進
工程成本      標注成本 3×,訓練複雜              快速驗證,Phase 1/2 適用

Flip condition:Phase 1 POC 階段、資源有限時,
單頭 RM 夠用;規模化後再升級多頭。

決策 6:Bradley-Terry RM vs 回歸式 RM

選擇          Bradley-Terry 的理由              回歸式 RM 的理由
──────────────────────────────────────────────────────────────────
標注成本      只需比較好壞(比較容易)             需要給出具體分數(難以校準)
理論基礎      有成熟的偏好學習理論支撐             無法保證跨 prompt 的分數可比性
業界採用率    InstructGPT/Llama2 均採用           少見於主流 RLHF 實作
擴展性        K 個候選只需 C(K,2) 次比較          K 個候選需 K 次獨立評分

Flip condition:若有大量絕對品質標注資料(如考試題目答案),
回歸式 RM 可直接利用;純對話對齊優先 Bradley-Terry。

九、系統效應:RLHF 前後對比

9.1 量化對齊改善

指標SFT BaselineRLHF 後改善幅度
人類偏好 WinRate50%(基準)68–85%+18–35%
有害輸出率~15%~4.5%-70%
拒絕有益請求(over-refusal)~3%~1.2%-60%
回應長度合適率~65%~82%+26%
事實性(TruthfulQA)~40%~57%+43%
指令遵循準確率~72%~89%+24%

9.2 訓練成本 vs 效益

規模RLHF 資料成本訓練 GPU 成本WinRate 提升
POC(500 偏好對)~$2,500~$500+10–15%
MVP(10K 偏好對)~$50,000~$5,000+20–30%
Scale(100K 偏好對)~$500,000~$50,000+30–40%

邊際收益遞減: 偏好資料從 1K→10K 的改善最顯著;10K→100K 改善放緩;100K 以上需要配合模型擴大或架構改進。

9.3 失敗模式與數字

失敗類型觸發條件症狀緩解措施
獎勵黑客β < 0.01 或 RM 訓練資料不足輸出重複詞、格式奇怪但 RM 高分增大 β,擴充 RM 資料
模式崩潰探索不足(熵係數 c₂ = 0)所有回答變得相似增加熵正則 c₂ = 0.01–0.05
KL 爆炸β 過小 + 學習率過大KL > 20 nats,訓練發散降低 lr,增大 β
遺忘(Forgetting)PPO 跑太多輪基礎指令遵循能力下降混入 SFT 資料,限制 PPO epoch

十、面試答題要點

面試官問: 你的 SFT 模型用戶反映有時給出危險建議、過度冗長、迴避有用資訊,你如何在六週內設計對齊訓練流程?

「我會採用三階段 RLHF 流程。第一週收集 500–1000 對偏好標注資料,涵蓋 helpful/harmless/honest 三個維度,訓練 Bradley-Terry 獎勵模型,測試集準確率達到 70% 以上才進入下一步。第二到三週用 PPO 進行策略優化,關鍵超參數設定 clip ε=0.2、KL 懲罰 β=0.05,後者防止模型為刷高 RM 分數而輸出無意義內容——業界稱為 Reward Hacking。第四到五週建立自動評估流水線,每次訓練後跑 WinRate 測試,目標是相較 SFT baseline 提升 20% 以上;若六週後預算有限或想快速驗證,可以改用 DPO 省去 RM 訓練步驟,用同樣的偏好資料直接訓練,GPU 需求降低 50%,但需接受無法線上持續改進的限制。最終評估用多維指標:WinRate、有害輸出率、TruthfulQA 準確率,而非只看 RM 分數。」


十一、系列導航

← 上一篇: Phase 8 Part 2:分散式訓練與混合精度

→ 下一篇: Phase 9 Part 2:PPO 實作與 RLHF 工程細節


本文為「AI 工程從零開始」系列第 Phase 9 第 1 篇,聚焦強化學習基礎理論與 RLHF 工程實踐。系列完整索引請見 Phase 1 總覽

Yen

Yen

Yen