All | YennJ12 Engineering Blog

Part 15 — FDE 面試準備指南（十五）：RKK 實戰——AI Agent 規模化與 Cache 策略

以系統設計視角拆解 AI Agent 的規模化挑戰：為什麼 LLM 系統的擴展和傳統 Web 不同、三層 Cache 各解決什麼問題、Stateful Agent 怎麼做水平擴展——含完整架構圖與成本估算框架

Jun 3, 2026 ·16 min

Part 16 — AI 工程從零開始｜Phase 8 Part 1：擴散模型 — 從雜訊到藝術的數學

深入解析擴散模型工程原理：DDPM/DDIM 前向與反向過程、Stable Diffusion 潛在空間架構、ControlNet/LoRA 微調、生產推論優化

Jun 21, 2026 ·23 min

Part 16 — FDE core topic - TTFT & Throughput Optimization：首字延遲與推理吞吐量的硬體級優化

深入解析 LLM 推理服務的兩大核心指標——首字時間（TTFT）與每秒 Token 吞吐量——以及 Quantization、Continuous Batching、PagedAttention、Speculative Decoding、Flash Attention 五大硬體級優化技術的原理與取捨。

Jun 8, 2026 ·18 min

Part 16 — FDE 面試準備指南（十六）：RKK 實戰——Multi-Agent 狀態管理與死鎖排除

以系統設計視角拆解 Multi-Agent 的狀態管理與死鎖問題：為什麼階層式授權架構會產生死循環、State Reducer 的設計原理、分散式 Checkpoint 策略，以及如何在 LangGraph 中設計收斂的 Agent 圖

Jun 4, 2026 ·18 min

Part 17 — AI 工程從零開始｜Phase 8 Part 2：GAN 與影片生成 — 對抗的藝術

深入解析 GAN 訓練動態、StyleGAN/CycleGAN 架構、影片生成系統設計，以及 GAN vs 擴散模型的工程選型決策

Jun 21, 2026 ·20 min

Part 17 — FDE core topic - Context Cache Eviction：硬體級上下文快取驅逐策略與計費陷阱

深入解析 Vertex AI Context Caching 的 KV 快取原理、三層驅逐架構設計，以及如何避免每小時 $4.50 的隱性計費陷阱。

Jun 8, 2026 ·18 min

Part 17 — FDE 面試準備指南（十七）：RKK 實戰——MCP 伺服器、Tool-Calling 安全與 OAuth 授權

以系統設計視角拆解 MCP（Model Context Protocol）的安全邊界：Agent 的工具授權架構、Human-in-the-loop OAuth 流程、Tool Input Validation 防禦層，以及如何防止 Tool Injection 攻擊

Jun 4, 2026 ·17 min

Part 18 — AI 工程從零開始｜Phase 9：強化學習基礎 — RLHF 與遊戲 AI 的根基

深入解析強化學習工程原理：MDP/Q-Learning/Policy Gradient/PPO/RLHF，理解 ChatGPT 背後的對齊訓練機制

Jun 21, 2026 ·23 min

Part 18 — FDE core topic - Semantic Model Routing：置信度熵值驅動的智能模型分流

深入解析如何以 Shannon 熵值即時偵測模型不確定性，動態將查詢路由至最便宜的可行模型，實現隱私保護與 74% 成本節省的生產架構。

Jun 8, 2026 ·18 min

Part 18 — FDE 面試準備指南（十八）：RKK 實戰——三層記憶體架構與 LLM 成本調優

以系統設計視角拆解企業級 Agent 的三層記憶體設計：Working Memory 成本控制、Semantic Long-term Memory 的異步壓縮流程、Profile Memory 的結構化提取——以及每個設計決策背後的成本與延遲 trade-off

Jun 4, 2026 ·16 min

Part 19 — AI 工程從零開始｜Phase 10 Part 1：從頭構建 LLM — Tokenization 的工程藝術

深入解析 LLM Tokenization：BPE/WordPiece/SentencePiece 演算法、詞彙表大小的工程取捨、多語言 Token 效率與 Tiktoken 生產實作

Jun 21, 2026 ·20 min

Part 19 — FDE core topic - LLM-as-Judge & Bias Mitigation：大規模自動評估與裁判偏見消除

深入解析如何用大型語言模型作為自動化品質裁判，並透過隨機排序、CoT 推理、分層抽樣等技術系統性消除裁判偏見，以 1% 的成本達到 80% 人工評估品質。

Jun 8, 2026 ·18 min

Part 19 — FDE 面試準備指南（十九）：RKK 實戰——Multi-Agent 系統的統計評估與細粒度追蹤

以系統設計視角拆解 Multi-Agent 系統的 Observability 架構：為什麼多 Agent 的評估比 RAG 複雜一個量級、Granular Tracing 的設計原理、Trajectory Evaluation 方法，以及如何找出是哪個 Agent 拖累了整體表現

Jun 4, 2026 ·16 min

Part 20 — AI 工程從零開始｜Phase 10 Part 2：LLM 預訓練 — 萬億 Token 的工程挑戰

深入解析 LLM 預訓練工程：資料清洗管線、Scaling Laws、分散式訓練（DP/TP/PP）、梯度累積與 Chinchilla 最優計算分配

Jun 21, 2026 ·23 min

Part 20 — FDE core topic - RAG Triad Metrics：上下文相關度、忠實度與答案相關度的可觀測性追蹤

深入解析 RAG 系統三大評估指標——Context Relevance、Groundedness、Answer Relevance——以及如何透過 OpenTelemetry 與 Grafana 建立生產級可觀測性追蹤管道。

Jun 8, 2026 ·18 min

Part 20 — FDE 面試準備指南（二十）：RKK 實戰——間接 Prompt Injection 與 Dual-LLM 防禦架構

以系統設計視角拆解間接 Prompt Injection（Indirect Prompt Injection）的攻擊原理與 Dual-LLM 防禦模式：為什麼權限隔離比 Pattern Matching 更根本、Trust Level 分層設計、以及零信任 AI 架構的工程實踐

Jun 4, 2026 ·15 min

Part 21 — AI 工程從零開始｜Phase 10 Part 3：LLM 微調 — LoRA、QLoRA 與指令對齊

深入解析 LLM 微調策略：LoRA/QLoRA 低秩分解原理、SFT 指令資料品質、PEFT 家族比較、微調陷阱與生產部署的工程決策

Jun 21, 2026 ·23 min

Part 21 — FDE core topic - Discovery to Technical Constraints：顧問工程師的高階探索問法

掌握將模糊客戶需求轉化為精確技術規格的 SCALE 探索框架，透過 5 個關鍵問題節省 5 週無效開發，以約束矩陣驅動架構決策，是 FDE 面試中判斷顧問成熟度的核心指標。

Jun 8, 2026 ·18 min

Part 21 — FDE 面試準備指南（二十一）：RKK 實戰——長任務 Agent 的異步分散式架構

以系統設計視角拆解需要執行 30~60 分鐘的 Agent 任務：為什麼不能讓用戶等 HTTP Response、解耦架構的設計原理、Checkpoint 斷點續傳機制，以及 GCP 上的具體落地方案

Jun 4, 2026 ·17 min

Part 22 — AI 工程從零開始｜Phase 11 Part 1：LLM 推論工程 — 從實驗到每秒千次請求

深入解析 LLM 生產推論：vLLM PagedAttention、連續批次、投機解碼、量化（GPTQ/AWQ/INT4）、推論成本優化與 SLA 設計

Jun 21, 2026 ·23 min

Part 22 — FDE core topic - Structured Troubleshooting：自上而下分層排錯與 AI 系統觀測方法論

系統化分層排錯方法論：從用戶症狀出發，逐層消除 AI Agent 系統故障根因，涵蓋 API Gateway、Orchestration、Tool APIs、Model Quota 四層診斷策略與 OpenTelemetry 實作。

Jun 8, 2026 ·18 min

Part 22 — FDE 面試準備指南（二十二）：RKK 實戰——動態並行 Tool-Calling 與依賴解析引擎

以系統設計視角拆解 Multi-Tool 並行執行架構：為什麼順序執行是延遲瓶頸、DAG 依賴解析引擎的設計原理、動態並行 vs 靜態並行的 trade-off，以及 Google ADK Tool Registry 的落地方案

Jun 4, 2026 ·16 min

Part 23 — AI 工程從零開始｜Phase 11 Part 2：RAG 系統與 LLM 評估 — 生產落地的最後一哩

深入解析 RAG 架構設計：向量資料庫選型、Hybrid Search、Re-ranking、Chunking 策略，以及 LLM 評估框架：RAGAS/G-Eval/LLM-as-Judge

Jun 21, 2026 ·23 min

Part 23 — FDE core topic - Stakeholder Mapping：利害關係人圖譜與決策影響力分析

深入解析企業 AI 專案中的利害關係人分類、影響力圖譜建構與針對性溝通策略，避免技術上完美的提案在最後一刻被隱形阻擋者否決。

Jun 8, 2026 ·18 min

Part 23 — FDE 面試準備指南（二十三）：RKK 實戰——多租戶 Agent 的限流、Fair-Share 與 Token 預算控制

以系統設計視角拆解多租戶 AI Agent 系統的資源隔離問題：為什麼傳統 RPM 限流不夠、Token-Aware Rate Limiting 的設計原理、分散式令牌桶架構，以及如何防止 Noisy Neighbor Effect 影響其他租戶

Jun 4, 2026 ·16 min