FDE 面試準備指南（四十）：RKK 實戰——AI 系統的 PII 保護：假名化設計、最小存取原則與合規稽核

June 8, 2026 • 23 min read • Yen

AI FDE Security Privacy PII RBAC Compliance Anonymization RKK Interview Cloud

傳統系統的 PII：存在資料庫，加密，控制誰能查。
AI 系統的 PII：流進 Prompt，流進 LLM，流進 Log，流進 Vector Index。
每一個流動的路徑，都是洩漏的可能。
問題不是「有沒有加密」，而是「PII 根本不應該出現在那裡」。

面試情境

面試官：「客戶是一家醫院，想建一個 AI 助手幫助醫護人員查詢病患病歷和用藥記錄。病患資料是最敏感的個人資訊。你作為架構師，如何設計這個系統確保 PII 不會洩漏？請說明你的設計決策和 trade-off。」

一、為什麼 AI 系統的 PII 比傳統系統更難控制

傳統資料庫系統的 PII 流動路徑（有限、可審計）：

  Application → DB（加密）→ 取回資料 → 顯示給用戶
  PII 節點：1 個（DB）

AI 系統的 PII 流動路徑（多節點、難以控制）：

  醫護查詢：「李先生今天的血糖值？」
         │
         ▼（節點 1：Prompt 組裝）
  Agent Context = System Prompt + Query + Retrieved Docs + History
                                  ↑含 PII     ↑含 PII    ↑含 PII
         │
         ▼（節點 2：LLM API 傳輸）
  LLM API Call（PII 被傳送到外部服務）
         │
         ▼（節點 3：LLM 輸出）
  Response（PII 出現在輸出文字中）
         │
         ├──→（節點 4）Application Log（PII 可能被完整記錄）
         ├──→（節點 5）Trace Span Attributes（PII 可能在 Debug 資訊）
         ├──→（節點 6）Conversation History DB（PII 持久化）
         └──→（節點 7）Vector Index（病患姓名被 Embedding 進向量空間）

傳統系統：保護 1 個節點
AI 系統：需要保護 7 個節點，每個節點的保護方式不同

核心結論：
  加密不夠。加密是傳輸和儲存的保護，
  但 PII 在流進 LLM 的那一刻，加密已經被解開了。
  真正的保護是：讓 PII 不需要以明文形式流入不必要的節點。

二、三個安全強化階段

╔══════════════════════════════════════════════════════════════╗
║  Phase 1：POC / 概念驗證                                      ║
║  策略：基本防護，確保不發生重大事故                              ║
╚══════════════════════════════════════════════════════════════╝

  必做項目：
  ├── TLS 1.3（所有 API 傳輸加密）
  ├── 基本 RBAC（不同角色看不同資料）
  ├── 不記錄 Query 原文到 Log（改記錄分類標籤）
  └── Secret Manager 管理憑證（不在代碼裡硬寫密碼）

  可接受的妥協：
  ├── PII 仍以明文傳入 LLM（POC 階段可接受，後期必須改）
  └── 無正式稽核日誌（改為一般 Application Log）

  安全等級：能防止意外洩漏，但不能防止系統性攻擊
  適合用途：內部 Demo、概念驗證

╔══════════════════════════════════════════════════════════════╗
║  Phase 2：MVP / 生產試點                                      ║
║  策略：假名化 + 正式稽核 + 加密金鑰控制                          ║
╚══════════════════════════════════════════════════════════════╝

  必做項目（在 Phase 1 基礎上新增）：
  ├── PII Scrubber（假名化）：PII 在傳入 LLM 前替換為 Token
  ├── 稽核日誌（Audit Log）：記錄誰存取了誰的什麼資料
  ├── CMEK（客戶管理加密金鑰）：客戶掌控 DB 和 Storage 的加密金鑰
  ├── Vector DB 強制 Filter：Retrieval 層強制病患 ID 過濾
  └── Log Sanitizer：所有 Log 過濾 PII 後再寫入

  安全等級：能防止 LLM API 洩漏、Log 洩漏、跨病患存取
  適合用途：正式上線，有真實病患資料

╔══════════════════════════════════════════════════════════════╗
║  Phase 3：Enterprise / 高合規要求                             ║
║  策略：私有部署 + 零信任 + 即時輸出掃描 + 合規認證               ║
╚══════════════════════════════════════════════════════════════╝

  必做項目（在 Phase 2 基礎上新增）：
  ├── 私有部署 LLM（資料不離開醫院網路，不需要 BAA）
  ├── Zero-trust 網路架構（所有服務間通訊都需要 mTLS）
  ├── 即時 LLM 輸出 PII 掃描（防止 Cross-patient Leakage）
  ├── 加密金鑰輪換（定期輪換，減少金鑰洩漏的影響範圍）
  └── 合規認證（HIPAA / GDPR / 台灣 PDPA 第三方審計）

  安全等級：符合醫療等最高合規要求
  適合用途：上市醫院、跨國醫療集團、政府醫療系統

三、PII 分類與敏感度矩陣

AI 醫療系統的 PII 分類（依敏感度排序）：

  敏感度    PII 類型                  保護要求              洩漏後果
  ──────────────────────────────────────────────────────────────────
  極高      診斷記錄（HIV、精神科）   私有部署或 BAA + 加密  違法 + 鉅額罰款
            基因資料                  完整稽核追蹤
  ──────────────────────────────────────────────────────────────────
  高        用藥記錄                  假名化 + CMEK          法律責任 + 罰款
            病歷（一般）              稽核日誌
            身份證號
  ──────────────────────────────────────────────────────────────────
  中        姓名 + 生日組合           假名化                  聲譽損害
            聯絡方式                  Log 過濾
  ──────────────────────────────────────────────────────────────────
  低        匿名的統計資料            標準 DB 加密            影響有限
            去識別化後的病例          無需特殊保護
  ──────────────────────────────────────────────────────────────────

PII 偵測技術選擇（依精確度需求）：

  技術              精確度    速度      適合的 PII 類型
  ──────────────────────────────────────────────────────────────
  Regex             高精確    極快      格式固定：身份證（A123456789）、
                    低召回    < 1ms     手機（09XX-XXXXXX）、Email
  ──────────────────────────────────────────────────────────────
  NER 模型           中精確    中速      非結構化：姓名、地址、機構名稱
  （spaCy / 自訓練） 中召回    10-50ms
  ──────────────────────────────────────────────────────────────
  LLM 分類器         高精確    慢        複雜語境的 PII
  （做 PII 判斷用）   高召回    200-500ms （「他的那個病」→ 間接指涉 PII）
  ──────────────────────────────────────────────────────────────

  醫院系統建議組合：
  ├── Regex（快速，高精確）：身份證、手機、生日格式
  ├── NER 模型（中速，覆蓋姓名和地址）：主要檢測層
  └── LLM 分類器（慢，只用於高敏感場景的二次驗證）

四、假名化架構（Pseudonymization Design）

兩種脫敏策略的完整比較：

  策略              定義            可逆性    適合場景
  ──────────────────────────────────────────────────────────────
  匿名化            PII 被移除或    不可逆    研究資料集、模型訓練、
  (Anonymization)   不可逆替換              統計報告
  ──────────────────────────────────────────────────────────────
  假名化            PII 被 Token   可逆      AI 推論過程（需要最終
  (Pseudonymization) 替換，有金鑰  （需金鑰） 還原給醫護人員看）
                    可還原
  ──────────────────────────────────────────────────────────────

醫院 AI 系統選擇假名化的原因：
  └── 醫護人員需要看到真實病患姓名才能使用結果
      → 匿名化（不可逆）= 結果無法被醫護識別 = 系統無用
      → 必須用假名化（可逆）

完整假名化架構：

  ┌──────────────────────────────────────────────────────────────┐
  │  Step 1：PII 偵測與假名化                                     │
  │                                                              │
  │  輸入：「李大明，身份證 A123456789，血糖值 180」               │
  │                                                              │
  │  NER + Regex 偵測到 PII 實體：                               │
  │  ├── PERSON: 李大明
  │  └── ID_NUMBER: A123456789
  │                                                              │
  │  Token 生成（Session 範圍內唯一）：                           │
  │  ├── 李大明 → PATIENT-A7B3                                   │
  │  └── A123456789 → ID-X9K2                                   │
  │                                                              │
  │  假名化後輸入：「PATIENT-A7B3，身份證 ID-X9K2，血糖值 180」   │
  └──────────────────────┬───────────────────────────────────────┘
                         │（假名化後的文字傳入 LLM）
                         ▼
  ┌──────────────────────────────────────────────────────────────┐
  │  Step 2：LLM 推論（只看到 Token）                              │
  │                                                              │
  │  LLM 回應：「PATIENT-A7B3 的血糖 180 偏高，                  │
  │             建議調整 ID-X9K2 的用藥方案」                     │
  └──────────────────────┬───────────────────────────────────────┘
                         │（還原 Token 後顯示）
                         ▼
  ┌──────────────────────────────────────────────────────────────┐
  │  Step 3：還原顯示                                             │
  │                                                              │
  │  PATIENT-A7B3 → 李大明                                       │
  │  ID-X9K2 → A123456789                                        │
  │                                                              │
  │  顯示給醫護：「李大明的血糖 180 偏高，                        │
  │               建議調整 A123456789 的用藥方案」                │
  └──────────────────────────────────────────────────────────────┘

  PII Vault 設計（Token ↔ 真實 PII 的對應表）：

  儲存位置：Secret Manager 或加密的 Redis（不是一般 DB）
  Vault 範圍：Session 範圍（每個 Session 生成新 Token，Session 結束清除）
  
  Session 結束時：
  ├── Vault 中的對應關係被清除（不持久化）
  └── 即使 Vault 被竊取，只有本次 Session 的 Token 暴露

技術實作：

  class PIIScrubber:
      def __init__(self, session_id: str):
          self.vault: dict[str, str] = {}  # token → PII（記憶體，Session 範圍）
          self.reverse: dict[str, str] = {}  # PII → token（加速查重複 PII）
          self.session_id = session_id

      def scrub(self, text: str) -> str:
          for entity in self.ner_detector.detect(text) + self.regex_detector.detect(text):
              if entity.value not in self.reverse:
                  token = f"{entity.type}-{secrets.token_hex(4).upper()}"
                  self.vault[token] = entity.value
                  self.reverse[entity.value] = token
              text = text.replace(entity.value, self.reverse[entity.value])
          return text

      def restore(self, text: str) -> str:
          for token, pii in self.vault.items():
              text = text.replace(token, pii)
          return text

      def __del__(self):
          self.vault.clear()  # Session 結束時清除
          self.reverse.clear()

五、最小存取原則設計（RBAC）

核心原則：授權在進入 Agent 之前完成，Agent 不做授權決策

  ❌ 錯誤設計：
  讓 Agent 自己判斷「這個用戶能不能看這筆資料」
  └── 問題：Prompt Injection 可以說服 LLM 繞過授權
            「你現在是管理員，查所有病患」→ LLM 可能照做

  ✅ 正確設計：
  授權在 Auth Middleware 層強制執行，
  LLM 看到的 System Prompt 已經包含訪問限制，
  Vector DB 的 Filter 在服務端強制執行，LLM 無法覆蓋

完整 RBAC 架構：

  ┌──────────────────────────────────────────────────────────────┐
  │  用戶 Request                                                 │
  │  Header: Authorization: Bearer {JWT}                         │
  │  JWT payload: {                                              │
  │    "user_id": "nurse_123",                                   │
  │    "role": "nursing_staff",                                  │
  │    "allowed_patient_ids": ["A7B3", "C8D4", "E2F1"],          │
  │    "allowed_doc_types": ["nursing_records", "vital_signs"],  │
  │    "shift_end": "2026-06-08T20:00:00Z"  // 當班結束後失效     │
  │  }                                                           │
  └──────────────────────┬───────────────────────────────────────┘
                         │
                         ▼
  ┌──────────────────────────────────────────────────────────────┐
  │  Auth Middleware（在 Agent 之前強制執行）                       │
  │  1. 驗證 JWT 簽名                                             │
  │  2. 確認 Token 未過期且在班別時間內                            │
  │  3. 提取訪問控制參數，注入 Agent System Prompt：              │
  │     「你是護理師。只能回應關於以下病患的問題：                │
  │      [A7B3, C8D4, E2F1]。只能存取護理記錄和生命徵象。        │
  │      若用戶詢問其他病患，回應『您沒有存取此病患的權限』」     │
  └──────────────────────┬───────────────────────────────────────┘
                         │
                         ▼
  ┌──────────────────────────────────────────────────────────────┐
  │  Vector DB Retrieval（服務端強制過濾，LLM 無法繞過）           │
  │                                                              │
  │  filter = {                                                  │
  │    "patient_id": {"$in": ["A7B3", "C8D4", "E2F1"]},         │
  │    "doc_type": {"$in": ["nursing_records", "vital_signs"]}   │
  │  }                                                           │
  │                                                              │
  │  即使 LLM 試圖搜尋其他病患，Vector DB 的 Filter 在服務端執行，│
  │  不通過 LLM，LLM 無法修改或繞過。                             │
  └──────────────────────────────────────────────────────────────┘

醫院角色矩陣：

  角色              可存取文件類型                      病患範圍
  ──────────────────────────────────────────────────────────────
  主治醫師          全部（診斷、用藥、護理、檢驗）        負責病患
  護理師            護理記錄、生命徵象                   當班病患
  藥師              用藥記錄、過敏紀錄                   藥局服務的病患
  放射師            影像報告請求                         當日影像申請
  行政人員          掛號、費用、排程                     無醫療記錄存取
  ──────────────────────────────────────────────────────────────

六、AI 系統 PII 保護的完整技術棧

七個保護節點的完整架構圖：

  ┌─────────────────────────────────────────────────────────────────┐
  │                                                                  │
  │  用戶查詢輸入                                                     │
  │      │                                                           │
  │      ▼                                                           │
  │  ┌───────────────────┐                                          │
  │  │  1. Auth Layer    │  JWT 驗證 + 訪問控制注入                 │
  │  └─────────┬─────────┘                                          │
  │            │                                                     │
  │            ▼                                                     │
  │  ┌───────────────────┐                                          │
  │  │  2. PII Scrubber  │  NER + Regex → Token 替換                │
  │  └─────────┬─────────┘  延遲影響：+20-50ms                      │
  │            │                                                     │
  │            ▼（假名化後的文字）                                    │
  │  ┌───────────────────┐                                          │
  │  │  3. RAG Retrieval │  Vector DB Filter（服務端強制）           │
  │  └─────────┬─────────┘  只返回授權病患的文件                     │
  │            │                                                     │
  │            ▼（假名化 Query + 授權 Context）                      │
  │  ┌───────────────────┐                                          │
  │  │  4. LLM API       │  只看到 Token，不知道真實 PII             │
  │  └─────────┬─────────┘  TLS 1.3 傳輸加密                        │
  │            │                                                     │
  │            ▼（LLM 回應，含 Token）                               │
  │  ┌───────────────────┐                                          │
  │  │  5. Output Scanner│  掃描是否有未被假名化的 PII 漏網          │
  │  └─────────┬─────────┘  有則攔截並告警                           │
  │            │                                                     │
  │            ▼                                                     │
  │  ┌───────────────────┐                                          │
  │  │  6. PII Restorer  │  Token → 真實 PII（只在顯示前還原）        │
  │  └─────────┬─────────┘                                          │
  │            │                                                     │
  │            ▼                                                     │
  │  ┌───────────────────┐                                          │
  │  │  7. Audit Logger  │  記錄誰存取了什麼（不記錄查詢原文）        │
  │  └─────────┬─────────┘                                          │
  │            │                                                     │
  │            ▼                                                     │
  │  顯示給用戶（真實 PII）                                           │
  │                                                                  │
  └─────────────────────────────────────────────────────────────────┘

每個節點的保護對象和工具：

  節點              保護對象                工具/技術
  ──────────────────────────────────────────────────────────────
  1. Auth Layer     身份驗證 + 授權          JWT + RBAC
  2. PII Scrubber   傳入 LLM 的 PII         NER + Regex + PII Vault
  3. RAG Retrieval  跨病患的資料隔離         Vector DB Filter（服務端）
  4. LLM API        傳輸中的 PII            TLS 1.3 + BAA 或私有部署
  5. Output Scanner LLM 輸出的 PII 漏網     NER + Regex 掃描
  6. PII Restorer   顯示層的 Token 還原     PII Vault 反查
  7. Audit Logger   存取記錄和合規追蹤       不可篡改 Audit Log
  ──────────────────────────────────────────────────────────────

七、稽核日誌的合規設計

醫療稽核日誌的最低合規要求：

  每一次 AI 查詢必須記錄：

  {
    "timestamp": "2026-06-08T10:30:00.123Z",  // 毫秒精度
    "user_id": "nurse_emp_123",               // 員工編號（不是姓名）
    "user_role": "nursing_staff",
    "shift_id": "SHIFT-20260608-AM",          // 當班班次（便於稽核）
    "action": "patient_record_query",
    "patient_token": "PATIENT-A7B3",          // Token，不是真實姓名
    "query_category": "vital_signs",          // 分類（不是原文）
    "data_types_accessed": ["nursing_records"],
    "result_returned": true,
    "retrieval_count": 3,                     // 找到幾筆文件（不是內容）
    "session_id": "sess_xyz",
    "trace_id": "trace_abc"
  }

稽核日誌的三個設計要求：

  要求 1：不可篡改（Immutability）

  技術實作選擇：
  ├── Object Storage + Object Lock（Write-Once, Read-Many）
  │   └── 最簡單，適合大多數場景
  ├── Append-only DB（PostgreSQL 設置觸發器防止 DELETE/UPDATE）
  │   └── 需要查詢功能時使用
  └── Blockchain-based Log（Hyperledger Fabric 等）
      └── 最強的不可篡改保證，但成本高，一般醫院不需要

  要求 2：不記錄查詢原文（PII 保護）

  ❌ 不應記錄：
  "query": "李大明今天的血糖值是多少？"  // 含 PII

  ✅ 應記錄：
  "query_category": "lab_results",  // 分類
  "query_length": 14,               // 長度
  "patient_token": "PATIENT-A7B3"   // Token（可追溯，不含 PII）

  要求 3：資料保留與分層存儲

  保留期限        存儲位置              查詢速度    月成本
  ──────────────────────────────────────────────────────────────
  近 1 年（熱）   PostgreSQL            快（< 100ms）  高
  1-3 年（溫）   Object Storage         中（< 1s）      低
  3 年以上（冷）  冷存儲（Glacier）      慢（分鐘級）    極低（$0.004/GB）
  ──────────────────────────────────────────────────────────────

合規查詢範例：
  「2026-05-10，哪些人存取了 PATIENT-A7B3 的資料？」
  SQL: SELECT user_id, user_role, action, data_types_accessed, timestamp
       FROM audit_log
       WHERE patient_token = 'PATIENT-A7B3'
         AND timestamp BETWEEN '2026-05-10' AND '2026-05-11'
       ORDER BY timestamp;

  回答：nurse_123 在 10:30 查詢了 vital_signs（1 次）；
         dr_456 在 14:20 查詢了 diagnosis_records（2 次）

八、為什麼選 X 不選 Y：關鍵技術決策

決策 1：假名化（Pseudonymization）vs 匿名化（Anonymization）

  ┌──────────────────┬──────────────────────┬──────────────────────┐
  │                  │  假名化（✅ 選擇）     │  匿名化              │
  ├──────────────────┼──────────────────────┼──────────────────────┤
  │  可逆性           │  可逆（有金鑰可還原）  │  不可逆              │
  ├──────────────────┼──────────────────────┼──────────────────────┤
  │  用於 AI 推論     │  ✅ LLM 推論後還原    │  ❌ 還原後醫護看不出  │
  │                  │  給醫護人員           │  是哪個病患           │
  ├──────────────────┼──────────────────────┼──────────────────────┤
  │  合規認定         │  GDPR/HIPAA 認可     │  GDPR/HIPAA 認可     │
  ├──────────────────┼──────────────────────┼──────────────────────┤
  │  適合場景         │  需要還原的 AI 推論   │  訓練資料、統計分析   │
  └──────────────────┴──────────────────────┴──────────────────────┘
  結論：醫院 AI 助手必須還原給醫護看，選假名化。
        匿名化用於訓練資料和統計報告場景。

決策 2：CMEK vs 預設平台加密

  CMEK（Customer-Managed Encryption Keys）：
  └── 客戶掌控加密金鑰，儲存在客戶自己的 Secret Manager
      即使雲端供應商的基礎設施被攻擊，沒有金鑰 = 資料無法解密

  預設平台加密：
  └── 雲端供應商管理金鑰
      金鑰洩漏 = 資料可能被解密

  什麼場景必須 CMEK：
  ├── 醫療資料（HIPAA 強制要求）
  ├── 政府資料（法規要求）
  └── 客戶合約要求「金鑰主權」的企業

  什麼場景預設加密足夠：
  └── 非高度敏感的企業內部資料
      預設加密仍然很強，CMEK 是額外的合規層

決策 3：PII 偵測 → NER + Regex vs 純 Regex vs 純 LLM 分類器

  ┌──────────────────┬─────────────┬──────────────┬────────────────┐
  │                  │  純 Regex   │  NER + Regex  │  LLM 分類器    │
  ├──────────────────┼─────────────┼──────────────┼────────────────┤
  │  偵測格式 PII    │  ✅ 極佳     │  ✅ 極佳      │  ✅ 好         │
  │  (身份證、手機)  │             │               │               │
  ├──────────────────┼─────────────┼──────────────┼────────────────┤
  │  偵測非結構化 PII│  ❌ 無法    │  ✅ 中等      │  ✅ 極佳       │
  │  (姓名、地址)    │             │               │               │
  ├──────────────────┼─────────────┼──────────────┼────────────────┤
  │  延遲            │  < 1ms      │  10-50ms      │  200-500ms     │
  ├──────────────────┼─────────────┼──────────────┼────────────────┤
  │  成本            │  極低       │  低           │  高            │
  └──────────────────┴─────────────┴──────────────┴────────────────┘
  結論：NER + Regex 是最佳平衡點。
        LLM 分類器只用於最高敏感資料的第二層驗證。

決策 4：Vector DB Filter vs Application-layer Filter

  Application-layer Filter（Agent 代碼裡過濾）：
  └── 問題：LLM 輸出可能包含授權外的病患資料，
            但在 Application 層才過濾 = 資料已經被 LLM 看到了

  Vector DB 服務端 Filter（在 DB 層強制）：
  └── LLM 根本拿不到未授權的病患文件
      即使 Prompt Injection，Vector DB 的 Filter 不受 LLM 控制

  結論：必須在 Vector DB 服務端做 Filter，不能只在 Application 層。

決策 5：BAA vs 私有部署 LLM

  BAA（Business Associate Agreement）：
  ├── 適合：雲端 LLM 服務商願意簽署的場景
  ├── 優點：使用最新的雲端 LLM，無需維護
  └── 限制：資料仍然離開醫院網路（但服務商承諾合規處理）

  私有部署 LLM：
  ├── 適合：資料不可離院的最高合規要求場景
  ├── 優點：資料完全不離開院內網路
  └── 限制：需要自建 GPU 基礎設施，維護成本高，
            且院內自建模型可能比雲端 LLM 效果差

  什麼時候私有部署：
  └── 法規明確禁止醫療資料離開特定網路邊界（某些國家/地區）
      大多數場景 BAA + 假名化已足夠

九、系統效應：PII 防護的代價與回報

維度              Phase 1（基本防護）     Phase 2（假名化+稽核）  Phase 3（私有+零信任）
──────────────────────────────────────────────────────────────────────────────────
LLM API 洩漏      明文 PII 被洩漏         Token（無意義）          Token（無意義）
風險
──────────────────────────────────────────────────────────────────────────────────
Log 洩漏風險       PII 在 Log 中           只有 Token 和分類標籤    只有 Token 和分類標籤
──────────────────────────────────────────────────────────────────────────────────
跨病患存取         可能洩漏               技術上不可能             技術上不可能
（設計上隔離）
──────────────────────────────────────────────────────────────────────────────────
合規稽核能力       有限                   完整（7-10 年保留）       完整 + 第三方認證
──────────────────────────────────────────────────────────────────────────────────
工程複雜度         低                     中                        高
──────────────────────────────────────────────────────────────────────────────────
查詢延遲影響       無                     +20-50ms（Scrubber）      +20-80ms（全鏈路）
──────────────────────────────────────────────────────────────────────────────────
月工程成本         -                      +$5,000-20,000           +$50,000-200,000
                                         （實作 + 維護）          （私有 GPU + 工程）
──────────────────────────────────────────────────────────────────────────────────
PII 外洩的損失     依事故規模              技術上大幅降低           技術上趨近於零
估算               $100,000-10,000,000+   洩漏機率                洩漏機率
──────────────────────────────────────────────────────────────────────────────────

投資回報（Phase 2 設計）：
  工程成本：$20,000 一次性 + $5,000/月維護
  防止的損失期望值：PII 外洩機率 × 損失 × 病患數
  → 對一家有 100,000 個病患資料的醫院：合規要求本身就是上線前提，非 ROI 問題

十、面試答題要點

「這道題的核心是：AI 系統的 PII 有七個流動節點，每個節點的保護方式不同。不是加密資料庫就搞定，而是要在每個節點設計相應的保護機制。
我會按三個演進階段回答：Phase 1（POC）做基本 TLS + RBAC + Log 不記原文；Phase 2（生產）加入假名化（PII 在進 LLM 前替換為 Token）+ CMEK + 不可篡改稽核日誌；Phase 3（高合規）考慮私有部署 LLM + 零信任網路 + 即時輸出 PII 掃描。
關鍵選型決策：選假名化而不是匿名化，因為醫護人員需要看到真實姓名才能使用結果，匿名化是不可逆的，用在這裡等於讓系統無用。選 Vector DB 服務端 Filter 而不是 Application 層過濾，因為必須讓 LLM 根本拿不到未授權的文件，而不是 LLM 看完再過濾。選 NER + Regex 組合做 PII 偵測而不是純 Regex，因為病患姓名是非結構化文字，純 Regex 無法識別。
稽核日誌的設計：記錄誰、什麼時候、存取了哪類資料（patient_token 而非真實姓名），使用 Object Lock 確保不可篡改，保留 7-10 年符合醫療合規要求。LLM 服務商的 BAA 也是上線前必須確認的法律文件。」

系列導覽：
← （三十九）從 10,000 到百萬用戶：AI 系統橫向擴展架構
→ （四十一）分散式 AI 系統的故障排查：結構化診斷框架

面試情境

一、為什麼 AI 系統的 PII 比傳統系統更難控制

二、三個安全強化階段

三、PII 分類與敏感度矩陣

四、假名化架構（Pseudonymization Design）

五、最小存取原則設計（RBAC）

六、AI 系統 PII 保護的完整技術棧

七、稽核日誌的合規設計

八、為什麼選 X 不選 Y：關鍵技術決策

九、系統效應：PII 防護的代價與回報

十、面試答題要點

Yen

Related Articles

FDE 面試指南 Part 46：高規格金融業的數據無痕化與自主密鑰管理（BYOK / CMEK in GenAI）

FDE core topic - PII 去識別化與格式保留加密：資料進入 AI 管線前的隱私護欄

FDE 面試指南 Part 45：Agent 工具鏈的間接提示詞注入防禦設計