開源 LLM Post-Training 全攻略:從 SFT 到 RLHF,手把手帶你訓練 Qwen
全面介紹開源 LLM 的 Post-Training 方法,包含 SFT、RLHF、DPO、ORPO、持續預訓練等技術,以 Qwen 為範例,深入分析各方法的優缺點、所需資源與適用場景,幫助你選擇最合適的訓練策略。
Engineering insights, architecture deep dives, and technical solutions
Articles in mlops
全面介紹開源 LLM 的 Post-Training 方法,包含 SFT、RLHF、DPO、ORPO、持續預訓練等技術,以 Qwen 為範例,深入分析各方法的優缺點、所需資源與適用場景,幫助你選擇最合適的訓練策略。
Comprehensive guide to fine-tuning and customizing Large Language Models (LLMs) with AWS Bedrock - covering supervised fine-tuning, continued pre-training, and reinforcement fine-tuning with practical examples and AWS CDK infrastructure setup.