机器学习系统:设计和实现(第二版)
本书系统性地介绍机器学习系统的设计原理与实现方法,涵盖从编程接口、AI加速器、编译器到分布式训练、模型服务和大规模集群管理等核心主题。第二版在第一版基础上进行了全面更新和重构,反映了机器学习系统领域的最新进展。
- 前言
- 基础篇
- 系统篇
- 应用与扩展篇
前言
TODO: 本章涵盖书籍背景、目标读者和机器学习系统的演进。
第1章 导论
TODO: 本章涵盖机器学习系统架构和技术栈概述。
第2章 编程接口与计算图
TODO: 本章涵盖张量抽象、自动微分、图表示与执行。
第3章 AI加速器与编程
TODO: 本章涵盖GPU架构与CUDA / Triton / CUTLASS编程模型。
第4章 AI编译器与运行时系统
TODO: 本章涵盖IR设计、图优化、算子生成与运行时执行。
第5章 数据处理系统
TODO: 本章涵盖数据加载、数据管道和分布式数据处理。
第6章 训练系统
TODO: 本章涵盖单节点与分布式训练、并行策略与训练优化。
第7章 模型服务
TODO: 本章涵盖推理优化、在线服务与模型管理。
第8章 强化学习系统
TODO: 本章涵盖强化学习管道、环境交互与RL系统设计。
第9章 大规模GPU集群管理
TODO: 本章涵盖GPU调度、资源管理与大规模训练基础设施。