Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

机器学习系统:设计和实现(第二版)

本书系统性地介绍机器学习系统的设计原理与实现方法,涵盖从编程接口、AI加速器、编译器到分布式训练、模型服务和大规模集群管理等核心主题。第二版在第一版基础上进行了全面更新和重构,反映了机器学习系统领域的最新进展。

前言

TODO: 本章涵盖书籍背景、目标读者和机器学习系统的演进。

第1章 导论

TODO: 本章涵盖机器学习系统架构和技术栈概述。

第2章 编程接口与计算图

TODO: 本章涵盖张量抽象、自动微分、图表示与执行。

第3章 AI加速器与编程

TODO: 本章涵盖GPU架构与CUDA / Triton / CUTLASS编程模型。

第4章 AI编译器与运行时系统

TODO: 本章涵盖IR设计、图优化、算子生成与运行时执行。

第5章 数据处理系统

TODO: 本章涵盖数据加载、数据管道和分布式数据处理。

第6章 训练系统

TODO: 本章涵盖单节点与分布式训练、并行策略与训练优化。

第7章 模型服务

TODO: 本章涵盖推理优化、在线服务与模型管理。

第8章 强化学习系统

TODO: 本章涵盖强化学习管道、环境交互与RL系统设计。

第9章 大规模GPU集群管理

TODO: 本章涵盖GPU调度、资源管理与大规模训练基础设施。