总结 ---- - 面向深度学习计算任务,加速器通常都是由多种片上缓存以及多种运算单元组成来提升性能。 - 未来性能增长需要依赖架构上的改变,即需要利用可编程的硬件加速器来实现性能突破。 - 出于计算效率和易用性等原因,加速器一般会具有多个等级的编程方式,包括:算子库层级,编程原语层级和指令层级。 - 越底层的编程方式越能够灵活地控制加速器,但同时对程序员的能力要求也越高。 扩展阅读 -------- - CUDA编程指导 `CUDA `__ - 昇腾社区 `Ascend `__ - MLIR应用进展 `MLIR `__ 参考文献 -------- .. bibliography:: ../references/accelerator.bib :style: apa