HPC 学习资源

不开放编辑 😡

课程

​ ● MIT 6.172: Performance Engineering Of Software Systems(性能优化)

书籍

​ ● Algorithms for Modern Hardware(体系结构)

​ ● Programming Massively Parallel Processors: A Hands-on Approach(CUDA)

​ ○ 建议看英文原版,PDF 见群文件

​ ● 现代CPU性能分析与优化(性能调优)

​ ● MPI 教程(分布式计算、MPI)

论文 / 博客

​ ● GEMM 性能优化(参考文献也可以看看)

​ ○ Anatomy of High-Performance Matrix Multiplication(单线程)

​ ○ Anatomy of High-Performance Many-Threaded Matrix Multiplication(多线程)

​ ○ Matrix multiplication on batches of small matrices in half and half-complex precisions(batch_gemm)

​ ● 浮点数误差入门(菜鸡群主写的)

​ ● OneFlow/FasterTransformer SoftMax CUDA Kernel 实现学习(CUDA)

​ ● MPI与并行计算系列(分布式计算、MPI)

​ ● 集合求并的极致优化(菜鸡群主写的)

面经

​ ● AI/HPC面试问题整理

​ ● 推理部署工程师面试题库

(技能树)群主只会CPU上的ML推理,只知道这么点,实际上知识点有很多

通用技能

​ ● 体系结构:汇编、SIMD、Profiling、内存、……

​ ● 并行 / 并发:OpenMP、分布式计算、MPI

​ ● 加速器:GPU、NPU

​ ● 计算库:BLAS

ML相关

​ ● 框架 / 库:PyTorch、……太多了😭

​ ● 算子:GEMM、量化、算子融合、……

​ ● 并行算法:3个维度(TP、DP、PP)