MPI学习路线
HPC 学习资源
不开放编辑 😡
课程
● MIT 6.172: Performance Engineering Of Software Systems(性能优化)
书籍
● Algorithms for Modern Hardware(体系结构)
● Programming Massively Parallel Processors: A Hands-on Approach(CUDA)
○ 建议看英文原版,PDF 见群文件
● 现代CPU性能分析与优化(性能调优)
● MPI 教程(分布式计算、MPI)
论文 / 博客
● GEMM 性能优化(参考文献也可以看看)
○ Anatomy of High-Performance Matrix Multiplication(单线程)
○ Anatomy of High-Performance Many-Threaded Matrix Multiplication(多线程)
○ Matrix multiplication on batches of small matrices in half and half-complex precisions(batch_gemm)
● 浮点数误差入门(菜鸡群主写的)
● OneFlow/FasterTransformer SoftMax CUDA Kernel 实现学习(CUDA)
● MPI与并行计算系列(分布式计算、MPI)
● 集合求并的极致优化(菜鸡群主写的)
面经
● AI/HPC面试问题整理
● 推理部署工程师面试题库
(技能树)群主只会CPU上的ML推理,只知道这么点,实际上知识点有很多
通用技能
● 体系结构:汇编、SIMD、Profiling、内存、……
● 并行 / 并发:OpenMP、分布式计算、MPI
● 加速器:GPU、NPU
● 计算库:BLAS
ML相关
● 框架 / 库:PyTorch、……太多了😭
● 算子:GEMM、量化、算子融合、……
● 并行算法:3个维度(TP、DP、PP)