kernel_everyday 本仓库是根据LeetCUDA的kernel,从简单开始,每天实现一个kernel,包含自己的思考过程和benchmark测试(基于L40)。 本仓库凡提到示例均代指仓库LeetCUDA的实现,本仓库kernel对应的benchmark python代码均是LeetCUDA的实现。 day01 elementwise day02 histogram day03 sigmoid day04 relu day05 elu day06 gelu day07 swish day08 hardswish day09 hardshrink day10 embedding day11 mat_transpose (未完,待续) day12 reduce day13 dot_product day14 softmax day15 rope day16 layer_norm day17 rms_norm