网页链接查看我们最新的 CUDA 教程

  • 斌叔OKmath
  • 2024-09-24 14:14:27
网页链接

查看我们最新的 CUDA 教程。 网页链接

主题是软件流水线:将内存复制与计算重叠以隐藏延迟。我们在 GEMM(matmul)的背景下提出了这个概念,但它适用于任何地方。例如,Flash Attention 2 和 3。

从概念上讲,软件流水线很难正确实现,但对于良好的性能来说却至关重要。如果您在 A100 或更新的 GPU 上编程,并且不使用流水线,那么您就没有充分利用昂贵的 GPU。

我们讨论了流水线的历史,并展示了如何在最新的 GPU 上实现它。H100 上的流水线有所不同,我们也对此进行了深入介绍。

本系列 CUDA 教程
@colfaxintl
是我加入 xAI 之前的承诺之一。尽管在 xAI 工作了很长时间,但我还是坚持履行了这一承诺。

感谢 Jay
@ultraproduct
让我与他们合作。与这些勤奋、谦逊、热情的朋友一起工作真是一段美妙的经历。我们还有更多内容要分享。请继续关注。

发表评论